本ブログはアフィリエイトプログラムによる収益を得ています
PR
スポンサーリンク

XML Sitemap & Google News 設定手順と実務上のQ&Aまとめ

最近、当ブログの記事の大部分を別のサブドメインへ移行したことに伴い、Google Search Console(GSC)へサイトマップを再送信することにしました。

いざGSCを確認してみると、「登録されたページ数」が実際の記事数と大きく乖離しており、クロールに関するインデックス未登録の警告が複数表示されている状態になっているではないですか。

どうやら、過去にWeb上の情報を参考に設定した内容が不適切だったことが原因みたいです。設定の詳細を理解しないまま運用していたので、「タグのアーカイブページ」など、検索結果に表示させる必要のないページまでサイトマップに含まれ、クローラーの対象となっていました。

サイトマップの役割は、検索エンジンに対してクロール対象のページを明確に指定し、効率的に巡回させること。

本記事では、過去の私と同様に設定項目に疑問を感じている方に向けて、プラグイン『XML Sitemap & Google News』の各設定の意味と、GSC上の数値に関する疑問点をまとめています。

【事前準備】WordPress「表示設定」のチェック項目

プラグインの設定を行う前に、WordPress本体の「設定 > 表示設定」を開き、以下の3項目が以下の状態に設定されているかを確認します。

フィードの各投稿に含める内容

 【抜粋】に変更する

ここが【全文】になっていると、RSSフィードを通じてスクレイピングボット(無断転載サイトの自動プログラム)等の外部へ記事本文がそのまま出力されるため、コンテンツ保護の観点から【抜粋】に変更します。

検索エンジンでの表示

【インデックスしないようにするのチェックを外す

ここにチェックが入っていると、サイトマップの有無に関わらず、検索エンジンからのクロール要求を拒否するnoindex等の指定が出力されるため、必ず空欄にしておきます。

XMLサイトマップを有効化

XML サイトマップインデックスにチェックを入れる

当プラグインのサイトマップ生成機能を稼働させるための必須項目です。

プラグインの設定手順:インデックス対象の制御

WordPressメニューの「設定 > XMLサイトマップ」を開き、以下の通りに設定します。

一般

サーバー

「プラグイン」を選択します。

WordPress 5.5以降の標準機能ではタクソノミー単位の詳細な除外設定ができないため、プラグイン独自のエンジンを使用します。

Disable sitemaps

「タクソノミー」はチェックせずそのままにします。

一方、「投稿者」には【チェックを入れる】ようにします。

一人で運営しているブログの場合、投稿者一覧ページはトップページ等とコンテンツ内容が重複し、低品質ページと判定されるリスクがあるため生成を停止します。

Google サーチコンソール

そのまま設定せずにしておきましょう。

API通信による管理画面の動作遅延を避けるためです。サイトマップの登録はWebブラウザから手動で一度行えば機能するため、常時連携は不要です。

Bing ウェブマスターツールも同様です。

投稿タイプ

一般

「投稿」と「固定ページ」にチェックを入れます。

 この項目にある英文を訳すと、「何も選択しなければ、全ての投稿タイプを自動的に含めます」という意味になります。

今は項目が2つしかなくても、将来的に「お知らせ機能」などの新しいシステムを追加した際、それらが勝手にサイトマップへ流出してしまうのを防ぐ必要があります。あらかじめ「投稿」と「固定ページ」だけにチェックを入れておくことは、将来の予期せぬ事故(不要なページの自動公開)を防ぐための「保険」としての意味があります。

投稿

分割単位は、 【年】を選択します。

URL数が5万件の上限に達しない規模であれば、月別よりも年別にまとめることでGSC上のファイル一覧行数が減り、状態確認が容易になります。(※5万件の根拠は後述のリンク先にあります。)

Update the Last Modified date on each new comment. は、チェックを外しましょう

コメントの付与によって記事の最終更新日時が書き換わり、本文に関係のない更新通知が送られることを防ぐためです。

image タグを付加は、 【添付画像】を選択します。

記事内の画像情報をサイトマップに付加し、画像検索のインデックス対象とするための設定です。

固定ページ

固定ページも投稿と同じ設定になります。

タクソノミー

一般

ここは変更無しです。

  • タームとは: 「記事」のことではなく、「カテゴリー」や「タグ」の「名前(項目)」のことです。
  • 設定の意味: ブログ内のカテゴリーの種類が指定した数(例:3000個)を超えたら、サイトマップを分割するという安全装置です。
  • 大丈夫な理由: 個人ブログでカテゴリーの種類が数千個になることは絶対にないため、上限に引っかかることはなく、放置で問題ありません。

タクソノミー

「カテゴリー」のみにチェックを入れるようにし、タグは空欄のままにします。

タグページは1記事に複数付与できるため、ページ間でコンテンツの差別化が難しく内容が類似しやすい傾向にあります。記事分類用としてカテゴリーのみをサイトマップに含め、タグページは検索対象から除外します。

高度な設定

※「高度な設定」タブはデフォルト設定から変更する必要はありません。

サイトマップに関する疑問点と回答(Q&A)

設定項目で疑問があったので、Gemini 3 Proに聞いた結果をまとめておきます。

Q. 記事数は約600件だが、GSCで検出数が「5,000件以上」と表示されるのはエラーか? 

A. 正常な挙動です。

これは記事URLと画像URLの合算値が表示されています。プラグイン設定で「image タグを付加」を有効にしているため、各記事内の画像も有効なURLとしてカウントされます。データとして正常に読み込まれている結果です。

Q. サイトマップを除外設定しても、GSCに「未登録」などの警告が残るのはなぜか? 

A. GSC(Googleサーチコンソール)の仕様上、過去のクロール履歴が一定期間表示され続けるためです。

手動での修正は不要です。「クロール済み – インデックス未登録」等に関しては、過去に出力されていたタグページなどが原因の可能性があります。設定変更後、Googleの再クロールが行われるの待ちます。

Q. GSCに登録されている /feed や /sitemap.xml.gz は削除してよいか?

 A. 管理上、削除して構いません。

.gzファイルは現在出力されておらず404エラーを返すためです。

/feedは送信してもペナルティにはなりませんが、完全なXMLサイトマップがあればインデックス評価に差は出ません。GSCのリストを整理する目的で削除して問題ありません。

Q. RSSフィード(/feed)の送信が有効なサイト規模とは?

A. 1日に多数の記事を更新し、数分単位での即時インデックスが求められる大規模サイトです。

一般的な更新頻度のサイトであれば、XMLサイトマップと通常のクローラー巡回で十分な検知が可能です。

Q. サイトマップの「5万件 / 50MB」制限に抵触する恐れはあるか?

A. 通常のサイト運営において到達することは稀です。

50MBはテキストデータに換算して約5,000万文字分であり、画像URL等を付与しても数MB程度に収まります。この上限は分割出力された個別のファイルごとの制限であるため、現状の規模で抵触することはありません。

※「5万件 / 50MB」制限については、Google Search Centralに記載があります。

Q. カテゴリーページも一覧ページだが、タグと同様に低品質と判定されないか?

A. 記事数が少ない場合は低品質と判定される可能性があります。

記事数が0〜1件のカテゴリーは情報量が少ないページとなります。対応策として、ある程度の記事数(5〜10件程度)を分類してからカテゴリーとして成立させるか、親カテゴリーに統合するなどの運用調整が必要です。

設定後のGSCでの操作

すべての設定を保存した後、Google Search Consoleにて以下の操作を行い、設定変更を通知します。

  1. 現在「送信されたサイトマップ」に表示されているものを選択し、右上の操作メニュー「⋮」から全て削除する。
  2. 「新しいサイトマップの追加」の欄に 「sitemap.xml」 と入力して送信する。

この手順によりGoogle側へキャッシュの破棄を促し、新たなサイトマップ構成に基づくクロールへ移行させることができます。

あとがき

「XML Sitemap & Google News」の設定で疑問があったので、それを解消するためにこちらの記事をまとめました。

よくわからないまま、「XML Sitemap & Google News」で調べた時に出てきたサイトを参考に設定をしていましたが、それではダメなようでした。

そもそも「5万件 / 50MB」制限というのも知りませんでした。個人ブログだと制限にかかることがないので知らなくてもいいですが、最近はAIが自動で記事を書いてくれるみたいなので、そういった人は年ごとじゃなくて月や週(有料プラン?)に設定したほうが良いみたいですね。

最近ブログ記事の大部分をサブドメインの方へ移動したので、今回のようにサイトマップを送り直すことにしました。これで、エラーが減ってくれればありがたいです。

コメント

タイトルとURLをコピーしました