URL正規化のポイントと重複を診断する4つのツール- 重複コンテンツ対策完全ガイド #4 [SEOmoz - 検索マーケティングのニュース＆テクニック]

この記事を読むのにかかる時間：約 4.5 分

» SEOmoz - 検索マーケティングのニュース＆テクニックのバックナンバーを見る

[海外情報]
SEOmoz
検索マーケティングのニュース＆テクニック

この記事はパンダ・アップデートによって変化した重複コンテンツの問題を広範に扱った長文の記事で、4回に分けてお届けしている。最終回となる今回は、正規のURLを決定する上で注意すべき点と、重複を診断するツール類について説明していこう。

「重複コンテンツ対策完全ガイド」目次
パンダ・アップデート対応版

VI 正規のURLはどれか？

ここで少し回り道をして、ある重要な問題を議論してみたい。次のようなものだ。

301リダイレクトを使うにせよURL正規化タグを使うにせよ、本当に正しい正規URLはどれかを判断するにはどうすればいいのだろうか？

しばしば見られる間違いとしては、「多くのページから不適切なURLに正規化してしまう」というものがある。たとえば次のようなものだ。

本来ならば「product.php?id=1234」のような製品個別のページに正規化しなければいけないのに、間違って「product.php」という単なるテンプレートページに正規化してしまっている例だ。

これでは、たった1つの（おそらくは製品を表示さえしていない）ページがすべての製品を代表してしまうことになる。

正規のページは、最もシンプルな形のURLだとは限らない。他とは違うコンテンツを生成する最もシンプルな形のURLだ。たとえば、下の3つのURLが同じ製品ページを生成するとしよう。

3つのうちの2つは本質的に重複ページであり、「print」や「session」というパラメータは、正規ページとすべきメインの製品ページのバリエーションを表している。ただし、「id」パラメータは、そのコンテンツにとって不可欠なものだ。どの製品が実際に表示されるかは、このパラメータが決めるからだ。

重複コンテンツの乱造と同じくらい、適切でないURL正規化がさらなるダメージを招くケースもある。慎重に計画を練り、正しい正規URLを選んでいることを入念に確認した上で、正規化を進めよう。

VII 重複を診断するツール類

重複コンテンツがどういうものかを理解したところで、自分のサイトに重複があるかどうかを調べるにはどうしたらいいだろう？手始めに、以下のツールを見てみよう。

Googleウェブマスターツール
グーグル検索の「site:」コマンド
SEOmozのCampaign Manager
自分の頭を使う

それぞれについて説明していく。これが完璧なリストだなどと言うつもりはないが、基本的なものは押さえてある。

VII-1 Googleウェブマスターツール

Googleウェブマスターツール（GWT）では、ロボットがクロールしたtitle要素とmeta descriptionタグの重複リストを取り出せる。できることはこれだけだが、出発点としてはなかなかだ。

URLをベースとした重複の多くは、メタデータが同じになっている。GWTのアカウントから［診断］＞［HTMLの候補］を選ぶと、下のような表が出てくるはずだ。

「重複するメタデータ」や「タイトルタグの重複」をクリックすると、重複のリストを取り出せる。これは問題のある箇所を見つけ出すのに素晴らしい足がかりとなる。

VII-2 グーグル検索の「site:」コマンド

どこに問題があるかがすでに分かっていて、もっと突っ込んだ対策を講じる必要がある時は、グーグルの「site:」コマンドが非常に強力かつ柔軟なツールになる。「site:」コマンドが強力なツールになる理由は、他の検索演算子と組み合わせて使用できる点にある。

たとえば、トップページの重複が気になっているとしよう。グーグルがトップページの重複ページをインデックス化しているかどうかを調べるためには、下の例のように「site:」と「intitle:」を一緒に使うといい

「Home Page Title」の部分には、あなたのサイトのトップページのtitleタグの中身を二重引用符（「""」）で囲って指定する。

ひとまとまりのフレーズとして検索するためにタイトルを半角の二重引用符で囲んで指定する。重複コンテンツを全部はき出させるには、必ず（wwwを除いた）ドメイン名をsite:に指定しよう。これでwww付きバージョンとwwwなしバージョンの両方が見つかるだろう。

もう1つの強力な演算子の組み合わせは「site:」と「inurl:」だ。「inurl:」は指定したキーワードがページのコンテンツではなくURLの文字列に含まれるものを探す検索オプションだ。これをうまく使うと、先述した検索結果のソートから生じる問題などでパラメータを見つけ出せるだろう。

「inurl:」という演算子は、使われたプロトコルを検知することもできる。セキュア通信のページ（https:）がインデックス化されているかどうかを調べるのに便利だ。

また、「site:」と通常の検索キーワードを組み合わせて、不完全重複（繰り返し使われているコンテンツの塊など）を見つけることもできる。サイト全体でコンテンツの塊を探すには、探したい部分を引用符でくくったものを追加するだけでいい。

オリジナルなコンテンツの塊を引用符で囲んで検索するやり方は、自分のサイトが盗用されていないかどうかを調べる安上がりで手軽な方法だということも言い添えておくべきだろう。「site:」演算子を外して、長文の、あるいはオリジナルなコンテンツの塊を引用符でくくって検索してみるといい。

VII-3 SEOmozのCampaign Manager

SEOmozのPro会員なら、キャンペーン内の重複コンテンツを見つけ出すツールも利用できる。

Campaign Managerは、ページタイトルの重複に加え、ページの内容自体に含まれる重複コンテンツを検出する。「Campaign Overview」（キャンペーンの概要）の画面から、検出した重複ページを見ることができる。

「ページコンテンツの重複」（Duplicate Page Content）というリンクをクリックすると、重複している可能性があるもののリストと、重複コンテンツの数が時間とともにどう変化しているかのグラフまで得られる。

時間ごとの変化を追うグラフは、最近サイトに加えた変更によって重複コンテンツの問題が発生した（あるいは解決した）かどうかを判断する上で、大いに役立つ。

Q&Aでたびたび質問される技術情報を少々。SEOmozのシステムは現在、コンテンツが重複しているかどうかを判断するために、95％というしきい値を使っている。しきい値は（表示される文章ではなく）ソースコードをベースにしているので、実際の重複コンテンツの数は、コードとコンテンツの比率によって変動するかもしれない。

VII-4 自分の頭を使う

最後に、自分の頭を使うことを覚えておくのが重要だ。

重複コンテンツを見つけるには、往々にして探偵のような作業が必要となる。ツールに頼りすぎると、自分が実際に見つけたものとの間にギャップが残る可能性がある。

1つの重要なステップは、自分のサイトを体系的に見て回り、重複コンテンツが作られている場所を見つけることだ。たとえば、サイト内検索はソートやフィルタに対応しているだろうか？そうしたソートやフィルタは、URLのパラメータに変換されクロールされる状態になっているだろうか？もしそうなら、「site:」コマンドを使ってさらに深く掘り下げるといい。

僕の経験では、自分の探偵スキルを活用してほんの一握りの問題箇所が見つかれば、それが数千もの重複ページの発見につながることだってある。

この記事は、Daily SEOmoz Blog に掲載された以下の記事を日本語訳したものです。

原文：「Duplicate Content in a Post-Panda World」by Dr. Pete（2011/11/16）

記事セレクション：渡辺隆広（株式会社アイレップ）　翻訳：株式会社ガリレオ

この記事に関連する他の記事を見る

※このコンテンツはWebサイト「Web担当者Forum - 企業ホームページとネットマーケティングの実践情報サイト - SEO/SEM アクセス解析 CMS ユーザビリティなど」で公開されている記事のフィードに含まれているものです。
オリジナル記事：URL正規化のポイントと重複を診断する4つのツール- 重複コンテンツ対策完全ガイド #4 [SEOmoz - 検索マーケティングのニュース＆テクニック] | Web担当者Forum
Copyright (C) IMPRESS BUSINESS MEDIA CORPORATION, an Impress Group company. All rights reserved.

URL正規化のポイントと重複を診断する4つのツール- 重複コンテンツ対策完全ガイド #4 [SEOmoz - 検索マーケティングのニュース＆テクニック] | Web担当者Forum

VI 正規のURLはどれか？

VII 重複を診断するツール類

VII-1 Googleウェブマスターツール

VII-2 グーグル検索の「site:」コマンド

VII-3 SEOmozのCampaign Manager

VII-4 自分の頭を使う

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？