重複コンテンツが発生してしまう19の具体的なパターン - 重複コンテンツ対策完全ガイド #3 [SEOmoz - 検索マーケティングのニュース＆テクニック]

この記事を読むのにかかる時間：約 12.5 分

» SEOmoz - 検索マーケティングのニュース＆テクニックのバックナンバーを見る

[海外情報]
SEOmoz
検索マーケティングのニュース＆テクニック

この記事はパンダ・アップデートによって変化した重複コンテンツの問題を広範に扱った長文の記事で、4回に分けてお届けしている。3回目となる今回は、重複コンテンツの具体例を見ていこう。

「重複コンテンツ対策完全ガイド」目次
パンダ・アップデート対応版

V 重複コンテンツの具体例

ここまでで重複コンテンツを理解して、重複コンテンツを修正するツールを整理した。

では、重複コンテンツとして実際にはどのようなものがあるのだろう？ここでは、現実のウェブサイトで想定される重複コンテンツ問題の典型例を取り上げよう。ここで説明するのは、次のようなものだ。

「www」の有無
ステージングサーバー
URL末尾のスラッシュ（/）
セキュア通信のページ（https）
トップページの重複
セッションID
アフィリエイトのトラッキング
経路の重複
機能的パラメータ
国別コンテンツによる重複
検索結果のソート（並べ替え）
検索フィルタ
検索結果のページネーション（ページ分割）
製品のバリエーション
キーワードとなる地名を書き換えただけのページ
その他の「薄い」コンテンツ
配信されたコンテンツ
剽窃コンテンツ
ccTLD間の重複

それぞれについて説明していこう。このセクションでは、セクションIVで取り上げたツールを参照する。たとえば、301リダイレクトに言及する場合は、（IV-2）と記す。

Ⅴ-1 「www」の有無

サイト全体が重複コンテンツとなる場合は、おそらくこれが最大の原因だろう。サイト内リンクで間違えたり、間違ったURLへのリンクや言及をされたりして、「www」ありのURLと、「www」なしのURL（ルートドメイン）が、どちらもインデックス化された場合に起きる問題だ。

多くの場合、この問題に対しては301リダイレクト（IV-2）が最善の策となる。よくある問題であり、グーグルはこういった場合のリダイレクトをうまく処理してくれる。

また、Googleウェブマスターツール（GWT）で使用するドメイン名を設定しておくのもいい。［サイト設定］＞［設定］を選ぶと、［使用するドメイン］というセクションがある。

GWTには妙な癖があり、使用するドメイン名を設定するのに、「www」ありと「www」なしの両方についてGWTのプロファイルを作る必要がある場合がある。面倒ではあるが、不都合なことは何もない。URL正規化で大きな問題が生じているなら、これがお勧めだ。

ただし、大きな問題が出ていないのなら、そのままにしておいて、使用するドメイン名の選択をグーグルに任せてもいい。

Ⅴ-2 ステージングサーバー

Ⅴ-1に比べるとそれほどよくある例ではないが、こういった問題はサブドメインが原因で起きることも多い。

典型的シナリオはこうだ。サイトのリニューアルで新しいデザインに取り組んでいて、開発チームがテストサイトをサブドメインで作っていたところ、うっかりクローラーを受け入れる状態のままにしてしまった。この場合は次のように、URLが2種類ずつインデックス化されてしまう。

最善の策は、ステージングサイトをrobots.txt（IV-3）でブロックして、問題の発生を未然に防ぐというものだ。

だが、ステージングサイトがすでにインデックス化されてしまった場合は、301リダイレクト（IV-2）や、meta robotsタグ（IV-4）によるnoindexの指定が必要になるだろう。

Ⅴ-3 URL末尾のスラッシュ（/）

これについては頻繁に質問を受けるが、SEOでは以前ほど問題ではなくなっている。

厳密に言えば、本来のHTTPプロトコルにおいて、末尾にスラッシュがあるURLとないURLは別のURLだ。簡単な例を挙げる。

最近では、ほぼすべてのブラウザが裏側の処理で自動的に末尾のスラッシュを追加して、両方のURLを同じように扱う。マット・カッツ氏は最近のビデオで、グーグルが「非常に多くの場合」このようなURLを自動的に正規化していることをほのめかしている。

Ⅴ-4 セキュア通信のページ（https）

サイトにセキュア通信を使用しているページ（「https:」プロトコルが指定されている）がある場合、セキュア版（https:）と非セキュア版（http:）が両方ともインデックスされてしまうことがある。

原因の多くは相対パスなのだが、ショッピングカートなどのセキュア通信のページからのナビゲーションリンクに「https:」プロトコルが指定され、次のように異なるURLが生成される。

この問題は、サイトのアーキテクチャそのもので解決するのが望ましい。たいていは、セキュア通信のページをmeta robotsタグ（IV-4）でnoindexに指定しておくのが最善だ。ショッピングカートや会計のページが検索エンジンのインデックスにあっても意味がないからだ。

インデックス化されてしまった場合は、301リダイレクト（IV-2）が最善の選択肢だ。ただし、サイト全体に手を入れる場合は注意が必要だ。たとえば、すべての「https:」ページを対応する「http:」のページに301リダイレクトすると、セキュリティが丸裸になってしまいかねない。扱いが難しい問題なので、慎重に対処すべきだ。

Ⅴ-5 トップページの重複

トップページの重複はⅤ-1～Ⅴ-3が原因で生じる可能性があるが、トップページには特有の問題がいくつかある。

最も一般的なのは、ドメイン名だけ（ファイル名なし）のURLと実際のHTMLドキュメントのファイル名を含んだURLが、どちらもインデックスされるというものだ。例を挙げる。

この問題は301リダイレクト（IV-2）でも解消できるが、トップページにURL正規化タグ（IV-5）を使うとうまく行くことが多い。トップページはほかと比較にならないほど重複で苦労するのだが、あらかじめ正規化タグを使うことで多くの問題を回避できる。

もちろん、サイト内リンクの構造（IV-12）を統一しておくのが大事だ。ドメイン名だけのURLを正規のURLとして扱いたいのに、ナビゲーションの中で「/index.htm」にリンクすると、クローラーが来るたびに混乱したシグナルをグーグルに送ってしまう。

Ⅴ-6 セッションID

一部のサイトでは、訪問者が来るたびに追跡用のパラメータを付与したURLを生成している（特にEコマースサイトなど）。場合によっては、そのパラメータが付いたURLがインデックス化されてしまうことがある。

上の画像ではこの問題の大きさが伝わらないのだが、実際には、異なるセッションIDとページの組み合わせがすべてインデックスされてしまう可能性がある。URLにセッションIDがあると、優に何千もの重複ページがインデックスされかねない。

利用しているCMSやEコマースのシステムにもよるが、セッションIDはURLから外してクッキーに保存しておくのがベストだ。セッションID付きのURLなど作っても役に立つことはほとんどないし、ロボットにクロールさせるのも無意味だ。

クッキーに保存できないなら、サイト全体にURL正規化タグ（IV-5）を置くのがいいだろう。どうにもならなくなった場合は、Googleウェブマスターツール（IV-7）やBing Webmaster Center（IV-9）でパラメータをブロックする手がある。

Ⅴ-7 アフィリエイトのトラッキング

これはⅤ-6のセッションIDとよく似た問題だ。アフィリエイトを利用しているときに、アフィリエイターが張るリンクには、そのアアフィリエイターを追跡するパラメータを使うことが多い。その際に生じるのだ。

アフィリエイター追跡パラメータは一般的に、ランディングページのURLに追加される。

被害の大きさはⅤ-6ほどではないが、それでも大規模な重複が生じる可能性がある。

解決法はセッションIDのケースと似ている。アフィリエイトのIDはクッキーに保存し、正規URLに301リダイレクト（IV-3）するといい。無理な場合は、URL正規化タグ（IV-5）を使うか、アフィリエイトURLのパラメータをブロックすることが必要になるだろう。

Ⅴ-8 経路の重複

ページへの経路が複数あるのはまったく問題ないが、複数の経路によって複数のURLが生成されるのは問題だ。たとえば、以下の3つのいずれでも製品ページにたどり着けるとする。

この例にあるiPad2の製品ページへは、2つのカテゴリとユーザーが作った1つのタグから到達できる。ユーザーが「家電」カテゴリからiPad2を選ぶと「/electronics/ipad2」というURLで表示され、「アップル」カテゴリからiPad2を選ぶと「/apple/ipad2」というURLで表示されるといったようにしているときに生じる問題だ。

ユーザーによるタグはとりわけ問題がある。理論的には、同じコンテンツに対してさまざまなタグによるさまざまなURLが無制限に生成される可能性があるからだ。

経路に基づくURLは、一切作らないのが望ましい。どこを経由してページたどり着く場合も、SEO的には1つのURLにするべきだ。経路がURLに含まれているのは、サイトの訪問者にとってメリットだという意見もあるだろうが、ユーザビリティに関わった経験から言っても、ほぼすべての場合にデメリットがメリットを上回ると思う。

すでに何通りかのURLがインデックス化されている場合は、301リダイレクト（IV-2）かURL正規化タグ（IV-5）を使うのがおそらく最善の選択肢だろう。ただし多くの場合、リダイレクトで簡単に処理できないほど何通りものURLができているかもしれないので、正規化タグを組み込むほうが簡単だろう。

とはいえ、長期的には、サイトのアーキテクチャを再検討することが必要になる。

Ⅴ-9 機能的パラメータ

機能的パラメータとは、わずかに異なるページを生成するURLパラメータのことだが、検索的には価値がなく、本質的には重複だ。

たとえば、すべての製品ページに印刷用のバージョンが用意してあり、独自のURLが振られているとしよう。次のようなURLになるだろう。

ここで、「print=1」というURLのパラメータは、印刷用のバージョンであることを示している。印刷用のページは普通、印刷向けのテンプレートが使われているだけで、内容は同じだ。meta robotsタグ（IV-4）によるnoindexの指定などを使ってインデックス化を一切しないのがベストだが、URL正規化タグ（IV-5）を使ってこういったページを整理する方法もある。

Ⅴ-10 国別コンテンツによる重複

同じ言語を使っている複数の国に向けたコンテンツを、同じドメイン名に置いてある場合（サブフォルダだったり、サブドメインだったりする）、この重複が問題になる。

たとえば、米国、英国、そしてオーストラリア向けに、英語版の製品ページがそれぞれ次のように存在するかもしれない。

残念ながら、この重複は少々手ごわい。グーグル側が見事に処理して、適切なコンテンツを適切な国でランキングに入れてくれる場合もある。一方で、きちんとジオターゲティングをしているのにうまく処理してくれないケースもある。国よりも言語でターゲティングするほうがよい場合が多いのだが、価格などのように、国ごとにコンテンツを分けるべき正当な理由もある。

国別に分けたコンテンツが重複コンテンツとして扱われた場合、簡単な解決法はない。301リダイレクトを行うと、訪問者がページに行けなくなる。URL正規化タグを使うと、1つのバージョンしか検索結果に表示されなくなる。「正しい」解決法は状況によって大きく異なり、現実には、リスクとリターンのバランス（そしてフィルタリング／ペナルティの危険が及ぶ範囲）に応じて判断することになる。

重複コンテンツの具体例（その11～）

V 重複コンテンツの具体例（続き）

これまで紹介してきた例は、すべて完全重複だった。ここからは「不完全」重複の例をいくつか紹介してみたいと思う。少しばかり曖昧な概念だからだ。

よくある例は、サイト内検索に起因するものだ。サイト内検索はさまざまな形の不完全重複を生む原因となっているが、中でもよく見かけるのは、検索結果の並べ替え、検索フィルタ、検索結果のページネーション（ページ分割）だ。

Ⅴ-11 検索結果のソート（並べ替え）

並べ替え（昇順／降順）によってURLが異なれば、必ずそれによる重複が生じる。2つのソート結果は、厳密には別のページだが、検索インデックスには何の付加価値も与えない。まったく同じ中身で順番が異なるだけだ。URLはこんな風になるだろう。

たいていの場合、ソートした検索結果を完全にブロックしてしまうのがベストだ。普通は、ソート用のパラメータ付きで呼び出されたページにmeta robotsタグ（IV-4）を追加してnoindexを指定してやればいい。うまく行かない場合は、ウェブマスターツール（IV-7）とBing Webmaster Center（IV-9）でソート用のパラメータをブロックしてもいいだろう。

Ⅴ-12 検索フィルタ

検索フィルタは、サイト内検索の結果を価格、色、特長などで絞り込むために使われる。多種多様な商品を販売する通販サイトではごく普通に見かける機能だ。

多くの場合、検索フィルタのURLは検索結果をソートする場合と非常によく似ている。

ここでの解決方法はフィルタ付きのページをインデックスさせないことで、これはⅤ-11と同じようなものだ。製品ページに到達するための明確な経路をグーグルが知っているのであれば、そこにたどり着くためのURLのバリエーションをすべてインデックスすることは、メリットよりもデメリットをもたらす場合が多い。

Ⅴ-13 検索結果のページネーション（ページ分割）

ページネーションは、説明は簡単だが、解決が極めて難しい問題だ。サイト内検索結果を複数ページに分割すると、必ずページ分割されたコンテンツを持つことになる。URLは、見ればすぐにわかる。

当然ながら、数百件を超える検索結果があれば、1回の検索で何十もの不完全重複コンテンツが生じ得る。検索結果そのものは異なるが、ページの重要な特徴（title要素、meta descriptionタグ、見出し要素、文章、テンプレートなど）は多くがまったく同じだ。これに加えて、グーグルは、グーグル検索の検索結果ページに他のサイトの検索結果ページが表示されることをあまり好まない（検索結果からサイト内検索結果へ飛ばしたがらない）という問題もある。

グーグルは以前、ページネーション問題の解決を自分たちに任せてくれと言っていたが、問題はそれがうまく行っていないことだ。そこで、グーグルは最近、「rel="next"」と「rel="prev"」（IV-10）を導入した。当初のデータを見るとこの2つのタグは効果があるようだが、僕らの手元には十分なデータがないし、これらのタグは実装が難しい。また、Bingは今のところ未対応だ。

他に3つの実行可能な選択肢がある（と思う）が、どの程度有効か、またどういう場合に有効かは、多分に状況次第だ。

検索結果の2ページ目以降はmeta robotsタグで「noindex,follow」を指定する。こうすることで、グーグルにページ分割したコンテンツをクロールさせつつ、インデックス化されることを防ぐ。
すべての検索結果にリンクする「すべて表示」ページを1つのURLで作成し、グーグルに検出してもらう。グーグルはこういうやり方も好むようだ。
「すべて表示」ページを作成し、ページ分割された検索結果ではURL正規化タグ（rel="canonical"）でこの「すべて表示」ページを正規のURLに指定する。この方法は裏ワザとして支持を集めているが、分割された検索結果ページは従来的な意味で重複しているわけではないため、この方法は「rel="canonical"」の本来の意図に反すると主張する人もいる。

この間、アダム・オーデット氏がSEOにおけるページネーション問題の解決を詳細に論じていたが、これはお勧めだ。SEOにおけるページネーション問題は非常に難しいトピックであり、今回の記事だけでは語り尽くせない。

Ⅴ-14 製品のバリエーション

製品バリエーションのページは、メインの製品ページから枝分かれしたもので、仕様やオプションが1つだけ異なるといったページだ。たとえば、製品の色ごとにページがある場合、以下のようになる。

検索結果で表示されることを期待して、色違いのページを全部インデックス化させたくなるかもしれないが、たいていの場合はメリットよりデメリットのほうが大きいと思う。製品のバリエーションが少ししかなくて数十ページ程度の話なら、それでも構わない。だが、数百や数千もの製品バリエーションがある場合、1つにまとめるのがベストだ。

これらのページは、厳密に言えば完全重複ではないが、URL正規化タグ（rel="canonical"）（IV-5）でメインの製品ページを正規のURLとして指定するのがいいと思う。

静的URLと動的URL

なお、この例では、ある問題を明らかにするために、「静的」URLを意図的に使っている。URLにパラメータが含まれないからといって、重複コンテンツ問題を免れられるわけではない、ということだ。（パラメータを含まない）静的URLの方がすっきりして見えるかもしれないが、重複コンテンツの生じやすさという点では動的URLと大差ない。

Ⅴ-15 キーワードとなる地名を書き換えただけのページ

「ローカルSEO」と言えば、かつてはサイトの全ページを数百単位でコピーし、URLに都市名を付け加えて、文章中の都市を書き換えるだけだった。こんなやり方で使われたのは、次のようなURLだ。

2011年の時点において、ローカルSEOが格段に洗練されただけでなく、このようなページは、ほとんどの場合不完全重複みたいなものだと見なされるようになっている。

検索上位に表示される見込みがあるのは、各地域用にきちんと手間暇をかけて真っ当に作った独自コンテンツだ。そうした労力を惜しむのなら、地域別ページなど作らない方がいい。手抜きの地域ページはたぶん逆効果になるだろう。

※Web担編注　日本のグーグルがこうした地域ごとにごく一部分を書き換えただけのページを例に「誘導ページ」の問題点を指摘しているので、そちらも参照してほしい。

→ 誘導ページ（Doorway Page）はガイドライン違反です
→ http://googlewebmastercentral-ja.blogspot.com/2012/01/doorway-page.html

Ⅴ-16 その他の「薄い」コンテンツ

具体例は示せないが、コンテンツを説明する際によく使われる「薄い」という用語についてきちんと説明しておきたい。

薄いコンテンツという言葉が表す意味はさまざまだが、その実例の多くはさっきのⅤ-14やⅤ-15で説明したような不完全重複だと思われる。コンテンツがごく一部しか違わないページを複数持つことは、グーグルにそれらのページは価値が低いと見なされるリスクを負うことになる。

さらに、そうしたページに大量の広告が掲載されている場合（しかも独自コンテンツよりも広告の方が多いならば）、リスクはさらに高まる。サイトに薄いコンテンツが多すぎるなら、コンテンツ戦略の再検討をすべき時期だろう。

Ⅴ-17 配信されたコンテンツ

ここから説明するⅤ-17～Ⅴ-19の3つの例は、すべてドメイン名間重複に関係している。ここではURLはあまり問題ではない。多種多様なURLが考えられるはずだ。

Ⅴ-17とⅤ-18の例は、意図が異なるだけだ。配信されたコンテンツとは、別のサイトからの許可を得て使用するあらゆるコンテンツを指す。そうしたコンテンツは、どんな方法で取得し統合したものであれ、別のサイト（しかもしばしば多数のサイト）でも公開されているものだ。

配信されたコンテンツの掲載は正当な手法だが、やはり1つかそれ以上の複製ページが検索結果から除外される可能性はある。

対処法としては運を天に任せて何もしない（IV-13）という作戦もあるが、伝統的なSEOの知恵によれば、オリジナルのソースにリンクバックした上で、おそらくドメイン名間のURL正規化タグ（IV-5）を指定すべきだ。ドメイン名間のURL正規化タグは、通常のURL正規化タグとまったく同じに見えるが、よそのドメイン名を参照する点が異なる。

もちろん、ドメイン名間のURL正規化タグを使うことは、グーグルがこのタグを尊重することを前提とするなら、自分のサイトにあるページはインデックス化されず、検索結果にも表示されないことを意味する。訪問者にとって価値があるということでそのコンテンツを利用しているわけだから、それで構わない場合もある。ただし、実際には、配信されたコンテンツをどの程度利用しているかによって変わると思う。

自分が提供するコンテンツを補強するために配信されたコンテンツを利用する場合もあるだろう。独自の素材もたくさんあるという場合は、リンクバックしてそのままにしておけばいい。とはいえ、自分のサイトの大部分を配信されたコンテンツが占めている場合は、厄介なことになるかもしれない。こういう場合、URL正規化タグ（IV-5）を使うと残念なことにそのコンテンツの順位獲得能力が失われることになる。とはいえ、その代わりにペナルティを免れるし、パンダ・アップデート関連の問題が発生しなくなるだろう。

Ⅴ-18 剽窃コンテンツ

剽窃コンテンツは、配信されたコンテンツに似ているが、転載の許可を得なかった（しかも法を犯している可能性さえあるある）点が異なる。最善の解決策は、「違法行為はやめろ！」ということだ。

Ⅴ-19 ccTLD間の重複

最後に、前述のⅤ-10の例に関連するが、異なる国をターゲットとして同一言語のコンテンツを複製する場合、トップレベルドメイン（TLD）を別々にしたとしても、問題にぶつかる可能性がある。

幸いなことに、この問題はごくまれにしか発生しないが、英語コンテンツ、さらには一部の欧州言語コンテンツでも確認されている。たとえば「オランダとベルギーの2つのドメイン名上にあるオランダ語コンテンツが適切な検索順位を得られない」という質問をよく見かける。

残念ながら、この問題には簡単な答えがなく、解決策の多くが従来の重複コンテンツ対策とは異なる。多くの場合、ターゲティングを左右する要素に手を加えて、そのドメイン名が当該国に結び付いていることをグーグルにはっきりと示す必要がある。

重複コンテンツの具体例を整理して解説した。4回シリーズの最終回となる次回（2月20日公開予定）は、正規のURLを決定する上で注意すべき点と、重複を診断するツール類について説明する。

この記事は、Daily SEOmoz Blog に掲載された以下の記事を日本語訳したものです。

原文：「Duplicate Content in a Post-Panda World」by Dr. Pete（2011/11/16）

記事セレクション：渡辺隆広（株式会社アイレップ）　翻訳：株式会社ガリレオ

この記事に関連する他の記事を見る

※このコンテンツはWebサイト「Web担当者Forum - 企業ホームページとネットマーケティングの実践情報サイト - SEO/SEM アクセス解析 CMS ユーザビリティなど」で公開されている記事のフィードに含まれているものです。
オリジナル記事：重複コンテンツが発生してしまう19の具体的なパターン - 重複コンテンツ対策完全ガイド #3 [SEOmoz - 検索マーケティングのニュース＆テクニック] | Web担当者Forum
Copyright (C) IMPRESS BUSINESS MEDIA CORPORATION, an Impress Group company. All rights reserved.