パンダ・アップデート後の重複コンテンツを知る - 重複コンテンツ対策完全ガイド #1 [SEOmoz - 検索マーケティングのニュース＆テクニック]

この記事を読むのにかかる時間：約 5 分

» SEOmoz - 検索マーケティングのニュース＆テクニックのバックナンバーを見る

[海外情報]
SEOmoz
検索マーケティングのニュース＆テクニック

「重複コンテンツ対策完全ガイド」目次
パンダ・アップデート対応版

重複コンテンツとは何か？
重複コンテンツが問題になるのはなぜか？
3種類の重複コンテンツ
重複問題の解決に役立つ方法（2月6日公開予定）
重複コンテンツの具体例（2月13日公開予定）
正規のURLはどれか？（2月20日公開予定）
重複を診断するツール類（2月20日公開予定）

この記事の内容はすべて筆者自身の見解であり（ありそうもないことだが、筆者が催眠状態にある場合を除く）、SEOmozの見解を反映しているとは限らない。

もしかしたら、僕らはパンダ・アップデートに関して少しばかり感傷的になり始めているのかもしれない。確かにパンダ・アップデートでSEOのすべてが変わったわけではないけれど、あまりに長いこと皆が無視してきたSEOの諸問題に注意を喚起するきっかけになったのではないだろうか。

そういった問題の1つが「重複コンテンツ」だ。重複コンテンツはもう何年もSEOにおける問題になっているが、グーグルの対処方法は劇的に進化してきて、アップデートのたびにどんどん複雑化しているようだ。そして、パンダ・アップデートでまた一段と飛躍した。

そんなわけで僕は、2011年の現状を踏まえて、重複コンテンツの話題を掘り下げるのにふさわしい時だと考えた。今回の記事で目指すのは包括的なリソースであり、重複コンテンツとは何なのか、いかにして生じるのか、どうやって診断するのか、そしてどのように修正すればいいのかを、網羅して論じるものだ。

うまくいけば、途中で不良パンダを何匹かつかまえられるかもね。

I 重複コンテンツとは何か？

基本から始めよう。重複コンテンツとは、同じコンテンツのページが2つ以上ある状態のことだ。視覚的に理解したければ、下のイラストを見てもらいたい。

複数のページで同じコンテンツが表示されている状態

簡単なことだ。それでは、これほど簡単なものがなぜ大変な苦労の原因になっているのだろう？

1つの問題は、「ページ」とはウェブサーバに置かれているファイルや書類のことだという誤解が多いことだ。Googlebotなどのクローラーにとって、ページとはサイトからサイトへ、あるいはサイト内で張られたリンクをたどる中で出くわすそれぞれのURLを意味する。規模が大きい動的なサイトでは特に、結果的に同じコンテンツとなる2つのURLが（意図せず）驚くほど易々と生まれてしまう。

II 重複コンテンツが問題になるのはなぜか？

SEO上の問題としての重複コンテンツは、パンダ・アップデートのずっと以前からあった。しかし、アルゴリズムの変更に伴ってその形態はさまざまに変化してきた。長年にわたる重複コンテンツの主要な問題を手短に振り返ってみよう。

II-1 補足インデックス

グーグルの草創期、ウェブのインデックス化はコンピュータ処理においての大きな難問だった。この難問に取り組むため、重複コンテンツや、品質が低いと見なされたページの一部は、「補足」インデックスと呼ばれる副次的なインデックスに入れられた。SEO的観点から見ると、そこに入ったページは自動的に2級市民となり、検索で上位を狙える競争力を失った。

補足インデックスは2006年ごろにメインインデックスと統合されたが、検索結果からはこのようなページがしばしば除外されている。ご存じのように、グーグルの検索結果の最後に次のような警告があれば、除外されたページが存在する。

インデックスが統合されても検索結果は依然として「除外」されていたので、SEOへの影響は明確だった。

とはいうものの、こうして除外されたページの多くは重複コンテンツだったり検索としての価値がほとんどないものだったりで、SEO上の現実的な影響はごくわずかだったが、常にそうだとは限らなかった。

II-2 クロール・バジェット

クロール・バジェット

グーグルなどの検索エンジンがサイトを訪問した際にクロールするページ数のこと。

グーグルに関して限界を話題にするのはいつだって難しい。というのも、皆が絶対的な数字を知りたがるからだ。クロール・バジェットについて、絶対的な数値というものは存在しないのが実情だ。

とはいえ、グーグルが君のサイトのクロールをしばらく放棄してしまうかもしれないポイントはある。特に君のサイトが、効率よくページにたどりつけないような、曲がりくねった経路にスパイダーをいつも追い込んでいるなら要注意だ。

特定のサイトを考えたところで、クロール・バジェットの絶対的な値は決まらないが、自分のサイトへのクロールの割り当ては、Googleウェブマスターツールの［診断］＞［クロールの統計情報］で感じをつかむことができる。

それでは、グーグルが大量の重複パスや重複ページを見つけて、その日のクロールをやめてしまうとどうなるのだろう？実際の話、インデックス化してほしいページがクロールされなくなるかもしれない。クロールの頻度が低くなる程度で済めば、おそらく運がいいほうだ。

II-3 インデックス化の「上限」

グーグルが1つのサイトでインデックス化するページ数に固定の「上限」がないのは、クロール・バジェットの絶対値がないのと同様だ。

しかし、動的な限度はあるようで、その限度はサイトのオーソリティに関係している。インデックスが役に立たない重複ページで埋まると、より重要な、より深い階層のページが押し出されてしまう可能性がある。たとえば、サイト内検索の結果を何千ページも置いていると、グーグルがインデックス化してくれない製品ページが出てくるかもしれない。

「単にインデックス化されたページが多いほど良い」というのは、たくさんの人が犯している勘違いだ。僕はその逆が正しい状況を多すぎるほど見てきた。他の条件がすべて等しいなら、肥大化したインデックスは検索順位獲得能力を薄めてしまう。

II-4 ペナルティをめぐる議論

パンダ・アップデートよりずっと以前、重複コンテンツにペナルティがあるのかをめぐり、数か月ごとに議論が起きていた。議論の論点は妥当なもので、しばしば意味論が中心になった。つまり、重複コンテンツで極刑に処されるか、つまりインデックスから抹殺されるかということだ。

ペナルティとフィルタリングの概念上の違いは重要だとは思うが、サイトのオーナーからすると、多くの場合、結果は同じだ。重複コンテンツが原因でページが検索結果に表示されない（あるいは、インデックス化されない）なら、どう呼ぶかにかかわらず問題に直面することになる。

II-5 パンダ・アップデート

（2011年2月に始まった）パンダ・アップデート以後、重複コンテンツの影響は一部で深刻さを増している。それまで重複コンテンツによる損害は、その重複コンテンツ自体に限られていた。重複コンテンツがあると、それが補足インデックスに入れられるか、フィルタリングで除外される程度で、通常は問題なかった。極端な例では、大量の重複コンテンツがインデックスを埋めつくしたり、クロールの問題を招いたりして、他のページに影響し始めることもあったけれど。

しかし、パンダ・アップデートによって、重複コンテンツは品質を算出するより大きな計算式の一部に組み込まれ、サイト全体に影響する可能性が出てきた。パンダに直撃されると、重複コンテンツではないページが順位獲得能力を失い、検索結果に表示されなくなったり、あるいはインデックスから外されたりすることさえ起こり得る。重複コンテンツはもはやそれのみの問題ではなくなったわけだ。

III 3種類の重複コンテンツ

重複コンテンツの例やそれに対処するためのツール類を具体的に紹介する前に、重複コンテンツを次の3種類に大別して説明しておきたい。

完全重複
不完全重複
ドメイン名間重複

記事の後半では、これら3タイプの重複を、具体例を挙げながら解説していこう。

（1）完全重複

完全重複とは、2つのページの内容が100％同じ状態を言う。違いはURLだけだ。

（2）不完全重複

不完全重複とは、2つのページの内容がほんの少しだけ異なる状態を言う。違っているのはテキストの一部や画像、あるいは単にコンテンツの順序だけということもある。

どれだけ違っていれば「少しだけ」なのかを厳密に定義するのは難しいが、後でいくつか例を挙げて詳しく説明しよう。

（3）ドメイン名間重複

ドメイン名間重複は、2つのウェブサイトが同じコンテンツを持っている場合に起こる。

ドメイン名間重複は、「完全重複」の場合もあれば「不完全重複」の場合もある。通信社などから正式に配信されたコンテンツでさえ、ドメイン名間重複が問題となり得ることは、意外に知られていない。

この記事は、パンダ・アップデートによって変化した重複コンテンツの問題を広範に扱った長文の記事であり、全部で4回に分けてお届けする。次回（2月6日公開予定）は、重複コンテンツを防ぐ方法について紹介する。

この記事は、Daily SEOmoz Blog に掲載された以下の記事を日本語訳したものです。

原文：「Duplicate Content in a Post-Panda World」by Dr. Pete（2011/11/16）

記事セレクション：渡辺隆広（株式会社アイレップ）　翻訳：株式会社ガリレオ

この記事に関連する他の記事を見る

※このコンテンツはWebサイト「Web担当者Forum - 企業ホームページとネットマーケティングの実践情報サイト - SEO/SEM アクセス解析 CMS ユーザビリティなど」で公開されている記事のフィードに含まれているものです。
オリジナル記事：パンダ・アップデート後の重複コンテンツを知る - 重複コンテンツ対策完全ガイド #1 [SEOmoz - 検索マーケティングのニュース＆テクニック] | Web担当者Forum
Copyright (C) IMPRESS BUSINESS MEDIA CORPORATION, an Impress Group company. All rights reserved.

パンダ・アップデート後の重複コンテンツを知る - 重複コンテンツ対策完全ガイド #1 [SEOmoz - 検索マーケティングのニュース＆テクニック] | Web担当者Forum

I 重複コンテンツとは何か？

II 重複コンテンツが問題になるのはなぜか？

II-1 補足インデックス

II-2 クロール・バジェット

II-3 インデックス化の「上限」

II-4 ペナルティをめぐる議論

II-5 パンダ・アップデート

III 3種類の重複コンテンツ

（1）完全重複

（2）不完全重複

（3）ドメイン名間重複

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？