Publish while resting-ぐだぐだわーくす

BLOG that considers the world funny conquest. Worship me (* 'ω' *

超楽チン!パクリコンテンツ無料発見ツール4選

f:id:dacs:20170520152640p:plain

こんにちは、DACです。

さて、今回はパクリコンテンツをどう発見するかについて少し書いてみます。先日、読者登録して巡回している範囲で問題勃発していましたので、もう少し補完してみようと思いました。

楽チンに発見したい!

まず、パクリがあるかどうかをチェックしてみましょう。広大なWebの中重複するデータを何の手立てもなく探すと言うのは現実的な対応姿勢とはいえません。チェックにはいろいろな手段があるのですが、楽そうなツールを4つ紹介していきます。

影武者

kagemusya.biz-samurai.com

特徴
  • テキストチェック:可能(1000文字を1回とカウント)
  • URLからのテキスト抜き出し:可能
  • メールでの解析完了連絡:可能
  • 累計10000文字まで無料
  • アカウント作成:必要
  • 検出精度:高

名前のとおり、自分のコンテンツの写し身である影武者の存在を探すツールです。本格的に使用するなら有料版もありますが、無料版もなかなかどうして便利に問題検出をしてくれます。

問い合わせ方法

使用するにはメールアドレスを使ってアカウントを作成する必要があります。アカウント作成後ログインすると下図のような操作画面になります。パクリのチェックに使うのは左側です。
f:id:dacs:20170520133340p:plain
特定のテキスト範囲をコピーペーストしてチェックする方法とURLを指定してチェックする方法の二つがあります。今回は後者の方法を紹介しましょう。

「指定したURLの文章をチェックしたい」のチェックボックスをオンにして、チェックしたいエントリのURLを入力します。その後、「テキストを取得」ボタンを押下します。
f:id:dacs:20170520133659p:plain

テキストが取得されます。*1取得されたテキストを目視確認後「チェック開始」ボタンをクリックします。
f:id:dacs:20170520134334p:plain

結果確認

即時結果を見ることは出来ません。ただこの指示によって影武者側はWeb上にパクリコンテンツがあるかどうかを確認し、登録したメールアドレスに解析完了メールを送付します。後は解析結果を見に行くだけです。
f:id:dacs:20170520134653p:plain

従って、自分から手動で何かする必要は無く結果を待つだけです。超楽チンですね!
f:id:dacs:20170520135534p:plain:w760
何をもってパクリとするかは判断者にも依存するところですが、この例のように90%を超えているような場合はそう言われても申し開きが出来ないように思います。詳細をクリックするとどう重複しているかも一目瞭然です。順番すら変えていませんね。
f:id:dacs:20170520140951p:plain
尚、影武者の無料版は文字数次第で回数カウントされ、10回までのため複数ページのチェックには厳しいかもしれません。

CopyDetect

copydetect.net

特徴
  • テキストチェック:可能(1000文字まで)
  • URLからのテキスト抜き出し:不可
  • メールでの解析完了連絡:不可
  • 一回のみ無料
  • アカウント作成:不要
  • 検出精度:低

こちらも有名なツールです。テキストで最大1000文字までという制約がありますが、アカウント作成不要ですぐ使えるという面で重宝するかもしれません。

問い合わせ方法

特定のテキスト範囲をコピーペーストして、「利用規約に同意する」のチェックボックスをオンにし、画像認証で目視した文字を入力後「コピーチェックをする」ボタンですぐにチェックが開始されます。
f:id:dacs:20170520141439p:plain:w760

結果確認

このツールの良いところは先に書いたようにアカウント作成が不要なところと確認結果がすぐ見られるところです。

但し、残念な面も目立ちます。まず結果の精度があまり良くありません。先の明らかに駄目な奴を発見できていません。
f:id:dacs:20170520142334p:plain:w760
これは無料版が確認できるテキスト量に制限があるためと思いますが、すぐさま確認できることを売りとするならば改善出来ないと勿体無いと思います。また、今回数百文字でチェックを試行しましたが、二回目は出来なくなりました。従って、ある程度の回数使いたい場合も厳しいと思います。

剽窃チェッカー

plagiarism.strud.net

特徴
  • テキストチェック:可能(2000文字まで)
  • URLからのテキスト抜き出し:不可
  • メールでの解析完了連絡:不可
  • 回数制限なし無料
  • アカウント作成:不要
  • 検出精度:低

これは基本的にはWebコンテンツのパクリ確認用ではなく、何かしら論文や書籍を丸パクリしているかどうかの確認用ツールです。他のツールと同様にテキストからチェックできるのですが、位置づけが違います。「これ?パクリじゃね?」と疑われた論文やWebコンテンツのテキストを貼り付けて、一致するものを探索するという方向で作られています。

しかし、やっていることは同じなのでパクリの発見にも一定の有用性はあるのではないでしょうか?

問い合わせ方法

特定のテキスト範囲をコピーペーストして、「剽窃をチェックする」ボタンをクリックします。
f:id:dacs:20170520143426p:plain

結果確認

ペーストしたテキストを読点、カンマ単位で区切った文字列にして各種検索でのチェック用リンクをドサッと生成してくれます。
f:id:dacs:20170520143645p:plain
このツールの場合先の二つと違って解析機能はありません。あくまで文字列として一致するものがあるか確認する検索へのリンクを生成するだけです。そのため、処理そのものは即座に行われます。問題があるかどうかはそのリンクを通して人間が目視して回る必要があります。

しかし、検索自体を手動で行って回ることを考えるとこの方がずっと楽かもしれませんね。

【オススメ!】コピーコンテンツディテクター

ccd.supersonico.info

特徴
  • テキストチェック:可能(4000文字まで)
  • URLからのテキスト抜き出し:不可
  • メールでの解析完了連絡:可能
  • 回数制限なし無料
  • アカウント作成:要
  • 検出精度:


ここまでですと、どれも帯に短し襷に流し…で微妙に使い難い感じがしますね。もったいぶっていた訳ではありませんが、普段使いに足りそうなツールとしてこちらを紹介します。

f:id:dacs:20170520145934p:plain

問い合わせ方法

まず、使用するにはメールアドレスを使ってアカウントを作成する必要があります。これは解析結果を受け取る上で必要なので我慢してください。登録が完了したらそのアカウントでログインします。

ログインしたら、パクリチェック対象のテキストをコピーペーストします。4000文字まで大丈夫ですから精度を高めるために最大限文字数貼り付けたほうが良いでしょう。自分のサイト以外を検出したいため、除外URLに自分のサイトのドメインを入力します。その後「登録する」ボタンをクリックします。
f:id:dacs:20170520150245p:plain

結果確認

結果が出るとメールで連絡があります。自分のアカウントでコピーコンテンツディテクターにログインした場合も下図のようなインジケータ表示がされます。類似度判定、一致率判定、テキスト判定の3つがありますね。特に赤い一致率判定が危ない感じがプンプンします。
f:id:dacs:20170520150800p:plain:w760

実際に詳細を見ていきましょう。各判定はタブ切り替えのように別ページとなっています。まずは類似度判定タブを上から見ていきますと「また、こいつか!」というところにぶつかりました。他のところは偶然同じ文字列を使っているだけと見れば分かります。そこはテーマが同じであればある程度仕方が無いことと思いますが、まんまコピーは見れば誰でもすぐ分かります。
f:id:dacs:20170520151928p:plain
f:id:dacs:20170520151937p:plain

念のため、真っ赤だった一致率判定も見てみましょう。
f:id:dacs:20170520152340p:plain
f:id:dacs:20170520152640p:plain
ああ、どこをどう見ても「アウト!」ですね。*2

archive.liは一応引用のための魚拓ツールという位置づけですが、スクレイピングしたコンテンツに自分のアフィリエイトを挿入する機能を自動で実装しているようです。これは「Internet Archive“Wayback Machine” | 世界のウェブアーカイブ|国立国会図書館インターネット資料収集保存事業」のような公共的な位置づけのサービスではありません。提供者側としてはサービスもしているからという言い訳もあるでしょうが、コンテンツオーナに断りも無くやってよいことではありません。

ちなみにarchive.liはWHOISでは検索不能。archive.isではDenis Petrovという個人名が出ますが、当然これは代理者名称でしょう。

終わりに

他にもパクリコンテンツツールはありますし、検索コンソール、アクセスログ、検索オプションを使ったチェック法など様々手段はあります。

ですが、手のかかる方法は継続が難しい。今回このエントリでは手っ取り早いツールを4つ紹介しました。個人的には最後に紹介したコピーコンテンツディテクターが制約も少なく精度面でもお勧め出来る物と思っております。Wordpressのようにコピーを検知して連絡するプラグインと同様な機能がオプションで実装されれば楽なのですけれどね。

こてつさんの「ブログの大規模パクりドメインを晒すと共に対策と予防の紹介。要チェック。 - 借金地獄な人生だけど自業自得」では、手動での確認方法や発見後の対処法がよく纏まっていますので是非あわせて読んでください。*3

蛇足ながら

本エントリを作成するに当たり対象の被害元にこてつさんのエントリ「借金地獄で自殺する勇気があるのならば考えて欲しい。経験者よりあなたへ。 - 借金地獄な人生だけど自業自得」を使用しています。本来であれば自分のサイトを使うのが筋なのですが、パクラれが見つからなかったためこてつさんの許諾を得て使用しております。

【お願い!】読者☆超絶☆募集中

風邪ひいて元気がないDACでございますが、皆様の応援で元気が出ます。是非読者登録をお願いします。



*1:これ自体がWebスクレイピングなので複雑な気分になるでしょうけれど我慢してください。

*2:念のため書いておきますがドクロマークは小生の心情を表しているだけでツールの出力じゃないです。

*3:というよりもこのエントリ自体がこてつさんエントリに無い部分を補完した外縁情報です