2018年7月26日木曜日

アドセンス、amazonアフェリエイト審査などへの準備。NGワードへの気遣い

アフェリエイトのNGワードを探す。できるだけ多くの人に誤解のない表現を心がける。Linux的な作法で解決する。

3行コマンドを切り貼りするだけで、チェック箇所がわかります。

アドセンス、amazonアフェリエイトなどに限らず審査はよくわからないですが、意識していないくても機械的なのかなんなのかはわかりませんが、審査に通らない要因と予測できる場合、うっかり一部の人が不快に思う表現がはいっているかもしれません(ここでは議論しても仕方ないという前提で進めます)。「機械のスイッチをKILL」する、PSで探してプロセスをKILLなどのUNIXの手順を全面的に日本語で実直に書いてしまった場合。確証はありませんが、サツバツとしすぎて、NGになるかもしれません。大工さんなどでも、「はめ..し」など。

以下は、Linuxは当然そのまま使えますし、MAC OS Xの方も大丈夫かと思います。不足しているコマンドがもしあれば導入すればよいです。Windows10の方は、WSLを導入するのが最近の流行りかもしれません。WSLとはマイクロソフト提供のWindows 10のLinux互換環境です。もっとも情報が多いので、初心者の方は具体的にはubuntuを選べばよいと思います。

検索しながらだとこの作業はなかなか時間がかかりますので、さくっとダウンロードしてどうするか検討しましょう。手順はおおまかに次の通りです。

●ローカルにブログのミラーを作る。
●ローカルで検索して、対象記事を見つける。
●ネット上のブログツールで修正する。

とすると捗ります。WEBだけでやっていると時間が大変です。ローカルの検索が確実なのです。Googleまかせではいまいちで、Bloggerで全部ヒットしませんでした(?!)。そこで考えたのです。100ページを手動(マウス)で検査しますとどんなに高速なCPU,ネットワークでも2時間はかかります。実際3時間は必要だと思いますが。さすがにあほらしくなってきたので。短時間で処理できるようにしてみました。例を示します。

以下blogspot.com 例を示します。$の緑文字行がコマンドです。
対象ブログ100ページ位をダウンロードするとする。作業ディレクトリを作り、そこに移動し、一括取得コマンドwget を発行。しばらく待ちます。

作業ディレクトリを作成し、そこに移動し、ミラーを作成するコマンドwgetで一括取得
$ mkdir blogcheck && blogcheck
$ wget  https://poorダミーpoor.blogspot.com/ -r -p ./
... しばらくすると全部ダウンロードし終わる。 
そのままのディレクトリで。perlコマンドなどで探します。

ワードを探してみる。
「群青のさつ意」をNGワードと仮定します。あくまで例です。さつは漢字。
$ perl -lnE '/群青のさつ意/ and say "L $.\t$&\t$ARGV"' **/*
L 386275 群青のさつ意 poorダミーpoor.blogspot.com/grep-perl.html

などと次の順番で表示される。

L行番号      ヒットした文字           URL(正確には一部です)



このURLをchromeブラウザに貼り付け、ブログHTMLエディターなどで修正します。chromeがうまいことやってくれます。chromeブラウザでCTRL+Fで検索して個数を確認しつつ作業しましょう。


群青のさつ意 のところに、タヒ などと書き換えていくと、配慮したほうがよい箇所が見つかるかもしれませんよ。

たとえば「この暑さ、軽くタヒねますね」 などという気にもしていない表現が見つかるかもしれません。

本稿の意図は、察してください。悪夢のような...狩りではございません。

grep -R '群青' **/* に慣れていればこれでも。Perlで処理すると発展的にいろいろできるので、Perlの例をよい見本として提示しています。 

おまけ::正規表現でまとめて:: 「夢 順調 可能性 藍」をまとめて検索する。


$ perl -lnE '/夢|順調|可能性|藍/ and say "L $.\t$&\t$ARGV"' **/*


0 件のコメント:

コメントを投稿