>
新型コロナに感染しない・させないための行動を。詳細はこちら。

WordPressに移行したいぬぬ②

①はこちら

画像ファイルを取ってくる話。

blogsow.com

最初はこのサイトさんのやり方でやろうと思ってたんですけど、ここで使われる「Screaming Frog SEO Spider」というソフト。基本的に使いやすそうだしわからないところはないなぁって作業を進めてたんですけどね?どうにもリストに上がってくる画像ファイルの数が少ない。何かと思ったら、ちゃんとエラーっていうかアラートをだしてました。偉いソフトが何かって、ちゃんとエラーを報告できることだと思います。

f:id:nunu1733:20200118225001p:plain

要はフリー版じゃ500個までしかリスト作らねーからな。っていうやつでして。画像以外の要素のURLも総当りでリストアップしていく上で500って数字はあんまり多くはないようで、私のブログ程度のデータでも途中でストップしてしまいました。

 

 

ちょっとこれ一回のためにお金出す気分にはなれなくてですね・・・。

というわけで別のサイトを当たることにしました。

www.zbuffer3dp.com

ばっちり。スクレイピングじゃなくて記事のエクスポートデータから直接引用URLを抜き出す手法なのでスクレイピングから画像リンクをすべて引っ張っちゃう場合と違って記事に挿入してる画像だけを引っ張れるので1つ目のサイトよりもいいんじゃないかなと思います。このサイトでははてなフォトだけの想定だったんですけど、私はGoogleフォトもあるので検索条件にそれも含めてうまいこと落とせました。

f:id:nunu1733:20200118230314p:plain

さらにはてなフォトの場合は画像の場所は一箇所にまとめられる仕組みのようでディレクトリの直下ファイル名だけで指定できるんですけど、GoogleフォトはなにやらGoogleの中でのフォルダIDのようなものが挟まるのでURLの置換がこの先大変になりそうだなと思っていたんですけど。

同サイトで紹介されているフリーのダウンロードツールには素晴らしいオプションが。

f:id:nunu1733:20200118230950p:plain

きみ最高。これでフォルダそのままサーバーに突っ込めばgoogleなんたらどっとこむのところだけ置換すればいけるはず。

 

今後のやること

こんな感じで画像の取得の流れはできたので、あとはサイト内のはてな依存の要素の除去・置換を済ませたらいよいよサーバー整備になりそうです。

ぱっと見たところ面倒そうなのはまずはてなキーワードのリンクが自動で色んな所で振られてるのを消さないといけないこと。これって読み込みのときに付与されてるのかと思ってたんですけど記事データレベルで挿入されてるんですね。

コメント

タイトルとURLをコピーしました