ちょっとやっぱり作業と並行して記事書くほどの余裕がなくなってきたので遅れてました。代わりに作業は進んでますのでゆるして。6っぽんめ。
記事データの書き換え
記事の中身に関してもはてなからエクスポートしたテキストファイルの段階でいじっておかないといけません。インポートしてから不慣れなWP環境で記事を一括編集なんてやってられないので。このシリーズ唯一、これに関してだけは後続の方々の参考になるんではないかなと思います。
今回自分で作業するにあたって、正規表現での置換などが続くのがわかったので、その表現などのも含め、タスクリストをテキストにまとめました。はてなキーワードの削除に関してはこの記事を参考にさせていただきました。(サクラエディタの場合の表現)
また、他の置換に関しての表現は結局丁度いいものが見当たらなかったので自分でひねり出すことになったのですが、主にこの1つ目の例を分解して勉強させていただいたので、そのような意味でもとてもお世話になりましたこと、お礼をここに申し上げます。
また、以下の操作は記事シリーズでの②、画像入手を先に済ませている前提です。画像リンクの編集もしちゃうので、その後に画像DLはできません。(まあはてなからエクスポートし直せばいいだけですが。それと、作業はNotePad++で行っています。画像リンクの入手にはGrep検索が必要だったのでサクラエディタを使いましたが、なんとなくNotePad++の方が好きなので普段からテキストエディタはこれを使ってます。
①はてなキーワード削除
というわけで1つ目ははてなキーワードリンクの削除です。前述の記事を見ていただければとも思うんですけど一応ここにも書いときます。Amazonアフィリエイトをやってる場合の話もしてるっぽいので私は関係なかったですけど関係ある人も是非。
置換前:<a class=”keyword” href=”[^”]+”>(.*?)<\/a>
置換後:\1
多分テキストエディタに入れると\は¥マークになると思いますがそれで正常です。
()でくくって指定したやつを\と数字で置換のときに残せるってのに気づくまでかなり苦労しました。
②画像挿入リンクのclassプロパティの変更
画像挿入時にいろいろと機能をくっつけるのにclassってタグがくっついてるんですけど、これがはてな経由の画像の場合、hatena-fotolifeとかいう明らかにはてな依存っぽいやつになってるので、とりあえずセンター合わせのclassに変更しておきます。
置換前:class=”aligncenter”
置換後:class=”aligncenter”
③altタグ、titleタグについて編集
引き続き画像挿入リンクのタグ編集です。altタグというのはその画像について、画像を見れないサイト閲覧者に対して説明をする情報です。具体的には弱視の方などがサイトを閲覧する際、音声読み上げシステムは画像について、altタグを読み上げるようになっています。それと、検索システム(Googleなど)のクローラは画像についてaltタグを情報として認識しているという噂もあります。
titleタグは画像以外にでも付与できるaltのようなもの、と私は理解していたのですが、調べてみたところaltも画像以外にもつけられるっぽいので、titleに求められる役割というのはあんまりわからないです。
はてな画像に関してはtitleとaltが両方つけられている場合が多いのですが、内容に関しては完全に同じものが入っている場合が多いので、やっぱりよくわからないままですが、今回の対処としてはtitleタグに関しては削除、altタグに関しては少し編集して残すことにしました。一応altタグに関しては、画像のファイル名単体になるようになってます。
titleタグ
置換前:title=.*?(plain|image)”
置換後:空白
altタグ
置換前:alt=”f:id:.*?:(.*)?j:(plain|image)”
置換後:alt=”\1″
④はてな画像リンク置換
今回私のブログではGoogleフォト利用はそのままにするので、はてなフォトを利用している画像リンクだけリンク元を書き換えます。今回移行する画像についてはサーバー内のwp-content/uploads/imported(最下層のimportedは自分で設定しました。)ってとこにいれるつもりなので、その場所を指定するリンクにします。
置換前:/wp-content/uploads/imported/
置換後:/wp-content/uploads/imported/
このnunu1733の部分はわかるとは思いますが、利用者のIDなので、使う方がいる場合はそこはそれぞれのリンクに書き直して使ってください。元のはてなのリンク構造ではこの下に日時フォルダ、さらにその中に画像が入ってる構造になっていますので、その日時フォルダをimportedに放り込む感じです。
⑤サイト内リンクの修正
最後に、私のブログではかなり少ないのですが、ブログ内の過去記事のリンクを記事中で引っ張ってる場合のリンクを修正します。
置換前:nunu.hateblo.jp/entry/([^/]+)/([^”<]+)
置換後:[独自ドメイン]/\1-\2
ドメインに関してはまだ秘密なので・・・。
更にこのあと私のとこではカテゴリ別に分割、記事タイトルのslugをカテゴリによっては編集する予定です。ただこれに関してはうち固有の都合も多く含んでるので割愛します。一応以下の正規表現でカテゴリ別に記事を抜き出せます。
NotePad++の場合、これで検索結果をブックマーク、どこかのメニューにある「ブックマークをコピー」で新規ファイルに貼り付ければ抜き出しができます。もっとスマートな書き方がありそうなものだけどこれでできるんだからいいんだもん・・・。
AUTHOR: [記事を書いた人の名前]\n.*\n.*\n.*\n.*\n.*\n.*\nCATEGORY: [抜き出したいカテゴリ](\n|.)*?——–
コメント