エクスポートファイルをしっかり作っていればまだ良かったのでしょうが、
残念というか間抜けな事に作っていたのは、文字化けしたエクスポートファイルでした。

幸いなことに、archiveディレクトリはバックアップを取っていたので、
エントリ事のHTMLファイル(XXXXXX.html)中のrdfタグから
dc:title (タイトル)
dc:subject (カテゴリ)
dc:date    (日付)
dc:description(本文)

を抜き出し、その他はベタ書きし、インポートファイルを作成するスクリプト(cygwin bash)
を作りました。
## 日付は「yyyy-mm-dd HH:MM:SS+09:00」から「mm/dd/yyyy HH:MM:SS [AM/PM]」に変換。
いいぞ、rdfタグ。おかげで楽チンじゃん。
なんて思っていたら、本文中のリンクやらのタグがすべて消えているのです。
しかたがないので、本文(h3タグから次のdivの前まで)とコメント
(comments-bodyとcomments-postをクラス名として持っているdivタグ周り)を抜き出し、
タグを消去するという極めて流用性が低く、且つ力技なスクリプト(cygwin Perl)を作りました。

で、なんとかインポートファイル作成スクリプトと組み合わせて、インポートファイルを作成。
多分UTF-8じゃないとだめなんだろうなぁー。と思ったので、MeadowでUTF-8に文字コードを変換。

ちょっとドキドキしながらMTにインポート。なんとか無事?成功しました。
週末にスクリプトを書くなんて。。。あー、疲れた。

カテゴリ



トラックバック(1)

このブログ記事を参照しているブログ一覧: 復旧作業

このブログ記事に対するトラックバックURL: http://www.achama.com/mt/mt-tb.cgi/86

» Ambien cr.(Ambien.)~のトラックバック

Ambien cr color. Ambien next day delivery. Ambien overnight. Ambien prescript... 続きを読む

コメント(1)

やべ :

はじめまして。

突然のご連絡、お許し下さい。

実は、私のブログもissei様と同様な状況になりまして、どうにかhtmlやxmlから簡単にMTにインポートできないかとウェブを検索していたところ、こちらのブログに行き当たりました。

突然のご連絡で恐縮ではございますが、私はそのような知識がないため、作成されたスクリプトを使わせていただけませんでしょうか?

2004年の記事のため可能性は薄いかと思いますが、もし可能であれば、下記までご連絡いただければ幸いです。

tytytyty77アットマークgmail.com
※アットマークを「@」に変更して下さい。

お手数おかけいたしますが、どうぞよろしくお願いいたします。

やべ

コメントする

このブログ記事について

このページは、isseiが2004年7月24日 04:33に書いたブログ記事です。

ひとつ前のブログ記事は「パプリカ」です。

次のブログ記事は「ビン」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.0

others

My status