SVX日記

2004|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|09|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|05|06|07|08|09|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|12|
2018|01|02|03|04|05|06|07|08|09|10|11|12|
2019|01|02|03|04|05|06|07|08|09|10|

2005-04-14(Thu) Gmailにインポート!!

  今日もプロッタをチョコチョコとイジる。昨日、漢字は図形モード出力、英数字は文字モード出力というハイブリッド印刷が望ましいという考えに至ったが、よく考えたら文字モードでプリンタに出力すると、いわゆるイニシエのパイカのような、比較的正方形に近い形状の英数字が印字されてしまうコトに気づいた。つまり、画面上のような「全角と半角」というイメージにはならないのだ。しかも、文字を左から順に印刷しようとすると、図形モードから文字モードへの切り替えの際にペンが毎度ホームポジションに戻ってしまうため、うまくいかない。どうやら、ドライバ側でもペンの位置を把握しつつ、比較的高度な制御を行う必要がありそうである。腹鰭幌晴。

  で、次は新しいオモチャであるGmailをイジる。アカウントを取っただけでは使い勝手もナニもないので、使い勝手を試すタメにメールをザクザクと注ぎ込みたいトコロだ。しッかァーしッ!! Gmailにはメールをインポートする仕組みが備わっていないのだ。せっかくのビッグストレージだからこそ、ナンも考えなしに既存のメールを全部ブチ込みたいのに、どーゆーコトよ!! 製造してやるッ!! ……というコトで、現状、サーバ上に載っているUNIX-mbox形式内のメールすべてを、ドカドカとGmailに送りつけるRubyスクリプトをサックリと書いて、インポート作業を行ってみた。

  まずは、既存のメールのバックアップだ。バックアップ中にメールが来てグチャっとならないように、念のためMTAを落としておく。

/etc/init.d/exim stop

  大事なファイルをガシガシとイジる時には、できるだけ大雑把にバックアップを取ったほうが安全だ。ホームディレクトリごと、ごっそり別ユーザのディレクトリにコピーしておく。

cp -R /home/athrun /home/kira/backup

  MTAを上げる前に、メールディレクトリにある全てのmbox形式ファイルを初期状態にクリアしておく。ゆくゆくはGmailをメインのメールボックスにするつもりではあるが、当面は現サーバでもメールを受ける必要があるため、Gmailに移動してしまったメールと、それ以降に来たメールが混ざらないためのクリア処理である。

cp 99:SPAM.init 00:MAIN
cp 99:SPAM.init 01:ITLINE
 :
 :
cp 99:SPAM.init 64:PIC
cp 99:SPAM.init 65:SVX
cp 99:SPAM.init 90:IMPORTANT
cp 99:SPAM.init 99:SPAM

  メールファイルのバックアップ処理およびクリア処理が終わったので、MTAを上げて現サーバでのメール受付を再開。

/etc/init.d/exim start

  で、ここからいよいよGmailへのメールのインポートである……が、最初にインポートするメールを、あえて現在スパムメールフォルダに溜まっている500通のスパムにしてみたい。これで、Gmailのスパムフィルタの選別能力を判定しようというのである。

  メールのインポートはさっき作ったスクリプトで行う。使い方はこんな感じ。

./import2gmail /home/kira/backup/athrun/mail/99:SPAM smtp.archangel.co.jp athrun@gmail.com athrun@zaft.com exec

  最初は、末尾のexecナシでドライラン(表示だけで送信しない)をさせてみよう。ちゃんとメールが一通ずつ認識されるか、メール通数が合っているかを確認できる。OKっぽいならexecをつけて本実行だ。1秒に1通ずつポッコンポッコンとGmailにメールが転送されるぞ。実行ッ!!

  画像の説明

  おぉッ!? スゲェ!! これはまだ転送途中の状態であるが、500通のスパムのうち、スパムでないと判定されたメールはたった5通程度であった。これがGmailユーザ内でスパム情報を共有している威力なのかッ!? オイラが丹精込めて熟成させたウチのbsfilterによるベイジアン式フィルタに勝るとも劣らない破壊力である。

  調子に乗って、今度はスパムでない本番メールを1000通程度(これで半分程度だ)インポートしてみた。フォルダという概念がないってのが、ちょっと使い慣れない感じだが、十分に検索能力が高ければどうということはないということか……って、ぜんぜん検索に引っかからないじゃん!? ……と、思ったが落ち着け、オレ。Googleのような検索エンジンは一度全てのメールをスキャンし、インデックスを形成してからでないと最低限レベルの検索しかできないのだ。明日までは待つべし、待つべし。

  ちなみに、節操なく1000通もブチこんだのにも係らず、画面の下のほうには……

You are currently using 30 MB (1%) of your 2093 MB.

  ……という表示がッ!! たった1%だとぉ!? ふ、不敵なッ!! なんという挑戦的な態度であろうか!? 無敵すぎるぞッ!! Google!!

  今回つくったRubyによるGmailへのインポートスクリプトを置いておく。んが、このmboxという形式、調べるとかなりいー加減な形式らしい。モトがいー加減な形式なら、スクリプトの造りもいー加減である。30行ちょっとでいー加減でないわけがないので、使うときはいー加減な気分で使ってほしい。

  ……って、あれ? あれれ? 既にインポートするプログラム存在するのね。しかも、こっちはmbox以外にもいろいろな形式に対応しているではないか。どうやら、見事に車輪の再発明をしてしまったようだ。ま、再発明ほど楽しいことはないんだから、いいんだけども。

  さーて、明日は残りのメールをインポートするとともに、バックアップストレージとして活用するためのスクリプトの開発でも始めようかねぇ。

  2010年6月19日追記: いまさらだがMailDir形式対応版も置いておく。

本日のツッコミ(全4件) [ツッコミを入れる]
だーはら (2005-05-17(Tue) 13:03)

フォルダの概念がないというのは、どうも気になるんだが。<br>使いやすいんだろうか。

フルタニアン(管理者) (2005-05-17(Tue) 17:33)

うーむ、なんとも説明しづらいですが、フォルダが無くてもあまり気にならない感じですかねぇ。<br>結局フォルダはメールを整理するタメで、整理する理由はメールを探すためです。<br>メールを探すときに、フォルダで絞り込んで「件名を参考に、これより過去、これより未来」と探すか、思いついた単語で「本文内までガツンと検索する」か、考え方の違いです。<br>Gmailの場合、検索機能が高精度かつ高速なので、自信を持って遠慮なくガンガンと検索できるため、結果的には早く目的のメールにたどり着けているような印象を受けます。

だーはら (2005-05-22(Sun) 04:44)

会社に、"月"単位でフォルダを作って(200505とか)単にそこに放り込むというメール管理方法をしている人がいて。すげー、と思った。<br>超整理法に基づく考えらしい。が、私にはその勇気が無い。<br>本やCDの整理、管理と同じで、正解はないんだろうね。<br>メールは検索で何とかなりそうな気がしてきた。Gmailは無いけど、超整理法、実践してみようかな。

フルタニアン(管理者) (2005-05-23(Mon) 12:58)

興味深い話題なので更にツッコンで言及。<br>聞きかじりですが、超整理法ってのは全ての情報を「時系列」に並べるという方法ですよね。で、なぜ時系列に並べるコトを推奨するのかというと、実は人間の記憶構造に基づくと、時系列に並べられモノを検索する方が効率がよいという主張から導かれているワケです。つまり、リアルな書類は分類も大変だから、分類に労力をかけるよりは時系列に並べたほうがラクだし検索も効率的ですよ、というコト。結局は「検索法」のための整理法なワケです。<br>そうなると、リアル書類でないPC上のメールボックスにこの方法を適用するのは少しナンセンスな気もします。分類は自動だから手間はかからないし、時系列にするのもクリック一発ですからね。<br>GmailはWebMailなのでレスポンスが悪く、時系列での件名の目視検索には圧倒的に向きませんが、恐ろしく強力な全文検索機能を持ちます。この点で超整理法とは全く異なるアプローチですね。<br>ところで、このBlogにも使っているnamazuというフリーの全文検索エンジンがありますが、この開発者は「検索技術」についてモノスゴい深い考察をしてます。ゼヒ読んでみてください。目からウロコですよ。<br>http://namazu.org/~satoru/unimag/1/