Gauche > Archives > 2011/06/12

2011/06/12 05:16:34 UTCshiro
#
blogの方に、謎の書き込みが昨日からちらほら来ているんだが何なんだろう。名前はランダムな文字列、本文は当たり障りのない一行コメント。リンクを置くわけでもないからspam目的でもない。書き込みIPはバラバラ。本格的にspamする前のprobingか何かかなあ?
#
あと、本文中に妙なスペリングミスが入ってるっていう共通点があるなあ。
2011/06/12 05:39:13 UTCshiro
#
人間が見ると、機械的にランダムに生成してある「名前欄」は区別つく。これを自動でclassificationに使えないかなあ。PGのbayesian spam filter式は単語単位でしかも前後の関係を考慮してないからここでは使えない。文字単位、かつ前後のつながりを考慮するとなると、マルコフモデルに突っ込んでやるとかってことになるんかなあ。
2011/06/12 06:23:26 UTCayato
#
文字単位で3gram(or ngram)したもの(gauche => gau,auc,uch,che)をベイジアンで分類するのじゃだめですかね
2011/06/12 07:00:10 UTCshiro
#
ああ、そのくらいでいけるかなあ。
#
とりあえず頻度が急激に増えたので、何かすぐに対策をとらないとやばそうだ。