scikit-learn で TFIDF - otknoy's blog

TFIDF ぐらいなら自分で書いても簡単だけど、実際に使う時は面倒くさいし変なバグを生みたくないので sklearn にやってもらおう。

sklearn の CountVectorizer や TfidfVectorizer は、デフォルトでは、一文字のトークンが除外されてしまう。

英語の a や日本語の "は" や "が" などのストップワードが勝手に除外されるので便利な気がするが、漢字一文字のトークンが除外されるのはいかがなものか・・・。

token_pattern=u'(?u)\\b\\w+\\b' とかやると一文字のトークンを除外しなくなるみたい。

ライブラリ使うと便利だけど、中身がわかってないと大変。

TFIDF の実装は難しくないので、一度自分でやってみるといい。