scikit-learn で TFIDF
TFIDF ぐらいなら自分で書いても簡単だけど、実際に使う時は面倒くさいし変なバグを生みたくないので sklearn にやってもらおう。
sklearn の CountVectorizer や TfidfVectorizer は、デフォルトでは、一文字のトークンが除外されてしまう。
英語の a や日本語の "は" や "が" などのストップワードが勝手に除外されるので便利な気がするが、漢字一文字のトークンが除外されるのはいかがなものか・・・。
token_pattern=u'(?u)\\b\\w+\\b' とかやると一文字のトークンを除外しなくなるみたい。
ライブラリ使うと便利だけど、中身がわかってないと大変。
TFIDF の実装は難しくないので、一度自分でやってみるといい。