百人一首の形態素解析
Ubuntu 14.04 LTSがリリースされた。
少し前には中古和文UniDicも更新されていた。
何の関係性もないけど、新しい仮想環境を作って遊んだ。
前にやったときの記事:MeCabで古文の形態素解析。
さて、小倉百人一首 第85番を解析にかけたところ、いきなり、夜もすがら、とそのまま出てきた。
解析に失敗しているのではと疑って意味を検索した(無教養)。
echo "夜もすがら 物思ふころは 明けやらで 閨のひまさへ つれなかりけり" | mecab -d ./unidic-mecab/ 夜もすがら 副詞,*,*,*,*,*,ヨモスガラ,夜もすがら,夜もすがら,ヨモスガラ,ヨモスガラ,和,夜もすがら,ヨモスガラ,ヨモスガラ,ヨモスガラ,*,*,*,*,*,*,"0,3",*,* 物 名詞,普通名詞,サ変可能,*,*,*,モノ,物,物,モノ,モノ,和,物,モノ,モノ,モノ,*,*,*,*,*,*,"2,0",C4,* 思ふ 動詞,一般,*,*,文語四段-ハ行,連体形-一般,オモウ,思う,思ふ,オモウ,オモフ,和,思ふ,オモウ,オモフ,オモウ,*,*,*,*,*,*,2,C1,* ころ 名詞,普通名詞,副詞可能,*,*,*,コロ,頃,ころ,コロ,コロ,和,ころ,コロ,コロ,コロ,コ濁,基本形,*,*,*,*,1,C3,* は 助詞,係助詞,*,*,*,*,ハ,は,は,ワ,ハ,和,は,ワ,ハ,ハ,*,*,*,*,*,*,*,"動詞%F2@0,名詞%F1,形容詞%F2@-1",* 明け 動詞,一般,*,*,文語下二段-カ行,連用形-一般,アケル,明ける,明け,アケ,アケ,和,明く,アク,アク,アク,*,*,*,*,*,*,0,C2,* やら 動詞,非自立可能,*,*,文語四段-ラ行,未然形-一般,ヤル,遣る,やら,ヤラ,ヤラ,和,やる,ヤル,ヤル,ヤル,*,*,*,*,*,*,0,C4,* で 助詞,接続助詞,*,*,*,*,デ,で,で,デ,デ,和,で,デ,デ,デ,*,*,*,*,*,*,*,動詞%F2@0,* 閨 名詞,普通名詞,一般,*,*,*,ネヤ,閨,閨,ネヤ,ネヤ,和,閨,ネヤ,ネヤ,ネヤ,*,*,*,*,*,*,"1,2",C3,* の 助詞,格助詞,*,*,*,*,ノ,の,の,ノ,ノ,和,の,ノ,ノ,ノ,*,*,*,*,*,*,*,名詞%F1,* ひま 名詞,普通名詞,形状詞可能,*,*,*,ヒマ,暇,ひま,ヒマ,ヒマ,和,ひま,ヒマ,ヒマ,ヒマ,*,*,*,*,*,*,0,C3,* さへ 助詞,副助詞,*,*,*,*,サエ,さえ,さへ,サエ,サヘ,和,さへ,サエ,サヘ,サエ,*,*,*,*,*,*,*,"名詞%F2@1,動詞%F2@0,形容詞%F2@-1",* つれなかり 形容詞,一般,*,*,文語形容詞-ク,連用形-補助,ツレナイ,つれない,つれなかり,ツレナカリ,ツレナカリ,和,つれなし,ツレナシ,ツレナシ,ツレナシ,*,*,*,*,*,*,3,C1,* けり 助動詞,*,*,*,文語助動詞-ケリ,終止形-一般,ケリ,けり,けり,ケリ,ケリ,和,けり,ケリ,ケリ,ケリ,ケ濁,基本形,*,*,*,*,*,*,* EOS
百首すべて解析して、品詞と単語の出現頻度をmatplotlibで円グラフにした。
品詞の出現頻度。n=550。
単語の出現頻度。
上位11位以下を「その他」にすると助詞と助動詞しか上位に来ない。
自立語と付属語で分けた場合。
自立語はまだ「その他」が圧倒的に多い。
ところで、今回の結果では接続詞として唯一「さて」が出ているが、さすがに和歌に接続詞はないだろうと思って原文を検索してみたら、
思ひわび さてもいのちは あるものを 憂きにたへぬは 涙なりけり
の副詞「さても」を誤って解析していることが分かった。
この単語しか確認していないけど、他にも誤りはあると思った方がいい。高校生が古文の宿題を解くのに全面的に信頼して使ってはいけない。