ならば

音とかで遊んでいたログ

MeCabで古文の形態素解析

中古和文UniDicという形態素解析辞書を使うと、MeCabで古文の形態素解析ができる。


辞書のアーカイブを適当な場所に解凍して、mecabの-dオプションでその場所を指定すれば、すぐに試せる。

$ echo "思ひつつ寝ればや人の見えつらむ夢と知りせば覚めざらましを" | mecab -d ./UniDic
思ひ	動詞,一般,*,*,文語四段-ハ行,連用形-一般,オモウ,思う,思ひ,オモイ,オモヒ,和,思ふ,オモウ,オモフ,オモウ,*,*,*,*,*,*,2,C1,*
つつ	助詞,接続助詞,*,*,*,*,ツツ,つつ,つつ,ツツ,ツツ,和,つつ,ツツ,ツツ,ツツ,*,*,*,*,*,*,*,動詞%F4@1,*
寝れ	動詞,一般,*,*,文語下二段-ナ行,已然形-一般,ネル,寝る,寝れ,ヌレ,ヌレ,和,寝,ヌ,ヌ,ヌ,*,*,*,*,*,*,0,C3,*
ばや	助詞,終助詞,*,*,*,*,バヤ,ばや,ばや,バヤ,バヤ,和,ばや,バヤ,バヤ,バヤ,*,*,*,*,*,*,*,*,*
人	名詞,普通名詞,一般,*,*,*,ヒト,人,人,ヒト,ヒト,和,人,ヒト,ヒト,ヒト,ヒ濁,基本形,*,*,*,*,0,C3,*
の	助詞,格助詞,*,*,*,*,ノ,の,の,ノ,ノ,和,の,ノ,ノ,ノ,*,*,*,*,*,*,*,名詞%F1,*
見え	動詞,一般,*,*,文語下二段-ヤ行,連用形-一般,ミエル,見える,見え,ミエ,ミエ,和,見ゆ,ミユ,ミユ,ミユ,*,*,*,*,*,*,1,C1,*
つ	助動詞,*,*,*,文語助動詞-ツ,終止形-一般,ツ,つ,つ,ツ,ツ,和,つ,ツ,ツ,ツ,*,*,*,*,*,*,*,動詞%F4@0,*
らむ	助動詞,*,*,*,文語助動詞-ラム,連体形-一般,ラム,らむ,らむ,ラム,ラム,和,らむ,ラム,ラム,ラム,*,*,*,*,*,*,*,"動詞%F2@1,形容詞%F4@1",*
夢	名詞,普通名詞,一般,*,*,*,ユメ,夢,夢,ユメ,ユメ,和,夢,ユメ,ユメ,ユメ,*,*,*,*,*,*,2,C3,*
と	助詞,格助詞,*,*,*,*,ト,と,と,ト,ト,和,と,ト,ト,ト,*,*,*,*,*,*,*,"名詞%F1,動詞%F1,形容詞%F2@-1",*
知り	動詞,一般,*,*,文語四段-ラ行,連用形-一般,シル,知る,知り,シリ,シリ,和,知る,シル,シル,シル,*,*,*,*,*,*,0,C2,*
せ	助動詞,*,*,*,文語助動詞-キ,未然形-一般,キ,き,せ,セ,セ,和,き,キ,キ,キ,*,*,*,*,*,*,*,動詞%F4@0,*
ば	助詞,接続助詞,*,*,*,*,バ,ば,ば,バ,バ,和,ば,バ,バ,バ,*,*,*,*,*,*,*,"動詞%F2@0,形容詞%F2@-1",*
覚め	動詞,一般,*,*,文語下二段-マ行,未然形-一般,サメル,覚める,覚め,サメ,サメ,和,覚む,サム,サム,サム,*,*,*,*,*,*,1,C1,*
ざら	助動詞,*,*,*,文語助動詞-ズ,未然形-補助,ズ,ず,ざら,ザラ,ザラ,和,ず,ズ,ズ,ズ,*,*,*,*,*,*,*,"形容詞%F4@-1,動詞%F3@0",*
まし	助動詞,*,*,*,文語助動詞-マシ,終止形-一般,マシ,まし,まし,マシ,マシ,和,まし,マシ,マシ,マシ,*,*,*,*,*,*,*,*,*
を	助詞,接続助詞,*,*,*,*,ヲ,を,を,ヲ,ヲ,和,を,ヲ,ヲ,ヲ,*,*,*,*,*,*,*,*,*
EOS

小野小町

よくある応用1。単語出現頻度ランキング。

日本三大随筆で使われている形容詞Top10。カッコ内の数字は全形容詞の中の割合。

順位 枕草子 方丈記 徒然草
1 をかし (12.0%) なし (29.4%) なし (19.8%)
2 いみじ (9.0%) 多し (3.4%) よし (8.6%)
3 なし (7.6%) 近し (3.4%) をかし (5.4%)
4 めでたし (3.6%) おなじ (2.8%) いみじ (4.3%)
5 にくし (3.3%) むなし (2.8%) 多し (4.0%)
6 よし (2.8%) やすし (2.8%) 久し (1.9%)
7 白し (2.0%) 深し (2.8%) めでたし (1.6%)
8 多し (1.5%) せばし (1.7%) あやし (1.3%)
9 疾し (1.5%) ちひさし (1.7%) 同じ (1.3%)
10 わろし (1.4%) ともし (1.7%) 深し (1.3%)
- - 久し (1.7%) 若し (1.3%)
- - 遠し (1.7%) -
- - 重し (1.7%) -

枕草子は「をかし」の文学。


よくある応用2。マルコフ連鎖で作文。

入力は竹取物語形態素2-gram。

今は下してよ。翁も塗籠の内の絹、綿、錢など、ある山寺に、三寸ばかりなる人は、火にくべて燒かせ給ふ。御官冠つかう奉りて死ぬばかりなり。然る所へ罷らむずるも、「大伴大納言は、數多の年渡りける唐土船の王卿といふ。赫映姫、月出づれば、車に乘りて罷りぬれば、逢ひ奉る。辛うじて、「東の海に紛れむと思す。いま金少しの事なり」と申す。『いづれ劣勝おはしまさねば、ゆかしき物見せ給へらむには死なぬ藥も食はず思ひつゝ、かの裘、我が國に生まれぬるとならば、この皇子に婚ひ奉り給ひね。人ないたく侘びさせ奉らせ給ひて、赫映姫容貌世にあるまじきに、明暮見馴れたる赫映姫外に置きて見て、「斯ばかり守る所に、物思にはあれど、猶めでたく思しめさるゝ事堰きとめ難し。斯く難き事をば、あな嬉しと喜びて、分ちて求め奉れども、歸るまで齋をし、白玉を實としき。これを燒きて見つれば、裘の樣高くうるはし。これを聞きてぞ、思ふに違ふ事をば、赫映姫のいはく、「おいらかに、同じ所に籠り居、或は唱歌をし、白玉を實とし、白玉を實として居たる人あり。それに白銀を根としき。或人の志疎かならざりし。玉の枝につけても、人聞き恥かしく覺え給ふなりけり。貝を取らす。中將人々を引具して率ておはしまさむ。この月に出でて、歌詠み加へて持ちて入りたり。


ひどい気がする。