ぱわふる »自然言語処理

Channel: ぱわふる »自然言語処理

Directional Formatting Characters に関するメモ

January 10, 2014, 6:10 pm

大部分の言語ではテキストを左から右へ表示するけど、アラビア語やヘブライ語は右から左に表示するらしいです。しかしながら、それらの言語のテキスト中に数字や英語などの左から右へ表示されるテキストが含まれると、テキストが「左から右」と「右から左」の双方向性を持つことになってしまいます。そのため、双方向性を持つテキストをどう表示したら良いか曖昧性が生じます。（恐らくレンダリングエンジンが）よしなに表示してくれ...

View Article

Lingua::JA::KanjiTable – Perlで常用漢字表と人名用漢字表を扱う

March 20, 2014, 10:36 am

https://metacpan.org/pod/Lingua::JA::KanjiTable 常用漢字表だけでも個人的には嬉しいのですが、人名用漢字表も用意してあるので妥当な名かのチェックもできます。戸籍法第50条と戸籍法施行規則第60条によると、子の名には常用漢字表の漢字と人名用漢字表の漢字と片仮名と平仮名が使えるようなので、以下のコードで名の妥当性をチェックできます。（名は...

View Article

青空文庫のIDF（逆文書頻度）リストを出す

November 9, 2014, 9:05 pm

珍しい語には高い重みを、ありふれた語には低い重みを与えるもので、idf_t = log(N / df_t) （N：全文書数、df_t：用語tを含む文書数）で定義されます。小説執筆サイトの著者の特徴語を出すのにIDFを利用したいために計算しました。データは「青空文庫形態素解析データ集」の「newnew.csv.gz」を利用しました。まずは以下のコードで全文書数と形態素ごとの df_t...

View Article

Web Speech API と Twitter n-gram を利用した英語発音矯正ゲーム

December 20, 2014, 5:11 am

４月からは自分が研究室で唯一の日本人になってしまうので、英語の発音のトレーニングをひたすら楽しく積めるWebアプリケーションを研究の合間に作っていました。「えいごのはつおんとれーにんぐ」 https://pron.chobitool.com/ 開発は６日間ぐらいで、そのうち素材集めに３日ほど費やしました。 Web Speech API...

View Article

Python勉強メモ#5「homura と madoka で形態素の頻度を数えよ」

January 17, 2015, 3:37 pm

あらかじめ「pip」とかで「homura」と「madoka」を入れておきましょう。まずはダウンローダーの「homura」で形態素解析済みの青空文庫のデータをダウンロード。my-mbp% ipython Python 3.4.2 (default, Jan 12 2015, 11:46:28) Type "copyright", "credits" or "license" for more...

View Article

最近のCPAN活動

March 11, 2015, 10:21 am

Pythonも少しやっていましたが、文字列処理はPerlのほうが強力で完全に乗り換える気にはなりません。おそらく、前処理はPerlでやって、統計解析やグラフ描画はPythonでやるのが一番楽だと思います。「Lingua::JA::NormalizeText」日本語正規化モジュール。2000万ツイート文を正規化しても問題が発生しなかったので Ver. 0.50...

View Article