Directional Formatting Characters に関するメモ
大部分の言語ではテキストを左から右へ表示するけど、アラビア語やヘブライ語は右から左に表示するらしいです。しかしながら、それらの言語のテキスト中に数字や英語などの左から右へ表示されるテキストが含まれると、テキストが「左から右」と「右から左」の双方向性を持つことになってしまいます。そのため、双方向性を持つテキストをどう表示したら良いか曖昧性が生じます。(恐らくレンダリングエンジンが)よしなに表示してくれ...
View ArticleLingua::JA::KanjiTable – Perlで常用漢字表と人名用漢字表を扱う
https://metacpan.org/pod/Lingua::JA::KanjiTable 常用漢字表だけでも個人的には嬉しいのですが、人名用漢字表も用意してあるので妥当な名かのチェックもできます。 戸籍法 第50条と戸籍法施行規則 第60条によると、子の名には常用漢字表の漢字と人名用漢字表の漢字と片仮名と平仮名が使えるようなので、以下のコードで名の妥当性をチェックできます。 (名は...
View Article青空文庫のIDF(逆文書頻度)リストを出す
珍しい語には高い重みを、ありふれた語には低い重みを与えるもので、idf_t = log(N / df_t) (N:全文書数、df_t:用語tを含む文書数)で定義されます。 小説執筆サイトの著者の特徴語を出すのにIDFを利用したいために計算しました。 データは「青空文庫 形態素解析データ集」の「newnew.csv.gz」を利用しました。 まずは以下のコードで全文書数と形態素ごとの df_t...
View ArticleWeb Speech API と Twitter n-gram を利用した英語発音矯正ゲーム
4月からは自分が研究室で唯一の日本人になってしまうので、英語の発音のトレーニングをひたすら楽しく積めるWebアプリケーションを研究の合間に作っていました。 「えいごのはつおんとれーにんぐ」 https://pron.chobitool.com/ 開発は6日間ぐらいで、そのうち素材集めに3日ほど費やしました。 Web Speech API...
View ArticlePython勉強メモ#5「homura と madoka で形態素の頻度を数えよ」
あらかじめ「pip」とかで「homura」と「madoka」を入れておきましょう。 まずはダウンローダーの「homura」で形態素解析済みの青空文庫のデータをダウンロード。my-mbp% ipython Python 3.4.2 (default, Jan 12 2015, 11:46:28) Type "copyright", "credits" or "license" for more...
View Article最近のCPAN活動
Pythonも少しやっていましたが、文字列処理はPerlのほうが強力で完全に乗り換える気にはなりません。おそらく、前処理はPerlでやって、統計解析やグラフ描画はPythonでやるのが一番楽だと思います。 「Lingua::JA::NormalizeText」 日本語正規化モジュール。2000万ツイート文を正規化しても問題が発生しなかったので Ver. 0.50...
View ArticleKNPの解析結果をXMLで受け取る(照応解析)🐫
KNPの出力結果を眺めて、どうやって解析すればいいのか悩んでいたのですが、KNPに同梱のPerlライブラリでXML出力をサポートしているのを発見して安心しました。(「perldoc KNP::Result」すると書いてある。)...
View Article
More Pages to Explore .....