データ
|
私が言語研究のために (二次) 作成したデータを公開します.
- 内山将夫さんが提供してくれている 日英対訳文対応づけデータ (JETAD) の作品の日本語部分へ UniDic (v1.3.9) の
A. 品詞タグ (Part-of-Speech tag= POS tag) を付与 [解析エンジンは MeCab] したデータ [Download] と
B. その元になった文章を文単位で区切ったデータ [Download]
- 内山将夫さんが提供してくれている 日英新聞記事対応づけデータ (JENAAD) の p11-1989-2001.txt (150,000文) と pnm-1989-2001.txt (45,000文) の日本語部分へ UniDic (v1.3.8) の品詞タグを付与 [解析エンジンは MeCab] したデータです [Download]
|
ツール
|
私はツールの開発に関しては素人ですけれど,作例や Pattern Matching Analysis (PMA) や MSFA (Lite) の作業効率を上げるための支援ツールを作りました.よかったら使ってみて下さい.バグ報告や要望は遠慮なくどうぞ (コードはかなりいい加減なので,改良のために手伝ってくれる人がいたら,大歓迎です).
なお,VBA (Visual Basic for Application) で書かれたマクロは Excel シートの一部になっています.シートを開く時にマクロを有効にするか尋ねられるので,「マクロを有効にする」を選択して下さい (環境によっては,マクロ動作条件の設定を変更する必要があるかも知れません).シートを開かれている間は,他のシートからも“ツール”の“マクロ”メニューから呼び出して使えます.ただし,VBA マクロで書かれたツールの利用によるウィルス感染リスク増大に関しては,残念ながら私には責任は負えませんので,その辺は気をつけて下さい).
- (容認度の低い例の) 作例支援マクロ (exgen-macros) [VBA macro]
■ 簡易Documentation はシートの一枚目にあります,例題が幾つか付属していますが,それとは別に 解説書 [PDF] も用意しました.
■ exgen-macros の 実例集 [Excel workbook] を用意しました (ただし,このワークブック単体では動作しません.exgen-macros マクロ集本体 [VBA macro] を入手し,それを開いていることが使用の条件です).sample1a を見て頂ければわかると思いますが,このマクロは生成文法流の派生もシミュレートできます.
- Pattern Matching Analysis (PMA) の支援マクロ [VBA macro]
■ Documentation はシートの一枚目にあります.
- MSFA のタグづけ支援マクロ [VBA macro]
■ Documentation はまだありません.
- MSFA Lite のフレームごとに文を生成するマクロ [VBA macro]
■ 詳細な Documentation はまだありませんが,簡単な 解説書 [PDF] を用意しました.
- 内山さんの 日英新聞記事対応付けデータ (JENAAD) の p11-1989-2001.txt (EUC-JP), pnm-1989-2001.txt (EUC-JP) で KWIC 検索をするツール [Python script]
■ Documentation はまだありません).これを使うにはUNIXのコマンドライン処理に関する知識が必要です.
|
|