|
緊急度/重要度の高い情報
-
私は何人かの共同研究者と一緒に日本語容認度評定データ (Acceptability Rating Data of Japanese: ARDJ) を構築します.そのための予備調査を実施しています.ご協力下さい.
- 黒田は何とか2012年度から東京の大学で英語の講師を務めることになりました.気にかけて下さった皆さま,ありがとうございました.
- 言語(科)学の修士/博士論文のemailベースの指導の引受けの開始: 私は2003年に留学から戻って来て以来,京都大学山梨研究室の院生の指導を非公式に続けて来ました(ボランティアですから,無給です).このようにネット技術が発達した世の中ですから,そういう活動の範囲を広げることも可能じゃないかと気づきました.そういうわけで,emailベースで言語(科)学の修士論文や博士論文の指導をします.希望する方は私に直接連絡を下さい.なお,私の名前を指導教員として出す必要はありません.現行制度で許される範囲内で可能なものよりも優れた論文を書きたいと望むのであれば,それだけで十分です.
- 9月末にサーバーが侵入攻撃を受け,このページはしばらく利用不能になっていましたが,10/11に復活しました.金丸敏幸くんの尽力に感謝.
■ 研究分野
|
(1) 次の分野の言語の認知科学; (i) 統語形態論, (ii) 意味論 (いずれも認知・非認知共に), (iii) コネクショニスト模型を軸にした言語習得論,用法論, (iv) (動物行動学的/ゲーム理論に基づく) 語用論, (v) 用法基盤の音韻論
(2) コーパス言語学を中心とした応用言語学
(3) 理工系の学生向けの英語教育
|
■ 勤務先
|
- 京都大学の非常勤英語講師 (2011年度)
- 早稲田大学 総合研究機構 情報教育研究所 招聘研究員 (2011年度)/客員研究員 (2010年度)
- 京都工芸繊維大学の非常勤英語講師 (2010, 2011年度)
- 元独立行政法人 情報通信研究機構 (NICT) けいはんな研究所 [旧通信総合研究所 CRL けいはんな情報通信融合センター] (短時間研究員)
- 元京都市立芸術大学の英語非常勤講師(2005年度)
- 元京都外国語短期大学の非常勤英語講師(2003年度-2005年度)
|
■ E-mail
|
k o w k < a t > h i < d o t > h < d o t > k y o t o - u < d o t > a c < d o t > j p (スペースを詰め,カギカッコ内の語を一文字に変換したものが私のアドレスです)
|
|
■ 論文
|
公式論文,著作は このページ にあります.
|
|
■ 学会報告
|
学会発表,研究会発表は このページ にあります.
|
|
■ その他
|
その他の(非公式論文,エッセイ,危険文書など)は このページ にあります.
|
|
■ データとツール
|
データやツールは このページ にあります.
|
|
■ 推薦書
|
推薦する本,論文などを このページ に示します.
|
|
■ お知らせ
|
お知らせは このページ.
|
|
■ お写真とお絵書き
|
お写真とお絵書きを このページ に示します [お写真は外部サイトへのリンク].
|
|
■ リンク
|
Twitter の #anpi タグから東日本大震災の安否情報を集約するプロジェクト ANPI NLP.こういうボランティア活動には本当に頭が下ります.それと同時に,こういう有益な活動に言語学をやっている人間がほとんど貢献できていないことを,ものすごく悲しく思います.言語学をやっている連中は,頭でっかちで些細な点では「あーだ」「こーだ」とうるさいくせに,イザとなるとまったく手が動かない (先日の言語処理学会で私が座長を勤めたセッションで興醒めの一幕がありました).まあ,それを何とかして行くのが私の仕事だと思っていますが.
松本曜先生(神戸大学)の言語学における修士論文・博士論文執筆の手引き
このページに書いてあることは,言語学で研究を始めようと考えている人には必見です.
著作権保護期間の延長を行なわないよう求める請願書名
私は著作権の保護期間を50年から70年へ延長する著作権法の改正に反対し,この署名活動を支持します.理由は至って簡単です.保護期間の延長には,百害あって一利なしと考えるからです.創作を行なった当人の利益を保護するならともかく,いったいなーんで非本人の利益を保証せなアカンのですかねぇ? そりゃー明らかに過保護ってモンじゃないでしょうか? (著作権を世襲制にしろ? 寝ぼけたコト言ってんじゃないですよ.ホントに自分の子孫に幸福を望む人は,そんな荒唐無稽なコトは言わないハズですよ).私が困ったモンだと思うのは,いわゆる創作家には,自分を特別な人間だと勘違いし,そのように扱われるコトを要求する「勘違い野郎」が少なくないということです.ただし,これは本人ばかりが悪いワケではなく,半分は回りの連中の責任でもあります.それは,回りの連中が創作家を必要以上にチヤホヤしたり,ありがたがるから起こることだからです (何事につけ,超越的な存在に対する崇拝は良い結果を生みません).
UPDATE 2011/01/10 ジョン・マクミラン (John McMillan): 『市場を創る: バザールからネット取引きまで』(NTT出版) の第9章「特許という困惑」に,著作権の過保護が望ましくない理由を説得的に説明した箇所があります.興味のある方は参照されるとよいかと.関連箇所を少しだけ引用します:
- 知的財産に関する無条件の主張は,ほとんど成立することがない.大事なことは正しいバランスを見つけることである.特許の付与を判断する法的な規準 ---発明が新規かつ有用で自明でないものであること--- に対して,経済学者は更なる規準を加える.特許を与える便益が費用を上回るべきであるという規準である.[ibid., p. 153]
われわれは,知的財産保護がなくてもイノベーションは行われてきたのだろうかと問うべきである.もしその答えがイエスならば,知的財財産保護の便益は存在せず,費用便益の規準から見て,その保護は是認されない.
1998年,そのような状況が生じた.[合衆国]議会は,著作権の期間を著作社の死後50年から死後70年に延長した.したがって,本がパブリック・ドメインに入るのに20年加えられたことになる.これによって本の購入者は損害を受ける.本の価格は,著作権がない状態よりも高くなる.出版社は,印税を著者の相続人に支払い続ける義務を負うし,同じ本について他の出版社との競争がないからである.[...] このような著作権の延長の欠点に対して,それに対抗する便益は何もない.著作者たちが,自分の死後50年経ったときの収益の見こみに,創作の動機を見出すのはほとんどありえないことである.[ibid., p. 154] ワイン色は引用者による強調
こういう議論を冷静に受入れられない人と話し合いをするのは難しいですね(苦).
Elizabeth Bates Memorial Page
Liz Bates は私が Center for Research in Language (CRL), UCSD に留学していた時の CRLの所長です.2003年の暮れに彼女は膵臓ガンでなくなりました.ガンだとわかったのは私が留学を終えて帰国する直前でした.彼女の思い出を綴ったエッセイの「偉大な女性 Elizabeth Bates の思い出」もあります.彼女には本当にお世話になりました.今の私があるのは彼女のおかげです.
|
|
■ データ
|
F. Bond さんが構築した WordNet-Ja/日本語 WordNet が言語処理学会の15回年次大会で公開されました.これは長い間不在であった日本語のフリーの大規模シソーラスです.まだ完全とは言えませんが,改善によってこれからどんどんよくなってゆくと思います.どんどん使って,どんどんフィードバックをして,育てて行きましょう.本家の (Princeton) WordNet だって,10年かかって今の規模と完成度になったのです (まあ,今だに動詞関係はあまり強いとは言えませんが).
- 因みにWordNet-Jaの弱点である動詞の記述を竹内孔一さんの 動詞項構造シソーラス とリンクして強化する計画もあります.これで今の版にない格パターンの情報が利用できるようになります.
- 本家の WordNet は Magical Number Plus Minus 2 で有名な George Miller (Princeton University) がリーダーになって開発した英語のシソーラス+alphaです.オンラインでの使用のほか,単独のプログラムとして使用できます.
- WordNet は Roger's Thesaurus などの単なるシソーラス(類義語辞典)類と異なり,語意の関係の理論 (hyponymy, meronymy, etc) に基づいて,厳密に,体系的に作成されています(もちろん,このことは「万能」だということは意味しません.FrameNet が存在するのも,部分的には WordNet が不完全だからです(笑)).そのことは この (ちょっと高い) 本 に紹介されています(以前は Five Papers on WordNet と呼びならわされる基本論文がオンライン論文が入手できたのですが,そのサービスはとりやめになった模様です).
- いわゆる「認知」系の研究者は,このような「ハードな研究」の成果を避ける傾向がありますが,私にはその理由がサッパリ理解できません.「オントロジーのルートが Entity になっていない.Langacker の枠組みより統一的じゃない!」とか騒ぐ人がいますが,「だから何だっ?」て聞きたいです.そういう見かけだけの統一性,あるいは「ユニフィケーション」にどれぐらいの内実があるんでしょうか??? そういう「空虚な一般化」はさっさと止めましょう.時間のムダです.ほかにすることがないほどヒマなら構いませんが,忙しい人々の邪魔をしないで欲しいです.
- 何にせよ,使える道具は,どこの誰が作ったかに関係なく使えるし,使えない道具は,どこの誰が作ったかに関係なく使えません (限界を知りつつつかうコトは不可欠ですが).こういうすぐれた資源があるのに,使わないのはもったいないです.「すぐれた研究資源は,どこの誰が作ったものだろうと,使うのが当たり前だ」と思うくらいじゃないと,研究者としては意識が低いと私は思います.ブランド指向は止めましょう.自分の価値を下げるだけです.「メタファーだ,メトニミーだ」と騒ぐ前に(確かに,これらは重要ですが),こういう研究があることもちゃんと知っておいた方がいいです.「認知系ではないから,関係ない」と言うのは了見が狭すぎます.(あなたが「まっとうな科学者」である限り),WFDT とか FCG Vols.1,2 とか (s/n比の低い本) を (苦痛を感じながら) 読み解くより,このような本からの方がよっぽど多くのことが学べます.
- WordNet は ヨーロッパ各国語,中国語を始めとして,多国語化が進んでいますが,日本語版はありませんでした.日本語の WordNet のニッチにある日本語の言語資源は:
■ NTT日本語語彙大系
■ IPAL 辞書
■ EDR
などでしょうが,IPAL辞書以外は無償ではありませんし,ちょっとほかのとは性質がちがいます.EDRなんかは,規模が大きいだけに高価です.
- EuroWordNet は Princeton の WordNet の欧米語版 (Dutch, Italian, Spanish, German, French, Czech, Estonian) で,完全互換です.
■ PyWN と PyWordNet は WordNet への Python インターフェイスです.ほかにも Perl 用,Java 用とかも当然あります.
英語動詞の LCS データベース は Bonnie Dorr による英語動詞の Lexical Conceptual Structure のデータベースです.あまりに有名な Beth Levin の仕事を拡張しています.このページにある "Introduction to Lexical Conceptual Structure" は非常に平易で読みやすい LCS への入門.
■ 日本語動詞の LCS データベースは,竹内孔一(岡山大学)さんが上の Bonnie Dorr の仕事に啓発されて開始した日本語動詞の LCS データベースです.現在開発中.
- こういう研究成果を見て個人的に思うのは,こういう「地道な成果」に結びつかないうちは,認知言語学もまだまだ本物とは言いがたいということです.空虚な「説明ゲーム」に明け暮れてないで,もっと内実のある仕事をしましょう.
Martha Palmer の VerbNet: A Clase-based Verb Lexicon
上の LCS Database 同様,Beth Levin の動詞分類を基につつ,それを洗練させた英語動詞のデータベース.動詞に弱い WordNet の弱点を補うために開発されたらしい.著者によると,
Levin classes, although a valuable starting point for VerbNet, do not currently provide information that is complete enough or precise enough to inform lexical entries or to serve as a clustering Gold Standard. Both Levin classes and WordNet have limitations that impede their utility as general classification schemes. We have developed a refinement of Levin classes, intersective Levin classes, which are more fine-grained and which exhibit more coherent sets of syntactic frames and associated semantic components [Palmer et al 97]. Certain syntactic frames indicate the adjunction of prepositional phrases or adverbs that provide a regular extension of meaning to the core sense of many verbs.
上の Bonnie Dorr のデータベースと較べて見て下さい.それにしても Penn の人たちはイイ仕事をする.
奈良先端技術大学の 松本研究室 によって作成された 国内外の言語資料のページ
元東大,現京大の黒橋研究室の調査による研究支援サイト 日本の言語資源・ツールのカタログ は.対象を国内の資源,道具に限っている分,雑多な情報がよくまとまっていて重宝します.
JEITA 言語処理技術専門委員会による 言語イニシアティヴ調査 には言語資源に関する情報が満載です.
内山将夫さんが公開している 日英新聞記事対応づけデータ (JENAAD) と,その簡単な 説明 です.無償で利用可能ですが,使用承諾を取る必要があります(といっても同意書を送るだけです).まずは内山さんにメールを出して下さい.
内山将夫さんが公開している 日英対訳文対応づけデータ です.一部の文章に MSFA を使った意味役割タグづけが行われ,結果が FOCAL Hiki で公開されています.今はまだ小規模ですが,徐々に大きくしてゆくつもりです.因みに常時タグづけ参加者募集中.
UPDATE (2009/03) 内山さんが文系研究者が「コーパス利用の壁」を乗り越えるのを手助けするため,Web ページ形式で日英対訳コーパスの検索ができるように検索システムを開発し,公開して下さいましたが,諸々の事情により 2009/03に閉鎖されました.残念なことです.
|
■ データ加工
|
Python Resources for Linguists New to Programming:
言語学者に有益な Python という Object指向(スクリプト) 言語関係の情報.ただし基本的に英語の解析のためのものです.日本語データ処理と言えば Perl か Ruby なんでしょうけど,マイナー好みの私は断然 Python です(笑).
- Python Programming Language
■ Windows 環境で仕事をしている人には Shift-JIS コードに対応した日本語版 Python がここで配布されています.
- あなたが(私と同じ) Mac OS X ユーザなら Python をインストールする場合のイチバンのお勧めは Fink を使ってインストールする方法です(ただし,GUI が欲しい人には,X11が使える環境になっていることが好ましいです).いちおう AQUA 用の もありますけど,自力でパッケージをインストールしたりする場合,ちょっとばっかり知識 (例えば binary への path とか)が必要となります.
Peter Norvig による目から鱗的な Python Infrequently Answered Questions (IAQ) は初心者にも非常にためになります.
Python Scripting for Computational Sciences なる本も出ました.以前から Python は NASA や Los Alamos 研究所で使われたりして,数値解析の世界では愛好者が多かったので,納得はゆきます.
Natural Language Toolkit:
これは Python で書かれた言語データ加工ツール群です.Python は日本語ではあまり知られてませんが,初心者に優しいだけでなく,表現力もあり,そのうえ Cross-platform でもある素晴らしい言語だと私は思います(と言っても私の知っているほかのプログラミング言語は,Perl と TeX のマクロぐらいなんですがね(笑)).
- このキットには何とも嬉しいことに Brown コーパスのデータも一緒についてきます!! (日本語の分析でも「こういうことが当たり前になる日」が来て欲しいですね).
- 私は過去に一度(確か院生一年か二年生のとき),Perl を勉強しようとして挫折しましたが,CRL, UCSD への留学中,Simple Recurrent Network (SRN) シミュレーションに必要な訓練コーパスの作成のために,必要に迫られて勉強し始めた Python では自分のやりたいことがデキる程度にまでやり遂げられました (もちろん,それなりに苦痛は感じましたが (笑))
- さて,このパッケージは制約基盤音韻論 Constraint-based Phonology/宣言音韻論 Declarative Phonology で有名な Steven Bird の監督下で University of Pennsylvania の Edward Loper という LDC のスタッフが開発しているようです.
- UPDATE 2009年にNatural Language Processing with Pythonという本も出ました.英語ですが,内容は平易です.この本を読むだけで日本語言語処理ができるようにはならないのですが,とりあえず英語の言語処理で十分という人にはお勧めできます.
- そうそう「Python なんて知らんが,すでに Java は知ってるぞっ」て人のためには Jython ちゅうのもあります.これは JVM 上で走る Python で Python コード内部から Java Class Libraries が使えるというのがウリらしいです (Jython は只今勉強中...).最新版は 2.5 です.
- 今では Jython プログラミング (西尾泰和)なる本も出ています.日本語で Python/Jython を使うための環境はどんどんよくなっていますね.私が 2001年に最初に Python に出合った時とは隔世の感があります.
- (日本語の)言語学者にコーパスを利用した研究がなかなか浸透しない理由はいろいろあると思うのですが,そのような理由の一つに「プログラミングの壁」のようなものがあるのではないか,と私は睨んでいます.実際,コーパスのデータを相手にちょっと複雑なことをしようとすると,その途端に既成のツールが無益であることが発覚し,たいていはプログラミングを勉強して自分で必要が生じるんですが,その目的のために選ばれる言語 No.1 の Perl が実はそれほど習得の楽な言語ではない!!
- もちろん,C++ とか Java に比べたら,ずっと Perl の習得は楽ですよ.しかし,それでも Perl の syntax 複雑さ (あるいは "There're always more than one way to do it!" という開発の哲学の「暗黒面」である,見通しの悪さ)は,(ただでさえ忍耐力の足りない)言語学者の多くがガマンできる許容範囲を越えているのかも,と思います(もちろん,言語学者の多くはプログラミングのような技能の習得に関して適性が高いとは思いませんが(笑)).
- しかし,だとすると,なおのこと「簡単で強力な」プログラミング言語があるのと,ないのとでは,大きく結果が異なるワケです.上で紹介した NLTK の開発もそういう「啓蒙的な動機」があったんじゃないか,と私は睨んでます.
- ただ,日本語言語処理のために Python を普及させるとなれば,まず処理環境を整えるための活動を興す必要があるんだろうなあ... やりたいけど暇もお金もないのが実情(苦)
- UPDATE 2010年の暮れに前掲書 Natural Language Processing with Python の邦訳として入門自然言語処理が出ました.題名からPythonへの言及が消えているのは奇妙な気がしますが,訳と内容はすばらしいです.というわけで,上の述べたPythonの日本での普及の必要性の問題は自然に解消しつつあります.
Stuart Russel and Peter Norvig の(デキがいいのでも,ぼったくりな値段設定でも)有名な AI の教科書 Artificial Intelligence: A Modern Approach (日本語版) の Python Code が ここ で入手できます.こりゃスゴい!
■ 元祖 Lisp 版は ここ です.
■ L. Holder による Prolog Code は ここ,C++ Code は ここ です.
■ 残念ながら Java 版はありません.Java は AI 関係者には人気がないようです(笑)
|
|
|