OPIを利用したコーパス

1.KYコーパス
2.国立国語研究所プロジェクト『日本語学習者会話データベース(横断調査編)
3.国立国語研究所プロジェクト 『日本語学習者会話データベース(縦断調査編)
4.インタビュー形式による日本語会話データベース(上村コーパス)

KYコーパス1.KYコーパスとは何か

 KYコーパスとは、90人分のOPIテープを文字化した言語資料である。90人の被験者を母語別に見ると、中国語、英語、韓国語がそれぞれ30人ずつであり、さらに、その30人のOPIの判定結果別の内訳は、それぞれ、初級5人、中級10人、上級10人、超級5人ずつとなっている。

 90人分の文字化資料には、たとえば「ENM02」といったような、「3つのローマ字+2桁の数字」という番号がついており、これによって、その被験者の母語とOPIにおける言語能力の判定結果がわかるようになっている。

 1つめのローマ字は、その被験者の母語を表している。中国語ならC、英語ならE、韓国語ならKである。そして、2つめのローマ字は、旧ガイドラインによるOPIの判定結果を表している。初級(Novice)ならN、中級(Intermediate)ならI、上級 (Advanced)ならA、超級(Superior)ならSである。3つめのローマ字はサブレベルを表しており、「-下(low)」ならL、「-中(mid)」ならM、「-上(high)」ならHである。したがって、サブレベルのない「上級」と「超級」だけは、「3つのローマ字+2桁の数字」ではなく、「2つのローマ字+2桁の数字」になる。最後の「2桁の数字」は、同じ母語で同じレベルのものの中での通し番号である。

 KYコーパスの作成にあたり、新たにOPIを行なうということはしなかった。すでに資格を取得しているテスターに呼びかけ、手持ちのテープを提出していただき、そのテープの文字化を行なった。提出していただくテープの条件としては、テスターの資格を取得してからインタビューを行なったもの、テスターの資格を取得する際の練習用テープの中でトレーナーと判定が一致したもの、のいずれかとした。

 90本という、かなり多くのテープを集めたため、それぞれのすべてが、非のうちどころのないOPIインタビューであるというわけではない。インタビューの行ない方が稚拙なものもあれば、また、判定結果の信頼性にやや疑問が持たれるようなものも、若干はある。また、文字化方法の統一に関しても、かなり気を配ったつもりであるが、不統一な部分も、ところどころに見られるようである。

 したがって、今後も、KYコーパスの改訂作業を行なっていく予定である。現在、一般に公開しているものが「KYコーパス version 1.0」である。文字化表記方法の統一などの小さな改訂の場合には、versionの数字そのものは変えず、小数点以下の数字のみ変更していき、テープの差し替えなどの大きな改定の場合には、versionの数字そのものを変更していくことにしている。

 また、KYコーパスのKとYには、特に意味はない。コーパス作成の担当者となった鎌田(Kamada)と山内(Yamauchi)の頭文字である。

2.KYコーパスを研究に利用することの利点
  KYコーパスは、平成8年度から平成10年度にかけて行なわれた科研プロジェクト「第2言語としての日本語の習得に関する総合研究」の成果の一部である。そして、この科研プロジェクトと同名の報告書の中には、KYコーパスを用いた9本の論文が掲載されている。

 外国人学習者の発話資料を元にした言語コーパスは他にもあるだろうが、OPIのインタビューそのものをデータにしたKYコーパスの使いやすさを、この研究を進めながら、強く感じたので、KYコーパスの良さ、つまり、OPIのデータを言語コーパスとして用いることの良さを、3点、述べたいと思う。

 まず第一は、各被験者の、proficiencyによる能力レベルが明示されているということである。普通、第2言語習得研究を横断的に行なう場合には、各被験者の能力レベルの基準として、学習歴や在日歴、あるいは、その学習者が現在どのクラスで学習を行なっているのか、といったような基準が用いられることが多いが、しかし、学習歴や在日歴が、真にその学習者の能力を表しているとは限らない。OPIのテスターにとっては、各被験者のデータに「初級-上」「中級-中」などの能力判定が張り付いていることは、きわめて当たり前のことであるが、第2言語習得研究を行なう際には、 非常に役立つことである。私自身の研究においては、KYコーパスの「初級-上」のものを7つ、「中級-下」のものを9つ、分析対象として選んだ。

 第二は、データ採取の手法が標準化されており、インタビューの構成がしっかりしているため、データ同士の比較が容易であるという点である。たとえば、「中級-下」のインタビューにおいては、概ね《導入部→中級のレベルチェック→上級の突き上げ→終結部》という構成に、そして、「初級-上」のインタビューにおいては、これらの中から「上級の突き上げ」が抜け落ち、概ね《導入部→中級のレベルチェック→上級の突き上げ→終結部》という構成になっている。そこで、両者のデータの「中級のレベルチェック」の部分に着目すれば、とりあえずは公正な比較ができ、分析も容易であろう。実際に、私自身の研究においても、「中級のレベルチェック」の部分に着目して、比較・分析を行なった。

 第三は、発話単位の認定が比較的容易であるということである。OPIのインタビューは、基本的には「質問 → 応答」の繰り返しであり、そのため、被験者の「応答」の部分がまとまった形で現れやすく、分析の際には、それを一発話単位として考えればいいわけである。発話単位の認定がしやすいということは、どのような発話がいくつあったのかを数えることが容易であるということであり、データを定量化していく時には非常に便利である。

 以上の3点をまとめると、次のようになる。

(1) 各被験者の、proficiencyによる能力レベルが明示されている。
(2) インタビューの構成がしっかりしているため、データ同士の比較が容易である。
(3) 発話単位の認定が比較的容易であり、数量化・定量化を行ないやすい。
  しかし、これら3つの長所は、ひとえに、OPI自体の質の良さにかかっているとも言える。Ratingが間違っているもの、インタビューの構成がしっかりしていないもの、質問の意図が明確でなく、ダラダラと話してしまっているものなどは、OPIとしてふさわしくないばかりでなく、言語コーパスを構成する発話データとしてもふさわしくないのである。
(山内 博之)
* * * * * * * * * * * * * * * * * * * * * * * *
KYコーパスは誰でも利用可能なので、興味のある方は山内博之氏(実践女子大)の以下のアドレスにEメールで連絡 してみて下さい。

yamauchi-hiroyuki(a)jissen.ac.jp(なお、(a)は@に直してください。)
品詞や意味分類のタグを付与した「タグ付き KY コーパス」も公開されています。
http://jhlee.sakura.ne.jp/kyc/corpus/ 
国立国語研究所プロジェクト『日本語学習者会話データベース(横断調査編)』
会話の文字化データ339件とその音声データ215件が公開されており、学習者の日本語レベル、年齢、性別、出身国、母語、職業、日本語滞在期間等からデータの検索ができます。
データベース概要|日本語学習者会話データベース (ninjal.ac.jp)
https://mmsrv.ninjal.ac.jp/kaiwa/DB-summary.html
国立国語研究所プロジェクト 『日本語学習者会話データベース(縦断調査編)』
日本の各地域に定住する外国人日本語学習者の縦断調査による会話データ(1年目25名~5年目12名)が収集されています。
https://mmsrv.ninjal.ac.jp/judan_db/
インタビュー形式による日本語会話データベース(上村コーパス)
CD-ROM「インタビュー形式による日本語会話データベース」(1998)
『じんもんこんDATABASE Vol.1』、重点領域『人文科学とコンピュータ」総括班
上村隆一(編集責任者)
 OPIテスターが日本語母語話者(54人)、非母語話者(56人)計120人に行った15分の日本語OPIの文字化テキストを収録したものです。
* * * * * * * * * * * * * * * * * * * * * * * *
「日本語会話データベースの構築と談話分析プロジェクトの紹介」 村野 良子

1.プロジェクトの概要
 この研究プロジェクトは日本語母語話者(以下NS)と非母語話者(以下NNS)の発話のパターンの比較分析と日本語教育向けの基礎資料となる日本語会話コーパス構築を目的とするものである。1991年度から準備研究を始め、1995年度以降は文部省科学研究費助成(重点領域研究「人文科学とコンピュータ」公募研究)を受けてコーパス作成を行っている。

 データの収録は日本国内およびアメリカ、被験者はNSは大学生、大学教職員、日本語教師、主婦、会社員など、NNSは留学生、就学生、大学教員、会社員などである。年令層は10代から60代まで、NNSの言語背景は韓国語、中国語、英語、その他10数言語の母語話者に及ぶ。

 研究チームメンバーは代表者:上村隆一(福岡工業大学)、田吹昌俊(九州工業大学)根津真知子(国際基督教大学)、村野良子(国際基督教大学)、横田将生(福岡工業大学)である。
 
2.会話コーパスの形式と内容
 会話コーパスの形式は、インタビュアーによる個人インタビューである。時間はおよそ15分(初年度およびアメリカでの実験データは30分)で、会話モードとロールプレイモードの両方からなる。インタビューの形式はACTFLのOPIにそったものであるが、ACTFLのOPIが会話能力の判定を目的としているのに対して、会話コーパスのプロジェクトは発話のサンプルを多く採集することが目的である。そのため、ACTFLのOPIにおける言語的挫折を含むレベルチェックは行われない。
3.データの公開 (現在は公開されていません。)
 研究プロジェクトの内容は音声データ(Real Audio3.0形式)とともにインターネットのWWWサーバ上で一部を公開している。音声データを聞くためには、Real AudioPlayer 2.0が必要である。NS/NNS100名の音声データと書き起こしたテキスト、および全文検索ソフトウェアを一枚のCD-ROMに収録したものが公開頒布された。      
 プロジェクトの詳細については(上村隆一(1997)「データベースで調べる」『日本語学』11、明治書院、60-68.)に紹介がある。