「小中高大生による日本語絵描写ストーリーライティングコーパス」
Japanese Students’ L1 Story Writing Corpus (JASWRIC)
開発者 神戸大学石川慎一郎研究室
Project Leader: Dr. Shin'ichiro Ishikawa, Kobe University, Japan (iskwshin@gmail.com)


Last updated 2023/3/13

New!
  形態素解析エラーを手作業で修正したV1.1を公開しました(2/23/3/1公開、3/13微細なエラー修正)。

→ JASWRICをダウンロードして使用する →  詳細
→ JASWRICをオンラインで検索する → 詳細
→ JASWRICについて詳しく知る → 詳細





JASWRICとは?

    
2種類の連続イラスト(「鍵」:4枚、「ピクニック」5枚)に基づき、日本の小学生・中学生・高校生・大学生、合計700名が書いた作文を集めたものです。作文数は1,400件、総語数は約13万6千語です。2022年8月現在、一般公開されているものとしては、最大級の日本語母語話者児童・生徒による作文コーパスとなります。
 JASWRICは、神戸大学石川慎一郎研究室が企画・構築・公開しました(初版V1.0公開:2022/8/29;V1.1公開:2023/3/1)。



JASWRICの特徴
 JASWRICは、以下の主要特徴を持ちます。

(1) 公開コーパスであること
 母語話者の児童・生徒の作文を収集したコーパスは過去にも作られてきましたが、一般公開されているものはほとんどありません。JASWRICは、データの全体が公開(ダウンロード版・オンライン版)されているため、分析内容を第3者が自由に検証できます。これにより、一般科学におけるデータ公開に関するFAIR原則(Wilkinson et al. , 2016) ―研究データは、見つけられる(findable),アクセスできる(accessible), 別システムでも相互運用できる(interoperable), 再利用できる(reusable)ものでなければならない―
と、コーパス研究の価値の基盤となる「再現性(replicability)」「全体説明性(total accountability)」「反駁可能性(falsifiability)」(McEnery & Hardie, 2012, pp. 14-16)が担保されています。


(2) 比較研究に適したイラスト描写型のタスクであること
 何らかのテーマを与えて(あるいはテーマを与えずに)行わせる自由作文は、コーパス資料としてみた場合、幅広い語彙や文法項目の使用を引き出せるというメリットがありますが、一方で、個々の作文が異なる内容を持つため、比較研究に使用しにくいというデメリットが生じます。たとえば、「犬」というテーマを与えた場合、(a)犬と猫の特性を比較した作文、(b)自分の飼い犬を紹介した作文、(c)むかし犬にかまれてけがをした経験を書いた作文、では、語彙だけでなく、時制や文法項目も変わってくるでしょう。この場合、たとえば、学年間比較をしても、得られた差異が学年に起因するものなのか、内容に起因するものなのかの切り分けは非常に困難になります。
 これに対し、イラスト描写型タスクでは、元となるイラストが共通化されているため、個々人が産出する内容のぶれは(ゼロではないにしても)大幅に抑えられます。これにより、使用される語彙や文法項目が制約されるというデメリットはありますが、比較研究の資料としては格段に扱いやすくなります。JASWRICは、石川研究室で過去に開発してきたそのほかのコーパス(英語学習者コーパスICNALE、日本語時代別小説コーパスJFICなど)と同じく、比較研究・対照研究の精緻化を主目的として設計されました。
 JASWRICでは、日本語学習者1,000名の発話・作文を集めた世界最大の日本語学習者コーパス「多言語母語の日本語学習者横断コーパス」(I-JAS)で使用されたものと、まったく同じイラストを許諾を得て使用しています(※プロンプトの著作権は、I-JAS開発者に帰属します)。



(3) 素書きおこしテキストと、校閲済みテキストの両方が使用できること
 低学年児童の作文は、ほぼすべてが平仮名で記載されています。本来、カタカナや漢字で書くべき箇所も平仮名になっているため、元のままでは、形態素解析(自動処理で、地の文を、個々の単語要素(≒形態素)に切り分けること:(例)犬がいました → 犬|が|いま(>いる)|し(>する)|た)の精度が大幅に低下します。そこで、JASWRICでは、児童・生徒が書いたままの作文(素書きおこしテキスト)と、研究室が編集(平仮名の漢字化・カタカナ化・一部のエラー修正・語と語の切れ目へのスペース挿入など)を加えた校閲済みテキストを用意しています。漢字使用や誤字の研究には前者のデータが、語彙研究や品詞研究には後者のデータが適しています。


(4) 児童・生徒が書いた手書きを確認できること
 JASWRICの700名の参加者のうち、小中高生参加者647名は、すべて、手書きで作文を行いました。これらについては、書きおこしテキストに加え、元の手書きのスキャン画像(jpg)も提供しています。こうした画像データを活用することで、低学年児童の文字の獲得(たとえば、「を」などの複雑な字形の文字をどのような過程で適切に書けるようになっていくか)なども研究対象とすることができます。また、書きおこし時のエラーの有無を研究者自身が確認し、問題があれば修正して分析を進めることができます。下記は、小学校1年生の児童による「鍵」作文の手書きスキャン画像です(G01_Key_001)。
  

(5) 日本語学習者データと連携分析ができること
 前述のように、JASWRIC では、「多言語母語の日本語学習者横断コーパス」(I-JAS)で使用されたイラストを使ってデータを集めています。これにより、JASWRICのデータは、I-JASのストーリーライティング課題(SW)のデータと直接比較が可能です。L1の発達過程とL2の習得過程を統合分析するという、これまでにないL1/L2研究の可能性が広がります。



JASWRICの参加者
 JASWRICには、小中高大生700名が参加しています。内訳は下記のとおりです。

学年 人数 作文数 学年 人数 作文数
小1  37  74 中2  112  224
小2  43  86 中3  45  90
小3  35  70 高1  90  180
小4  27  54 高2  86  172
小5  58  116 高3  30  60
小6  62  124 大1  53  106
中1  22  44 Total  700  1,400



JASWRIC作文のサンプル
 下記は、「鍵」のイラスト(※上記参照)にもとづく作文のサンプルです。学年進行により、母語話者の児童・生徒・学生の書く作文がどのように段階的に変化していくかがわかります。

(1) ケンは、かぎがないので、ちゃいむをならしましたが、マリは、でてくれませんでた。マリは、ねているので、きこえませんでした。ケンは、きんじょから、はしごをもってきてしまいました。けいさつの、さいれんに、マリは、おきてケンの、ほうをみたら、ケンが、マリのほうをゆびさして、びっくりしました。(小1、G01_001)

(2) マリはよるの12じだからぐっすりねむりについていました。だからはしごでまどからはいろうとしたらけいかんがきてケンをちゅういしてケンがおえりてきてじじょうをはなしたらマリがおきてけいかんがなっとくしておわり。(小3、G03_001)

(3) 家のチャイムをならしてもだれも出てきません。「2階でねているのか」と思ってマリをいくら呼んでも聞こえていません。しかたなくケンは庭のはしごを使って家のカーテンが開いている窓をたたこうとしました。「あともう少し」というところで警官にあやしまれ、事情聴取されました。わけを話すと警官も分かってくれたらしく、その声が2階にも聞こえたらしくマリが気づいてくれました。(小5、G05_001)

(4) ケンは言いました。「どうしよう。今日はマリちゃんと今後について話し合う予定なのに…」そこでケンは大声でさけんでマリに気づいてもらおうとしました。しかしぐっすりねてしまっているマリには届きません。そして考えあぐねた結果、自分のカバンからはしごを取り出しました。そうこのやけに小さなカバンはまほうのカバンだったのです。そしてそのはしごをやねにかけ、登ろうとしたその時、「何してるんですか」と声をかけられました。ふりむくとそこには警官が。「あやしいものではないんです、ただ鍵を…」とケンは説明しましたが、警官は、「分かっています。ただ私の話を聞いて下さい。あなたが結婚しようとしている「マリ」こと佐藤魔利は、結婚さぎ師です。佐藤に新たなカモができたと分かったので調査していました、あなたのことです。」「ええっ!?」「あのマリちゃんが?」「はい。今後について話しあうと言って金をまき上げる、彼女のさぎの方法です。」「そうだったのか…ありがとうございます。今日鍵を忘れていたおかげで金を取られずに済みました…ありがとうございました、」「あのマリがさぎ師だったなんて…」二人がほほえみあった時、窓が開き、マリが「何してるのケンちゃん、おそかったわね。明日のピクニック、用意してるわよ。」「では明後日にもう一度うかがいます」と言い残し、警官は去って行きました。(中1, G07_001)

(5) マリに声をかけたが、マリはねていたので反応がありませんでした。しかたなく、はしごを使ってあいている二階のまどから中に入ろうとしましたが、警官が勘違いして、呼び止められました。その後警官と和解し、その音でマリも起きてしまいました!(中3,G09_001)

(6) 家の二階にいるマリに助けを求めますが、寝ているため、返事がありません。そこでケンが、はしごを使い、二階のマリに気づいてもらおうとしたところ、不審に思った警官にとがめられました。ケンが事情を説明し、警官の誤解を解いていると、マリが起きてきて、外のようすを窓からのり出して確かめました。(高2、G11_001)

(7) 夜中だったのでインターホンを鳴らしても、家の中にいるマリは気づいてくれませんでした。ケンはマリの寝室の窓が空いていることに気付いたので「開けてくれ〜!」と呼びかけましたがマリは返事をくれません。なぜならマリはぐっすり眠っているからです。ケンはしばらく呼び続けましたが、庭にはしごをおいてあったことを思い出しました。はしごを開いている窓に立てかけ登っていると、たまたま通りかかった警察に呼び止められました。散々説明しても納得してくれませんでしたが、その話し声でマリが目覚め、ケンは無事、家に入ることができました。(大1、G13_001)




JASWRICの利用規定
 ダウンロード版、オンライン版、ともに、JASWRIC を利用するには、以下の内容を承認していただく必要があります。コーパスをダウンロードしたことで、あるいは、オンライン版の検索システムにログインしたことで、下記の全項目について承認をいただいたものとみなします。


(1) JASWRIC 開発チームは、本コーパスの使用により使用者に何らかの損害が生じても、責任を負いません。
JASWRIC Development Team shall not be liable to the user for any trouble, damage or loss caused by his/her use of theJASWRIC, regardless of the cause.

(2) JASWRIC 開発チームは、一般的なレベルでの注意を払い、提供する情報に誤りが含まれないよう努力していますが、このことは、コーパスデータに誤りが含まれないことを意味しません。JASWRIC開発チームは、提供するデータに含まれる誤りについて、責任を負いません。
The JASWRIC Development Team takes utmost care not to make any errors or omissions in providing the data and the information of the JASWRIC, however they may include inaccurate contents, typographical errors, or improper information. The JASWRIC Development Team shall not be liable for any such inaccuracy, incompleteness, inadequacy and the unfairness of the data and the information presented in the JASWRIC

(3) JASWRIC 開発チームは、提供するデータの真正性・完全性・適切性・妥当性を法的に保証することはしません。
The JASWRIC Development Team makes no legal warranty or representation regarding the accuracy, completeness, adequacy and fairness of the data and the information of the JASWRIC.

(4) JASWRIC のデータは、事前の告知なく、修正・変更されることがあります。また、JASWRIC の検索サイトも、事前の告知なく、閉鎖されることがあります。
The data and the information of the JASWRIC may be changed or modified without any prior notice, and the JASWRIC Site may be discontinued or closed without any prior notice.

(5) JASWRIC 開発チームは、前項に示したデータの修正・変更、また、検索サイトのサービス停止により、利用者に損害が発生しても、責任も負いません。
The JASWRIC Development Team shall not be liable for any loss caused by the modification of the data and the information and also by the discontinuation or closing of the JASWRIC Site, regardless of the reason.

(6) JASWRIC の利用者は、コーパスの参加者や彼らが所属する学校等について、一切の批判または批判と解釈されうる行為を行ってはいけません。
It is prohibited to criticize the participants and the schools to which they belong.

(7) JASWRIC の利用者は、コーパスの参加者の特定につながる一切の行為を行ってはいけません。
It is prohibited to attempt to identify the participating students.

(8) JASWRIC の利用者は、JASWRIC のデータの一部または全体を複製ないし再配布する行為を行ってはいけません。
It is prohibited to reproduce and/or redistribute a part or the whole of the JASWRIC data.

(9) JASWRIC のデータを使用して研究を行った場合は、必ず、以下の参考文献を表示しなければなりません。
JASWRIC users are required to mention the work below appropriately in the references.

石川慎一郎・友永達也・大西遼平・岡本利昭・勝部尚樹・川嶋久予・岸本達也・村中礼子(2023)「『小中高大生による日本語絵描写ストーリーライティングコーパス』(JASWRIC)の構築:L1/L2日本語研究の新しい資料として」『言語資源ワークショップ発表論文集』7, 393-416.





JASWRICダウンロード版の入手方法

ダウンロード版の利用
(1) データセットをここからダウンロードする
(2) 利用者申請を行って、解凍パスワードを取得する
(3) 上記パスワードでデータを解凍後、各自のコンピュータ上で分析する(AntConc などを各自でご用意ください)

注1)中国の方で、利用者申請(Google Form)サイトにつながらない方は、お名前・所属・使用目的を添えて、直接、石川宛、メールで連絡ください。
注2)検証目的などで、過去の版(v1.0)が必要な方も、上記同様、お名前・所属・使用目的を添えて、直接、石川宛、メールで連絡ください。
宛先: iskwshin@gmail.com


ダウンロードデータ版に含まれるもの



・Raw Data... 児童生徒の手書き作文のスキャンデータ(jpg)、および、素起こしのテキストファイル(txt, UTF-8)が入っています
・Edited Data... 形態素解析用に校閲を加えたデータです(docx)。Wordの校閲機能で編集過程を記録しているため、どこを修正したか確認できます。また、ユーザーが独自の編集を追加したり、それを使って、形態素解析を再試行することも可能です。
・JASWRIC_tagged... 上記のedited dataを、国立国語研究所のサポートする「Web茶まめ」上で自動解析した形態素解析データです(xlsx)。事前処理として半角・全角処理と、数字処理を行っています。使用した辞書は「現代語」です。エクセルファイル1行目に設定済みのフィルタボタンを使うことで、特定の語や品詞だけを抽出することができます。また、表層形列、または、形態素列を、別途テキストファイルにコピーし、Antconcなどで解析することもできます。



・JASWRIC_Participant Survey... 参加者の属性情報です。読書が好きか、作文が好きか、の2項目アンケート結果が記載されています(xlsx)



JASWRICオンライン版(JASWRIC Online)の使用方法(2022/8/30 稼働開始)


使用手順
(1) 「神戸大学石川慎一郎研究室コーパス統合検索システム」にアクセスする
(2)  JASWRICのアイコン(画像)を押す
(3) Guestのボタンを押す
(4) 利用者登録情報を送信する (※ID制にしていませんので、使用のたびに、情報を送信いただく必要があります)



※他のシステムと共通化しているため、表示が英語になっていますが、日本語でも記入いただけます。
 ・Mr/ Ms.... など: 該当するものを選んでください
 ・Family Name:姓(例:石川)
 ・First Name:名(例:慎一郎)
 ・Affiliation:職場、所属先など(例:神戸第一小学校、神戸第二中学校、神戸大学 etc。学生・院生の方は所属先の学校名を記載ください)
 ・E-mail:電子メール
 ・Country of Residence 居住国(日本に在住の方は、日本、と記入ください)
 ・Occupation:職業 前から順に、 〇学部生 〇大学院生 〇教員(小中高大など) 〇 個人研究者(※とくに職業を持たない方) 〇そのほか  となっています。

(5) 利用者登録画面の一番下にある[Accept the terms of use](使用条件を許諾する) を押す
(6) オンラインで各種分析を実行する


オンライン版で利用可能な分析

 検索タイプ  検索機能の概要
  KWIC検索  ターゲット語を中央に、左右に前後の文脈を配置して用例を一括出力する。
  Collocation 検索   ターゲット語について、左右3語以内の各々の位置で頻出する語を一括表示する。共起スコアは、頻度・tスコア・対数尤度比・相互情報量の4種から選択可能。
   Wordlist検索  表層形(表記形)または語彙素(短単位)の単位で、単語頻度表を一括出力する。全データ対象のほか、特定の学年のみ、特定のトピックのみ、を指定することも可能。
   Keyword 検索   関心対象の書き手群(Target)と、参照グループの書き手群(reference)との間で、使用されたすべての語(表層形)の頻度を比較し、Target側で統計的に有意に過剰使用または過少使用されている語を抽出し、一覧表示する。たとえば、小1 vs 全学年(小1~大1)の比較で、小1作文の特徴語を抽出できる。また、中1~中3 vs 全学年(小1~大1)の比較で、中学生作文の特徴語を抽出できる。
  Word Freq検索  ターゲット語の頻度を学年別で比較し、棒グラフを出力する。学年ごとにもとの作文の総量が異なるため、調整頻度に変換してグラフを描画する。




JASWRICオンライン版(JASWRIC Online)の用語解説




 JASWRIC Online 検索語入力ガイド(2022/08/29)

1)語の単位(lemmatization):JASWRICでは、語彙リスト検索と特徴語分析に限って、書字形(※実際にテキストに出現した形)と語彙素(※活用形を1つにまとめた単位、英語で言うlemmaに相当)を指定した上で分析することが可能です。書字形の「する」は「する」だけを意味します。語彙素の「する」は、「さ(れる)「し(ない)」「すれ(ば)」「する」など、活用形のすべてを意味します。細かい語の用法(たとえば動詞形など)の違いに関心がある場合は書字形単位で、語彙のざっくりした内容に関心がある場合は語彙素単位を選ぶとよいでしょう。

2)検索語入力(Words)に関して、KWIC分析における検索は、常に、書字形(短単位)の単位で行われます。検索ボックスに「する」を入れれば「する」を含む用例が抽出されます。語彙素をまとめているわけではないので、「する」を入れても、その活用形(「さ(れる)「し(ない)」「すれ(ば)」など)は抽出されません。

3)活用形を同時に検索したい場合は、縦棒(|)を使ってOR検索を行います。たとえば、「さ|し|する|すれ|しろ」と入力すれば、「する」とその活用形を同時に検索することができます。

4)書字形のため、異表記は別語扱いになっています。たとえば、「鍵」と「カギ」は表記が異なるため、両方を一度に検索するには、OR検索を用いて「鍵|カギ」のように入力します。

5)連語や複合形(=複数の形態素の連続シーケンス)を検索する際は、形態素の切れ目ごとに、半角のスペース(以下では[sp]で表示)が必要です。たとえば、「見ている」という表現を探すには、「見[sp]て[sp]いる」と入力し、「見ていた」を探すには「見[sp]て[sp]い[sp]た」と入力します。自分の探したい表現がどのように区切られるかわからない場合は、「Web茶まめ」に当該表現を入力し、どのように区切られるか確認してください。

6)OR検索は、連語の中でも使用できます。たとえば、「ケン|マリ[sp]は|が|の|を|に」と入力すれば、「ケンは」「マリが」「ケンの」など、「ケン」または「マリ」の直後に主要な助詞が後続する例を同時に検索することができます。

7)品詞情報(POS)を検索条件に加えることもできます。検索ボックスの右側にある[POS]を押すと、以下のような品詞選択画面(下記は名詞を選んだ場合)がポップアップ表示されます。



品詞選択画面は上段(大区分)と下段(小区分)の二階層構造になっており、上部(赤色で表示)で品詞の大区分を指定すると、下部(グレーで表示)に当該品詞の小区分が表示される仕様になっています。下段に表示されるボタンのいずれかを押すと、当該品詞を示すコードが自動的に検索ボックスに入力されます。なお、[ALL]とは全小区分の同時指定のことを意味します。小区分のうち、固有名詞を選ぶと絵課題の登場人物名である「ケン」や「マリ」が、普通名詞を選べば「鍵」や「チャイム」が、数詞を選べば「二(階)」などが、助動詞語幹を選べば「(でき)そう」や「(その)よう」などが抽出されます。品詞と書字形を連語として指定することもできるます。たとえば、「[名詞] は」と入れると、名詞の後に「は」が後続する例が抽出されます。
 
8)以下は、主な検索ルールの早見表です。 
検索タイプ 検索指定の仕方 出力例
通常検索  鍵  鍵
OR検索  鍵 | カギ  鍵、カギ
連語・複合語検索  し [sp [て [sp] いる  …している
品詞検索(大区分)  [名詞]  鍵、チャイム、梯子…
品詞検索(小区分)     [名詞-固有名詞]  ケン、マリ、日本、ポチ…
品詞+単語検索  [名詞] は  鍵は、チャイムは、梯子は…
連語+OR検索  ケン | マリ [sp] は | が  ケンは、ケンが、マリは、マリが…






JASWRIC Online 統計ガイド(2022/08/29)

JASWRIC Onlineでは、共起語分析と特徴語分析の結果画面で、複数の統計量(Statistics)を切り替えて結果を比較することができます。主な統計量としては、粗頻度(Raw Frequency)、t統計量(t-score)、 カイ二乗統計量(Chi2)、対数尤度比(Log-likelihood)、相互情報量(Mutual Information (Score))などがあります。使い分けについては下記をご覧ください。


共起語分析の結果表示における統計値の選択


・Raw Frequency 粗頻度(共起語の頻度そのまま)
t score t t統計量(検定で使用するt統計量の値です。共起が偶然の誤差を超えて多く出ているかどうかを数値で示します)
・Log-likelihood (Ratio) 対数尤度比(差がない場合の期待値と実測値の差を加工した値です。カイ二乗統計量に比べ、コーパスサイズに違いがある場合でも安定した結果を返すと言われます)
・Mutual Information (Score) 相互情報量(頻度の情報を対数化で圧縮するため、低頻度だけれど強力に結びついているものを高く評価します)


特徴語分析の結果表示における統計値の選択



・Chi 2 カイ二乗統計量(頻度の差の検定で広く使われる統計量です。分割表のセルごとに、期待値と実測値の差を期待値で割った値を求め、それらを総計した値です。Chi2=3.84以上ならα=5%で、Chi2=6.63ならα=1%で、Chi2=10.83ならα=0.1%で、それぞれ有意な結びつきと解釈できます。ただし、特徴語の分析では検定を反復して行うため、より大きな値を出しているものに限って議論したほうが安全と言えます。)
・Log-likelihood (Ratio) 対数尤度比(カイ二乗統計量の微修正版。対数化をかけることで、頻度の影響を緩和しています。したがって、頻度が大きく離れたデータ間での比較などを行う場合は、Chi2よりも妥当性が高いと言われています。統計量の解釈はChi2と同様です。)



謝辞

 JASWRICの開発にあたっては、子どもの作文収集を試みた先行研究に多くを負っています。坂本真樹氏・冨士原紀絵氏・宮城信氏の3氏には、各氏の構築されたコーパスの詳細について詳細なご教示をいただきました。今田水穂氏からは、冨士原氏・宮城氏らと構築されたコーパスの最新の語数について貴重な情報をいただきました。各氏に深く御礼を申し上げます。
 本コーパスの最大の特徴は、世界最大の日本語学習者コーパスである「I-JAS」のストーリーライティングタスクのデザインを踏襲してデータ収集を行った点にあります。プロンプトの使用を快諾くださったI-JAS開発者の迫田久美子氏に改めて深く感謝申し上げます。手本としての「I-JAS」がなければ、このコーパスが生まれることはありませんでした。
 また、本コーパス開発を着想する直接のきっかけになったのは、「I-JAS」のプロンプトを用いて国内児童の産出を収集・分析した松隈杏梨氏の研究(2021)でした。類似したコンセプトに基づくデータの収集についてご理解をくださった松隈氏、ならびに松隈氏の指導教員である丸山岳彦氏に御礼申し上げます。
 本研究は、パフォーマンス評価データの体系的収集をテーマとする石川の科学研究費(20H01282)プロジェクトの成果の一部であり、神戸大学附属学校部校種間連携部門プロジェクト「幼児期から児童期における発達・教育研究」と連携して実施されたものです。関係各位のご支援に感謝申し上げます。