神戸大学石川慎一郎研究室 (応用言語学,コーパス言語学,計量言語学) 神戸大学石川研究室

統計数理研究所 言語系共同研究グループ「言語と統計」

「言語と統計」
神戸大石川研研究室,大阪大田畑智司研究室,名古屋工業大小山・石川研究室他と共催しているプロジェクトです。
→ 言語統計のウェブサイトはこちら


コーパス研究のための計量用Excelテンプレート(いずれもβ版です。自己責任でご使用ください。)

colstat
語と語の共起の強度や有意性を評価するための共起頻度 (Frequency of Co-occurrence),ダイス係数(Dice's Coefficient)[×10,000],ジャッカード係数(Jaccard Index)[×10,000],コサイン類似度(Cosine Similarity)[×10,000],シンプソン係数(Simpson's Coefficient)[×10,000],相互情報量(Mutual Information),対数尤度比(Log-likelihood Ratio),tスコア(t Score)を一度に計算します。

ttest
平均値の差の検定(t検定)のためのファイルです。事前の等分散性検定や,効果量の計算に対応しています。

Fisher
カイ二乗検定に代わって推奨されつつあるFisherの正確確率検定のためのファイルです。効果量の計算にも対応しています。 マクロになっていますので,マクロを許可してご利用ください。

多変量解析手法

コーパス言語学では,データの可視化の目的で,多変量データのデータの次元の圧縮がなされます。以下は,石川慎一郎他(2010)『言語研究のための統計入門』(くろしお出版)で扱った主要な手法です。

■主成分分析(principal component analysis)
各教科のテストの点数から「総合学力」を求めるように,多数の変数を少数の成分に圧縮します。第1主成分はしばしば全体の総合指標として機能します。

※石川(2015)より。学習者のための基本語選定において,イギリス英語5ジャンル(Fq1:話し言葉,Fq2:小説,Fq3:雑誌,Fq4:新聞,Fq5:学術),アメリカ英語5ジャンル(Fq6~Fq10)から得た単語頻度を単純に平均化せず,第1主成分得点を用いることで,10ジャンルの情報をよりよく代表させることを試みています。この場合,負荷量の高低は全体における当該データの重要度の高低を示しますので,イギリス英語の話し言葉(Fq1)の位置は相対的に低く,アメリカ英語の雑誌(Fq8)は相対的に高いと言えます。

■因子分析(factor analysis)
各教科のテストの点数から学習者の学力に影響を及ぼしている「文系能力」や「理系能力」などを検出するように,観測データの背後に仮定される因子を抽出します。

■クラスター分析(cluster analysis)
各教科のテストの点数をそれぞれ性質の近いグループごとに分類するように,観測データを距離や非類似度に基づいて分類します。個々のデータがクラスターに融合していく段階的過程を示した樹形図が得られ, それに基づき,考察を行います。

※石川(2016)より。批判的思考態度アンケートの項目得点とTOEICスコア(L+R)をクラスター分析にかけた結果です。Ex(経験志向の批判的思考態度)が英語力と相対的に近く,O(客観志向),Ev(証拠志向),L(論理志向)が相対的に遠いことが分かります。

■対応分析(correspondence analysis)
第1アイテム(いわゆる変数に相当するもの)と第2アイテム(いわゆるケースに相当するもの)の相関を最大化する少数の次元(dimension)を抽出します。通例,第1・第2時限を横軸・縦軸として散布図を描き,データの親疎の関係を可視化します。

※Ishiakwa(2016)より。母語話者(ENS)の書き言葉(S)・話し言葉(W),日本人学習者(JLE)の書き言葉・話し言葉における各種テキスト指標の値を対応分析にかけたところ,日本人は第1次元(横軸)上で話し言葉(左側)と書き言葉(右側)が峻別されますが,母語話者の場合は書き言葉・話し言葉の差は第1次元には現れず,第2次元(縦軸)に反映されており,かつ,原点付近の重複が多いことが示されました。母語話者にとって,書き言葉と話し言葉は連続体を構成していますが,日本人学習者の場合,発話の絶対量の不足もあって,書き言葉と話し言葉は断絶しているように思えます。


研究ミッション

石川研究室は,記述言語学・応用言語学の理論的背景に基づき,L1やL2の慣習的言語運用パタンおよびその習得・学習プロセスを科学的手法によって解明することを目指しています。

大学院生募集

石川研究室では,2016年度現在,博士後期課程2名,前期課程4名,合計6名が所属しています。コーパスに基づく科学的手法により,日本語・英語・中国語などの言語研究・習得研究を志している皆さんの受験をお待ちしています。