言語統計学A

Statistics in Lingusitics A

みなさん、はじめまして。言語統計学を担当します山田です。このウェブサイトでは、事前学習のビデオと配布資料を掲載しています。授業では、これらのビデオや資料を事前に予習していることを前提に進めます。必ず目を通してきてくださいね！

※オレンジの枠がその授業での配布物、その右のパネルにその授業で登場する大事なシーン、その下の茶色いバーが予習動画へのリンク（薄茶色は、やや重要度が下がる動画）、最後に薄水色のパネルにその授業の振り返りのコメントを載せました。

参考にして下さい。

Lecture 1 イントロダクション
Introduction

Class 2 Introduction to Stats in Linguistics

04/10/2024

配布物

第1講（ノートなし）

第1講（ノートあり）

　ガイダンス　講義資料の使い方 How to use the handouts

　Lec 1-1 研究とリサーチクエスチョンResearch & Research Questions (15 min 11 sec)

　Lec 1-2 仮説と変数 Hypothesis & variables (36 min 18 sec)

　Lec 1-3 仮説と統計アプローチの分類 Hypothesis & Statistical approaches (38 mi 55 sec)

【講師からのコメント】「統計」はとても面白くて、役に立つ科目ではありますが、ただ、その理論だけを学んでノートを取っても仕方がありません。ぜひ、卒論、修論、博論をはじめとするみなさんの研究に実際に使ってみてください。でも、そのためには、どういう「問い」に答えるために、どんな統計手法が存在しているのか、あるいは、そもそも自分はどういう「問い」を発する研究をしているんだっけという自分の立ち位置をしっかり理解しておくことが必要です。この第1講では、そのようなみなさんの研究と、これから学んでいく諸統計手法とをつなげていきます。ぜひ、「統計を学んで、自分のキャリアアップを図るぞ！」という志を新たに、有意義な新年度をスタートさせるきっかけにしていってほしいな、と思っています。

Lecture 2 推測統計学の四つの重要概念
Fundamentals in Inferential Statistics

Class 3 標本、母集団と標本分布

04/17/2024

配布物

ノートなし

ノートあり

練習問題

　Lec 2-0 はじめに Overview (15 min 14 sec)

　Lec 2-1 母集団 Population (30 min 03 sec)

　Lec 2-2 (A) 中心化と標準化 (13 min 00 sec)

　Lec 2-2 (B) 中心極限定理 CLT (9 min. 20)

　Lec 2-2 (C) 再生性 (5 min. 7)

　Lec 2-3 (A) 最頻値・中央値・平均 Mode, Median and Mean (24 min. 16)

【講師からのコメント】第2講の前半では、今後の授業の主要登場人物となる母集団、標本、統計量、標本分布という四つの重要概念をご紹介しました。とりわけ、統計量と標本分布という二つの概念が理解できたら、統計学の最初の難関をクリアしたと言えるでしょう。実は、第3講で習うt検定とは、ある統計量の従う標本分布に注目をしていきますので、統計量と標本分布への理解は必須になってきます。この二つの概念はここでしっかり押さえておきましょう。また、標本分布に関する大事な話として「中心極限定理」というものが登場しました。これもt検定を話すうえで避けては通れない大事な話です。こちらも、理解に不十分さを感じたら、授業で積極的に質問してください。

　後半（Lec 2-3 A)は、よく使われる統計量のなかで「データの中心を表すもの」をピックアップして紹介しました。次回は、さらにたくさんの統計量を紹介しますよ。

Class 4 さまざまな統計量

04/24/2024

配布物

　Lec 2-3 (B) 平均と最小二乗法 Mean and Least Square Method (19 min. 23)

　Lec 2-3 (C) 標本範囲、四分位範囲、平均偏差 Ranger, IQR, Mean Deviation (13 min. 25)

　Lec 2-3 (D) 共分散 Covariance (36 min. 30)

　Lec 2-3 (E) 分散、標準偏差 (7 min. 34)

　Lec 2-3 (F) 相関係数 (10 min. 56)

【講師からのコメント】今回は（前回の第2講の最後の話に続いて）有名な統計量にいったいどういうものがあるのかを紹介する具体事例の紹介です。その意味で、少し中高の数学の授業っぽかったでしょうか…。

　なお、今回は、いろんな指標がたくさん登場したのですが、あくまで紹介という感じなので、あまり完璧主義者にならずに、ふーんと思って聞いていただいて結構です。つまり、「全部の定義を覚えて自分で計算できればイケナイのか！つらい！」と思う必要はありません。そのような微視的な姿勢で臨むよりも、少し肩の力を抜いて、「具体例を通じて、統計量の背景にある大きな考え方（ストーリー）に慣れておこうかな～」とか「オーライ、オーライ、細かい定義は、必要になった時に見返すよ～」というくらいの、そんな緩やかな心構えで大丈夫です（みなさんの研究でも具体的な計算はPCがやってくれますから）。将来知りたい時が来た時のための「事典」を用意しておいたのがこのClass 3だった、とでも捉えておいてください。

　そうは言っても、「なんか覚えておかなければならないものがあったんでしょ…取捨選択するならば何を優先的に覚えればいいの？」と思った方は、この第2講で学んだ統計量の中でも、今後、圧倒的に「平均」「分散」「共分散」という三つの統計量が活躍していきますので、この三つだけは少なくとも押さえておいてください。

　なお、「分散」と「共分散」については、頼まれて書いた原稿があるので、それを上の「補足資料」においておきました。ビデオを見て分かりにくいなと思ったら、併せてお読みいただき、理解に役立ててみてください。

Lecture 3 t検定
t-test

Class 5 t-test

05/22/2024

配布物

　Lec 3-0 (A) 前回までの復習 Review of the previous class (3 min 08 sec)

　Lec 3-0 (B) はじめに Overview (4 min 29 sec)

　Lec 3-1 (A) 仮説検定 Hypothesis Testing (18 min 05 sec)

　Lec 3-1 (B) 仮説検定 Hypothesis Testing (19 min 41 sec)

　Lec 3-2 (A) 標準正規分布 Standard Normal Distribution (16 min 9 sec)

　Lec 3-2 (B) t分布 t-Distribution (16 min 23 sec)

　Lec 3-3 (A)二群の平均値差の検定 (27 min 3 sec)

　Lec 3-2 (B) 不偏分散　Unbiased Variance (5 min 24 sec)

　Appendix 2 (A): 自由度と分散等質性の仮定 (3 min. 195)

　Appendix 2 (B): カイ二乗分布 Chi-square distr. (18min. 05)

　Appendix 2 (C): F分布 F distr. (19 min. 08)

　Appendix 2 (D): t値とF値　（証明）(2min. 23)

　Appendix: 二種類の過誤　Two types of erros (2omin. 29)

　Lec 3-4 区間推定 Interval estimation (39 min. 12)

　Lec 3-5 効果量 Effect size (25 min. 16 sec )

　補足：サンプルサイズの決定について Sample size (14 min 11 sec)　※授業では扱いません（余力のある人用のビデオ）

【講師からのコメント】GWも終わって、いろいろな授業も難しい内容を扱い始めるころでしょうから、予習・復習も少ししんどくなってきている人もいるかもしれませんね。でも、修行の先には、成長した自分がいると思って、ぜひくじけず、初心を忘れず、未来を見据えて頑張っていきましょう。

　さて、話の流れとしては、今回は、前回Class 3の発展というよりも、標本分布と中心極限定理のお話をしたClass2の続きになっています。

　ちょっと複雑な見た目の式が登場して、身構えた人も多かったかもしれませんね。しかし、決していきなり数式を見て「わからない」と思わないことです。一見すると複雑な形をしているというものでも、いくつかのパーツが寄せ集まってできています。なぜそれぞれのパーツが必要だったのか、という「理屈」の方を追いかけてやると、「統計の物語」を楽しむことができるようになってくると思います。巨視的な視点を持つことが統計学を得意に、そして、楽しむためのコツです。

　…といわれると、あれ、いったい大きな物語とは何だったんだっけ、と思ってしまう人もいるかもしれないので、念のため、ここまでの授業で、どのようなストーリーを分かっていただいて欲しかったのかを、まとめておきますね。

　統計手法には、リサーチクエスチョンに合わせて色々なものが提案されていました。そして、それらは独立変数がどのような性質で、従属変数がどのような性質なのか、という視点から分類されるのでしたね（第1講）。その中で一番単純なケースが、独立変数が名義尺度で、従属変数が比率尺度となるこのt検定でした（第3講）。t検定は、標本分布の中における統計量のポジショニングを問題とするので、その前座として、第2講で、統計量や標本分布という重要概念を習い、そして、「平均」という統計量の持つ大変便利な性質である「中心極限定理」を学んでおいたのでした。平均に注目したいのは、その標本分布が（標準）正規分布という扱いやすい分布に結び付いていたからです。しかし、残念ながら、全知全能の視点には立てない人間の宿命として、標準正規分布は使用することができず、そこで工夫を凝らして標準正規分布に「なりかけ」の分布であるt分布を使わざるをえなくなった…。こうして、わたしたちは、t分布という標本分布を用いて帰無仮説の是非を考える仮説検定を使うことができるようになった…こんなことが、今回までの授業の物語です。

Lecture 4 Simple regression

Class 6 単回帰 Simple regression

配布物

ノートなし

ノートあり

練習問題

　Lec 4-0 はじめに Overview (21 min 17 sec)

　Lec 4-1 母集団モデル Population (25 min 41 sec)

【講師からのコメント】統計手法は、x (独立変数)とy (従属変数)の種類によって分類され、x（名義）、y（比率）が、t検定を用いる場面である、という話をしてきました。その話が終わったので、次にx（比率）、y（比率）という場面で使われる統計手法として、ここでは、単回帰分析の紹介を始めてまいりました。

　しかし、ここでのポイントは「t検定と全くの別物として、単回帰分析を捉えないで！」です。t検定で習った話の自然な拡張として単回帰分析が存在している、ということを訴えたくて、上にも掲載している立体的な図まで持ち出して、みなさんにご紹介しました。独立変数が、0と1のどちらかしか取れないt検定の枠組みと比べたら、0でも1でも、2.5でも、ルート99でも、なんでもござれ、という単回帰分析の枠組みは、より一般的なモデルを提案しているということが分かるでしょう。

　なので、次週以降の講義内容についても、ある程度もう予測がついているという人もいるかもしれませんね。そうなんです。これから、t検定的な枠組みでそうであったように、「直線は地面と平行なのか、傾いているのか、どっちなんだい！」という「あるのかないのか」の議論を行ったり、「傾いているとして、その傾きがどのくらいなの？」という視点から議論を行ったりします。そこで、来週は、単回帰分析というより一般的な枠組みで、検定や区間推定、点推定の話を見ていきたいと思います！

　Lec 4-2 点推定 Point Estimation (33 min 26 sec)

　Lec 4-3 不偏性 Unbiasedness (32 min. 30 sec)

　Lec 4-3 区間推定 Interval estimation (20 min 00 sec)

　Lec 4-5 (A) 残差 Residuals (19 min 50 sec)

　Lec 4-5 (B) 決定係数 Coef. of Determination (22 min. 57 sec)

　Lec 4-6 回帰診断 Diagnostics (25 min 15 sec)

Lecture 5 Multiple regression

Class 7 重回帰 Multiple regression (Part 1)

06/26/2024

配布物

ノートなし

ノートあり

練習問題

　Lec 5-0 はじめに (11 min 50 sec)

　Lec 5-1 母集団モデル Population (26 min 43 sec)

　Lec 5-2 発展的なモデルの紹介 *Advanced models (31 min 34 sec)

【講師からのコメント】そろそろもう一度、大きな授業の流れを振り返っておきましょう。第1講で、様々な統計手法の分類を行いました。そのうち、第3講で、t検定を、第4講で、単回帰分析を扱いました。これらの手法はどちらとも独立変数が一つだけという単純なパターンを考えていたわけです。例えば、これらの手法は、「容認度（y）が、疑問文か否か（x）で変わる」というようなケースをモデル化するのに有用でした。

　しかし、どんな研究でも、従属変数（y）に影響を与える要因が一つだけというのは考えづらいのではないでしょうか。そこで、そんな需要にこたえるために、独立変数が複数ある場合に当てはまるように、単回帰分析を拡張したものが今回から数回にわたって論じていく重回帰分析です。

　とりわけ今回の話は、統計学という視点だけではなく、リサーチクエスチョンを考えるという、研究一般においてとても大事な視座を提供してくれます。AがBに影響を与えると、自分が思い込んでいるけれども、実際にはそれは、見かけ上の相関だったみたいなことだったしたら、大きく研究で転んでしまいかねません。そろそろいろいろな授業でレポートなどを考え始める時期でしょうから、ぜひこの機会に、自分の主たる研究テーマを題材に、複数の変数たちの関係をつぶさに見つめなおすということもやってみてくださいね。

Class 8 重回帰 Multiple regression (Part 2)

07/03/2024

　Lec 5-3 (A) 偏回帰係数 Partial coefficients (20 min 50 sec)

　Lec 5-3 (B) 偏回帰係数 Partial coefficients (21 min 13 sec)

　Lec 5-3 偏回帰係数と偏／部分相関係数（※授業では扱いません。南風原 2002を読んで疑問に思った人のみご覧ください）(36 min 02 sec)

　Lec 5-2 決定係数 Coef. of determination (17 min 42 sec)

【講師からのコメント】今回の授業の前半は、偏回帰係数についてでした。「特殊な事情が成立しない限り」、この係数の値は、単回帰係数の値とは一致しない、という点を忘れないでいてください。

　後半は、決定係数についてでした。単回帰分析のトコロでも出てきていましたから、単回帰の時の話が自然に拡張されているということを自分が理解できているなと思えていたら、申し分ない学習状況です。

Lecture 6 ロジスティック回帰

Class 9 推測統計学の四つの重要概念（非比率尺度編）

07/17/2024

配布物

ノートなし

ノートあり（前半）

ノートあり（後半）

　Lec 1-1 母集団への仮定１：ベルヌーイ分布（20 min 36 sec)

　Lec 1-2 母集団への仮定２：二項分布・カテゴリカル分布・多項分布（21 min 54 sec）

　Lec 1-3 母集団への仮定３：正規分布、ポワソン分布、カイ二乗分布（11 min 39 sec）

【講師からのコメント】重回帰分析までは、従属変数が連続値を取ることを想定していたのですが、ここからは、これを従属変数に正規分布以外の確率分布を据えたモデルへと拡張していきたいと思います。

　そこで、「ノート１」では、そもそも正規分布以外にどんな分布があるのか、ということを学びました。もちろん、正規分布以外にも分布は無数に存在します。そこで、ここではその中でも扱いやすくよく使われる分布を紹介したのですが、これらの分布が、別に無秩序に、やみくもに考案されてきたわけではないということがポイントです。基礎的な分布から、一つ一つ発展することで、複雑な分布が登場しているという点を押さえてください。統計学を進めていく上のコツの一つは、概念を一つ一つ独立して覚えるのではなく、それらを互いに有機的に結びつけて理解していくということです。このこと忘れないでくださいね。

Class 10 ロジスティック回帰

07/24/2024

配布物

新しい配布物はありません。

　Lec 2-0 グループ化データと非グループ化データ（23 min 17 sec）

　Lec 2-0 あらすじ（5 min 26 sec）

　Lec 2-0 あらすじ２：おもちゃを使った導入（28 min 01 sec）

　Lec 2-1 母集団（11 min 49 sec）

【講師からのコメント】これまで習ってきた回帰分析は、第一に、母集団に正規分布を想定し、第二に、そのN(mu, sigma)の期待値であるmuが、独立変数の値によって一次直線を描きながら変化する線というモデルを考え、独立変数を従属変数を結びつける統計手法でした。

　今回のロジスティック回帰というモデルもやりたいことは同じなんです。つまり、第一に、母集団に確率分布を想定します。ただし、ここでは、正規分布に代わり、ベルヌーイ分布や二項分布が採用されます。そして、第二に、そのベルヌーイ分布や二項分布の期待値piが、独立変数の値によって変化するという構造を盛り込んでいます。期待値piは、確率に当たるので、0から1までの値しかとりません。そこで、上限も下限もなくただひたすら伸びていくという直線を採用することはできず、ぐねっとした曲線が採用されています。これを表現したものがリンク関数というものですが、逆に、回帰分析では、直線となるようなリンク関数が選ばれていたのだと考えることで、ロジスティック回帰も回帰分析も同じシステムで動いていると見なすことができます。つまり、回帰分析という考え方を、従属変数が非正規分布である場合において拡張したのが、この一般化線形モデルだというわけです。

Lecture 7 ポワソン回帰

Class 11 ポワソン回帰

07/31/2024

配布物

ノートなし

ノートあり

　Lec 3-0 あらすじ（4 min 28 sec）

　Lec 3-1 母集団（7 min 53 sec）

　Lec 3-2 オフセット（13 min 24 sec）

【講師からのコメント】

前回まで習ってきたロジスティック回帰は、AかBか、あるいは、AかBかCかというような複数の候補の間でどういうそれぞれどういう頻度になるのかというライバルが乱立する状況で使われるモデルでした。しかしながら、いつもいつでも、複数の候補があるような状況とも限りません。今回習ったポワソン回帰は、ターゲットになっている変数単体の頻度がどのように独立変数の値によって変化していくのかを論じるモデルです。

　真新しいのは、モデルの仕組みだけで、推定には、ロジスティック回帰同様、最尤推定法が用いられますし、作ったモデルを比較するという観点も今までと同じですので、ここでは割愛しました。

　さて、というわけで、従属変数に正規分布を仮定しない、離散的な頻度を扱うモデルとして、ロジスティック回帰とポワソン回帰を押さえることができました。ここまで学べば、みなさんの様々なリサーチクエスチョンに対して、かなり柔軟にモデルを作れるようになったのではないかと思います。
　さらに、重回帰分析が、混合効果を含めて一般線形混合効果モデルへと発展したように、ロジスティック回帰やポワソン回帰にも混合効果を入れることができます（ちなみに、そういったモデルは、一般「化」線形混合効果モデルと呼ばれます）。こうして、持っている手札を組み合わせることで、みなさんは柔軟に母集団に対する統計モデルを提案できるようになってきました！おめでとうございます！

Lecture 1 イントロダクション Introduction​

Class 2 Introduction to Stats in Linguistics

04/10/2024

Lecture 2 推測統計学の四つの重要概念 Fundamentals in Inferential Statistics

Class 3 標本、母集団と標本分布

04/17/2024

Class 4 さまざまな統計量

04/24/2024

Lecture 3 t検定 t-test

Class 5 t-test

05/22/2024

Lecture 4 Simple regression

Class 6 単回帰 Simple regression

Lecture 5 Multiple regression

Class 7 重回帰 Multiple regression (Part 1)

06/26/2024

Class 8 重回帰 Multiple regression (Part 2)

07/03/2024

Lecture 6 ロジスティック回帰

Class 9 推測統計学の四つの重要概念（非比率尺度編）

07/17/2024

Class 10 ロジスティック回帰

07/24/2024

Lecture 7 ポワソン回帰

Class 11 ポワソン回帰

07/31/2024

Lecture 1 イントロダクション
Introduction

Lecture 2 推測統計学の四つの重要概念
Fundamentals in Inferential Statistics

Lecture 3 t検定
t-test