# UDACITY 数据分析 项目一 STROOP 现象分析 实验

实验对 __STROOP(斯特鲁普)__ 现象进行调查。统计了字体颜色和颜色单词一致和不一致两种情况的朗读时长。并根据统计抽样计算出两种情况下的朗读时长是否存在显著差异。

### 自变量:
表示颜色的单词和显示（或书写）该单词所用的字体颜色

### 因变量:
颜色单词和显示（或书写）该单词的颜色一致时朗读所需的平均时长 $T_c$

颜色单词和显示（或书写）该单词的颜色不一致时朗读所需的平均时长 $T_i$

### 零假设：
朗读颜色单词所需的时长和显示（或书写）该单词时所用的颜色无关

$$H_0: T_c == T_i$$
    
### 拒绝零假设：
朗读颜色单词所需的时长受显示（或书写）该单词时所用的颜色干扰，不一致时的朗读时长明显大于一致时的朗读时长

$$Reject H_0: T_c < T_i$$

### 统计方法：

根据 __STROOP__ 实验的描述，是对相同样本进行两种不同的朗读测试，因此适用相依样本T检验。

因为时加入了干扰，根据日常经验不一致时朗读时长肯定会高于一致时的朗读时长。因此采用单尾检验，置信水平 0.05

    method: T-statistics

    direction: one-tailed

    alpha-level: 0.05


#### 样本表格：

In [3]:
%%HTML
<iframe src="./table1.html" width=700 height=350></iframe>

#### 样本原始数据:
  [stroopdata.csv](https://raw.githubusercontent.com/ShiChJ/DAND-Basic-Materials/master/P1/Project_Files/stroopdata.csv)

## 描述统计量(Descriptive Statistics)(M, SD)

#### 样本量:

$$
N = 24
$$

#### 自由度(Degrees of Freedom):

$$
DF = N - 1 = 23
$$

#### 样本平均值($\bar{X_c}$, $\bar{X_i}$ 和 $\bar{X_d}$)

$\bar{X_c}$ 是 颜色单词和显示（或书写）该单词的颜色一致时调查样本对象朗读所需的平均时长

$$
\bar{X_c} = \frac{\sum\limits_{i=1}^N X_c}{N} = 14.051125
$$ 

$\bar{X_i}$ 是 颜色单词和显示（或书写）该单词的颜色不一致时调查样本对象朗读所需的平均时长

$$
\bar{X_i} = \frac{\sum\limits_{i=1}^N X_i}{N} = 22.01591667
$$

#### 差异值
$X_d$ 是 $X_i$ 和 $X_c$ 的差值

$\bar{X_d}$ 是 $\bar{X_i}$ 和 $\bar{X_c}$ 的差异

$$\bar{X_d} = \bar{X_i} - \bar{X_c} = 7.964791667$$



#### 标准偏差(S):

$$\sigma^2 = \sum\limits_{i=1}^N (X_d)^2 = 327.04$$

$S = \sqrt {\frac {\sigma^2}{N-1}} = \sqrt {\frac {327.04}{23}} = 4.86482691$



## 推论统计量(inferential statestics)

    direction: one-tailed

    P-value: 0.05

    S = 4.86482691
    
#### 标准误差(SE)

$$SE = \frac {S}{\sqrt{N-1}} = 1.014386533$$
    
#### T critical-value:

    t(df) = 1.714


#### T统计量(T-statisics):

$$T = \frac {\bar{X_d}}{\frac {S}{\sqrt {N}}} = 8.020706944$$




#### 置信区间(CI):
    
$$CI = \bar {X_d} \pm t(df) = 7.964791667 \pm 1.714 = [6.262740587,9.666842747]$$



## 决策

因为 T 远远大于 T-critical, 所以拒绝0假设成功!

#### Reject $H_0$ 


#效应量测量

#### Cohen's D

$$ Cohen's D = \frac {\bar {X_d}}{S} = 1.637219949$$


## 推论计算的统计意义

颜色单词和显示（或书写）该单词的颜色不一致时朗读所需的平均时长比一致时的朗读平均时长多了6到9秒。
样本均值和总体均值大概有1.63秒的差距。
统计具有显著意义，不一致时朗读时长显著大于一致时的朗读时长。

links:

    [斯特鲁普效应](https://zh.wikipedia.org/wiki/%E6%96%AF%E7%89%B9%E9%B2%81%E6%99%AE%E6%95%88%E5%BA%94)
    
    [Demonstration of Stroop Effect – "Name that color" test](http://www.math.unt.edu/~tam/SelfTests/StroopEffects.html)