# UDACITY 数据分析 项目一 STROOP 现象分析 实验

实验对 __STROOP(斯特鲁普)__ 现象进行调查。统计了代表颜色的单词的字义和其打印墨色一致和不一致两种情况时的朗读时长。并根据统计抽样计算出两种情况下的朗读时长是否存在显著差异。

### 自变量:
自变量是文字字义与文字颜色是否一致。有一致和不一致两种情况。

### 因变量:
完成测试读出单词所花的时长。

根据测试样本得出的总体平均时长:

  文字字义与文字颜色一致时的总体平均时长 $T_c$

  文字字义与文字颜色不一致时的总体平均时长 $T_i$

### 零假设：
读出单词所花的时长和单词打印墨色无关

$$H_0: T_c = T_i$$
    
### 拒绝零假设：
读出单词所花的时长受单词打印墨色干扰，单词字义和单词打印墨色不一致时完成测试所用的时长明显大于一致时的时长

$$H_a: T_c < T_i$$

### 统计方法：

因为并不知道总体偏差，而且样本文件中有只有24条测试数据。符合采用T检验的前提。观察下面绘制的样本数据分布图形，可以发现符合正态分布的特征，因此可以采用T检验。

根据 __STROOP__ 实验的描述，是对每个独立测试者（即测试者之间不会相互干扰）进行一致和不一致两种情况下的连续测试，收集测试对象在两种情况下的完成测试的时长。因此适用相依样本T检验。

因为加入了干扰，根据日常经验不一致时朗读时长肯定会高于一致时的朗读时长。因此采用单尾检验，置信水平 0.05

    method: T-statistics

    direction: one-tailed

    alpha-level: 0.05


#### 样本表格：

In [6]:
%%HTML
<iframe src="./stroopdata.html" width=700 height=350></iframe>

##### 下面图形绘制了一致和不一致两种情况下的T分布图，从图中可以看到符合正态分布的特征。

In [7]:
%%HTML
<iframe src="./stroop-dist.html" width=700 height=350></iframe>

#### 样本原始数据:
  [stroopdata.csv](https://raw.githubusercontent.com/ShiChJ/DAND-Basic-Materials/master/P1/Project_Files/stroopdata.csv)

## 描述统计量(Descriptive Statistics)(M, SD)

#### 样本量:

$$
N = 24
$$

#### 自由度(Degrees of Freedom):

$$
DF = N - 1 = 23
$$

#### 样本平均值($\bar{X_c}$, $\bar{X_i}$ 和 $\bar{X_d}$)

$\bar{X_c}$ 是 颜色单词和显示（或书写）该单词的颜色一致时调查样本对象朗读所需的平均时长

$$
\bar{X_c} = \frac{\sum\limits_{i=1}^N X_c}{N} = 14.051125
$$ 

$\bar{X_i}$ 是 颜色单词和显示（或书写）该单词的颜色不一致时调查样本对象朗读所需的平均时长

$$
\bar{X_i} = \frac{\sum\limits_{i=1}^N X_i}{N} = 22.01591667
$$

#### 差异值
$X_d$ 是 $X_i$ 和 $X_c$ 的差值

$\bar{X_d}$ 是 $\bar{X_i}$ 和 $\bar{X_c}$ 的差异

$$\bar{X_d} = \bar{X_i} - \bar{X_c} = 7.964791667$$



#### 标准偏差(S):

$$\sigma^2 = \sum\limits_{i=1}^N (X_d)^2 = 327.04$$

$S = \sqrt {\frac {\sigma^2}{N-1}} = \sqrt {\frac {327.04}{23}} = 4.86482691$



## 推论统计量(inferential statestics)

    direction: one-tailed

    alpha-value: 0.05

    S = 4.86482691
    
#### 标准误差(SE)

$$SE = \frac {S}{\sqrt{N}} = 0.993028634705049$$
    
#### T critical-value:

    t(df) = 2.064


#### T统计量(T-statisics):

$$T = \frac {\bar{X_d}}{\frac {S}{\sqrt {N}}} = 8.020706944$$

#### P-value:

根据T值和自由度DF查T表格得到P-value:
P-value < 0.0005 < alpha-value


#### 置信区间(CI):
    
$$CI = \bar {X_d} \pm t(df) = 8.020706944 \pm 2.064 = [5.9567,10.0847]$$



## 决策

因为 T 远远大于 T-critical, 所以拒绝0假设成功!

#### Reject $H_0$ 


## 效应量测量

#### Cohen's D

$$ Cohen's D = \frac {\bar {X_d}}{S} = 1.637219949$$


## 推论计算的统计意义

颜色单词和显示（或书写）该单词的颜色不一致时朗读所需的平均时长比一致时的朗读平均时长多了6到10秒。
一致和不一致两种测试的均值有1.6倍的标准偏差。
统计具有显著意义，不一致时朗读时长显著大于一致时的朗读时长。

links:

[斯特鲁普效应](https://zh.wikipedia.org/wiki/%E6%96%AF%E7%89%B9%E9%B2%81%E6%99%AE%E6%95%88%E5%BA%94)
    
[Demonstration of Stroop Effect – "Name that color" test](http://www.math.unt.edu/~tam/SelfTests/StroopEffects.html)

[Assumptions for the t-test](http://www.csic.cornell.edu/Elrod/t-test/t-test-assumptions.html)

[T-Score vs. Z-Score: What’s the Difference?](http://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/t-score-vs-z-score/)

[How to Calculate Standard Error](https://ncalculators.com/math-worksheets/calculate-standard-error.htm)