# 1 探索性数据分析

## 1.1 统计学方法

&emsp;&emsp;使用以下统计学工具解决轶事证据的局限性：
- 数据收集
- 描述性统计
- 探索性数据分析
- 估计 *#使用样本数据来估计一般总体的统计特征*
- 假设检验

## 1.2 全国家庭增长调查

&emsp;&emsp;美国疾病控制与预防中心（CDC），从 1973 年起开始进行全国家庭增长调查（NSFG），以收集“与家庭生活、婚姻状况、妊娠状况、生育情况、避孕情况，以及两性健康相关的信息”。

&emsp;&emsp;全国家庭增长调查是一项**横截面（cross-sectional）研究**，捕获的是一个群组在某一个时刻的快照。而在一个时间段内重复观察一个群组则是**纵向（longitudinal）研究**。

## 1.3 相关函数

&emsp;&emsp;在导入数据并进行分析之前，先完成几个基本的函数。

In [1]:
from __future__ import print_function, division

import sys
import numpy as np
import thinkstats2 #包含了本书用到的很多类和函数

from collections import defaultdict

In [2]:
def ReadFemPreg(dct_file, dat_file):
    """
    读取 NSFG 妊娠数据

    dct_file: string file name
    dat_file: string file name

    returns: DataFrame
    """
    dct = thinkstats2.ReadStataDct(dct_file)
    df = dct.ReadFixedWidth(dat_file, compression='gzip')
    CleanFemPreg(df)
    return df

In [3]:
def CleanFemPreg(df):
    """
    对妊娠数据框中进行数据清洗

    df: DataFrame
    """
    # 将每个 agepreg 除以 100，从而获得以年为单位的浮点数值
    df.agepreg /= 100.0

    # 将超过 20 磅的体重替换为 NaN
    df.loc[df.birthwgt_lb > 20, 'birthwgt_lb'] = np.nan
    
    # 用 NaN 替换  'not ascertained', 'refused', 'don't know' 
    na_vals = [97, 98, 99]
    df.birthwgt_lb.replace(na_vals, np.nan, inplace=True)
    df.birthwgt_oz.replace(na_vals, np.nan, inplace=True)
    df.hpagelb.replace(na_vals, np.nan, inplace=True)

    df.babysex.replace([7, 9], np.nan, inplace=True)
    df.nbrnaliv.replace([9], np.nan, inplace=True)

    # 将体重单位统一换成磅
    df['totalwgt_lb'] = df.birthwgt_lb + df.birthwgt_oz / 16.0    

    # 由于 ReadStataDct 中的错误，最后一个变量被剪裁，将其替换为 NaN
    df.cmintvw = np.nan

In [4]:
def MakePregMap(df):
    """
    制作一个从 caseid 到妊娠数据的索引地图

    df: DataFrame

    returns: dict that maps from caseid to list of indices into `preg`
    """
    d = defaultdict(list)
    for index, caseid in df.caseid.iteritems():
        d[caseid].append(index)
    return d

## 1.4 DataFrame

&emsp;&emsp;使用 `ReadFixedWidth` 读取妊娠数据，返回一个 `DataFrame` 对象。

In [5]:
df = ReadFemPreg('2002FemPreg.dct', '2002FemPreg.dat.gz')

In [6]:
# 查看数据框前 5 行数据
df.head()

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,laborfor_i,religion_i,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb
0,1,1,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,8.8125
1,1,2,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,7.875
2,2,1,,,,,5.0,,3.0,5.0,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,9.125
3,2,2,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,7.0
4,2,3,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,6.1875


&emsp;&emsp;`df` 的 `columns` 属性将列名返回为一个 `Index` 对象。

In [7]:
# 查看数据框的列名
df.columns

Index(['caseid', 'pregordr', 'howpreg_n', 'howpreg_p', 'moscurrp', 'nowprgdk',
       'pregend1', 'pregend2', 'nbrnaliv', 'multbrth',
       ...
       'laborfor_i', 'religion_i', 'metro_i', 'basewgt', 'adj_mod_basewgt',
       'finalwgt', 'secu_p', 'sest', 'cmintvw', 'totalwgt_lb'],
      dtype='object', length=244)

&emsp;&emsp;可以使用列名作为键值，访问数据框其中一列，这将返回一个 `Series` 对象。

In [8]:
pregordr = df['pregordr']
type(pregordr)

pandas.core.series.Series

&emsp;&emsp;可以使用整数的 `index` 和 `slice` 值访问 `Series` 中的元素。

In [9]:
pregordr[42]

1

In [10]:
pregordr[2:5]

2    1
3    2
4    3
Name: pregordr, dtype: int64

&emsp;&emsp; 也可以使用点标记法来访问 `DataFrame` 中的列。

In [11]:
pregordr = df.pregordr
type(pregordr)

pandas.core.series.Series

## 1.5 变量

&emsp;&emsp;此次探索性分析将用到数据框中的以下变量：
- caseid：调查参与者的整数 ID
- prglength：妊娠周数 *#整数*
- outcome：怀孕结果的整数代码 *# 1 代表成功生产*
- pregordr：妊娠的顺序号
- birthord：成功生产的顺序号
- birthwgt_lb：新生儿体重的磅部分数值
- birthwgt_oz：新生儿体重的盎司部分数值
- agepreg：妊娠结束时母亲的年龄
- finalwgt：调查参与者在全美人口中代表的人数 *#浮点数*

## 1.6 数据变换

&emsp;&emsp;导入数据时，经常需要检查数据中是否存在错误或缺失值，处理特殊值，将数据转换为不同的格式并进行计算。这些操作都称为**数据清洗（data cleaning）**。在导入妊娠数据时，使用了 `CleanFemPreg` 函数进行数据清洗，详见 1.3。

## 1.7 数据验证

&emsp;&emsp;数据验证的方法之一是计算基本的统计量，并与已发布的结果进行比较。例如 NSFG 的代码本为每个变量提供了概要表，如 `outcome` 变量：

value | label | Total 
------ | ------ | ------
1 | LIVE BIRTH | 9148
2 | INDUCED ABORTION | 1862
3 | STILLBIRTH | 120
4 | MISCARRIAGE | 1921
5 | ECTOPIC PREGNANCY | 190
6 | CURRENT PREGNANCY | 352

&emsp;&emsp;使用 `value_counts` 方法，将结果与已发布数据进行比较：

In [12]:
df.outcome.value_counts().sort_index()

1    9148
2    1862
3     120
4    1921
5     190
6     352
Name: outcome, dtype: int64

## 1.8 解释数据

&emsp;&emsp;想要有效使用数据，就必须同时在两个层面上思考问题：统计学层面和上下文层面。

&emsp;&emsp;以一位调查参与者的 `outcome` 序列为例：

In [13]:
preg_map = MakePregMap(df)

In [14]:
caseid = 10229

In [15]:
indices = preg_map[caseid]

In [16]:
df.outcome[indices].values

array([4, 4, 4, 4, 4, 4, 1], dtype=int64)

&emsp;&emsp;结果中的 1 代表成功分娩， 4 代表流产。从统计学上来看，这位调查者并无异常，流产并不少见。但联系上下文，这数据向我们说明了一位坚强的妇女，在流产了 6 次之后，终于成功生下孩子。

## 1.9 相关术语

> - **轶事证据**（*anecdotalevidence*）
> 
> &emsp;&emsp;证据是来自轶事事件，由于观测数量比较小，且在选择数据和确认数据时存在偏倚，不精确，这种证据有可能是不可靠的。轶事证据是一种对常见现象的不太有把握的证据，然而，对于一些特例现象，轶事证据常常被广泛接受。
> 
> - **总体**（*population*）
>
> &emsp;&emsp;在研究中，我们感兴趣的群组。
> 
> - **横截面研究**（*cross-sectional study*）
>
> &emsp;&emsp;收集一个总体在某个特定时间点的数据研究。
> 
> - **周期**（*cycle*）
>
> &emsp;&emsp;在重复进行的横截面研究中，每次研究被称为一个周期。
> 
> - **纵向研究**（*longtitudinal study*）
>
> &emsp;&emsp;在一段时间内跟踪一个总体的研究，从同一个群体重复收集数据。
> 
> - **记录**（*record*）
>
> &emsp;&emsp;在数据集中，关于单个人或其他对象的信息集合。
> 
> - **调查参与人**（*respondent*）
>
> &emsp;&emsp;参与调查的人。
> 
> - **样本**（*sample*）
>
> &emsp;&emsp;总体中用于数据收集的一个子集。
> 
> - **有代表性**（*representative*）
>
> &emsp;&emsp;如果总体中每个成员被选入样本的机会都均等，那么这个样本就是有代表性的。
> 
> - **原始数据**（*raw data*）
>
> &emsp;&emsp;没有经过或只经过少许检查、计算或解释，直接收集和记录的值。
> 
> - **过度抽样**（*oversampling*）
>
> &emsp;&emsp;一种通过增加一个子总体的样本数来避免因样本规模过小产生错误的技术。
> 
> - **重编码**（*recode*）
>
> &emsp;&emsp;通过计算和应用于原始数据的其他逻辑生成的值。
> 
> - **数据清洗**（*data cleaning*）
>
> &emsp;&emsp;数据处理过程，包括数据验证、错误检查，以及数据类型和表示的转换等。