# 1 探索性数据分析

## 1.1 统计学方法

&emsp;&emsp;使用以下统计学工具解决轶事证据的局限性：
- 数据收集
- 描述性统计
- 探索性数据分析
- 估计 *#使用样本数据来估计一般总体的统计特征*
- 假设检验

## 1.2 全国家庭增长调查

&emsp;&emsp;美国疾病控制与预防中心（CDC），从 1973 年起开始进行全国家庭增长调查（NSFG），以收集“与家庭生活、婚姻状况、妊娠状况、生育情况、避孕情况，以及两性健康相关的信息”。

&emsp;&emsp;全国家庭增长调查是一项横截面（cross-sectional）研究，捕获的是一个群组在某一个时刻的快照。而在一个时间段内重复观察一个群组则是纵向（longitudinal）研究。

## 1.10 术语

> **轶事证据**（*anecdotalevidence*）
> 
> &emsp;&emsp;证据是来自轶事事件，由于观测数量比较小，且在选择数据和确认数据时存在偏倚，不精确，这种证据有可能是不可靠的。轶事证据是一种对常见现象的不太有把握的证据，然而，对于一些特例现象，轶事证据常常被广泛接受。

## 1.3 数据导入

&emsp;&emsp;在导入数据并进行分析之前，先完成几个基本的函数。

In [1]:
from __future__ import print_function, division

import sys
import numpy as np
import thinkstats2 #包含了本书用到的很多类和函数

from collections import defaultdict

In [2]:
def ReadFemResp(dct_file, dat_file, nrows=None):
    """
    读取 NSFG 调查参与者数据

    dct_file: string file name
    dat_file: string file name

    returns: DataFrame
    """
    dct = thinkstats2.ReadStataDct(dct_file)
    df = dct.ReadFixedWidth(dat_file, compression='gzip', nrows=nrows)
    CleanFemResp(df)
    return df

In [3]:
def ReadFemPreg(dct_file, dat_file):
    """
    读取 NSFG 妊娠数据

    dct_file: string file name
    dat_file: string file name

    returns: DataFrame
    """
    dct = thinkstats2.ReadStataDct(dct_file)
    df = dct.ReadFixedWidth(dat_file, compression='gzip')
    CleanFemPreg(df)
    return df

In [4]:
def CleanFemResp(df):
    """
   对调查参与者数据框中进行数据清洗

    df: DataFrame
    """
    pass

In [5]:
def CleanFemPreg(df):
    """
    对妊娠数据框中进行数据清洗

    df: DataFrame
    """
    # mother's age is encoded in centiyears; convert to years
    df.agepreg /= 100.0

    # birthwgt_lb contains at least one bogus value (51 lbs)
    # replace with NaN
    df.loc[df.birthwgt_lb > 20, 'birthwgt_lb'] = np.nan
    
    # replace 'not ascertained', 'refused', 'don't know' with NaN
    na_vals = [97, 98, 99]
    df.birthwgt_lb.replace(na_vals, np.nan, inplace=True)
    df.birthwgt_oz.replace(na_vals, np.nan, inplace=True)
    df.hpagelb.replace(na_vals, np.nan, inplace=True)

    df.babysex.replace([7, 9], np.nan, inplace=True)
    df.nbrnaliv.replace([9], np.nan, inplace=True)

    # birthweight is stored in two columns, lbs and oz.
    # convert to a single column in lb
    # NOTE: creating a new column requires dictionary syntax,
    # not attribute assignment (like df.totalwgt_lb)
    df['totalwgt_lb'] = df.birthwgt_lb + df.birthwgt_oz / 16.0    

    # due to a bug in ReadStataDct, the last variable gets clipped;
    # so for now set it to NaN
    df.cmintvw = np.nan

## 1.4 DataFrame

&emsp;&emsp;使用 `ReadFixedWidth` 读取妊娠数据，返回一个 `DataFrame` 对象。

In [6]:
df = ReadFemPreg('data/2002FemPreg.dct', 'data/2002FemPreg.dat.gz')

In [7]:
# 查看数据框前 5 行数据
df.head()

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,laborfor_i,religion_i,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb
0,1,1,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,8.8125
1,1,2,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,7.875
2,2,1,,,,,5.0,,3.0,5.0,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,9.125
3,2,2,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,7.0
4,2,3,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,6.1875


&emsp;&emsp;`df` 的 `columns` 属性将列名返回为一个 `Index` 对象。

In [8]:
# 查看数据框的列名
df.columns

Index(['caseid', 'pregordr', 'howpreg_n', 'howpreg_p', 'moscurrp', 'nowprgdk',
       'pregend1', 'pregend2', 'nbrnaliv', 'multbrth',
       ...
       'laborfor_i', 'religion_i', 'metro_i', 'basewgt', 'adj_mod_basewgt',
       'finalwgt', 'secu_p', 'sest', 'cmintvw', 'totalwgt_lb'],
      dtype='object', length=244)

&emsp;&emsp;可以使用列名作为键值，访问数据框其中一列，这将返回一个 `Series` 对象。

In [9]:
pregordr = df['pregordr']
type(pregordr)

pandas.core.series.Series

&emsp;&emsp;可以使用整数的 `index` 和 `slice` 值访问 `Series` 中的元素。

In [10]:
pregordr[42]

1

In [11]:
pregordr[2:5]

2    1
3    2
4    3
Name: pregordr, dtype: int64

&emsp;&emsp; 也可以使用点标记法来访问 `DataFrame` 中的列。

In [12]:
pregordr = df.pregordr
type(pregordr)

pandas.core.series.Series

## 1.5 变量

&emsp;&emsp;此次探索性分析将用到数据框中的以下变量：
- caseid：调查参与者的整数 ID
- prglength：妊娠周数 *#整数*
- outcome：怀孕结果的整数代码 *# 1 代表成功生产*
- pregordr：妊娠的顺序号
- birthord：成功生产的顺序号
- birthwgt_lb：新生儿体重的磅部分数值
- birthwgt_oz：新生儿体重的盎司部分数值
- agepreg：妊娠结束时母亲的年龄
- finalwgt：调查参与者在全美人口中代表的人数 *#浮点数*

## 1.6 数据变换