# 第一章：探索性数据分析

## Setup

导入一些模块，设定数据路径，并且定义一些之后会用到的类和函数

In [1]:
import os
import re
import pandas
import numpy as np

from collections import defaultdict

ROOT_PATH = "."
DATA_PATH = os.path.join(ROOT_PATH,"data")

In [2]:
class FixedWidthVariables(object):
    """Represents a set of variables in a fixed width file."""

    def __init__(self, variables, index_base=0):
        """Initializes.
        variables: DataFrame
        index_base: are the indices 0 or 1 based?
        Attributes:
        colspecs: list of (start, end) index tuples
        names: list of string variable names
        """
        self.variables = variables

        # note: by default, subtract 1 from colspecs
        self.colspecs = variables[['start', 'end']] - index_base

        # convert colspecs to a list of pair of int
        self.colspecs = self.colspecs.astype(np.int).values.tolist()
        self.names = variables['name']

    def ReadFixedWidth(self, filename, **options):
        """Reads a fixed width ASCII file.
        filename: string filename
        returns: DataFrame
        """
        df = pandas.read_fwf(filename,
                             colspecs=self.colspecs, 
                             names=self.names,
                             **options)
        return df


def ReadStataDct(dct_file, **options):
    """Reads a Stata dictionary file.
    dct_file: string filename
    options: dict of options passed to open()
    returns: FixedWidthVariables object
    """
    type_map = dict(byte=int, int=int, long=int, float=float, double=float)

    var_info = []
    for line in open(dct_file, **options):
        match = re.search( r'_column\(([^)]*)\)', line)
        if match:
            start = int(match.group(1))
            t = line.split()
            vtype, name, fstring = t[1:4]
            name = name.lower()
            if vtype.startswith('str'):
                vtype = str
            else:
                vtype = type_map[vtype]
            long_desc = ' '.join(t[4:]).strip('"')
            var_info.append((start, vtype, name, fstring, long_desc))
            
    columns = ['start', 'type', 'name', 'fstring', 'desc']
    variables = pandas.DataFrame(var_info, columns=columns)

    # fill in the end column by shifting the start column
    variables['end'] = variables.start.shift(-1)
    variables.loc[len(variables)-1, 'end'] = 0

    dct = FixedWidthVariables(variables, index_base=1)
    return dct

def CleanFemPreg(df):
    """Recodes variables from the pregnancy frame.
    df: DataFrame
    """
    # mother's age is encoded in centiyears; convert to years
    """
    agepreg包含母亲在妊娠结束时的年龄。在数据文件中，agepreg是以百分之一年为单位的整数值，
    因此要除以100获得以年为单位的浮点数值
    """
    df.agepreg /= 100.0

    # birthwgt_lb contains at least one bogus value (51 lbs)
    # replace with NaN
    """
    birthwgt_lb和birthwgt_oz包含新生儿体重的磅部分数值和盎司部分数值，
    需要去除一些数字编码的结果如97（NOT ASCRERTAINED），98（REFUSED），99（DON'T KNOW)
    用np.nan代替，replace方法直接在原有数值上替换，不是创建新的变量。
    IEEE浮点数表示法标准中规定，在任何算数运算中，如果有参数为nan，结果都返回nan。
    """
    df.loc[df.birthwgt_lb > 20, 'birthwgt_lb'] = np.nan
    
    # replace 'not ascertained', 'refused', 'don't know' with NaN
    na_vals = [97, 98, 99]
    df.birthwgt_lb.replace(na_vals, np.nan, inplace=True)
    df.birthwgt_oz.replace(na_vals, np.nan, inplace=True)
    df.hpagelb.replace(na_vals, np.nan, inplace=True)

    df.babysex.replace([7, 9], np.nan, inplace=True)
    df.nbrnaliv.replace([9], np.nan, inplace=True)

    # birthweight is stored in two columns, lbs and oz.
    # convert to a single column in lb
    # NOTE: creating a new column requires dictionary syntax,
    # not attribute assignment (like df.totalwgt_lb)
    """
    生成新的totalwgt_lb，将磅和盎司值结合在一起，得到一个以磅为单位的值，
    在Dataframe中添加新列时，必需使用如下字典语法：
    df['totalwgt_lb'] = df.birthwgt_lb + df.birthwgt_oz / 16.0 
    而不是点标记法
    df.totalwgt_lb = df.birthwgt_lb + df.birthwgt_oz / 16.0 
    使用点标记法会给Dataframe对象添加一个新属性，而不是创建一个新列。
    """
    df['totalwgt_lb'] = df.birthwgt_lb + df.birthwgt_oz / 16.0    

    # due to a bug in ReadStataDct, the last variable gets clipped;
    # so for now set it to NaN
    df.cmintvw = np.nan

def ReadFemPreg(dct_file=os.path.join(DATA_PATH,'2002FemPreg.dct'),
                dat_file=os.path.join(DATA_PATH,'2002FemPreg.dat.gz')):
    """Reads the NSFG pregnancy data.
    dct_file: string file name
    dat_file: string file name
    returns: DataFrame
    """
    dct = ReadStataDct(dct_file)
    df = dct.ReadFixedWidth(dat_file, compression='gzip')
    CleanFemPreg(df)
    return df

## 1.1 统计学习方法

* 数据收集
    
    本书将使用大型的美国全国性调查数据，这个调查专门设计用于对美国人口进行有效的统计推断


* 描述性统计

    得出统计量，对数据进行简要的汇总，并评估可视化数据的不同方法


* 探索性数据分析

    寻找各种模式、差异，以及其他能够解决我们感兴趣的问题的特征，同时还将检查数据的不一致性，发现局限性


* 估计

    使用样本数据来估计一般总体的统计特征


* 假设检验

    如果看到明显的效应，如两个群组之间存在的差异，将衡量该效应是否偶然产生的

## 1.4 DataFrame 

Read NSFG(全国家庭增长调查) data into a Pandas DataFrame.

In [3]:
preg = ReadFemPreg()
preg.head()

Unnamed: 0,caseid,pregordr,howpreg_n,howpreg_p,moscurrp,nowprgdk,pregend1,pregend2,nbrnaliv,multbrth,...,laborfor_i,religion_i,metro_i,basewgt,adj_mod_basewgt,finalwgt,secu_p,sest,cmintvw,totalwgt_lb
0,1,1,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,8.8125
1,1,2,,,,,6.0,,1.0,,...,0,0,0,3410.389399,3869.349602,6448.271112,2,9,,7.875
2,2,1,,,,,5.0,,3.0,5.0,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,9.125
3,2,2,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,7.0
4,2,3,,,,,6.0,,1.0,,...,0,0,0,7226.30174,8567.54911,12999.542264,2,12,,6.1875


In [4]:
# Print the column names.
preg.columns

Index(['caseid', 'pregordr', 'howpreg_n', 'howpreg_p', 'moscurrp', 'nowprgdk',
       'pregend1', 'pregend2', 'nbrnaliv', 'multbrth',
       ...
       'laborfor_i', 'religion_i', 'metro_i', 'basewgt', 'adj_mod_basewgt',
       'finalwgt', 'secu_p', 'sest', 'cmintvw', 'totalwgt_lb'],
      dtype='object', length=244)

In [5]:
# Select a single column name.
preg.columns[1]

'pregordr'

In [6]:
# Select a column and check what type it is.
pregordr = preg['pregordr']
type(pregordr)

pandas.core.series.Series

In [7]:
# Print a column.
pregordr

0        1
1        2
2        1
3        2
4        3
5        1
6        2
7        3
8        1
9        2
10       1
11       1
12       2
13       3
14       1
15       2
16       3
17       1
18       2
19       1
20       2
21       1
22       2
23       1
24       2
25       3
26       1
27       1
28       2
29       3
        ..
13563    2
13564    3
13565    1
13566    1
13567    1
13568    2
13569    1
13570    2
13571    3
13572    4
13573    1
13574    2
13575    1
13576    1
13577    2
13578    1
13579    2
13580    1
13581    2
13582    3
13583    1
13584    2
13585    1
13586    2
13587    3
13588    1
13589    2
13590    3
13591    4
13592    5
Name: pregordr, Length: 13593, dtype: int64

In [8]:
# Select a single element from a column.
pregordr[1]

2

In [9]:
# Select a slice from a column.
pregordr[2:5]

2    1
3    2
4    3
Name: pregordr, dtype: int64

In [10]:
# Select a column using dot notation.可以使用点标记法来访问DataFrame中的列
pregordr = preg.pregordr

## 1.5 变量

书中需要用到的变量：

* caseid：调查参与者的整数ID

* prglength： 妊娠周数， 是一个整数。

* outcome：怀孕结果的整数代码，1代表成功生产

* pregordr： 妊娠顺序号。例如，一位调查参与者的第一次妊娠为1，第二次为2，以此类推

* birthord：成功生产的顺序号，第一位调查参与者的第一个孩子代码为1，以此类推，对于没有成功生产的其他妊娠结果，此字段为空。

* birthwgt_lb和birthwgt_oz：新生儿体重的磅部分数值和盎司部分数值

* agepreg：妊娠结束时母亲的年龄

* finalwgt：调查参与者的统计权重，这是一个浮点数，表示这位调查参与者在全美人口中代表的人数

仔细阅读表会发现这些变量中很多都是`重编码（recode）`，也就是说这些不是调查的原始数据（raw data），而是使用原始数据计算得到的。

例如，如果成功生产，prglngth的值就与原始变量wksgest（妊娠周数）相同，否则，prglngth的值估算为mosgest * 4.33（妊娠月数乘以一个月的平均周数）

重编码通常都基于一定的逻辑，这种逻辑用于检查数据的一致性和准确性。

## 1.6 数据变换

导入调查数据时，经常需要检查数据是否存在错误，处理特殊值，将数据转换为不同的格式并进行计算。这些操作都称为`数据清洗（data cleaning）`。见上面CleanFemPreg()函数

## 1.7 数据验证

数据验证的一种2方法时计算基本的统计量，并于已经发布的结果进行比较

In [13]:
"""
Series类提供了一个value_counts方法，可以计算每个值出现的次数，其返回的结果是一个Series对象
sort_index方法将Series对象按引索排序，使结果按序显示
"""
preg.outcome.value_counts().sort_index()

1    9148
2    1862
3     120
4    1921
5     190
6     352
Name: outcome, dtype: int64

In [14]:
preg.birthwgt_lb.value_counts().sort_index()

0.0        8
1.0       40
2.0       53
3.0       98
4.0      229
5.0      697
6.0     2223
7.0     3049
8.0     1889
9.0      623
10.0     132
11.0      26
12.0      10
13.0       3
14.0       3
15.0       1
Name: birthwgt_lb, dtype: int64

## 1.8 解释数据

想要有效的使用数据，就必须同时在两个层面上思考问题：统计学层面和上下文层面

In [18]:
"""
下面函数创建一个默认字典，其值为列表
然后iteritems方法遍历所有妊娠记录的索引（行号）和caseid，并放入到创建的字典中
通过d我们可以查找一位调查参与者，获得其妊娠数据的索引。
"""
def MakePregMap(df):
    """Make a map from caseid to list of preg indices.
    df: DataFrame
    returns: dict that maps from caseid to list of indices into `preg`
    """
    d = defaultdict(list)
    for index, caseid in df.caseid.iteritems():
        d[caseid].append(index)
    return d

In [19]:
"""
下面示例就查找了一个调查参与者，并打印出其妊娠结果列表
indices是调查参与者10229的妊娠记录索引列表
以这个列表为索引可以访问df.outcome中指定的行，获得一个Series。下面示例没有打印出整个Series对象。
而是选择输出values属性，这个属性是一个NumPy数组。
"""
caseid = 10229
preg_map = MakePregMap(preg)
indices = preg_map[caseid]
preg.outcome[indices].values


array([4, 4, 4, 4, 4, 4, 1])