# Pandas统计分析入门（2）
- ## 二维数据统计分析(DataFrame基础)

---

In [None]:
%matplotlib inline
from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 二、二维数据统计分析(DataFrame基础)

- 数据的描述、分析、可视化展示、概括性度量、输入与输出
df：多维条形图，多维折线图，多层图

### 1. DataFrame对象及数据展示

- DataFrame是pandas最重要最基础的数据对象之一，可用来表示数据表
- 如果将Series视为表格中的一列，则DataFrame可以视为表中多列，或者是具有相同index的多个Series
- 如果将Series视为向量(带索引)，则DataFrame即可视为矩阵(带索引)。
- 本小节仍将以一个词频统计结果作为实例，进行介绍。
- 教程中的各个代码段，请自行建立新的python程序，依次键入并顺序执行，观察执行结果。

In [None]:
words_freq = np.array([200,300,400,350,390,600,900,400,300,120])
freq_dict = {'boy':words_freq,'girl':words_freq*2,'children':words_freq+100, 'child': words_freq+300}
total_words_freq = [12345000,23456000,22333000,45632000,11144000,65433000,44444000,55555000,34522000,55566000]
years = pd.date_range('2006', periods=10, freq='A')

In [None]:
df = DataFrame(freq_dict)
df

- 利用dict创建一个DataFrame对象，其index默认为从0开始的整数

In [None]:
df = DataFrame(freq_dict, index = years)
df

- 与Series对象类似，可以在初始化DataFrame的时候，指定index
- 数据可视为3个有相同index的Series

In [None]:
df.plot()

- 与Series对象类似，DataFrame对象可以利用plot()函数直接绘制折线图

In [None]:
df.plot(kind='bar')

- 绘制柱状图(统计学中一般称为复式柱状图)

In [None]:
df.plot(kind='barh')

- 绘制条形图

In [None]:
df.plot(kind = 'area')

- 绘制(面积)堆积图

In [None]:
df.plot(kind='box')

- 绘制箱型图

In [None]:
sns.boxplot(df)

- 利用seaborn绘制箱型图

In [None]:
df.plot(kind='scatter', x='boy',y='girl')

- 当plot()函数kind为scatter时，可绘制散点图
- 散点图展现的是2组数据(2个变量)之间的关系
- 可见当前`boy`与`girl`两组数据之间是一种线性关系

In [None]:
df.plot(kind='scatter', x='boy',y='girl',s=df['child'].values)

- 对散点图，如果设置s参数，将一组list类型的数据传入，代表对应点的大小，则绘制出气泡图
- 气泡图展示的是三组数据(三个变量)之间的关系。上图可以解释为：当男孩数量增加时，女孩增加，同时小孩儿的数量增加。

### 2. 查看DataFrame数据

In [None]:
df.head()

In [None]:
df.tail(4)

- 与Series类似，一样可以利用head()与tail()查看数据的前几行与后几行。

In [None]:
df.index

- 查看index属性，index也可称为行索引

In [None]:
df.values

- 查看values属性，可见DataFrame对象的values是一个numpy的ndarray类型。

In [None]:
df.columns

- 查看columns属性，columns也可称为列索引。此时列标签是pandas的Index对象，类似list，其中有个三个元素，类型为`object`，在pandas中，非数字类型一般均为object类型。

In [None]:
df.describe()

- 利用describe()函数，快速查看DataFrame中数据表的数据概要

In [None]:
dft = df.T
dft

- 可将DataFrame对象转置。
- 注意，转置并不改变原DataFrame对象，而是新生成一个DataFrame对象。

In [None]:
dft.index

In [None]:
dft.columns

- 转置后，index与columns的值互换

In [None]:
df.sort_index(ascending = False) 

- 根据索引进行排序，默认是升序，并对行索引进行排序。定义逐行变化方向为0轴方向：axis=0
- `ascending = False`，使之降序排列

In [None]:
df.sort_index(axis = 1, ascending = False) 

- 将参数axis设为1，排序即按照列索引进行排序

In [None]:
df.sort_values(by='boy')

- 根据值进行排序，如是根据某对应列的值进行排序，需要在参数by中指定数据列索引

### 3. 选择DataFrame数据
**3.1 列选择**

In [None]:
df['boy']

- 利用列索引选择一列，将返回该列，且为Series对象。也可以用`df.boy`来访问，效果相同。

In [None]:
df[['boy']]

- 指定一个列标签，放入list中，可以获取对应colums标签的列，返回DataFrame对象。

In [None]:
df[['boy','children']]

- 利用指定多个列标签colums的list，可以获取对应colums标签的列，返回DataFrame对象。

In [None]:
df[[0,2]]

- 利用代表列整数索引的list，可以获取对应colums标签的列，返回DataFrame对象。

In [None]:
 df.loc[:,'boy']

- 也可以利用DataFrame的loc属性进行列选取
- loc属性主要通过标签进行数据选取
- 其中第一个位置参数表示行方向(即axis=0)元素，为`:`即为全部选取
- 第二个位置参数表示列方向(即axis=1)元素，选取当前指定列标签的数据
- 返回一个Series对象

In [None]:
 df.loc[:,['boy']]

- 与前类似，如在list中指定列标签，则返回一个DataFrame对象

In [None]:
df.loc[:,['boy', 'girl']]

- 与前类似，可以选择多个列，返回一个DataFrame对象

In [None]:
df.loc[:,'boy': 'girl']

- 可以利用列索引进行切片选取
- 注意切片是两端包含
- 注意切片不需要在list中

In [None]:
df.iloc[:,0]

- 还可以利用DataFrame的iloc属性进行列选取
- iloc属性也称为位置(position)属性，主要通过位置(即对应整数索引)进行数据选取
- 其中第一个位置参数仍然表示行方向(即axis=0)元素，为`:`即为全部选取
- 第二个位置参数仍然表示列方向(即axis=1)元素，选取当前指定列标签的数据
- 返回一个Series对象

In [None]:
df.iloc[:,[1]]

- 与前类似，如在list中指定列位置，则返回一个DataFrame对象

In [None]:
df.iloc[:,[1,2]]

- 与前类似，可以根据位置选择多个列，返回一个DataFrame对象

In [None]:
df.iloc[:,0:2]

- 与前类似，可以通过列位置进行切片选择多个列，返回一个DataFrame对象

**3.2 行选择**

In [None]:
df.loc[years[0]]

- 也可以利用DataFrame的loc属性进行行选取
- loc属性主要通过标签进行数据选取
- 其中第一个位置参数表示行方向(即axis=0)元素
- 第二个位置参数表示列方向(即axis=1)元素，不指定时，默认为全部选取
- 返回一个Series对象

In [None]:
df.loc[[years[0]]]

- 与前类似，如在list中指定行标签，则可选择该行，并返回一个DataFrame对象

In [None]:
df.loc[[years[0], years[2]]]

- 与前类似，如在list中指定多个行标签，则可选择多行，并返回一个DataFrame对象

In [None]:
df.loc[years[0]: years[2]]

- 与前类似，还可以利用标签切片来选择多行，并返回一个DataFrame对象

In [None]:
df.iloc[0]

- 还可以利用DataFrame的iloc属性进行行选取
- iloc属性也称为位置(position)属性，主要通过位置(即对应整数索引)进行数据选取
- 其中第一个位置参数仍然表示行方向(即axis=0)元素
- 第二个位置参数仍然表示列方向(即axis=1)元素，不指定时，默认为全部选取
- 返回一个Series对象

In [None]:
df.iloc[[0]]

- 与前类似，如在list中指定行位置，则返回一个DataFrame对象

In [None]:
df.iloc[[0,1,2]]

- 与前类似，可以根据位置选择多个行，返回一个DataFrame对象

In [None]:
df.iloc[1:3]

- 与前类似，可以根据位置进行切片选择多个行，返回一个DataFrame对象

In [None]:
df[0:3]

- 可以利用行切片，选取多行数据，返回一个DataFrame对象
- 个人觉得容易与选取列数据的混淆，不建议使用

**3.3 选择区块**

**3.3.1 利用loc**

In [None]:
df.loc[years[0],'boy']

- 利用loc，可以选择指定行标签、列标签的数据

In [None]:
df.loc[years[0],['boy']]

- 利用loc，指定行标签，在list中指定一个列标签，可以选择指定行列的数据
- 返回一个Series

In [None]:
df.loc[[years[0]],['boy']]

- 利用loc，在list中指定一个行标签，在list中指定一个列标签，可以选择指定行列的数据
- 返回一个DataFrame对象

In [None]:
df.loc[years[0],['boy', 'girl']]

- 利用loc，指定行标签，在list中指定多个列标签，可以选择指定行的多个列的数据
- 返回一个Series

In [None]:
df.loc[years[0],'boy':'girl']

- 与前类似，还可以切片选择给定行的多列数据
- 返回一个Series

In [None]:
df.loc[[years[0]],'boy':'girl']

- 与前类似，但是将返回一个DataFrame对象

In [None]:
df.loc[years[0]:years[2],'boy':'girl']

- 行列标签切片，选择对应数据
- 利用loc方式的行与列均可以如上类似处理

**3.3.2 利用iloc**

利用iloc进行区域选择的方式与loc基本类似，只是利用位置而非标签信息进行选取，请参照前面理解

In [None]:
df.iloc[0,0]

In [None]:
df.iloc[0,[0,1,2]]

In [None]:
df.iloc[[0,1,2],0]

In [None]:
df.iloc[[0,1,2],[1, 2]]

In [None]:
df.iloc[0:2,[1, 2]]

In [None]:
df.iloc[0:5,0:3]

**3.3.3 利用iat选择单个元素**

In [None]:
df.iat[1,1]

## 4. 过滤DataFrame数据

In [None]:
 df[df.boy > 400]

- 可利用DataFrame对象的某一列数据，进行布尔运算，根据布尔运算的结果过滤数据
- 返回一个DataFrame对象

In [None]:
df[df[['boy','girl']] > 700]

- 可设置多个列的条件，来过滤数据
- 返回DataFrame对象

In [None]:
df[df > 400]

- 可对所有元素进行条件过滤
- 返回DataFrame对象

In [None]:
df[df['girl'].isin([700,800])]

- 利用isin()函数，选择某列数据进行数据过滤