# Chap02 pandas基础

In [1]:
import pandas as pd

## 文件读取
1. `pd.read_csv,pd.read_table,pd.read_excel`分别读取csv,txt,excel文件
2. 公共参数：
    - `header=None`表示第一行不作为列名
    - `index_col`表示把某一列或几列作为索引
    - `usecols`表示读取列的集合，默认读取所有的列
    - `parse_dates`表示需要转化为时间的列
    - `nrows`表示读取的数据行数
3. `read_table`有一个分割参数`sep`，可以自定义分割符号，进行txt数据的读取

## 数据写入
1. `df.to_csv`除了可以保存为csv文件，还可以保存为txt文件，并允许自定义分隔符`sep='\t'`
2. `df.to_excel`可以保存为excel文件
3. `df.to_markdown`和`df.to_latex`函数可以将表格快速转化为markdown语言和latex语言，前提条件需要安装`tabulate`包

## 基本数据结构
1. `Series`和`Dataframe`的公共组成：`data(获取的方式为.values),index,dtype,name`，`.shape`可以获得大小
2. `Dataframe`在`Series`的基础上增加了列索引`columns`，其中`data`可以是列表，也可以是带列索引的字典
3. `df['col_0']`结果为series，取出相应的列
4. `df[['col_0','col_1']]`结果为Dataframe，取出多个列组成的表
5. `df.T`数据集的转置

## 常用基本函数
### 汇总函数
1. `head`函数和`tail`函数分别表示返回表或者序列的前n行和后n行
2. `info`函数和`describe`函数分别返回表的信息概况和表中数值列对应的主要统计量
### 特征统计函数
1. 常见函数`sum,mean,median,var,std,max,min`
2. 分位数`quantile`，非缺失值个数`count`，最大值对应的索引`idxmax`
3. 以上函数，操作后返回标量，又称为聚合函数，公共参数`axis`，默认为0代表逐列聚合，设置为1则表示逐行聚合
### 唯一值函数
1. `unique`唯一值组成的列表，`nunique`唯一值个数
2. `value_counts`可得到唯一值和其对应出现的频数
3. `drop_duplicates`可观察多个列组合的唯一值，关键控制参数`keep`
   - 默认值`first`表示每个组合保留第一次出现的所在行
   - `last`表示保留最后一次出现的所在行
   - `False`表示把所有重复组合所在的行剔除
4. `duplicated`与`drop_duplicates`的功能类似，但返回的是`是否为唯一值的布尔列表`，keep参数的设置也一致
### 替换函数
1. 映射替换
   - `replace`通过字典构造，或者传入两个列表来进行替换，或者是特殊的方向替换，指定`method`参数为`ffill`则用前面一个最近的未被替换的值进行替换，`bfill`则使用后面最近的未被替换的值进行替换
   - `str.replace`（此处略）
   - `cat.codes`（此处略）
2. 逻辑替换
   - `where`在传入条件为**False**的对应行进行替换
   - `mask`在传入条件为**True**的对应行进行替换
   - 以上两个函数在不指定替换值时，替换为缺失值
   - 传入的条件只需是与被调用的Series索引一致的布尔序列即可
3. 数值替换
   - `round`按照给定精度四舍五入
   - `abs`取绝对值
   - `clip(n,m)`截断，小于n的数截断为n，大于m的数截断为m，其余不变
### 排序函数
1. 值排序`sort_value`
2. 索引排序`sort_index`
3. 控制升降序的的参数`ascending`
### apply方法
1. 多配合匿名函数，但是性能低
2. 可以指定`axis=`，传入函数的就是行元素组成的Series

In [5]:
df = pd.read_csv('./data/learn_pandas.csv')
df.columns

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
       'Test_Number', 'Test_Date', 'Time_Record'],
      dtype='object')

In [6]:
df.mean()

  df.mean()


Height         163.218033
Weight          55.015873
Test_Number      1.645000
dtype: float64

In [8]:
df_demo = df[['Gender','Transfer','Name']]
df_demo.drop_duplicates(['Gender','Transfer'])

Unnamed: 0,Gender,Transfer,Name
0,Female,N,Gaopeng Yang
1,Male,N,Changqiang You
12,Female,,Peng You
21,Male,,Xiaopeng Shen
36,Male,Y,Xiaojuan Qin
43,Female,Y,Gaoli Feng


In [9]:
df_demo.drop_duplicates(['Gender','Transfer'], keep='last')

Unnamed: 0,Gender,Transfer,Name
147,Male,,Juan You
150,Male,Y,Chengpeng You
169,Female,Y,Chengquan Qin
194,Female,,Yanmei Qian
197,Female,N,Chengqiang Chu
199,Male,N,Chunpeng Lv


In [11]:
df_demo.drop_duplicates(['Name','Gender'], keep= False).head()

Unnamed: 0,Gender,Transfer,Name
0,Female,N,Gaopeng Yang
1,Male,N,Changqiang You
2,Male,N,Mei Sun
4,Male,N,Gaojuan You
5,Female,N,Xiaoli Qian


In [12]:
df['Gender'].replace({'Female':0, 'Male':1}).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

In [13]:
df['Gender'].replace(['Female', 'Male'], [0,1]).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

In [14]:
s = pd.Series(['a',1,'b',2,1,1,'a'])
s.replace([1], method='ffill')

0    a
1    a
2    b
3    2
4    2
5    2
6    a
dtype: object

In [15]:
s.replace([1], method='bfill')

0    a
1    b
2    b
3    2
4    a
5    a
6    a
dtype: object

In [16]:
s = pd.Series([-1, 1.2345, 100, -50])
# 将大于等于0的数替换为缺失值
print(s.where(s<0))
print(s.mask(s>=0))

0    -1.0
1     NaN
2     NaN
3   -50.0
dtype: float64
0    -1.0
1     NaN
2     NaN
3   -50.0
dtype: float64


In [17]:
s_condition = pd.Series([True, False, False, True], index = s.index)
s.mask(s_condition, -50)

0    -50.0000
1      1.2345
2    100.0000
3    -50.0000
dtype: float64

In [21]:
s.round(2)

0     -1.00
1      1.23
2    100.00
3    -50.00
dtype: float64

In [22]:
s.abs()

0      1.0000
1      1.2345
2    100.0000
3     50.0000
dtype: float64

In [23]:
s.clip(0,2) #前两个数分别表示上下截断边界，即将数值截断在0<=x<=2之间

0    0.0000
1    1.2345
2    2.0000
3    0.0000
dtype: float64

In [28]:
df_demo = df[['Grade', 'Name', 'Height', 'Weight']].set_index(['Grade','Name'])
df_demo.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Freshman,Gaopeng Yang,158.9,46.0
Freshman,Changqiang You,166.5,70.0
Senior,Mei Sun,188.9,89.0


In [29]:
df_demo.sort_values('Height').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Junior,Xiaoli Chu,145.4,34.0
Senior,Gaomei Lv,147.3,34.0
Sophomore,Peng Han,147.8,34.0
Senior,Changli Lv,148.7,41.0
Sophomore,Changjuan You,150.5,40.0


In [31]:
df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Sophomore,Peng Han,147.8,34.0
Senior,Gaomei Lv,147.3,34.0
Junior,Xiaoli Chu,145.4,34.0
Sophomore,Qiang Zhou,150.5,36.0
Freshman,Yanqiang Xu,152.4,38.0


In [32]:
df_demo.sort_index(level=['Grade','Name'], ascending=[True,False]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Freshman,Yanquan Wang,163.5,55.0
Freshman,Yanqiang Xu,152.4,38.0
Freshman,Yanqiang Feng,162.3,51.0
Freshman,Yanpeng Lv,,65.0
Freshman,Yanli Zhang,165.1,52.0


In [33]:
df_demo.apply(lambda x:x.mean())

Height    163.218033
Weight     55.015873
dtype: float64

## 窗口对象
### 滑窗对象
1. `rolling`通过该函数得到滑窗对象，利用参数`window`设置窗口大小
2. 在得到滑窗对象后，使用相应的聚合函数进行计算
3. 支持`apply`传入自定义函数
4. `shift,diff,pct_change`是一组类滑窗函数，公共参数为`periods=1`，分别表示取向前第n个元素的值、与向前第n个元素做差、与向前第n个元素相比计算增长率，n可以为负，表示反方向
### 扩张窗口
1. `expanding`动态长度窗口，其窗口的大小是从序列开始处到具体操作的对应位置
2. 假设序列为a1,a2,a3,a4，则每个位置的对应窗口为[a1],[a1,a2],[a1,a2,a3],[a1,a2,a3,a4]

In [34]:
s = pd.Series([1,2,3,4,5])
roller = s.rolling(window=3)
roller

Rolling [window=3,center=False,axis=0,method=single]

In [35]:
roller.max()

0    NaN
1    NaN
2    3.0
3    4.0
4    5.0
dtype: float64

In [39]:
# 滑动相关系数计算
s2 = pd.Series([3,4,3,5,1])
roller.cov(s2)

0    NaN
1    NaN
2    0.0
3    0.5
4   -1.0
dtype: float64

In [40]:
# 滑动协方差的计算
roller.corr(s2)

0    NaN
1    NaN
2    0.0
3    0.5
4   -0.5
dtype: float64

In [42]:
s = pd.Series([1,3,6,10,15])
s.diff(2)

0    NaN
1    NaN
2    5.0
3    7.0
4    9.0
dtype: float64

In [43]:
s.pct_change()

0         NaN
1    2.000000
2    1.000000
3    0.666667
4    0.500000
dtype: float64

In [44]:
# s.shift(2)的等价实现
s.rolling(3).apply(lambda x: list(x)[0])

0    NaN
1    NaN
2    1.0
3    3.0
4    6.0
dtype: float64

In [45]:
# s.diff(3)的等价实现
s.rolling(4).apply(lambda x: list(x)[-1]-list(x)[0])

0     NaN
1     NaN
2     NaN
3     9.0
4    12.0
dtype: float64

In [46]:
# s.pct_change()的等价实现
def my_pct(x):
    L = list(x)
    return L[-1]/L[0]-1
s.rolling(2).apply(my_pct)

0         NaN
1    2.000000
2    1.000000
3    0.666667
4    0.500000
dtype: float64

In [47]:
s = pd.Series([1,3,6,10])
s.expanding().mean()

0    1.000000
1    2.000000
2    3.333333
3    5.000000
dtype: float64