<center><h1>第二章 pandas基础</h1></center>

In [79]:
import numpy as np
import pandas as pd
import os
import config
from config import get_data_path

## 一、文件的读取
### 1. 读取csv

In [80]:
df_csv = pd.read_csv(get_data_path('my_csv.csv'))
df_csv

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


### 2. 读取txt

In [81]:
df_txt = pd.read_csv(get_data_path('my_table.txt'))
df_txt

Unnamed: 0,col1 col2 col3 col4
0,2 a 1.4 apple 2020/1/1
1,3 b 3.4 banana 2020/1/2
2,6 c 2.5 orange 2020/1/5
3,5 d 3.2 lemon 2020/1/7


### 3. 读取excel

In [82]:
df_excel = pd.read_excel(get_data_path('my_excel.xlsx'))
df_excel

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


公共参数：
- `header=None`表示第一行不作为列名
- `index_col`表示把某一列或几列作为索引
- `usecols`表示读取列的集合，默认读取所有的列，
- `parse_dates`表示需要转化为时间的列，
- `nrows`表示读取的数据行数。

在读取`txt`文件时，经常遇到分隔符非空格的情况，`read_table`有一个分割参数`sep`，它使得用户可以自定义分割符号，进行`txt`数据的读取，但是此时需要同时需要指定引擎为`python`。例如，下面的读取的表以`||||`为分割：

In [83]:
pd.read_table(get_data_path('my_table_special_sep.txt'), sep='\|\|\|\|', engine='python')

Unnamed: 0,col1,col2
0,TS,This is an apple.
1,GQ,My name is Bob.
2,WT,Well done!
3,PT,May I help you?


## 二、数据的写入

一般在数据写入中，最常用的操作是把`index`设置为`False`，特别当索引没有特殊意义的时候，这样的行为能把索引在保存的时候去除。

|    |保存类型 | 接口  |   使用方式 | 备注  |
|---:|-------:|:-------|-------:|:-------|
|  0 |csv     | to_csv   |    df_csv.to_csv('../data/my_csv_saved.csv', index=False)|   | 
|  1 |excel   | to_excel |    df_excel.to_excel('../data/my_excel_saved.xlsx', index=False) |  | 
|  2 |txt     | to_csv   |    df_txt.to_csv('../data/my_txt_saved.txt', sep='\t', index=False) |  | 
|  3 |表格转换 | to_markdown|df_csv.to_markdown() || 
|  4 |表格转换 | to_latex|df_csv.to_latex()| |

`pandas`中没有定义`to_table`函数，但是`to_csv`允许自定义分隔符，使用制表符`\t`分割满足要求。

## 三 、基本数据结构
`pandas`中具有两种基本的数据存储结构，存储一维`values`的`Series`和存储二维`values`的`DataFrame`，在这两种结构上定义了很多的属性和方法。

### 1. Series
`Series`一般由四个部分组成，分别是序列的值`data`、索引`index`、存储类型`dtype`、序列的名字`name`。其中，索引也可以指定它的名字，默认为空。

In [84]:
s = pd.Series(data = [100, 'a', {'dic1':5}],
              index = pd.Index(['id1', 20, 'third'], name='my_idx'),
              dtype = 'object',
              name = 'my_name')
s

my_idx
id1              100
20                 a
third    {'dic1': 5}
Name: my_name, dtype: object

`object`类型代表了一种混合类型，正如上面的例子中存储了整数、字符串以及`Python`的字典数据结构。此外，目前`pandas`把纯字符串序列也默认认为是一种`object`类型的序列，但它也可以用`string`类型存储。

对于这些属性，可以通过 . 的方式来获取：

In [85]:
print("数据的值:", s.values)
print("数据索引:", s.index)
print("存储类型:", s.dtype)
print("序列名称:", s.name)
print("序列长度:", s.shape)

数据的值: [100 'a' {'dic1': 5}]
数据索引: Index(['id1', 20, 'third'], dtype='object', name='my_idx')
存储类型: object
序列名称: my_name
序列长度: (3,)


### 2. DataFrame
`DataFrame`在`Series`的基础上增加了列索引，一个数据框可以由二维的`data`与行列索引来构造：

In [86]:
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
df = pd.DataFrame(data = data,
                  index = ['row_%d'%i for i in range(3)],
                  columns=['col_0', 'col_1', 'col_2'])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


In [87]:
df = pd.DataFrame(data = {'col_0': [1,2,3],
                          'col_1':list('abc'),
                          'col_2': [1.2, 2.2, 3.2]},
                  index = ['row_%d'%i for i in range(3)])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


与`Series`类似，在数据框中同样可以取出相应的属性：

In [88]:
print("数据的值:\n", df.values)
print("数据索引:\n", df.index)
print("数据列名:\n", df.columns)
print("存储类型:\n", df.dtypes) # 返回的是值为相应列数据类型的Series
print("序列长度:\n", df.shape)
print("数据转置:\n", df.T)

数据的值:
 [[1 'a' 1.2]
 [2 'b' 2.2]
 [3 'c' 3.2]]
数据索引:
 Index(['row_0', 'row_1', 'row_2'], dtype='object')
数据列名:
 Index(['col_0', 'col_1', 'col_2'], dtype='object')
存储类型:
 col_0      int64
col_1     object
col_2    float64
dtype: object
序列长度:
 (3, 3)
数据转置:
       row_0 row_1 row_2
col_0     1     2     3
col_1     a     b     c
col_2   1.2   2.2   3.2


## 四、常用基本函数

In [89]:
### 1. 汇总函数
`head, tail`函数分别表示返回表或者序列的前`n`行和后`n`行，其中`n`默认为5：

SyntaxError: invalid syntax (<ipython-input-89-43ef8b54b63a>, line 2)

|     |函数类型 | 接口  |   使用方式 | 主要参数  |
|:---:|-------:|:-------|:-------|:-------|
|  1  |汇总函数 | head  |  df.head(n) | 前`n`行，其中`n`默认为5  |
|  1  |汇总函数 | tail  |  df.tail(n) | 后`n`行，其中`n`默认为5  |
|  1  |汇总函数 | info  |  df.info()  | 表的信息概况  |
|  1  |汇总函数 | describe  |  df.describe() | 表中数值列对应的主要统计量  |
|  2  |特征统计函数 | sum  |  df.sum() |  |
|  2  |特征统计函数 | mean  |  df.mean() | |
|  2  |特征统计函数 | median  |  df.median() | |
|  2  |特征统计函数 | var  |  df.var() | |
|  2  |特征统计函数 | std  |  df.std() | |
|  2  |特征统计函数 | max  |  df.max() | |
|  2  |特征统计函数 | min  |  df.min() | |
|  2  |特征统计函数 | cov  |  df.cov() | 相关系数|
|  2  |特征统计函数 | corr  |  df.corr() | 协方差|
|  2  |特征统计函数 | quantile  |  df.quantile(0.75) | 分位数 |
|  2  |特征统计函数 | count  |  df.count() |  非缺失值个数 |
|  2  |特征统计函数 | idxmax  |  df.idxmax() | 最大值对应的索引 |
|  3  |唯一值函数 | unique  |  df.unique() | 单序列唯一值组成的列表|
|  3  |唯一值函数 | nunique  |  df.nunique() |单序列唯一值的个数|
|  3  |唯一值函数 | value_counts  |  df.value_counts() |单序列唯一值和其对应出现的频数|
|  3  |唯一值函数 | drop_duplicates  |  df.drop_duplicates(keep) |多序列组合唯一值，<br> 关键参数是`keep`: <br>   默认值`first`表示每个组合保留第一次出现的所在行， <br> `last`表示保留最后一次出现的所在行， <br>  `False`表示把所有重复组合所在的行剔除。|
|  4  |替换函数 | replace  |  df[col].replace({'Female':0, 'Male':1}).head() <br>df['Gender'].replace(['Female', 'Male'], [0, 1]).head()|通过字典构造，或者传入两个列表来进行替换|
|  4  |替换函数 | where  |  s.where(s<0, 100) |`where`函数在传入条件为`False`的对应行进行替换 <br> 当不指定替换值时，替换为缺失值|
|  4  |替换函数 | mask   |  s.mask(s<0, -50)  |`mask`在传入条件为`True`的对应行进行替换 <br> 当不指定替换值时，替换为缺失值|
|  5  |排序函数 | sort_values   | df_demo.sort_values('Height', ascending=False).head() |ascending True 升序，否则降序
|  5  |排序函数 | sort_index   |  df_demo.sort_index(level=['Grade','Name'],ascending=[True,False]).head() ||
|  6  |窗口对象 | rolling   |  s.rolling(window = 3)  |滑动窗口，参数为窗口大小`window`<br>   `shift, diff, pct_change`是一组类滑窗函数，它们的公共参数为`periods=n`，默认为1，分别表示取向前第`n`个元素的值、<br>与向前第`n`个元素做差（与`Numpy`中不同，后者表示`n`阶差分）、<br>与向前第`n`个元素相比计算增长率。<br>这里的`n`可以为负，表示反方向的类似操作。|
|  6  |窗口对象 | expanding   |  s.expanding().mean()  |扩张窗口、累计窗口|
|  6  |窗口对象 | ewm   |  s.expanding().ewm()  |指数加权窗口|


由于特征统计函数操作后返回的是标量，所以又称为**聚合函数**，它们有一个公共参数`axis`，默认为0代表逐列聚合，如果设置为1则表示逐行聚合

## 六、练习
### Ex1：口袋妖怪数据集
现有一份口袋妖怪的数据集，下面进行一些背景说明：

* `#`代表全国图鉴编号，不同行存在相同数字则表示为该妖怪的不同状态

* 妖怪具有单属性和双属性两种，对于单属性的妖怪，`Type 2`为缺失值
* `Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`分别代表种族值、体力、物攻、防御、特攻、特防、速度，其中种族值为后6项之和


<br>

1. 对`HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`进行加总，验证是否为`Total`值。

2. 对于`#`重复的妖怪只保留第一条记录，解决以下问题：

* 求第一属性的种类数量和前三多数量对应的种类
* 求第一属性和第二属性的组合种类
* 求尚未出现过的属性组合

3. 按照下述要求，构造`Series`：

* 取出物攻，超过120的替换为`high`，不足50的替换为`low`，否则设为`mid`
* 取出第一属性，分别用`replace`和`apply`替换所有字母为大写
* 求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到`df`并从大到小排序

In [90]:
df = pd.read_csv(get_data_path('pokemon.csv'))
df.head(3)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80


In [91]:
# 1. 对`HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`进行加总，验证是否为`Total`值。
set(df['Total'] == df[["HP","Attack","Defense","Sp. Atk","Sp. Def","Speed"]].sum(axis=1))

{True}

In [92]:
# 2. 对于`#`重复的妖怪只保留第一条记录，解决以下问题：
dp_dup = df.drop_duplicates('#', keep='first')
# * 求第一属性的种类数量和前三多数量对应的种类
print("第一属性的种类数量:",  dp_dup['Type 1'].nunique())
print("前三多数量对应的种类:\n", dp_dup['Type 1'].value_counts().index[:3])
# * 求第一属性和第二属性的组合种类
dp_dup = dp_dup.drop_duplicates(['Type 1', 'Type 2'])
print("第一属性和第二属性的组合种类:", dp_dup.shape[0])
# * 求尚未出现过的属性组合

第一属性的种类数量: 18
前三多数量对应的种类:
 Index(['Water', 'Normal', 'Grass'], dtype='object')
第一属性和第二属性的组合种类: 143


In [93]:
# 3. 按照下述要求，构造`Series`：

# * 取出物攻，超过120的替换为`high`，不足50的替换为`low`，否则设为`mid`
# df['Attack'].mask(df['Attack']>120, 'high').mask(df['Attack']<50, 'low').mask((50<=df['Attack'])&(df['Attack']<=120), 'mid').head()
# 方法1:
s = df['Attack']
s.mask(s>120, 'high').mask(s<50, 'low').mask((50<=s)&(s<=120), 'mid').head()

# 方法2
# def func(x):
#     if x < 50:
#         return 'low'
#     elif x > 120:
#         return 'hight'
#     else:
#         return 'mid'
    
# s.apply(func).head()

# * 取出第一属性，分别用`replace`和`apply`替换所有字母为大写
# df['Type 1'].replace({i:i.upper() for i in df['Type 1'].unique()}).head()

# df['Type 1'].apply(lambda x:x.upper()).head()

# * 求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到`df`并从大到小排序
df['Deviation'] = df[['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']].apply(lambda x:np.max((x-x.median()).abs()), 1)
df.sort_values('Deviation', ascending=False).head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Deviation
230,213,Shuckle,Bug,Rock,505,20,10,230,10,230,5,215.0
121,113,Chansey,Normal,,450,250,5,5,35,105,50,207.5
261,242,Blissey,Normal,,540,255,10,10,75,135,55,190.0
333,306,AggronMega Aggron,Steel,,630,70,140,230,60,80,50,155.0
224,208,SteelixMega Steelix,Steel,Ground,610,75,125,230,55,95,30,145.0
