### 3. Pandas

#### 3.1. 数据结构：Series 和 DataFrame

Series 有两个基本的属性：index 和 values。index 默认为 0，1，2，……也可以自己用 `index=[‘a’, ’b’, ‘c']` 指定引索。

In [2]:
import pandas as pd
from pandas import Series, DataFrame
x1 = Series([1,2,3,4])
x2 = Series(data=[1,2,3,4], index=['a', 'b', 'c', 'd'])
print(x1)
print(x2)

0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64


也可以采用字典方式创建 Series：

In [3]:
d = {'a':1, 'b':2, 'c':3, 'd':4}
x3 = Series(d)
print(x3) 

a    1
b    2
c    3
d    4
dtype: int64


DataFrame 它类似于表：一般按照习惯，使用 `df` 来作为命名

In [6]:
import pandas as pd
from pandas import Series, DataFrame
data = {'Chinese': [66, 95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]}
df1= DataFrame(data)
df2 = DataFrame(data, index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], columns=['English', 'Math', 'Chinese'])
print(df1)
print(df2)

   Chinese  English  Math
0       66       65    30
1       95       85    98
2       93       92    96
3       90       88    77
4       80       90    90
            English  Math  Chinese
ZhangFei         65    30       66
GuanYu           85    98       95
ZhaoYun          92    96       93
HuangZhong       88    77       90
DianWei          90    90       80


在上面的代码可以看到，`df2` 使用自定义来自定义 index，相当于是给每一个数据都附上了名称。我们分别输出 index 看下：

In [12]:
print('df1 的索引：', df1.index.tolist())
print('df2 的索引：', df2.index.tolist())

df1 的索引： [0, 1, 2, 3, 4]
df2 的索引： ['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei']


#### 3.2. 数据的导入和输出

使用 Pandas，可以直接导入多种文件格式，也可以导出为多种格式的文件。我们把英雄们的成绩保存为 xlsx 格式并且直接读取为一个 DataFrame

In [15]:
df2.to_excel('score.xlsx')
score = DataFrame(pd.read_excel('score.xlsx'))
print(score)

   Unnamed: 0  English  Math  Chinese
0    ZhangFei       65    30       66
1      GuanYu       85    98       95
2     ZhaoYun       92    96       93
3  HuangZhong       88    77       90
4     DianWei       90    90       80


#### 3.3. 数据清洗



In [16]:
data = {'Chinese': [66, 95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]}
df2 = DataFrame(data, index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], columns=['English', 'Math', 'Chinese'])

1. 删除列或行：`drop()`

In [17]:
# 删除 'Chinese' 这一列
df2 = df2.drop(columns=['Chinese'])
# 删除 'ZhangFei' 这一行
df2 = df2.drop(index=['ZhangFei'])

2. 重命名列名：`rename(columns={}, inplace=True)`

In [18]:
df2.rename(columns={'Chinese': 'YuWen', 'English': 'Yingyu'}, inplace = True)

3. 去重复值：`drop_duplicates()`

In [20]:
df2 = df2.drop_duplicates() #去除重复行

4. 更改数据格式：`astype()`

In [25]:
import numpy as np
df2['Math'].astype('str') 
df2['Math'].astype(np.int64) 

GuanYu        98
ZhaoYun       96
HuangZhong    77
DianWei       90
Name: Math, dtype: int64

In [30]:
data = {'Chinese': ['Zhang Fei', ' Guan Yu ', 'Zhao Yun', ' Huang Zhong ', 'Dian Wei']}
df2 = DataFrame(data, index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], columns=['English', 'Math', 'Chinese'])

5. 删除数据间空格：`strip`

In [31]:
# 删除左右两边空格
df2['Chinese']=df2['Chinese'].map(str.strip)
# 删除左边空格
df2['Chinese']=df2['Chinese'].map(str.lstrip)
# 删除右边空格
df2['Chinese']=df2['Chinese'].map(str.rstrip)
# 删除某个符号
df2['Chinese']=df2['Chinese'].str.strip('$')

这里讲一下 `map()` 函数：map() 会根据提供的函数对指定序列做映射。

第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。