# Pandas 动手学入门
本课程基于[DataWhale开源教程《Joyful-Pandas》](http://joyfulpandas.datawhale.club/index.html)与[开源项目 ajcr/100-pandas-puzzles](https://github.com/ajcr/100-pandas-puzzles)其[中译版](https://github.com/VXenomac/100-pandas-puzzles-cn)开发. 在数据分析的实践中，Pandas是一个非常重要的库，它集成了非常多的统计分析功能，[《Joyful-Pandas》](http://joyfulpandas.datawhale.club/index.html)是一份非常详尽，并且适合新手的Pandas中文教程，同时它也是Pandas官方认证的中文教程！但笔者学习过程中，始终觉得编程学习“纸上得来终觉浅”，对于刚接触一个新的库的“躬行”笔者认为最好的方式就是对照着官方文档以及QuickStart吧例子自己尝试一遍，并且在实践中学会如何查文档，这是一个开发者必备的技能.因此本教程就是基于这样的思想，给出对应的操作以及对应的文档地址，学习者需要自行查阅文档，完成下面的实践.

## 餐前准备
在这部分中，我们主要学习如何导入Pandas以及查看版本信息，难度是比较简单的.
> 请你阅读Joyful-Pandas第二章，完成下方练习.
http://joyfulpandas.datawhale.club/Content/ch2.html

**1.** 以 `pd` 别名导入 pandas 库

In [1]:
import pandas as pd

**2.** 打印出pandas 库的版本信息

In [3]:
print(pd.__version__)

1.3.2


**3.** 打印 pandas 依赖包及其版本信息

In [10]:
print(pd.show_versions())


INSTALLED VERSIONS
------------------
commit           : 5f648bf1706dd75a9ca0d29f26eadfbb595fe52b
python           : 3.7.11.final.0
python-bits      : 64
OS               : Windows
OS-release       : 10
Version          : 10.0.19041
machine          : AMD64
processor        : AMD64 Family 25 Model 80 Stepping 0, AuthenticAMD
byteorder        : little
LC_ALL           : None
LANG             : None
LOCALE           : None.None

pandas           : 1.3.2
numpy            : 1.20.3
pytz             : 2021.1
dateutil         : 2.8.2
pip              : 21.0.1
setuptools       : 52.0.0.post20210125
Cython           : 0.29.24
pytest           : None
hypothesis       : None
sphinx           : None
blosc            : None
feather          : None
xlsxwriter       : None
lxml.etree       : 4.6.3
html5lib         : None
pymysql          : 1.0.2
psycopg2         : None
jinja2           : 3.0.1
IPython          : 7.26.0
pandas_datareader: None
bs4              : None
bottleneck       : 1.3.2
fsspec  

## 备齐食材
在这部分中，主要介绍了Pandas一个重要的数据结构```DataFrame```

> 请你阅读Joyful-Pandas第二章，完成下方练习.
http://joyfulpandas.datawhale.club/Content/ch2.html

**4.** 使用数据 `data` 和行索引 `labels` 创建一个 DataFrame `df` 

In [11]:
import numpy as np

有下面这样的一个数据字典 `data` 以及列表格式的标签数据 `labels`:

In [12]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

In [19]:
df = pd.DataFrame(data=data, index=labels)

**5.** 显示该 DataFrame 及其数据相关的基本信息（*提示：DataFrame 直接调用的方法*）

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   animal    10 non-null     object 
 1   age       8 non-null      float64
 2   visits    10 non-null     int64  
 3   priority  10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 400.0+ bytes


**6.** 返回 DataFrame `df` 的前4行数据

In [21]:
df.head(4)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes


**7.** 从 DataFrame `df` 选择标签为 `animal` 和 `age` 的列

In [23]:
# 第一种方式
df[['animal', 'age']]

# 第二种方式
df.loc[:, ['animal', 'age']]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


**8.** 在 `[3, 4, 8]` 行中，列为 `['animal', 'age']` 的数据

In [29]:
# 第一种方式：loc
ind = [labels[i] for i in [3, 4, 8]]
col = ['animal', 'age']
df.loc[ind, col]

# 第二种方式：iloc
ind = [3, 4, 8]
col = [0, 1]
df.iloc[ind, col]

Unnamed: 0,animal,age
d,dog,
e,dog,5.0
i,dog,7.0


**9.** 选择列```visits``` 大于 3 的行

In [33]:
df[df['visits'] > 3]

Unnamed: 0,animal,age,visits,priority


**10.** 选择 `age` 为缺失值的行

In [35]:
df[df['age'].isnull()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


**11.** 选择 `animal` 是cat且`age` 小于 3 的行

In [36]:
df[(df['animal'] == 'cat') & (df['age'] < 3)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
f,cat,2.0,3,no


**12.** 选择 `age` 在 2 到 4 之间的数据（包含边界值）

In [48]:
# 第一种
df[(df['age'] >= 2)&(df['age'] <= 4)]

# 第二种
df[df['age'].apply(lambda x: 2 <= x <= 4)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


**13.** 将 'f' 行的 `age` 改为 1.5

In [56]:
df.loc['f', 'age'] = 1.5

**14.** 对 `visits` 列的数据求和

In [58]:
df['visits'].sum()

19

**15.** 计算每种 `animal` `age` 的平均值

In [60]:
df.groupby(by=['animal'])['age'].mean()

animal
cat      2.333333
dog      5.000000
snake    2.500000
Name: age, dtype: float64

**16.** 新增一行数据 k，数据自定义，然后再删除新追加的 k 行

In [67]:
tmp = pd.DataFrame(data=[['cat', 2.5, 1, 'yes']], columns=df.columns, index=['k'])
pd.concat([df, tmp], axis=0)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


**17.** 统计每种 `animal` 的个数

In [68]:
df['animal'].value_counts()

cat      4
dog      4
snake    2
Name: animal, dtype: int64

**18.** 先根据 `age` 降序排列，再根据 `visits` 升序排列（结果 `i` 列在前面，`d` 列在最后面）

In [73]:
df.sort_values(by=['age', 'visits'], ascending=[False, True])

Unnamed: 0,animal,age,visits,priority
i,dog,7.0,2,no
e,dog,5.0,2,no
g,snake,4.5,1,no
j,dog,3.0,1,no
b,cat,3.0,3,yes
a,cat,2.5,1,yes
f,cat,1.5,3,no
c,snake,0.5,2,no
h,cat,,1,yes
d,dog,,3,yes


**19.** 将 `priority` 列的 `yes` 和 `no` 用 `True` 和 `False` 替换

In [78]:
df['priority'] = df['priority'].replace({'yes':True, 'no':False})

**20.** 将 `animal` 列的 `snake` 用 `python` 替换

In [80]:
df['animal'] = df['animal'].apply(lambda x: 'python' if x == 'snake' else x)
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,True
b,cat,3.0,3,True
c,python,0.5,2,False
d,dog,,3,True
e,dog,5.0,2,False
f,cat,1.5,3,False
g,python,4.5,1,False
h,cat,,1,True
i,dog,7.0,2,False
j,dog,3.0,1,False


**21.** 对于每种 `animal` 和 `visit`，求出平均年龄。换句话说，每一行都是动物，每一列都是访问次数，其值是平均年龄（提示：使用数据透视表）

In [86]:
df.pivot_table(values=['age'], index=['animal'], columns=['visits'],aggfunc='mean')

Unnamed: 0_level_0,age,age,age
visits,1,2,3
animal,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
cat,2.5,,2.25
dog,3.0,6.0,
python,4.5,0.5,


**22.** 读取`data`文件夹下的`boston.csv`文件，并尝试利用上面的方法自行分析，得出一些简单的结论.

In [89]:
import os
os.getcwd()
boston = pd.read_csv('./data/boston.csv')
boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


至此，相信你已经可以通过阅读文档，掌握了pandas中`DataFrame`的一些基本操作，下面我们来讲点更进一步的操作，它是上述这些操作的一些巧妙结合

## 食材搭配
在这个部分中，我们主要介绍对于DataFrame中的数据的一些操作：去重、数据计算、取值······
> 请你阅读Joyful-Pandas第二章，完成下方练习. http://joyfulpandas.datawhale.club/Content/ch2.html

In [90]:
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
df

Unnamed: 0,A
0,1
1,2
2,2
3,3
4,4
5,5
6,5
7,5
8,6
9,7


**23.** 请用pandas操作输出上面的`df`中`A`列出现的元素的唯一值（即：出现过的所有元素的集合）

In [94]:
# unique是series的函数
# 第一种方法
df['A'].unique()
# 第二种方法
df['A'].value_counts().index

Int64Index([5, 2, 7, 1, 3, 4, 6], dtype='int64')

**24.** 输出`df`中的唯一值及其对应出现的频数

In [96]:
df['A'].value_counts()

5    3
2    2
7    2
1    1
3    1
4    1
6    1
Name: A, dtype: int64

**25.** 将`df`进行数据降重

In [97]:
df.drop_duplicates()

Unnamed: 0,A
0,1
1,2
3,3
4,4
5,5
8,6
9,7


**26.** 给定一组随机数据

In [98]:
df = pd.DataFrame(np.random.random(size=(5, 3))) 
df

Unnamed: 0,0,1,2
0,0.965738,0.804279,0.65704
1,0.923284,0.018658,0.582691
2,0.209665,0.392406,0.892436
3,0.134877,0.667513,0.969617
4,0.154798,0.010162,0.814704


使每个元素减去所在行的平均值？

In [104]:
# axis = 1代表对行处理
df.apply(lambda x: x - x.mean(), axis=1)

Unnamed: 0,0,1,2
0,0.156719,-0.00474,-0.151979
1,0.415073,-0.489553,0.07448
2,-0.288504,-0.105763,0.394267
3,-0.455792,0.076844,0.378948
4,-0.171757,-0.316393,0.48815


**27.** 返回下列`df`数字总和最小那列的标签

In [105]:
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
0,0.581329,0.484643,0.011419,0.967589,0.661462,0.565569,0.131134,0.19548,0.470405,0.387159
1,0.419048,0.080977,0.507348,0.550566,0.533574,0.794285,0.547655,0.798125,0.695863,0.897092
2,0.688718,0.228014,0.845087,0.417003,0.607764,0.169663,0.019787,0.779262,0.503095,0.336868
3,0.553954,0.457701,0.860726,0.942111,0.687476,0.757088,0.384754,0.186409,0.307679,0.627723
4,0.438225,0.907269,0.815245,0.802686,0.683702,0.859563,0.090001,0.074377,0.547672,0.193946


In [119]:
# 第一种
min(zip(df.sum(axis=0).index, df.sum(axis=0)), key=lambda x: x[1])[0]
# 第二种
df.sum(axis=0).sort_values().index[0]

'g'

**28.** 计算一个 DataFrame 有多少不重复的行？

In [120]:
df = pd.DataFrame(np.random.randint(0, 2, size=(10, 3)))
df

Unnamed: 0,0,1,2
0,0,0,0
1,1,0,1
2,0,0,1
3,1,0,0
4,0,1,0
5,0,0,0
6,1,0,1
7,0,0,1
8,0,1,0
9,0,1,0


In [125]:
df.duplicated(keep=False).value_counts()

True     9
False    1
dtype: int64

**29.** DataFrame 数据如下，A 和 B 都是 0-100 之间（包括边界值）的数值，对 A 进行分段分组（i.e. (0, 10], (10, 20], ...），求每组内 B 的和。输出应该和下述一致：
```
A
(0, 10]      635
(10, 20]     360
(20, 30]     315
(30, 40]     306
(40, 50]     750
(50, 60]     284
(60, 70]     424
(70, 80]     526
(80, 90]     835
(90, 100]    852
```

In [126]:
df = pd.DataFrame(np.random.RandomState(8765).randint(1, 101, 
                  size=(100, 2)), 
                  columns = ["A", "B"])
df

Unnamed: 0,A,B
0,46,29
1,75,22
2,49,63
3,33,43
4,71,75
...,...,...
95,60,87
96,57,40
97,86,19
98,50,56


In [140]:
# 第一种：用cut记录分组号再group by
pd.cut(df['A'], [i * 10 for i in range(11)])

# 第二种：自定义
def cut_df(x):
    if x <= 10:
        return '(0, 10]'
    elif x <= 20:
        return '(10, 20]'
    elif x <= 30:
        return '(20, 30]'
    elif x <= 40:
        return '(30, 40]'
    elif x <= 50:
        return '(40, 50]'
    elif x <= 60:
        return '(50, 60]'
    elif x <= 70:
        return '(60, 70]'
    elif x <= 80:
        return '(70, 80]'
    elif x <= 90:
        return '(80, 90]'
    else:
        return '(90, 100]'
df.groupby(by=df['A'].apply(cut_df))['B'].sum()

# 第三种：cut+groupby
df.groupby(by=pd.cut(df['A'], [i * 10 for i in range(11)]))['B'].sum()

A
(0, 10]      635
(10, 20]     360
(20, 30]     315
(30, 40]     306
(40, 50]     750
(50, 60]     284
(60, 70]     424
(70, 80]     526
(80, 90]     835
(90, 100]    852
Name: B, dtype: int32

## 用pandas进行数据清洗
下面的`df`是我们用到的数据集

In [247]:
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})
df

Unnamed: 0,From_To,FlightNumber,RecentDelays,Airline
0,LoNDon_paris,10045.0,"[23, 47]",KLM(!)
1,MAdrid_miLAN,,[],<Air France> (12)
2,londON_StockhOlm,10065.0,"[24, 43, 87]",(British Airways. )
3,Budapest_PaRis,,[13],12. Air France
4,Brussels_londOn,10085.0,"[67, 32]","""Swiss Air"""


**30.**  **FlightNumber**列中的某些值缺失（它们是NaN）。这些数字是有规律的，即每行增加 10，因此`NaN`需要放置 10055 和 10075。修改`df`以填充这些缺失的数字并使该列成为整数列（而不是浮点列）

In [248]:
# 线性填充
df['FlightNumber'] = df['FlightNumber'].interpolate().astype('int')

**31.** **From_To**列作为两个单独的列会更好！拆分下划线分隔符`_`前后的每个字符串. 将其拆分成两列，存放在一个名为“temp”的临时 DataFrame，将列名 'From' 和 'To' 分配给这个临时DataFrame.

In [249]:
tmp = pd.DataFrame(df['From_To'].str.split('_').tolist(), columns=['From', 'To'])
tmp

Unnamed: 0,From,To
0,LoNDon,paris
1,MAdrid,miLAN
2,londON,StockhOlm
3,Budapest,PaRis
4,Brussels,londOn


**32.** 注意城市名称的大小写是混合在一起的。标准化字符串，以便只有第一个字母是大写的（例如“londON”应该变成“London”。）

In [250]:
tmp = tmp.apply(lambda x: x.str.title(), axis=0)

**33.** 将`From_To`列从`df`中删去，将`temp`处理好的数据合并到`df`中

In [251]:
df.drop(columns=['From_To'], inplace=True)
df = pd.concat([tmp, df], axis=1)
df

Unnamed: 0,From,To,FlightNumber,RecentDelays,Airline
0,London,Paris,10045,"[23, 47]",KLM(!)
1,Madrid,Milan,10055,[],<Air France> (12)
2,London,Stockholm,10065,"[24, 43, 87]",(British Airways. )
3,Budapest,Paris,10075,[13],12. Air France
4,Brussels,London,10085,"[67, 32]","""Swiss Air"""


**34.** 在`AirLine`列中，您可以看到航空公司名称周围出现了一些额外的符号。只提取航空公司名称。例如'(British Airways. )'应该变成'British Airways'.

In [252]:
df['Airline'] = df['Airline'].str.replace('[^A-Za-z\s]', '', regex=True).str.strip()
df

Unnamed: 0,From,To,FlightNumber,RecentDelays,Airline
0,London,Paris,10045,"[23, 47]",KLM
1,Madrid,Milan,10055,[],Air France
2,London,Stockholm,10065,"[24, 43, 87]",British Airways
3,Budapest,Paris,10075,[13],Air France
4,Brussels,London,10085,"[67, 32]",Swiss Air


**35.** 在 RecentDelays 列中，值已作为列表输入到 DataFrame 中。我们希望每个第一个值在它自己的列中，每个第二个值在它自己的列中，依此类str果没有第 N 个值，则该值应为 NaN。

将 Series 列表展开为名为 的 DataFrame delays，重命名列delay_1，delay_2等等，并将不需要的 RecentDelays 列替换df为delays

In [253]:
delays = pd.DataFrame(df["RecentDelays"].tolist())
delays.columns = ['delays_{}'.format(i + 1) for i in range(len(delays.columns))]
df.drop(columns=['RecentDelays'], inplace=True)
df = pd.concat([df, delays], axis=1)