# 第八章C：Pandas教程
____

## 学习目标
1. 学习`Series`和`DataFrame`这两种常用的数据结构的初始化和按行、按列操作。

2. 掌握针对`DataFrame`的一些数据库操作:`concatenate`、`merge`、`join`、`groupby`和`aggregate`等

3. 对一些数据文件实例进行分析。

首先，明确Pandas是数据科学中非常有用的针对常见数据表格的操作的工具。

In [None]:
import numpy as np
import pandas as pd

## 1. 常用数据结构

### 1.1 Series

- Series是一种类似List的数据结构，但可以有名字，也就是所谓的index

In [None]:
salaries = pd.Series([12000, 15000, 13000, 13500], index=["Beijing", "Hongkong", "Shanghai", "Shenzhen"], name="salary")
print(salaries)
print()
print(type(salaries))

In [None]:
?pd.Series

- `pd.Series`这个初始化函数的参数主要包括：
  * data
  * index
  * dtype
  * name

- Series可以用类似list的方法进行切片（单个元素返回的是np.int等类型；多个元素返回的还是Series）

In [None]:
salaries[1], type(salaries[1])

In [None]:
salaries[1:], type(salaries[1:])

In [None]:
salaries["Beijing":"Shanghai"]

In [None]:
salaries.index

In [None]:
gdp = pd.Series([35000, 47000, 42000, 38000], index=salaries.index, name="gdp")
population = pd.Series([2400, 2000, 2600, 1800], index=salaries.index, name="pop")

### 1.2 DataFrame

`DataFrame`对应的是表的数据结构。

- 我们可将多个具有相同index的Series合并为一个DataFrame：

In [None]:
cities = pd.DataFrame([salaries,gdp,population])

In [None]:
print(cities)

- 对于一个DataFrame来说，有两个重要的属性：`columns`和`index`，我们可以理解为列索引和行索引

In [None]:
cities.columns

In [None]:
cities.index

- 还可以对DataFrame进行转置操作：

In [None]:
cities= cities.T

In [None]:
print(cities)

In [None]:
cities.index

- 我们也可以从dict开始，构建我们的DataFrame：

In [None]:
cities = pd.DataFrame({
    "salaries":[12000, 15000, 13000, 13500],
    "gdp":[35000, 47000, 42000, 38000],
    "population":[2400, 2000, 2600, 1800]
}, index=["Beijing", "Hongkong", "Shanghai", "Shenzhen"])

In [None]:
print(cities)

- DataFrame可以针对列和行进行索引：
  * 用`<df>.iloc[<rows>]`使用数值对行和列进行索引，这里的`i`是`integer`的意义。
  * 用`<df>.loc[<rows>, <cols>]`使用索引值对行和列进行索引，但不能用数值。
  * 这里的`<rows>`和`<cols>`索引可以是范围、列表、条件。

In [None]:
cities["salaries"], type(cities["salaries"])

- `iloc[]`采用数值范围进行索引

In [None]:
cities.iloc[1:3]

- `iloc[]`也可用布尔数组进行索引：

In [None]:
cities.iloc[list(cities.salaries >= 13000)]

- 想要了解更多相关信息，请参考帮助

In [None]:
cities.iloc?

- 相比而言，`loc`不使用数值，而是使用索引值对行列进行索引（如果只想要行，列用`:`；对列亦然）

- 用`<start>:<end>`确定范围，`<start>`和`<end>`都可以为空。

In [None]:
cities.loc[:, "salaries":"gdp"]

- 可以用列表

In [None]:
cities.loc["Beijing":"Shanghai", ["salaries","population"]]

- 也可以用条件

In [None]:
cities.loc[cities.salaries >= 13000, :]

In [None]:
cities.at["Shanghai", "gdp"]

In [None]:
cities.iat[2, 2]

## 2. 索引index

- index也是一种对象
- index的值是不能被修改的，是immutable的object

In [None]:
cities.index, type(cities.index)

In [None]:
cities.columns, type(cities.columns)

In [None]:
cities.index[3] = "Guangzhou"

- 如果要修改，只能整体修改（也就是创建一个新的Index对象，而不能对原有的Index对象进行修修补补的工作）

In [None]:
cities.index = ["Beijing", "Hongkong", "Shanghai", "Guangzhou"]

### 2.1 可以对Index进行索引和切片操作

In [None]:
obj = pd.Series(np.arange(4), index=["a", "b", "c", "d"])
print(obj)

In [None]:
obj[["d", "a"]]

In [None]:
obj[[3,0]]

In [None]:
obj[1:3] = 8

In [None]:
print(obj)

In [None]:
obj["b":"d"] = 5
print(obj)

- 对于DataFrame的索引和切片操作具有相似的手段

In [None]:
frame = pd.DataFrame(np.random.rand(3,3), 
                    index=["a", "b", "c"],
                    columns=["x", "y", "z"])
print(frame)

In [None]:
frame["a":"b"]

In [None]:
frame.loc[:,"x":"y"]

In [None]:
frame.iloc[:-2, :-1]

In [None]:
frame.iloc[1:3,1:2]

### 2.2 reindex

> 一个Series或者DataFrame可以按照新的索引重新进行indexing

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.2], index=['d', 'b', 'a', 'c'])
print(obj)

In [None]:
obj.reindex(["a", "b", "c", "d", "e"])

- 重新建立索引的过程，可以对新的索引对应的空值进行填补：

In [None]:
obj.reindex(["a", "b", "c", "d", "e"], fill_value=0)

- 还有其他的填补方法，但只能针对数值索引

In [None]:
obj = pd.Series(['blue', 'purple', 'yellow'], index = [0,2,4])
print(obj)

In [None]:
obj.reindex(range(6), method="ffill")

In [None]:
obj.reindex(range(6), method="bfill").dropna()

### 2.3 drop操作

- `drop`还可以对Series和DataFrame进行操作

In [None]:
print(cities)

In [None]:
cities.drop(["Beijing","Guangzhou"], axis=0)

In [None]:
cities.drop("population", axis=1)

### 2.4 多层索引Hierarchical indexing
- Series和DataFrame都允许存在多层索引
- 这是一个Series多层索引的例子：

In [None]:
data = pd.Series(np.random.randn(10), 
                 index=[['a','a','a','b','b','c','c','c','d','d'], \
                        [1,2,3,1,2,1,2,3,1,2]])
print(data)

In [None]:
data.index

In [None]:
print(data["a"])

In [None]:
print(data[1:4])

- `unstack`可以将`Hierarchical indexing`转换为DataFrame：

In [None]:
dfdata = data.unstack()
print(dfdata)

- `stack()`可以将DataFrame转换为Hierarchical indexing：

In [None]:
dfdata.stack()

- 这种数据在统计上称为`stacked data`

## 3. 数据库操作

这里我们将介绍几种常用的与数据库相关的操作：
- Concatenation
- Merge
- Join
- Aggregate

### 3.1 `pandas.concat()`

In [None]:
df1 = pd.DataFrame({'housing': [55000, 60000],
                   'cars': [200000, 300000],},
                  index = ['Shanghai', 'Beijing'])
df1

In [None]:
df2 = pd.DataFrame({'housing': [25000, 20000],
                   'cars': [150000, 120000],},
                  index = ['Hangzhou', 'Najing'])
print(df2)

In [None]:
df3 = pd.DataFrame({'housing': [30000, 10000],
                   'cars': [180000, 100000],},
                  index = ['Guangzhou', 'Chongqing'])
print(df3)

In [None]:
df = [df1, df2, df3]
morecities = pd.concat(df)
print(morecities)

- 在进行连接的时候可以加入`keys`参数，这样可以为不同的部分加入新的index，这样就形成了hierarchical indexing。

In [None]:
morecities2 = pd.concat(df, keys=["first", "second", "third"])
print(morecities2)

In [None]:
morecities2.iloc[3:6]

- 除了按行连接，也可以按列连接：

In [None]:
df4 = pd.DataFrame({'salaries': [10000, 30000, 30000, 20000, 15000]},
                  index = ['Suzhou', 'Beijing', 'Shanghai', 'Guangzhou', 'Tianjin'])
print(df4)

In [None]:
print(morecities)

In [None]:
morecities3 = pd.concat([morecities, df4], axis=1)
morecities3

- 这里可以调用`stack()`方法将DataFrame转换为Hierarchical indexing的stacked set，避免了存在NaN：

In [None]:
morecities3.stack()

- 可以实现“Inner join”：

In [None]:
pd.concat([morecities, df4], axis=1, join="inner")

In [None]:
pd.concat([morecities, df4], axis=1)

- 通过`inner join`，排除了包含`NaN`的记录；

- 有时候，我们还可以通过`append()`方法，实现行上面的`concatenate()`：

In [None]:
df1.append(df2)

In [None]:
df1.append(df4)

- 但是很明显，这种`append`只是单纯实现行的叠加，而不能根据index来实现连接。

- DataFrame还可以与Series进行连接（Series先转化为DataFrame，再进行连接）：

In [None]:
s1 = pd.Series([20, 30], index=["Beijing", "Shanghai"], name="meal")
pd.concat([df1,s1], axis=1)

### 3.2 `pandas.merge()`和`<df>.join()`

`merge()`可以实现根据某共有的列对两个DataFrame进行合并：

In [None]:
df1 = pd.DataFrame({'housing': [55000, 60000, 58000],
                   'cars': [200000, 300000,250000],
                  'cities': ['Shanghai', 'Beijing','Shenzhen']})
print(df1)

In [None]:
df2 = pd.DataFrame({'salaries': [10000, 30000, 30000, 20000, 15000],
                  'cities': ['Suzhou', 'Beijing', 'Shanghai', 'Guangzhou', 'Tianjin']})
print(df2)

In [None]:
pd.merge(df1, df2, on="cities")         # inner join

- 默认采用的是`inner join`，我们还可以更换为`outer join`或者`left join`和`right join`：

In [None]:
pd.merge(df1, df2, on="cities", how="outer") # outer join

In [None]:
pd.merge(df1, df2, on="cities", how="left") # left join

In [None]:
pd.merge(df1, df2, on="cities", how="right") # right join

- 还可以根据索引进行join

In [None]:
df1 = pd.DataFrame({'housing': [55000, 60000, 58000],
                   'cars': [200000, 300000,250000]},
                  index=['Shanghai', 'Beijing','Shenzhen'])
print(df1)

In [None]:
df2 = pd.DataFrame({'salaries': [10000, 30000, 30000, 20000, 15000]},
                  index=['Suzhou', 'Beijing', 'Shanghai', 'Guangzhou', 'Tianjin'])
print(df2)

In [None]:
df1.join(df2, how="outer")

In [None]:
df1.join(df2, how="inner")

In [None]:
df1.join(df2, how="left")

In [None]:
df1.join(df2, how="right")

- 这种情况的也同样可用`pd.merge()`实现：

In [None]:
pd.merge(df1, df2, left_index=True, right_index=True, how='inner')

### 3.3 `GroupBy()`和`Aggregate()`

我们用一个例子来说明GroupBy的用法。假设我们有一个部门几个人近年来的收入清单：

In [None]:
salaries = pd.DataFrame({
    'Name': ['Wang', 'Chen', 'Chen', 'Lin', 'Wang', 'Wang', 'Chen', 'Wang'],
    'Year': [2016,2016,2016,2016,2017,2017,2017,2017],
    'Salary': [10000,2000,4000,5000,18000,25000,3000,4000],
    'Bonus': [3000,1000,1000,1200,4000,2300,500,1000]
})
print(salaries)

In [None]:
group_by_name = salaries.groupby('Name')
group_by_name

可以通过`aggregate`一块计算每个人的收入总额：

In [None]:
group_by_name.aggregate(sum)

当然，我们这里将年份也进行了加和，这显然是有问题的，该怎么调整呢？

我们还可以用`sum()`方法实现：

In [None]:
group_by_name.sum()

In [None]:
group_by_name_year = salaries.groupby(["Name", "Year"])
group_by_name_year.sum()

In [None]:
group_by_name_year.max()   # min, size

- 还可以用`describe()`展示其他统计信息：

In [None]:
group_by_name_year.describe()

## 4. 实例数据分析

我们这儿有一个`bike.csv`的文件，统计的是蒙特利尔7条自行车骑行路线每天骑行的人数记录。

In [None]:
bikes = pd.read_csv('bikes.csv', encoding='latin1', sep=';', 
                    parse_dates=['Date'], dayfirst=True, index_col='Date')

In [None]:
bikes.head()

In [None]:
bikes.shape

我们可以看到包含大量的NaN，考虑是不是应该把这些列给删除呢？

In [None]:
bikes.dropna(how='all', axis=1).head()

In [None]:
bikes_berri = bikes[["Berri 1"]]

In [None]:
bikes_berri_group_weekday = bikes_berri.groupby(bikes_berri.index.weekday)

In [None]:
bikes_berri_group_weekday.sum()

统计了该自行车骑行道周日-周六的总骑行人数。

In [None]:
bikes_berri_group_weekday.describe()

这是我们针对一条车道的统计，如果我们要统计所有的车道呢？

首先我们计算每天骑车出行人数的总和：

In [None]:
bikes = bikes.dropna(axis=1, how="all")

In [None]:
bikes_sum = bikes.sum(axis=1).to_frame()
bikes_sum.columns = ["num_bikes"]
bikes_sum.head()

In [None]:
bikes_sum.loc[:, "weekday"] = bikes_sum.index.weekday

In [None]:
bikes_sum.head()

In [None]:
bikes_sum_group_weekday = bikes_sum.groupby("weekday")
weekday_counts = bikes_sum_group_weekday.sum()
weekday_counts.index = ["Sunday", "Monday", "Tuesday", "Wednesday", 
                       "Thirsday", "Friday", "Saturday"]
weekday_counts

你看还能看啊可能其他你能做的么？

## 总结

对于Pandas模块，我们学习了
- 如何构造Series和DataFrame对象
- 如何访问Series和DataFrame中的子集
- 如何对Index进行操作
- 如何对Pandas数据集进行类SQL操作

到目前为止，我们已经能对数据集读取的基础上进行基本的处理和分析。