# Pandas基础
讲解Pandas的基本概念，首先导入常见的数据分析包

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Series序列
和Python的list序列类似，但是含有索引，帮助快速检索数据

In [None]:
a = pd.Series(range(1,10))
b = pd.Series(["I","like","to","use","Python","and","Pandas","very","much"], index=range(0,9))
print(type(a), type(b))
print(a, '\n\n', b)

series应用最多的地方是**时间序列**，在时间序列中，索引是时间，series值为时间对应的取值。

可以用`pd.date_range`函数创建日期或时间规律的序列，假定我们有一个每天购买商品数量的时间序列：

In [None]:
start_date = "2021-8-01"
end_date = "2021-10-31"
idx = pd.date_range(start_date,end_date)
print(f"Length of index is {len(idx)}")
items_buy = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_buy.plot(figsize=(12,4))

同时，每周日都额外购买一些商品

In [None]:
# pd.date_range(start_date,end_date,freq='5D')
additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"))
print(f"Additional items (10 item each week):\n{additional_items}")

2个序列可以按照索引相加求和

In [None]:
total_items = items_buy+additional_items
print(f"Total items (sum of two series):\n{total_items}")

`数值+缺失值NaN=NaN`，在求和之前应将索引对应的缺失值填补为0，再求和，使用函数`fill_value`

In [None]:
total_items = items_buy.add(additional_items, fill_value=0)
print(total_items)
total_items.plot(figsize=(10,3))

In [None]:
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar',figsize=(10,3))
ax.set_xticklabels([x.strftime("%b-%Y") for x in monthly.index], rotation=45)

## DataFrame表格

DataFrame类似于Excel的表格，是有相同索引的不同Series构成，用上面的a,b两个Series组成表格如下：
### 读取csv或txt数据

In [None]:
weather = pd.read_csv('../data/weather_by_cities.csv')
weather.head()

### 读取excel数据

In [None]:
weather = pd.read_excel('../data/weather_by_cities.xlsx')
weather.head()

对于大文件，一次性读入可能花费很多时间，或者内存根本装不下；

此时，可以选择先读取少部分数据做分析用图；下列命令`nrows=2`表示读取前2行

In [None]:
weather1 = pd.read_excel('../data/weather_by_cities.xlsx', nrows=2)
weather1

### 读取无表头数据时，增加列名

In [None]:
col = ['col1', 'col2', 'col3', 'col4', 'col5']
weather2 = pd.read_excel('../data/weather_by_cities.xlsx', nrows=5, names=col)
weather2

### 基于**行数据**生成DataFrame

In [None]:
df1 = pd.DataFrame([a,b])
df1

### 基于**列数据**生成DataFrame

In [None]:
df = pd.DataFrame({ 'A' : a, 'B' : b })
df

### 表格可以转置

In [None]:
df1 = df1.T
df1

## 表格查看
`df.shape`查看数据维度

`df.info()`展示基本信息

`df.describe()`展示数字列的统计信息

`df.A.unique()`A列的唯一值列表

`df.A.nunique()`A列的唯一值数量

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.A.unique()

In [None]:
df.A.nunique()

### 修改列名称

In [None]:
print(df.columns)
df.columns = ['A', 'B']  # 用该列表替换所有列名
# df = df.rename(columns={'A': 'A11'})  # 改一列的列名
df

### 选择列

In [None]:
df.A #列名为一个不含空格的单词

In [None]:
df[['A']]

In [None]:
df[['A', 'B']]

### 选择行

In [None]:
# df.head(100) #前100行
df.head()

In [None]:
# df.tail(100)
df.tail()

### 排序

In [None]:
df

In [None]:
d1 = df.sort_values('A') # 默认正序排列
d1

In [None]:
d1 = df.sort_values('A', ascending=False) # 倒序
d1

### 根据条件筛选

In [None]:
df[df['A']<5]

`df['A']<5`返回一个真假值series，表明每个元素是True或False，表格根据真假值筛选出对应的行。

多个条件筛选时，用`&`（表示且）或`|`（表示或）连接

In [None]:
# df[(df['A']>5) | (df['A']<7)]
df[(df['A']>5) & (df['A']<7)]

### 根据行号、列号选择
格式为：`df.iloc[行开始位置：行结束位置，列开始位置：列结束位置]`，和Python的List一样，数字可以省略，表示默认起始位置开始，或默认到结束位置

In [None]:
df.iloc[:3]
df.iloc[5:7, :]
df.iloc[2:6, 1:4]

### 根据行号、列名筛选

In [None]:
df.loc[0:3, ['A', 'B']]

### 增加列

In [None]:
df['C'] = 1
df['D'] = np.random.randint(0, 100, size=len(df))
df['E'] = df.A / 2
df['G'] = df.A + df.C + df.D
df['B_str_length'] = df['B'].apply(len)
df

### 基本统计
可以对列进行基本统计，包括：`min()`, `max()`, `mean()`等

另一个重要的统计是**频数统计**：`df.A.value_counts()`

In [None]:
df.A.mean(), df.A.min(), df.A.max(), df.A.std()

In [None]:
#频数统计，重要
df.A.value_counts()  # 单列

In [None]:
df[['A', 'G']].value_counts()   # 多列

### 每行运用函数，计算统计量

In [None]:
df

In [None]:
df.apply(lambda x: len(x), axis=0)  # x表示每一行；axis=0表示针对每列, axis=1表示针对每行

In [None]:
df.apply(lambda x: x.E, axis=1)  # x表示每一行；axis=0表示针对每列, axis=1表示针对每行

### 透视图（重要）
按照一定的标准给数据分组，对每组数据进行一定的统计
`df.groupby()`函数按照`split-apply-combine`原则分析数据
* `split`-首先对数据按照列的不同值分组，分组标准由by参数给定
* `apply`-对每个分组数据，应用给定的分析处理函数，处理函数有func参数给定
* `combine`-将所有组的结果汇总，汇总会自动完成

<img src="../data/group_by_cities.png" alt="drawing" width="1000px"/>
<img src="../data/split_apply_combine.png" alt="drawing" width="1000px"/>

In [None]:
df

### 用groupby函数统计B列字符长度的分布

In [None]:
df.groupby(by='B_str_length').apply(func=lambda x: len(x))  # x表示分组后一个小表的数据
df.groupby('B_str_length').apply(lambda x: len(x))  # 参数名称可省略
df.groupby('B_str_length').apply(len)

### 统计不同城市不同气候的天数

In [None]:
weather

In [None]:
t = weather.groupby(by=['city', 'event']).apply(len)
t

### 统计不同城市不同气候的平均气温,平均风速

In [None]:
r1 = weather.groupby(by=['city', 'event']).apply(lambda x: x.temperature.mean())
r1

In [None]:
r2 = weather.groupby(by=['city', 'event']).apply(lambda x: x.windspeed.mean())
r2

### 上面的结果可以转化为DataFrame表格

In [None]:
r1 = r1.to_frame('avg_temperature').reset_index()  # series转化为Dataframe表格，重置索引为列
r2 = r2.to_frame('avg_windspeed').reset_index()
pd.merge(r1, r2) # 合并

### 也可以直接计算所有数值列的均值

In [None]:
r3 = weather.groupby(by=['city', 'event']).mean().reset_index()
r3

### 导出结果到csv，txt或xlsx等格式

In [None]:
r3.to_csv('../data/city_weather_freq.csv', index=False) # index=False表示不导出索引

In [None]:
r3.to_csv('../data/city_weather_freq.txt', index=False) # index=False表示不导出索引

In [None]:
r3.to_csv('../data/city_weather_freq.xlsx', index=False) # index=False表示不导出索引