## Pandas数据类型
- 一维Series
- 二维DataFrame

![](img/base_01_pandas_5_0.png)

In [2]:
import numpy as np
import pandas as pd
pd.__version__

'1.4.2'

## 1. Series

In [None]:
# 普通列表
subjects = ["军训", "思修", "史纲", "马原", "毛概", "体育1", "体育2"]
score = [65, 80, 75, 83, 77, 100, 98]
print(subjects)
print(score)

In [None]:
#把列表转化为Series
s1 = pd.Series(subjects)
type(s1)

In [None]:
# 构造Series
s2 = pd.Series(score, name="score")
print(s1)
print(s2)

## 2. DataFrame

In [None]:
# 把两个Series合并为一个字典，然后创建DataFrame
df = pd.DataFrame({'Subjects': s1, 'Score': s2})
df

### 2.1 读取数据以及基础操作
一般英文数据的csv文件读取没什问题。
- pd.read_csv(filepath, encoding=None)  读取csv文件
- pd.read_excel(filepath, encoding=None) 读取xls、xlsx文件


**参数解读**
- filepath  待读取文件路径
- encoding   文件编码方式主要是utf-8、gbk。如果不知道编码方式，可以结合chardet库 (参考Python常见错误)

In [3]:
# 读取csv文件，直接得到DataFrame
df = pd.read_csv('data/score.csv', encoding='gbk')
df

Unnamed: 0,subject,year,score,credits,property
0,程序设计基础A6,2019,96.0,1,任选
1,机械制图D5,2018,79.0,4,任选
2,程序设计基础B3,2016,100.0,5,必修
3,微积分C1,2016,65.0,3,必修
4,微积分A8,2015,85.0,5,必修
...,...,...,...,...,...
96,大学物理A6,2016,82.0,1,限选
97,程序设计基础D5,2016,62.0,2,限选
98,微积分D6,2019,86.0,3,限选
99,电工电子技术C2,2015,66.0,4,任选


In [None]:
df.head()#查看数据的前几行

In [None]:
df.tail()#查看数据的最后几行

In [None]:
df.describe()#一键查看数据描述

In [None]:
df['year'].unique()#某个Series的值有多少种

In [None]:
df['year'].nunique()#某个Series的值有哪些

In [None]:
df['year'].value_counts()#统计Series中各个元素数量

### 常规操作：索引与切片、增删查改、排序


- 按列索引 df['Series_Name']
- 按列索引 df.iloc[2]
- 按照逻辑判断值索引

 还可以选择多行、选择多列、选择特定列、选择单个值、选择部分值……


In [None]:
#按列检索
df['subject']

In [None]:
#怎样检索多列？

In [None]:
#按行检索
df.iloc[2]

In [37]:
#检索连续多行
df.iloc[2:5]

Unnamed: 0,subject,year,score,credits,property
2,程序设计基础B3,2016,100.0,5,必修
3,微积分C1,2016,65.0,3,必修
4,微积分A8,2015,85.0,5,必修


In [None]:
#检索不连续多行?， 例如，检索第2～5行，7～12行，和第15行


In [None]:
# 排序,默认按照升序排列
df = df.sort_values(by="score", ascending=True)
df

### 查看是否有缺失值
- df.isna()  nan所在的位置返回True，正常数据返回False
- df.notna()  df.isna()反向操作

###  缺失项处理

- df.dropna(axis, inplace)  默认axis=0 #axis=1，当该列全部数据都不是nan时，该列保留。
df.dropna(axis=1)
- df.fillna(某个数or定义的字典, inplace)  填充


上述两种缺失值操作都有inplace参数可供使用

In [None]:
df.isna()

In [None]:
df = df.dropna() # 去除有缺失值的项
df

In [None]:
# 重新读入文件
df = pd.read_csv('data/score.csv', encoding='gbk')
df

In [18]:
# 处理缺失值
df = df.fillna(100) # 使用默认值填充确实项



### 2.3 函数应用
- 分组：groupby, 
- 数据透视表: pivot_table
- 聚合：agg，使用自定义函数：apply, map

类似于Excel操作

In [None]:
#分组和聚合
df.groupby('year')

for group in df.groupby('year'):
    print(group)

In [None]:
#显示其中一个分组
df.groupby('year').get_group(2020)
''

In [6]:
import numpy as np
# 按照年份统计平均分和学分数
df.groupby('year')['score','credits'].agg({"score": np.mean,"credits":np.sum})

  df.groupby('year')['score','credits'].agg({"score": np.mean,"credits":np.sum})


Unnamed: 0_level_0,score,credits
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2015,82.2,65
2016,75.631579,65
2017,78.0,53
2018,82.769231,47
2019,80.611111,53
2020,83.5,38


In [None]:
#数据透视表
pd.pivot_table(df, index='year', columns='property', values='score',aggfunc=np.mean)

### 练习：
1. 在成绩表中加入GPA列
2. 计算加权GPA

score to GPA 
  -  90～100 GPA: 4.0
  -  85～89 GPA: 3.6
  -  80～84 GPA: 3.3
  -  77～80 GPA: 3.0 
  -  73～77 GPA: 2.6
  -  70～72 GPA: 2.3
  -  67～69 GPA: 2.0
  -  63～66 GPA: 1.6
  -  60～62 GPA: 1.3
  -    <60     GPA: 0

In [None]:
def score_to_gpa(score):
    if score >= 90:
        gpa = 4.0
    elif score >= 85:
        gpa = 3.6
    elif score >= 80:
        gpa = 3.3
    elif score >= 77:
        gpa = 3.0
    elif score >= 73:
        gpa = 2.6
    elif score >= 70:
        gpa = 2.3
    elif score >= 67:
        gpa = 2.0
    elif score >= 63:
        gpa = 1.6
    elif score >= 60:
        gpa = 1.3
    else:
        gpa = 0
    return gpa

score_to_gpa(87)

In [None]:
# 使用自定义函数：apply
df["gpa"] = df["score"].apply(score_to_gpa)
df

In [None]:
# 使用apply函数实现两列的加权平均
def wavg(group, avg_name, weight_name):
    d = group[avg_name]
    w = group[weight_name]
    return (d * w).sum() / w.sum()

GPA_year = df.groupby('year').apply(wavg, "gpa", "credits")
# GPA_year
df.groupby(['year','property']).apply(wavg, "gpa", "credits")

### 2.3 数据合并

pd.merge(left, right, how, on)
- left, right 待合并的df
- on 根据哪个字段进行合并
- how 合并方式,默认使用的inner。how包括left、right、inner、outer
![](img/merge.png)



In [None]:
adf = pd.DataFrame(
    {'x1': ['A', 'B', 'C'],
     'x2': [1, 2, 3]}
                  )

adf

In [None]:
bdf = pd.DataFrame(
    {'x1': ['A', 'B', 'D'],
     'x3': ['T', 'F', 'T']}
                  )

bdf

In [None]:
df1 = pd.merge(adf, bdf, how='left', on='x1')
df1

In [None]:
df2 = pd.merge(adf, bdf, how='right', on='x1')
df2

In [None]:
df3 = pd.merge(adf, bdf, how='inner', on='x1')
df3

In [None]:
df4 = pd.merge(adf, bdf, how='outer', on='x1')
df4

**同构数据合并**


字段相同的dataframe合并

pd.concat([df1,df2])  将df1和df2合并

In [None]:
import pandas as pd

df1 = pd.read_csv('data/auto-mpg1.csv')
df1

In [None]:
df2 = pd.read_csv('data/auto-mpg2.csv')
df2

In [None]:
df3 = pd.concat([df1, df2])
df3

### 2.4 DataFrame中有关时间变量的操作
 pd.to_datetime() 可将日期转化为datetime类型的数据，该函数可传入
- 单个的日期
- 也可以是日期序列

In [None]:
dates = ['2020.1.1', '2020 1.1', '2020 1 1', 
         '2020 1-1', '2020-1 1', '2020-1-1',
         '2020/1/1', '1.1.2020', '1.1 2020',
         '1 1 2020', '1 1-2020', '1-1 2020',
         '1-1-2020', '1/1/2020', '20200101', '2020.0101']



In [None]:
pd.to_datetime('1.1.2020')

In [None]:
#需要将数据转化为datatime的类型
pd.to_datetime(dates)

### 提取出时间/日期的属性
处理时间序列场景
- 求某个日期对应的星期数(2020-05-04是第几周)
- 判断一个星期是周几(2020-05-04是周几)
- 判断某一日期是第几个季度(2020-05-04是第几个季度)

当dataframe中的时间列(本数据中的Date列)已转为datetime类型数据，仅需调用 **.dt** 接口就可以提供常见的属性


|.dt的属性|功能|
|:---|:---|
|year|年份|
|month| 月份 |
|day|日|
|hour|时|
|minute|分|
|second|秒|
|date|日期|
|time|时间|
|dayofyear|一年中的第几天|
|weekday|一周中的第几天，0对应周一|
|weekday_name|周几的名称，周一Monday|
|quarter|处于第几个季度|

这里重新导入数据，

In [None]:
import pandas as pd

df = pd.read_csv('data/aapl.csv')
df 

In [None]:
#进行格式转换
df['Date'] = pd.to_datetime(df['Date'])

In [None]:
df.dtypes

In [None]:
df['Date'].dt.dayofweek

In [None]:
#在原数据中添加月份信息
df['month']=df['Date'].dt.month
df

In [None]:
#原数据中添加月份名字
df['monthname']=df['Date'].dt.month_name()
df

In [None]:
#星期几
df['dayname']=df['Date'].dt.day_name()
df

### 时间序列的索引
时间序列索引和Pandas普通索引类似，

大多数操作也可以使用 ``df.loc[index, columns]`` 选取数据,


不过在使用df.loc之前需要先将**日期列设置为行索引**

```
df.set_index('Date', inplace=True)
df.sort_index(inplace=True)
```

In [None]:
df.set_index('Date', inplace=True)
df.head()

In [None]:
df.loc["2016-07":"2017-05"]

In [None]:
#选取某一年
df.loc['2016',]

In [None]:
#选取某一年的某几列数据
df.loc['2016',['High', 'Low']]

In [None]:
#选取某一年某一月的数据
df.loc['2017-01', ]

In [None]:
#选取某一天的数据
df.loc['2017-01-20', :]

In [None]:
#选取某一时间区间
df.loc['2016-07':'2017-05', : ] #使用之前需要sort_index() inplace=True

### date_range方法
pd.date_range(start, end, periods, freq)
- start: 开始日期字符串，如'2020-04-05'
- end: 结束日期字符串，如'2020-07-05'
- periods: 生成的时间点个数
- freq: 日期间隔

一般给定三个参数就能生成一段日期序列


符号 | D/B | W | M/Q/Y | BM/BQ/BY | MS/QS/YS | BMS/BQS/BYS | H | T | S
:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:
描述 | 日/工作日 | 周 | 月末 | 月/季/年末日 | 月/季/年末工作日 | 月/季/年初日 | 月/季/年初工作日 | 小时 | 分钟 |秒

In [None]:
#生成2020-04-05至2020-07-05之间的日期序列，每隔10天有一个日期

import pandas as pd

dates = pd.date_range(start='2020-04-05',
                      end='2020-07-05',
                      periods=10)#等分成十份
dates

In [None]:
#生成2020-04-05至2020-07-05之间的日期序列，每隔10天有一个日期


dates2= pd.date_range(start='2020-04-05',
                      end='2020-07-05',
                      freq='10D')
dates2

### 重采样resample

``resample is a time-based groupby``

重采样就是基于时间的groupby操作，包括

- 降采样
- 升采样

### 降采样
课程中准备的aapl.csv是**日级数据**，如果想寻求**每季度**的平均收盘价，应该怎么操作？

从**日级**到**季度级别**，是**高频**到**低频**的**聚合操作**，其实就类似于groupby按照季度进行操作，用resample来写

In [None]:
#每月成交量的均值

df.resample('M', on='Date').mean()

In [None]:
#每周(工作日)收盘价的均值

df.resample('5B', on='Date')['Close'].mean()

## 相关学习资料


https://pandas.pydata.org/pandas-docs/version/0.22.0/10min.html