## Pandas基本语法

pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

2008年，为满足需要高性能，灵活的数据分析工具，开发商Wes McKinney开始开发Pandas。

- 在Pandas之前，Python主要用于数据迁移和准备。它对数据分析的贡献更小。 Pandas解决了这个问题。 使用Pandas可以完成数据处理和分析的五个典型步骤，而不管数据的来源 - ***加载，准备，操作，模型和分析***。

- Pandas是通过代码来实现**Excel和数据库**的基本功能，并提供了更丰富的分析函数

- Python Pandas用于广泛的领域，包括金融，经济，统计，分析等学术和商业领域。

- Pandas底层基于Numpy实现

Pandas官网：https://pandas.pydata.org/

Pandas生态系统相关软件：https://pandas.pydata.org/community/ecosystem.html

<img style="float: center;" src="img/pandasoutline.png" width=600>

### 导入
习惯上，我们这样导入pandas:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import Series,DataFrame

### Series

#### 创建
<img style="float: center;" src="img/series.png" width=600 height=600>

带索引的一维数组。 通过list或者ndarray可以创建Series，Pandas会自动创建整型索引。

In [None]:
list1=[1,2,3,4]  # python的list 
list1

In [None]:
nparray1=np.array(list1)  #NumPy的ndarray
nparray1

In [None]:
series1=Series(list1)  # Pandas的 Series，使用list创建
series1
# series1.values     # series底层是基于ndarray管理数据的，所以 list数据传进来也会转换为 ndrray

In [None]:
series2=Series(nparray1) # Pandas的 Series，使用ndarray创建
series2
# series2.values

In [None]:
s=Series([1,3,5,777,6,1.5]) #值的类型会自动统一，因为它的值就是按ndaary存储管理的
s

In [None]:
s.values # 值是 ndarray来存储

In [None]:
s.index

#### 索引自定义

In [None]:
s2 = pd.Series([3,51,5,2,6],index=['a','b','c','d','e'])#自己定义索引
s2

In [None]:
s2.index

In [None]:
s2.index = ['one','two','three','four','five'] #整体更换索引，但不能单独替换某个索引指
s2

In [None]:
s2.index[2]='x'  #，但不能单独替换某个自定义索引值， 索引是 元组Tuple类型，不能修改值  

#### 值的读取和修改

In [None]:
s2 = pd.Series([3,51,5,2,6],index=['a','b','c','d','e'])#自己定义索引
s2

In [None]:
s2['d']  #使用索引读取值

In [None]:
s2[3]  #也可以使用位置（Series默认有整数索引，list和ndarray也有）来读取值，类似 字符串、list、ndarray一样的操作

In [None]:
s2['d']=100  #类似 list一样修改值，相关的操作都支持
s2

In [None]:
s2[0:3]  #使用切片的方式来读取值，按照位置，类似 字符串、list、ndarray一样的操作

### DataFrame

<img style="float: center;" src="img/dataframe.png" width=600 height=600>
二维数组，通过NumPy的数组ndarray可以创建一个DataFrame。

* DataFrame可以对应Excel里一个表格，数据库里一张表 

In [None]:
dates=pd.date_range('20130101',periods=6)#生成一个时间类型的索引序列
print(dates)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))#构造一个DataFrame
df

也可以通过字典来创建DataFrame

In [None]:
df2=pd.DataFrame({'A':1.,
                 'B':pd.Timestamp('20130102'),
                 'C':pd.Series(1,index=list(range(4)),dtype='float32'),
                 'D':np.array([3]*4,dtype='int32'),
                 'E':pd.Categorical(['test','train','test','train']),
                 'F':'foo'})
df2

In [None]:
df2.dtypes #每一列（column）类型可以不同      ndarray：要求所有数据类型一样

* 从 CSV文件里读

In [None]:
student_df=pd.read_csv('data/student.csv')
student_df

### 查看数据
查看数据的顶部和底部

In [None]:
print(student_df.head(3)) 
print(student_df.tail(10))

查看索引，列名，以及纯的NumPy数据

In [None]:
print(student_df.index)
print(student_df.columns)
print(student_df.values)

```DataFrame.describe()```提供了便捷的数据统计

1、count：返回数组的个数，如上述为4个元素，所以返回为4；

2、mean：返回数组的平均e79fa5e98193e59b9ee7ad9431333433623135值，1 3 5 9的平均值为4.5；

3、std：返回数组的标准差；

4、min：返回数组的最小值；

5、25%，50%，75%：返回数组的三个不同百分位置的数值，也就是统计学中的四分位数。

6、 max：最大值

In [None]:
print(student_df)
student_df.describe()# 描述性统计

转置矩阵

In [None]:
df  #再回到最开始创建的那个DataFrame，这个数据好演示

In [None]:
df1=df.T 
print(df1)
df1.describe()

沿某一轴排序

In [None]:
print(df.sort_index(axis=0,ascending=False))  #轴axis=0 表示行索引排序 ，axis=1 表示列操作

In [None]:
df.sort_index?

按照值进行排序

In [None]:
print(df.sort_values(by='A',ascending=True))  # 每一行是同时排序

### 数据选择

类似Excel中选择一部分数据

**注意：**尽管Python标准库和NumPy的语句在选择和设置数据时更直观和方便交互。但是在生产环境中，我们更建议使用Pandas的数据访问函数：```.at, .iat, .loc, .iloc```

#### 数据获取
选择一列，返回Series。等同于df.A

In [None]:
df

In [None]:
dataframe2=df[['A','B']]#列名
dataframe2

使用```[]```来切分多行数据，按行切分

In [None]:
print(df[0:3])   # 按照位置来取值，后面不包含
print(df['20130102':'20130104'])  # 按照索引标签来取值，两头都包含


#### 根据标签选择 loc
使用标签（index的名字，coloumn的名字）来得到特定的一行,loc根据两个方向的index来选取，行列通过逗号隔开

In [None]:
#dates 是 df的 index
df.loc['2013-01-01']

使用标签来得到多个指定的列

In [None]:
print(df.loc[ '20130102':'20130104',  ['A','B']]) 

用标签来切片时，**端点的值都是被包含在内的** (和字符串按位置的切片不同)

In [None]:
print(df.loc['20130102':'20130104',['A']])

选择的返回值可以降低维度

In [None]:
df.loc['20130102',['A','B']]

选择一个标量

In [None]:
df.loc[dates[0],'A']

#### 根据位置进行选择  iloc
根据整数下标来选择数据；iloc  根据 index的具体位置 ，从0开始的整数序列

In [None]:
print(df)
df.iloc[3]

用整数来切片，类似于Python标准库和NumPy

In [None]:
print(df.iloc[3:5,0:2])

用整数列表来进行选择，与Python标准库和NumPy类似

In [None]:
print(df.iloc[[1,2,4],[0,2]])

对行进行切片选择

In [None]:
print(df.iloc[1:3,:])

对列进行切片选择

In [None]:
print(df.iloc[:,1:3])

获取某个标量

In [None]:
df.iloc[1,1]

.loc for label based indexing 基于标签取一组数据

.at 按照标签获取一个具体的值

.iloc for positional indexing 基于位置取一组数据

.iat 按照位置获取一个而具体的值


#### 布尔索引，过滤数据
使用某列值来选择数据

In [None]:
df

In [None]:
print(df[df.A<0])  #可以进行按照条件过滤数据  
dfa=df[df.A>0]
print(dfa[dfa.B>0]) 

#### 设置与修改数据
设置一个新列并设置索引

In [None]:
s1=pd.Series([1,2,3,4,5,6],index=pd.date_range('20130102',periods=6))
df['F']=s1
df

根据标签来设置值
at函数, 具体到某个元素

根据指定行index及列label，快速定位DataFrame的元素，选择列时仅支持列名

In [None]:
df.at[dates[0],'A']=0
print(df)

根据位置的来设置值
与at的功能相同，只使用索引参数

In [None]:
df.iat[0,1]=0  #iloc简化 ，取一个值 x y坐标
print(df)

### 处理缺失数据
Pandas主要使用```np.nan```来表示缺失数据。这个值不会加入在计算中。
重新索引允许你对某一轴的索引进行更改/添加/删除操作。这会返回操作数据的拷贝对象。

In [None]:
df1=df.reindex(index=dates[0:4],columns=list(df.columns)+['E'])
df1.loc[dates[0]:dates[1],'E']=1
df1

删除含有缺失数据的行

In [None]:
# print(df1.dropna(how='all')) #这一行所有值都为空时删除
print(df1.dropna(how='any'))#这一行有任意值为空时删除

In [None]:
print(df1.dropna(how='any',axis=1))  #删除有空值的列

填充缺失数据

In [None]:
print(df1['E'].fillna(value=5))  

In [None]:
DataFrame.fillna?

In [None]:
print(df1['E'].fillna(method='ffill'))  

获取数据中是```nan```的位置

In [None]:
print(pd.isnull(df1))

### 基础操作
#### 基本的统计
操作默认排除了缺失的数据  
执行一个描述性的统计

In [None]:
print(df)
df.sum()  #默认按列，每一列一般是一种数据类型

在另外的轴执行该操作

In [None]:
df.max(0)  #横向

In [None]:
print(df)
df.mean(1)  #只对数值型平均

#### 直方图

In [None]:
s=pd.Series(['blue','red','yellow','blue','black'])
print(s)
print(s.value_counts()) #统计每个值出现的次数

### 数据合并
#### 数据拼接concat  ： 各个DataFrame的coloumn都是一样的
Pandas提供了许多工具来根据索引逻辑和线性代数关系组合Series、DataFrame和Panel。
用```concat()```组合Pandas数据

In [None]:
dates=pd.date_range('20130101',periods=6)#生成一个时间类型的索引序列
print(dates)
df1=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))#构造一个DataFrame

dates=pd.date_range('20150101',periods=6)#生成一个时间类型的索引序列
print(dates)
df2=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))#构造一个DataFrame

dates=pd.date_range('20170101',periods=6)#生成一个时间类型的索引序列
print(dates)
df3=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))#构造一个DataFrame

In [None]:
print(pd.concat([df1,df2,df3]))   #拼接

#### 数据关联 Merge  ：   来自不同的来源，DataFrame的 column不同，但是有相同index
合并

<img style="float: center;" src="img/merge.png" width=400>

In [None]:
left=pd.DataFrame({'姓名':['小明','小强'],'身高cm':[180,175]})
right=pd.DataFrame({'姓名':['小明','小刚'],'体重g':[120,130]})
print(left)
print(right)
print(pd.merge(left,right,on='姓名',how='inner'))

In [None]:
print(pd.merge(left,right,on='姓名',how='left'))

### 数据查询 query

In [None]:
df=pd.DataFrame({'Month':['May','July','May','May','May','July','May','May'],'Team' : ['team_one', 'team_one', 'team_two', 'team_three',
                              'team_two', 'team_two', 'team_one', 'team_three'],
                       'Score1' : np.random.randn(8),
                      'Score2' : np.random.randn(8)})
df

In [None]:
df_q=df.query('Month=="May"') #根据条件查询
df_q

In [None]:
df_q=df.query('Month=="May"').query('Score1>0') #根据条件查询
df_q

### 分组  Groupby
分组包含以下的一个或多个流程：
 - 分组 根据某种标准分组数据
 - 应用 对每个组应用一个函数
 - 组合 把分组的结果组合成一个整体结构

In [None]:
df=pd.DataFrame({'Month':['May','July','May','May','May','July','May','May'],'Team' : ['team_one', 'team_one', 'team_two', 'team_three',
                              'team_two', 'team_two', 'team_one', 'team_three'],
                       'Score1' : np.random.randn(8),
                      'Score2' : np.random.randn(8)})
df

分组并对分组后的结果求和

In [None]:
print(df.groupby(['Team']).max()) #max min mean

In [None]:
print(df.groupby(['Team','Month']).sum())

### 时间序列
Pandas拥有易用、强大且高效的方法来在频率变换中执行重采样操作（例如：把秒级别的数据转换成5分钟级别的数据）。这通常在金融应用中使用，但不仅限于金融应用。

In [None]:
rng=pd.date_range('1/1/2012',periods=100,freq='S')   # 构造一个日期序列， 开始 1/1/2012  ， 100个时间点, 频率S 表示秒
print(rng)
ts=pd.Series(np.random.randint(0,500,len(rng)),index=rng)  #构造一个随机数序列  长度100
print(ts.head(5))


In [None]:
ts_sample=ts.resample('5s').sum()    #按照5秒重采样 聚合，  sum表示采样后按求和运算
ts_sample

表现时区

In [None]:
rng=pd.date_range('3/6/2012 00:00',periods=5,freq='D')
ts=pd.Series(np.random.randn(len(rng)),rng)
print(ts)
ts_utc=ts.tz_localize('UTC')
ts_utc

### 绘图

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
ts=pd.Series(np.random.randn(100),index=pd.date_range('1/1/2000',periods=100))
ts.plot()

在DataFrame上，```plot()```是一个函数可以方便地对数据的每个列进行绘图

In [None]:
df=pd.DataFrame(np.random.randn(100,4),index=ts.index,columns=['A','B','C','D'])
df.plot()


In [None]:
df.plot.scatter('A','B')

### 数据获取与导出
#### CSV
保存数据到csv文件中

In [None]:
df1.to_csv('foo.csv')

从csv中读取数据

In [None]:
df=pd.read_csv('foo.csv')
print(df[:10])
df

### Pandas主要功能小结
- 快速高效的DataFrame对象，具有默认和自定义的索引。
- 将数据从不同文件格式加载到内存中的数据对象的工具。
- 缺失数据的数据对齐和综合处理。
- 重组和摆动日期集。
- 基于标签的切片，索引和大数据集的子集。
- 可以删除或插入来自数据结构的列。
- 按数据分组进行聚合和转换。
- 高性能合并和数据加入。
- 时间序列功能。