# 前言
之前在体会到numpy相对于list的好处之后，我们同样也会自然而言的想，pandas的优点又在哪里呢？

numpy的强项在于n维数组的运算，包括在此之上的矩阵运算。

而pandas，它又定义了两种新的数据格式，称为series和Dataframe。

并且，它更为强调的是表格的概念，它为每一行，每一列都添加了index，我们可以通过这些index，快速的对数据进行定位和操作。

参考：
https://ericfu.me/10-minutes-to-pandas/

**导入包**

In [1]:
import pandas as pd

# 创建Series
Series可以理解为一个一维的列数组，只不过我们为每一行都取了一个名字。

**通过两个list来创建series**

In [6]:
obj=pd.Series([1,2,3],index=['a','b','c'])
print(obj)

a    1
b    2
c    3
dtype: int64


**通过字典来创建series**

In [7]:
dic={'num1':10,'num2':12,'num3':14}
pd_se=pd.Series(dic)
print(pd_se)

num1    10
num2    12
num3    14
dtype: int64


# 创建Dataframe

相比于series，dataframe就是一张完整的表了，它每行，每列都有一个名字。

**通过三个list来创建Dataframe**

In [10]:
data=[[1,2,3],[4,5,6],[7,8,9]]
index_list=['row1','row2','row3']
colum_list=['col1','col2','col3']
pd_df=pd.DataFrame(data,index=index_list,columns=colum_list)
print(pd_df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


**通过dict来创建加一个list来创建**

In [18]:
dic={'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada','AMD'],
    'year': [2000, 2001, 2002, 2001, 2002,2003],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9,3.1]}
index_list=['r1','r2','r3','r4','r5','r6']
pd_df=pd.DataFrame(dic,index=index_list)
print(pd_df)

    pop   state  year
r1  1.5    Ohio  2000
r2  1.7    Ohio  2001
r3  3.6    Ohio  2002
r4  2.4  Nevada  2001
r5  2.9  Nevada  2002
r6  3.1     AMD  2003


# Dataframe的切片
dataframe的切片应该是dataframe这个数据结构最为精髓的地方了。

## 简单的查看dataframe数据
对于numpy或者list构成的多维数组中，我们如果需要查看一下数据，通常需要自己手写类似于[:5]这样的操作，但dataframe就不用了

**打印dataframe头5行**

In [16]:
print(pd_df.head())

    pop   state  year
r1  1.5    Ohio  2000
r2  1.7    Ohio  2001
r3  3.6    Ohio  2002
r4  2.4  Nevada  2001
r5  2.9  Nevada  2002


**打印dataframe的尾5行**

In [19]:
print(pd_df.tail())

    pop   state  year
r2  1.7    Ohio  2001
r3  3.6    Ohio  2002
r4  2.4  Nevada  2001
r5  2.9  Nevada  2002
r6  3.1     AMD  2003


## 根据列的index获取数据
dataframe最大的不同就是它给每行/每列都有设置了一个名字，那么我们就可以直接通过这个名字来获取这一行/列。

**通过名字获取一列**

这里也有两种方式：

    一种通过简单的‘.列名’，像一个属性一样去获得它；
    一种是通过['列名']的方式，以偏list的方式去获得它。

In [20]:
print(pd_df.year)

r1    2000
r2    2001
r3    2002
r4    2001
r5    2002
r6    2003
Name: year, dtype: int64


In [21]:
print(pd_df['state'])

r1      Ohio
r2      Ohio
r3      Ohio
r4    Nevada
r5    Nevada
r6       AMD
Name: state, dtype: object


## 根据行的index来获取这一行
相比于获取列数据，获取行数据要麻烦一些，需要借助一些函数，比如：

    注意后面跟的都是方括号！
    loc[] # 按照名字获取行
    iloc[] # 按照序号获取行

**通过loc，根据名称来获取数据**

In [33]:
print(pd_df.loc['r1':'r2'])

    pop state  year
r1  1.5  Ohio  2000
r2  1.7  Ohio  2001


In [34]:
print(pd_df.loc['r2'])

pop       1.7
state    Ohio
year     2001
Name: r2, dtype: object


**通过iloc，根据index的序号来获取数据**

In [36]:
print(pd_df.iloc[0])

pop       1.5
state    Ohio
year     2000
Name: r1, dtype: object


In [37]:
print(pd_df.iloc[1:3])

    pop state  year
r2  1.7  Ohio  2001
r3  3.6  Ohio  2002


# Dataframe，Series和numpy数组的转化
有的时候我们需要将datafram，series和数组进行一定的转化，具体操作如下

**从dataframe得到series**

其实series就是一个一维的列向量，对应于dataframe中的一列，那么我们要做的就是从dataframe中拿到一列

In [38]:
print(type(pd_df))

<class 'pandas.core.frame.DataFrame'>


In [39]:
print(type(pd_df.year))

<class 'pandas.core.series.Series'>


In [40]:
print(pd_df.year)

r1    2000
r2    2001
r3    2002
r4    2001
r5    2002
r6    2003
Name: year, dtype: int64


**从dataframe中获得数组数据**

In [41]:
print(type(pd_df))

<class 'pandas.core.frame.DataFrame'>


In [42]:
print(type(pd_df.year.values))

<class 'numpy.ndarray'>


In [43]:
print(pd_df.year.values)

[2000 2001 2002 2001 2002 2003]


# Dataframe统计分析
dataframe的好用之处不仅在于它方便的获取行/列数据，更在于它提供的一些数据分析的内容。

## 获取dataframe基本内容
我们可以通过内置函数获得dataframe的类型，以及基本统计量的信息。

**获取参数类型**

In [44]:
print(pd_df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, r1 to r6
Data columns (total 3 columns):
pop      6 non-null float64
state    6 non-null object
year     6 non-null int64
dtypes: float64(1), int64(1), object(1)
memory usage: 352.0+ bytes
None


**获取基本统计量信息**

In [46]:
print(pd_df.describe())

            pop         year
count  6.000000     6.000000
mean   2.533333  2001.500000
std    0.821381     1.048809
min    1.500000  2000.000000
25%    1.875000  2001.000000
50%    2.650000  2001.500000
75%    3.050000  2002.000000
max    3.600000  2003.000000


## 获得某列的统计量
前面可以大致的了解到类型为数字类型的列的统计量，那么如果我想要针对性的获得某一列的统计量呢？

In [48]:
print(pd_df.year.mean())

2001.5


In [58]:
print(pd_df['pop'].std()) # 这里把列名pop和方法pop搞混，所以必须这么写才能得到列数据

0.8213809510006101


## 排序，逻辑操作以及幅度计算
dataframe同样提供以上操作

**根据某一列，而不是index进行排序**

注意，这里会返回一个排序过后的新的dataframe

In [65]:
print(pd_df.sort_values(by='pop'))

    pop   state  year
r1  1.5    Ohio  2000
r2  1.7    Ohio  2001
r4  2.4  Nevada  2001
r5  2.9  Nevada  2002
r6  3.1     AMD  2003
r3  3.6    Ohio  2002


In [61]:
print(pd_df)

    pop   state  year
r1  1.5    Ohio  2000
r2  1.7    Ohio  2001
r3  3.6    Ohio  2002
r4  2.4  Nevada  2001
r5  2.9  Nevada  2002
r6  3.1     AMD  2003


**通过设置inplace属性，就可以在原dataframe上进行修改，而不产生新的dataframe**

In [66]:
pd_df.sort_values(by='pop',inplace=True)
print(pd_df)

    pop   state  year
r1  1.5    Ohio  2000
r2  1.7    Ohio  2001
r4  2.4  Nevada  2001
r5  2.9  Nevada  2002
r6  3.1     AMD  2003
r3  3.6    Ohio  2002


**逻辑操作**

相比于numpy中的mask，只会将满足条件的那些数据点留下；

pandas中，逻辑判断是以行为单位的，只要这一行中的那几列数据满足要求，这一行数据都会被保留。

这里注意，复合条件必须用()包围

In [68]:
print(pd_df[(pd_df.year>=2002) & (pd_df['pop']>=2.0)])

    pop   state  year
r5  2.9  Nevada  2002
r6  3.1     AMD  2003
r3  3.6    Ohio  2002


**幅度计算**

对于一些时序数据，特别是金融数据而言，我们经常会需要计算今天相对于昨天的涨跌幅度；

而pandas考虑到了这个需求，方便的帮我们编写了这个方法。

In [70]:
pd_df['pop_change']=pd_df['pop'].pct_change()
print(pd_df)

    pop   state  year  pop_change
r1  1.5    Ohio  2000         NaN
r2  1.7    Ohio  2001    0.133333
r4  2.4  Nevada  2001    0.411765
r5  2.9  Nevada  2002    0.208333
r6  3.1     AMD  2003    0.068966
r3  3.6    Ohio  2002    0.161290


In [71]:
print(0.2/1.5)

0.13333333333333333


# Dataframe填补空值
在上面关于幅度计算的过程中，我们发现有一个地方出现了NaN的标志，它表示，本该是数字的地方出现了非数字的情况。

那么一般对于这种情况，我们有两种处理办法：

    1.删除
    2.填补

## 删除
删除非数字，由于dataframe的表结构，我们要么把dataframe所在的这一行删了，要么把dataframe所在的这一列删了；
而对于删除条件，也有两种，一种是这一行/列存在NaN就删除，一种是这一行/列都是NaN才删除。

**只要这一列有NaN，就删除这一列**

In [74]:
print(pd_df.dropna(axis=1))

    pop   state  year
r1  1.5    Ohio  2000
r2  1.7    Ohio  2001
r4  2.4  Nevada  2001
r5  2.9  Nevada  2002
r6  3.1     AMD  2003
r3  3.6    Ohio  2002


**如果这一行都是NaN，那么就删除这一行**
（这里就删不掉了）

In [75]:
print(pd_df.dropna(how='all',axis=0))

    pop   state  year  pop_change
r1  1.5    Ohio  2000         NaN
r2  1.7    Ohio  2001    0.133333
r4  2.4  Nevada  2001    0.411765
r5  2.9  Nevada  2002    0.208333
r6  3.1     AMD  2003    0.068966
r3  3.6    Ohio  2002    0.161290


## 填补
填补在我看来是一种更为优雅的方式，它可以用你的指定值，来替换空值。

In [76]:
print(pd_df.fillna(0))

    pop   state  year  pop_change
r1  1.5    Ohio  2000    0.000000
r2  1.7    Ohio  2001    0.133333
r4  2.4  Nevada  2001    0.411765
r5  2.9  Nevada  2002    0.208333
r6  3.1     AMD  2003    0.068966
r3  3.6    Ohio  2002    0.161290


In [78]:
# 用均值来替换
print(pd_df.fillna(pd_df.pop_change.mean()))

    pop   state  year  pop_change
r1  1.5    Ohio  2000    0.196737
r2  1.7    Ohio  2001    0.133333
r4  2.4  Nevada  2001    0.411765
r5  2.9  Nevada  2002    0.208333
r6  3.1     AMD  2003    0.068966
r3  3.6    Ohio  2002    0.161290


# 连接
当我们想把series连到已有dataframe后面的时候，可以直接通过dataframe['列名']=series的方式操作
但是如果我们想把一个dataframe连到另一个dataframe后面时，应该怎么办呢？

**使用concat连接两个dataframe**

In [94]:
# 创建新的dataframe
dic={'state2': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada','AMD'],
    'year2': [2000, 2001, 2002, 2001, 2002,2003],
    'pop2': [1.5, 1.7, 3.6, 2.4, 2.9,3.1]}
index_list=['r1','r2','r3','r4','r5','r6']
pd_df2=pd.DataFrame(dic,index=index_list)
print(pd_df2)

    pop2  state2  year2
r1   1.5    Ohio   2000
r2   1.7    Ohio   2001
r3   3.6    Ohio   2002
r4   2.4  Nevada   2001
r5   2.9  Nevada   2002
r6   3.1     AMD   2003


In [97]:
print(pd.concat([pd_df,pd_df2],axis=1))

    pop   state  year  pop_change  pop2  state2  year2
r1  1.5    Ohio  2000         NaN   1.5    Ohio   2000
r2  1.7    Ohio  2001    0.133333   1.7    Ohio   2001
r3  3.6    Ohio  2002    0.161290   3.6    Ohio   2002
r4  2.4  Nevada  2001    0.411765   2.4  Nevada   2001
r5  2.9  Nevada  2002    0.208333   2.9  Nevada   2002
r6  3.1     AMD  2003    0.068966   3.1     AMD   2003
