**Pandas库理解**
* 两个数据类型：Series,DataFrame
* 基于上述数据类型的各类操作   基本操作、运算操作、特征类操作、关联类操作


In [1]:
import pandas as pd
import numpy as np

# Pandas入门


|NumPy|Pandas|
|--|--|
|基础数据类型|拓展数据类型|
|关注数据的结构表达|关注数据的应用表达|
|维度：数据间关系|数据与索引间关系|

## Pandas库的DataFrame类型


### DaataFrame类型
* DataFrame类型有共用相同索引的一组列组成


* DataFrame是一个表格型的数据类型，每列值类型可以不同
* DataFrame既有行索引、也有列索引
* DataFrame常用于表达二维数据，但可以表达多维数据


### DataFrame类型
**DataFrame类型有如下类型创建**
* 二维ndarray对象
* 由一维ndarray、列表、字典、元组或Series构成的字典
* Series类型
* 其他的DataFrame类型

* *二维ndarray对象创建*

In [2]:
import pandas as pd
import numpy as np
d=pd.DataFrame(np.arange(10).reshape(2,5))
print(d)

   0  1  2  3  4
0  0  1  2  3  4
1  5  6  7  8  9


* *从一维ndarray对象字典创建*

In [3]:
dt={"one":pd.Series([1,2,3],index=['a','b','c'])\
   ,'two':pd.Series([9,8,7,6],index=['a','b','c','d'])}
d=pd.DataFrame(dt)
print(d)   #自定义行索引，自定义列索引

   one  two
a  1.0    9
b  2.0    8
c  3.0    7
d  NaN    6


In [4]:
pd.DataFrame(dt,index=['b','c','d'],\
             columns=['two','three'])  #数据根据行列索引自动补齐

Unnamed: 0,two,three
b,8,
c,7,
d,6,


* *从列表类型的字典创建*

In [5]:
d1={'one':[1.0,2.0,3.0],'two':[9,-5,8]}
d=pd.DataFrame(d1,index=['a','b','c'])
print(d)

   one  two
a  1.0    9
b  2.0   -5
c  3.0    8


In [6]:
d2={'城市':['北京','上海','广州','深圳','沈阳'],
    '环比':[101.5,101.2,101.3,102.0,100.1],
    '同比':[120.7,127.3,119.4,140.9,101.4],
    '定基':[121.4,127.8,120.0,145.5,101.6]}
d=pd.DataFrame(d2,index=['c1','c2','c3','c4','c5'])
print(d)

    城市     环比     同比     定基
c1  北京  101.5  120.7  121.4
c2  上海  101.2  127.3  127.8
c3  广州  101.3  119.4  120.0
c4  深圳  102.0  140.9  145.5
c5  沈阳  100.1  101.4  101.6


In [7]:
print(d.index)
print(d.columns)
print(d.values)

Index(['c1', 'c2', 'c3', 'c4', 'c5'], dtype='object')
Index(['城市', '环比', '同比', '定基'], dtype='object')
[['北京' 101.5 120.7 121.4]
 ['上海' 101.2 127.3 127.8]
 ['广州' 101.3 119.4 120.0]
 ['深圳' 102.0 140.9 145.5]
 ['沈阳' 100.1 101.4 101.6]]


In [8]:
print(d['城市'])

c1    北京
c2    上海
c3    广州
c4    深圳
c5    沈阳
Name: 城市, dtype: object


In [9]:
print(d.ix['c2'])

城市       上海
环比    101.2
同比    127.3
定基    127.8
Name: c2, dtype: object


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


In [10]:
print(d['同比']['c3'])

119.4


## Pandas库的数据类型操作
> 数据类型操作--->如何改变Sereis和DataFrame对象?


#### 重新索引

* .reindex()能够改变或重排Series和DataFrame索引

In [11]:
print(d)
d=d.reindex(index=['c5', 'c4', 'c3', 'c2', 'c1'])
d

    城市     环比     同比     定基
c1  北京  101.5  120.7  121.4
c2  上海  101.2  127.3  127.8
c3  广州  101.3  119.4  120.0
c4  深圳  102.0  140.9  145.5
c5  沈阳  100.1  101.4  101.6


Unnamed: 0,城市,环比,同比,定基
c5,沈阳,100.1,101.4,101.6
c4,深圳,102.0,140.9,145.5
c3,广州,101.3,119.4,120.0
c2,上海,101.2,127.3,127.8
c1,北京,101.5,120.7,121.4


In [12]:
d=d.reindex(columns=['环比','同比','城市','定基'])
d

Unnamed: 0,环比,同比,城市,定基
c5,100.1,101.4,沈阳,101.6
c4,102.0,140.9,深圳,145.5
c3,101.3,119.4,广州,120.0
c2,101.2,127.3,上海,127.8
c1,101.5,120.7,北京,121.4


> **插值处理**：对于时间序列这样的有序数据，重新索引时可以插值处理。**method**选项可以达到此目的，例如，使用ffill可以实现前向值填充

In [13]:
obj = pd.Series(['blue','purple','yellow'],index=[0,2,4])

obj.reindex(range(6),method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

* .reindex(index=None,columns=None,...)的参数


|参数|说明|
|--|--|
|index,columns|新的行列自定义索引|
|fill_value|重新索引中，用于填充缺失位置的值|
|method|填充方法，ffill当前值向前填充，bfill向后填充|
|limit|最大填充量|
|copy|默认True,生成新的对象，False是，新旧相等不重复|


In [14]:
newc=d.columns.insert(4,'新增')
newd=d.reindex(columns=newc,fill_value=200)
newd

Unnamed: 0,环比,同比,城市,定基,新增
c5,100.1,101.4,沈阳,101.6,200
c4,102.0,140.9,深圳,145.5,200
c3,101.3,119.4,广州,120.0,200
c2,101.2,127.3,上海,127.8,200
c1,101.5,120.7,北京,121.4,200


* 索引类型
*Series和DataFrame的索引是Index类型，Index对象是不可修改类型*

#### 丢弃指定轴上的选项
> drop

In [15]:
obj = pd.Series(np.arange(5.),index=['a','b','c','d','e'])
print(obj)
print('\n')

obj2 = obj.drop('c')
print(obj2)
print('\n')

obj3 = obj.drop(['d','c'])
print(obj3)

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64


a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64


a    0.0
b    1.0
e    4.0
dtype: float64


In [16]:
data = pd.DataFrame(np.arange(16).reshape(4,4),\
                   index=['Ohio','Colorado','Utah','New York'],\
                   columns=['one','two','three','four'])
print(data)
print('\n')

data2 = data.drop(['Colorado','Ohio'])  #用标签序列调用drop会从 行标签(axis0) 删除值
print(data2)
print('\n')

data3 = data.drop('two',axis=1)
print(data3)
print('\n')

data4=data.drop(['two','four'],axis='columns')
print(data4)

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15


          one  two  three  four
Utah        8    9     10    11
New York   12   13     14    15


          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15


          one  three
Ohio        0      2
Colorado    4      6
Utah        8     10
New York   12     14


> 许多函数，如drop，可以就地修改对象，修改Series或DataFrame的大小和形状，不会返回新的对象。使用**inplace**，会销毁被删除的数据

In [17]:
obj.drop('c',inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

#### 索引、选取和过滤

* Series的索引类似于NumPy数组的索引，只不过Series的索引值不只是整数

In [18]:
obj = pd.Series(np.arange(4.),index=['a','b','c','d'])
print(obj)

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64


In [19]:
obj['b']

1.0

In [20]:
obj[1]

1.0

In [21]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [22]:
obj[['b','a','c']]

b    1.0
a    0.0
c    2.0
dtype: float64

In [23]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [24]:
obj[obj<2]

a    0.0
b    1.0
dtype: float64

> 利用标签的切片运算与普通的python切片运算不同，其末端是包含的

In [25]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

* 用一个**值或序列**对DataFrame进行索引,其实就是获取一个或多个**列**

In [26]:
data = pd.DataFrame(np.arange(16).reshape(4,4),\
                   index=['Ohio','Colorado','Utah','New York'],\
                   columns=['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [27]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [28]:
data[['three','one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


> 特殊情况：1.通过切片或布尔型数组选取数据

In [29]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [30]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


> 2.通过布尔型DataFrame进行索引

In [31]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [32]:
data[data<5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 用loc和iloc进行选取
* 对DataFrame的**行**的标签索引

In [33]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [34]:
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int32

In [35]:
data.iloc[2,[3,0,1]]

four    11
one      8
two      9
Name: Utah, dtype: int32

In [36]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [37]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


> 这两个索引函数也适用于一个标签或多个标签的切片

In [38]:
data.loc[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [39]:
data.iloc[:,:3]

Unnamed: 0,one,two,three
Ohio,0,0,0
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [40]:
data.iloc[:,:3][data.three>5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


**DataFrame选取和重新组合数据的方法**

|类型|说明|
|-|-|
|df[val]| |
|df.loc[val]| |
|df.loc[:,val]| |
|df.loc[val1,val2]| |
|df.iloc[where]| |
|df.iloc[:,where] | |
|df.iloc[where_i,where_j] |通过整数位置，同时选取行和列 |
|df.at[label_i,label_j] |通过行和列标签，选取单一的标量 |
|df.iat[i,j] | |
|reindex |通过标签选取行或列 |
|get_value,set_value |通过行和列标签选取单一值 |

In [41]:
data.iat[1,2]

6

##### 索引类型的常用方法
|方法|说明|
|--|--|
|.append(idx)|连接另一个Index对象，产生新的Index对象|
|.diff(idx)|计算差集，产生新的Index对象|
|.intersection(idx)|计算交集|
|.union(idx)|计算并集|
|.delete(loc)|删除loc位置处的元素|
|.insert(loc,e)|在loc位置增加一个元素e|

In [42]:
d

Unnamed: 0,环比,同比,城市,定基
c5,100.1,101.4,沈阳,101.6
c4,102.0,140.9,深圳,145.5
c3,101.3,119.4,广州,120.0
c2,101.2,127.3,上海,127.8
c1,101.5,120.7,北京,121.4


In [43]:
nc=d.columns.delete(0)

ni=d.index.insert(5,'c0')

nd=d.reindex(index=ni,columns=nc)

t = '\n----------------------------\n'
print(nc,t,\
      ni,t,\
      nd)

Index(['同比', '城市', '定基'], dtype='object') 
----------------------------
 Index(['c5', 'c4', 'c3', 'c2', 'c1', 'c0'], dtype='object') 
----------------------------
        同比   城市     定基
c5  101.4   沈阳  101.6
c4  140.9   深圳  145.5
c3  119.4   广州  120.0
c2  127.3   上海  127.8
c1  120.7   北京  121.4
c0    NaN  NaN    NaN


In [44]:
nd=d.reindex(index=ni,columns=nc,method='ffill')
nd

ValueError: index must be monotonic increasing or decreasing

## Pandas库的数据类型运算

#### 算术运算法则

* 算术运算根据行列索引，补齐后运算，运算默认产生浮点数
* 补齐时缺项填充NaN(空值)
* 二维和一维、一维和零维间为广播运算
* 采用+ - * /符号进行的二元运算产生新的对象

#### 数据类型的算术运算

In [None]:
a=pd.DataFrame(np.arange(12).reshape(3,4))
b=pd.DataFrame(np.arange(20).reshape(4,5))
print(a)
print(b)
print('\n')

print(a+b)
print('\n')

print(a*b)

* 方法形式的运算


|方法|说明|
|-|-|
|.add(d.**argws|类型间加法运算，可选参数|
|.sub|类型间减法运算，可选参数|
|.mul(d.**argws)|类型间乘法运算，可选参数|
|.div(d,**argws)|类型间除法运算，可选参数|

In [None]:
b.add(a,fill_value=100)
a.mul(b,fill_value=0)    
print(a)                       #fill_value参数代替NaN,替代后参运算
print(b)

In [None]:
c=pd.Series(np.arange(4))
print(c)
c-10

In [None]:
print(b)
b-c   #不同维度间为广播运算，一维Sereis默认在轴1参与运算

In [None]:
b.sub(c,axis=0)  #使用运算方法可以令一维Sereis参与轴0运算

#### 比较运算法则

* 比较运算只能比较相同索引的元素，不进行补齐
* 二维和一维、一维和零维间为广播运算
* 采用> <= < = == !=等符号进行的二元运算产生布尔对象

#### 数据类型的比较运算

In [None]:
a=pd.DataFrame(np.arange(12).reshape(3,4))
b=pd.DataFrame(np.arange(12,0,-1).reshape(3,4))
print(a)
print(b)
print(a>b)
print(a == b)      #同维度运算，尺寸一致

In [None]:
c=pd.Series(np.arange(5))   #不同维度，广播运算，默认在0轴
print(a)
print(c)
print(a>c)
print(c>0)

# Pandas数据特征分析


###  对一组数据的理解

## 数据的排序


* .sort_insex()方法在指定轴上根据**索引**进行排序，默认升序

> .sort_index(axis=0,ascending=True)

In [None]:
import numpy as np
import pandas as pd
b=pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

In [None]:
b.sort_index()

In [None]:
b.sort_index(ascending=False)

> .sort_index(axis=0,ascending=True)

In [None]:
c=b.sort_index(axis=1,ascending=False)
c

In [None]:
c=c.sort_index()
c

* sort_values()方法在指定轴上根据**数值**进行排序，默认升序


> Series.sort_values(axis=0,ascending=True)
> DataFrame.sort_values(by,axis=0,ascengding=True)


> *by: axis轴上的某个索引或索引列表*

In [None]:
b

In [None]:
c=b.sort_values(2,ascending=False)
c

In [None]:
c=c.sort_values('a',axis=1,ascending=False)
c

* NaN统一放到排序末尾

In [None]:
a=pd.DataFrame(np.arange(12).reshape(3,4),index=['a','b','c'])
print(a)
print(b)


In [None]:
c=a+b
c

In [None]:
c.sort_values(2,axis=0,ascending=False)

In [None]:
c.sort_values(2,axis=0,ascending=True)

## 数据的基本统计分析


* 适用于Series和DataFrame类型


|方法|说明|
|--|--|
|.sum()|计算数据的总和，按0轴计算，下同|
|.count()|非NaN值的数量|
|.mean() .median()|计算数据的算术平均值、算术中位数|
|.var() .std()|计算数据的方差、标准差|
|.min() .max()|计算数据的最小值、最大值|


* 适用于Series类型

 |方法|说明|
|--|--|
|.argmin() .argmax()|计算数据最大值、最小值所在位置的索引位置（自动索引）|
|.idxmin() .idxmax()|计算数据最大值、最小值所在位置的索引（自定义索引）|



* 适用于Series和DataFrame类型


|方法|说明|
|--|--|
|.describe()|针对0轴（各列）的统计汇总|

**Series**

In [45]:
a=pd.Series([9,8,7,6],index=['a','b','c','d'])
a

a    9
b    8
c    7
d    6
dtype: int64

In [46]:
a.describe()

count    4.000000
mean     7.500000
std      1.290994
min      6.000000
25%      6.750000
50%      7.500000
75%      8.250000
max      9.000000
dtype: float64

In [47]:
type(a.describe())

pandas.core.series.Series

In [48]:
print(a.describe()['max'])
print(a.describe()['25%'])

9.0
6.75


**DataFrame**

In [53]:
b=pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [54]:
b.describe()

Unnamed: 0,0,1,2,3,4
count,4.0,4.0,4.0,4.0,4.0
mean,7.5,8.5,9.5,10.5,11.5
std,6.454972,6.454972,6.454972,6.454972,6.454972
min,0.0,1.0,2.0,3.0,4.0
25%,3.75,4.75,5.75,6.75,7.75
50%,7.5,8.5,9.5,10.5,11.5
75%,11.25,12.25,13.25,14.25,15.25
max,15.0,16.0,17.0,18.0,19.0


In [55]:
type(b.describe())

pandas.core.frame.DataFrame

In [57]:
print(b.describe().ix['min'])
print('\n')

print(b.describe()[2])

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
Name: min, dtype: float64


count     4.000000
mean      9.500000
std       6.454972
min       2.000000
25%       5.750000
50%       9.500000
75%      13.250000
max      17.000000
Name: 2, dtype: float64


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


* **约简方法**

    约简方法常用选项

|选项|说明|
|-|-|
|axis |约简的轴.DataFrame的行用0，列用1 |
|skipna |排除缺失值，默认值为True <除非整个切片(这里指行或列)都是NA，否则(该行或列中的)NA值会被自动排除>|
|level |如果行是层次化索引的(即MultiIndex),则根据level分组约简 |

> 调用DataFrame的**sum**方法返回含有**列**的和的Series

In [60]:
df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],\
                  index=['a','b','c','d'],\
                 columns=['one','two'])
print(df)
print('\n')

df.sum()

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3




one    9.25
two   -5.80
dtype: float64

In [63]:
df.sum(axis=1)  #按行进行求和运算

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [64]:
df.mean(axis='columns')

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [65]:
df.mean(axis='columns',skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

> 有些方法（如idxmin和idxmax）返回的是间接统计，比如返回最大值或最小值的索引

In [73]:
df.idxmax()

one    b
two    d
dtype: object

In [75]:
df.idxmax(axis=1)

a    one
b    one
c    NaN
d    one
dtype: object

* **累计型方法**

In [68]:
print(df)
print('\n')

df.cumsum()

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3




Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


* **汇总统计**

In [69]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


> 对于**非数值型数据**，describe会产生另外一种汇总统计

In [71]:
obj = pd.Series(['a','a','b','c']*4)
print(obj)
print('\n')

obj.describe()

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object




count     16
unique     3
top        a
freq       8
dtype: object

## 数据的累计统计分析

* 适用于Series类型和DataFrame类型，累计计算

|方法|说明|
|--|-|
|.cumsum()|依次给出前1、2、3、...、n个数的和|
|.cumprod()|依次给出前1、2、3、...、n个数的积|
|.cummax()|依次给出前1、2、3、...、n个数的最大值|
|.cummin()|依次给出前1、2、3、...、n个数的最小值|

In [None]:
b

In [None]:
b.cumsum()

In [None]:
b.cummin()

In [None]:
b.cummax()

In [None]:
b.cumprod()

* 适用于Series和DataFrame类型，滚动计算（窗口计算）

|方法|说明|
|--|--|
|.rolling(w).sum()|依此计算相邻w个元素的和|
|.rolling(w).mean()|依此计算相邻w个元素的算术平均值|
|.rolling(W).var()|依此计算相邻w个元素的方差|
|.rolling(W).std()|依此计算相邻w个元素的标准差|
|.rolling(w).min()  .max()|依此计算相邻w个元素的最大值和最小值|

In [None]:
b

In [None]:
b.rolling(2).sum()

In [None]:
b.rolling(3).sum()

## 数据的相关分析

* 协方差


>0 x和y正相关
<0 x和y负相关
=0 x和y独立无关

* Pearson相关系数

* 相关分析函数

适用于Series类型和DataFrame类型


|方法|说明|
|-|-|
|.cov()|计算协方差矩阵|
|.corr()|计算相关系数矩阵，Pearson、Spearman、Kendall等系数|

* 实例：房价增幅与M2增幅的相关性

In [None]:
hprice=pd.Series([3.84,22.93,12.75,22.6,12.33]\
                 ,index=['2008','2009','2010','2011','2012'])
m2=pd.Series([8.18,18.38,9.13,7.82,6.69],index=['2008','2009','2010','2011','2012'])
m2.corr(hprice)

In [None]:
import matplotlib.pyplot as plt
plt.plot(hprice.index,hprice.values)
plt.plot(['2008',2009,2010,2011,2012],[8.18,18.38,9.13,7.82,6.69])
plt.xlabel('年份',fontproperties='SIMHEI',fontsize=20)
plt.show()