# <center>第5章 pandas入门</center>


## 5.1 pandas的数据结构介绍 Series & DataFrame

> <font color='#FF0000'>pandas和numpy的区别：pandas是专门为处理表格和混杂数据而设计的，而numpy更适合处理统一的数据</font></br>

### 1. Series

In [1]:
import numpy as np
import pandas as pd 
from pandas import Series,DataFrame

obj=pd.Series([1,3,5])
print(obj)
obj.values
obj.index

#创建带索引的Series(可以直接传入dict类型数据)
obj2=pd.Series([4,7,-5,3],index=['a','b','c','d'])
a=np.arange(4)
b=np.array(['a','b','c','d'])
obj3=pd.Series(a,b)
obj3

#Series的索引
obj3[['a','b','d']]#两个中括号
obj3[1:4]#类似list的索引
obj3[[1,2]]

#使用numpy函数或者类似numpy的运算都会保留原索引
obj3[obj3>2]
obj3*2
np.exp(obj3)

#可以将Series看成是一个定长的有序字典，因为它是索引值到数据值得一个映射
#检查键（key)是否存在
'b' in obj3
'e' in obj3
for x in obj3:#输出value
    print(x)
for index in obj3.index:
    print(index)

#通过dict创建Series
sdata={'ohio':35000,'Texas':71000,'Ored':5333}
obj4=pd.Series(sdata)
print(obj4)
obj4.dtype
#如果只传入一个字典，则结果Series中的索引就是原字典的键值，同时你也可以传入排好的字典的键以改变顺序
names=['Mary','Jack','Julia']
new_names=names.sort()
di=dict()
for x in names:
    di[x]=np.random.randint(1,4)
obj5=pd.Series(di,new_names)

#还可以改变dict中键值的顺序，从而改变Series的顺序
import pandas as pd
names={'Jack':22,'Mary':32,'Haro':13}
name_rank=['Jack','Haro','Mary','Julia']
obj=pd.Series(names,name_rank)
#pandas中的isnull和notnull函数可以用于检测缺失数据
pd.isnull(obj)
obj.isnull()
pd.notnull(obj)
obj.notnull()

#Series的最重要的一个功能是，它会根据运算的索引标签自动对齐数据
import pandas as pd
obj1=pd.Series([35000,16000,71000,5000],['Ohio','Oregon','Utah','Texas'])
obj2=pd.Series([None,35000,16000,71000],['California','Ohio','Oregon','Texas'])
obj1+obj2#没有公共元素的都会变成NaN

#Series对象及其索引都有一个name属性，该属性跟pandas的其他关键功能关系非常密切
import pandas as pd
obj=pd.Series([1,3,4,5],['a','b','c','d'])
obj.name='pandas'
obj.index.name='index'

0    1
1    3
2    5
dtype: int64
obj3的值是: a    0
b    1
c    2
d    3
dtype: int32
0
1
2
3
a
b
c
d
ohio     35000
Texas    71000
Ored      5333
dtype: int64


### 2. DataFrame

> <font color='#FF4040'>DataFrame是一个表格型的数据，含有一组有序的列，每列可以是不同的值。既有列索引，也有行索引.建立DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或者numpy数组组成的字典</font>

In [1]:
import pandas as pd
import numpy as np

data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,2003],
        'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
#如果指定了列序列，则DataFrame的列就会按照指定的顺序进行排列
#但是如果传入的列在数据中找不到，就会在结果中产生缺失值
frame=pd.DataFrame(data,index=['a','b','c','d','e','f'])
frame1=pd.DataFrame(data,index=['a','b','c','d','e','f'],columns=['year','state','no','pop'])

In [None]:
#列的索引
import pandas as pd
import numpy as np

data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002,2003],
'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame=pd.DataFrame(data,index=['a','b','c','d','e','f'],columns=['year','state','no','pop'])

#通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series
frame.columns#获取所有的列名，也可以赋值的
state_index=frame['state']
state_index=frame.year
#如果改变state_index，frame也会跟着改变
state_index[1]='hello'
state_index=np.arange(6)
#为不存在的列赋值会创造出一个新列
#可以这样赋值 frame['new']=np.random.randint(0,5,6)
#但是这样frame.new=np.random.randint(0,5,6)好像会弹出警告
frame['new']=np.random.randint(0,5,6)
#del方法可以删除列。当然，这是行不通的 'del frame.new'
del frame['new']

In [10]:
#行的索引--loc和iloc
import pandas as pd

data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,2003],
        'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame=pd.DataFrame(data,index=['a','b','c','d','e','f'],columns=['year','state','no','pop'])
print("frame.loc['a']\n",frame.loc['a'],'\n')
print("frame.loc[['a','d']]\n",frame.loc[['a','d']],'\n')
print("frame.loc['a','year']\n",frame.loc['a','year'],'\n')
print("frame[1:3]\n",frame[1:3])#等价于 frame.iloc[1:3,:]


frame.loc['a']
 year     2000
state    Ohio
no        NaN
pop       1.5
Name: a, dtype: object 

frame.loc[['a','d']]
    year   state   no  pop
a  2000    Ohio  NaN  1.5
d  2001  Nevada  NaN  2.4 

frame.loc['a','year']
 2000 

frame[1:3]
    year state   no  pop
b  2001  Ohio  NaN  1.7
c  2002  Ohio  NaN  3.6


In [None]:
#嵌套字典,pandas就会被解释为：外层字典的键作为列索引，内层键作为行索引
import pandas as pd

pop={'Nevada':{2001:2.4,2002:2.9},
'Ohio':{2000:1.5,2001:1.7,2002:5.9}}
frame=pd.DataFrame(pop)
#也可以用类似numpy数组的方法，对DataFrame进行转置
print(frame.T)

下表列出了DataFrame构造函数所能接受的各种数据

| 类型 | 说明|
| :---: | :---: |
| 二维ndarray | 数据矩阵，还可以传入行标和列标 |
| 由数组、列表或者元组组成的字典| 每个序列会变成DataFrame的一列，所有序列的长度必须相同 |
| numpy的结构化数组 | 类似于 '由数组组成的字典' |
| 由Series组成的字典 | 每个Series会成为一列，如果没有显式指定索引，则各Series的索引会被合并成结果的行索引 |
| 由字典组成的字典 | 各内层字典会成为一列，键会被合并成结果的行索引 |
| 字典或者Series组成的字典 | 各项将会成为DataFrame的一行，字典键或者Series索引的并集将会成为DataFrame的列标 |
| 由列标或者元组组成的列标 | 类似于 '二位ndarray' |
| 另一个DataFrame | 该DataFrame的索引将会被引用，除非显式指定了其他索引 |
| numpy的MaskedArray | 类似于 '二维ndarray' 的情况，只是掩码值在结果DataFrame会变成NA/缺失值 |



In [None]:
#索引对象
import pandas as pd
import numpy as np

obj=pd.Series(range(3),index=['a','b','c'])
#index对象是不可变的，因此用户不能对其进行修改
index_=obj.index
index_[1:]
#不可变性可以使index对象在多个数据结构之间安全共享
labels=pd.Index(np.arange(3))
labels
obj2=pd.Index(np.arange(3),labels)
obj2
obj2.index is labels
obj2.index==labels
#与python的集合不同，pandas的index可以包含重复的标签
li=['a1','b2','c3','a1']
obj3=pd.Series(np.arange(4),index=li)
#选择重复的标签，会显示所有的结果
obj3['a1']

## 5.2 基本功能

### 1.重新索引

In [None]:
import pandas as pd

obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','c','b','a'])
#reindex不会改变原数据
obj.reindex(['a','b','c','d'])
print(obj)
#a如果某个索引值不存在，就会引入缺失值
obj2=obj.reindex(['a','b','c','d'])

In [None]:
#对于时间序列这样的有序数据，重新索引时可能需要做一些差值处理,method选项即可达到此目的
import pandas as pd
obj3=pd.Series(['blue','purple','yellow'],list(range(3)))
obj4=obj3.reindex([3,1,2,0],method='ffill')

In [1]:
#借助DataFrame, reindex可以修改行索引和列
import numpy as np
import pandas as pd

frame=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','ohao'])
frame2=frame.reindex(['a','b','c','d'])
frame3=frame.reindex(index=['a','b','c','d'],columns=['texas','ohao','news'])
frame3.texas
frame3['texas']
frame3.loc['a']

texas    1.0
ohao     2.0
news     NaN
Name: a, dtype: float64

In [2]:
#对于DataFram,可以删除任意轴上的索引值
import pandas as pd
import numpy as np

data=pd.DataFrame(np.arange(16).reshape((4,4)),\
index=['ohio','color','utah','new york'],\
columns=['one','two','three','four'])
#用标签序列调用drop会从行标签(axis=0)删除值
#但是不会改变原DataFrame!!!添加参数 inplace=True才可以
data.drop('ohio')
print(data)

#这样可以删除列
data.drop('one',axis=1)
print(data)
data.drop('one',axis=1,inplace=True)
print(data)

          one  two  three  four
ohio        0    1      2     3
color       4    5      6     7
utah        8    9     10    11
new york   12   13     14    15
          one  two  three  four
ohio        0    1      2     3
color       4    5      6     7
utah        8    9     10    11
new york   12   13     14    15
          two  three  four
ohio        1      2     3
color       5      6     7
utah        9     10    11
new york   13     14    15


### 2.索引

In [5]:
import pandas as pd
import numpy as np
#利用loc(轴标签,标签索引包含末尾值)和iloc选取(整数索引)
data=pd.DataFrame(np.arange(16).reshape((4,4)),\
index=['ohio','color','utah','new york'],\
columns=['one','two','three','four'])
print(data)
#似乎是不能索引不存在的字段
data.loc['color','two':'one']
#用iloc和整数进行选取
data.iloc[2,[3,2]]

          one  two  three  four
ohio        0    1      2     3
color       4    5      6     7
utah        8    9     10    11
new york   12   13     14    15


four     11
three    10
Name: utah, dtype: int32

### 3.整数索引

In [9]:
#pandas可以勉强进行整数索引，但是会导致小bug,基于标签索引或者位置索引
import numpy as np
import pandas as pd

ser=pd.Series(np.arange(3))
ser[1]
#ser[-1]#报错
#但是对于非整数索引，不会产生歧义
ser=pd.Series(np.arange(3),index=['a','b','c'])
ser[-1]
ser[1:]
print(ser.loc[:'c'])#轴标签索引
print(ser.iloc[1:])#整数索引

a    0
b    1
c    2
dtype: int32
b    1
c    2
dtype: int32


### 4.算术运算和数据对齐

In [12]:
# pandas最重要的一个功能是他可以对不同索引的对象进行算术运算
#在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集
import pandas as pd
import numpy as np
s1=pd.Series([7.3,-2.5,3.4,1.5],index=['a','b','c','d'])
s2=pd.Series([-2.1,3.5,-1.5,4,3.1],index=['a','b','d','e','h'])
#自动对齐操作在不重叠的索引中引入了NA值，缺失值会在算术运算过程中传播
print(s1+s2)
#对于DataFrame，对齐操作会同时发生在行和列上
df1=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','b','c'],columns=['ohio','texas','colorado'])
df2=pd.DataFrame(np.arange(12).reshape((4,3)),index=['a','b','c','d'],columns=['ohio','texas','julia'])
print(df1+df2)
df1.add(df2,fill_value=0)#缺失值变为0
#类似的，在对Series和DataFrame重新索引时，也可以指定一个填充值
df1.reindex(columns=df2.columns,fill_value='#')


a    5.2
b    1.0
c    NaN
d    0.0
e    NaN
h    NaN
dtype: float64
   colorado  julia  ohio  texas
a       NaN    NaN   0.0    2.0
b       NaN    NaN   6.0    8.0
c       NaN    NaN  12.0   14.0
d       NaN    NaN   NaN    NaN


Unnamed: 0,ohio,texas,julia
a,0,1,#
b,3,4,#
c,6,7,#


In [14]:
import numpy as np
import pandas as pd

arr=np.arange(12).reshape((3,4))
arr
arr[0]
#当我们从arr中减去arr[0]，每一行都会执行这个操作，这就叫做广播(broadcasting)
#DataFrame和Series之间的运算差不多也是如此
arr-arr[0]

frame=pd.DataFrame(np.arange(12).reshape((4,3)),\
    columns=list('bed'),index=['utah','ohio','texas','oregon'])
series=frame.iloc[0]
frame
series
#默认情况下，DataFrame和Series之间的算术运算会将Series的索引
#默认匹配到DataFrame的列，
frame=pd.DataFrame(np.arange(16).reshape((4,4)),\
    index=['a','b','c','d'],columns=['year','mi','no','julia'])
frame-frame.loc['a']
#按列名匹配
frame.sub(frame.loc['a'],axis='columns')
#按行名匹配
frame.sub(frame['julia'],axis='index')


Unnamed: 0,year,mi,no,julia
a,-3,-2,-1,0
b,-3,-2,-1,0
c,-3,-2,-1,0
d,-3,-2,-1,0


### 5.函数应用和映射

In [4]:
#numpy的ufuncs也可以用于操作pandas对象：
import pandas as pd
import numpy as np
frame=pd.DataFrame(np.random.randn(4,3),\
                   index=['utah','ohio','texas','oregon'],\
                   columns=['a','b','d'])
frame
np.abs(frame)
#另一个常见的操作是，将函数应用到由各列或行所形成的一维数组
#DataFrame的apply方法即可实现此功能
f=lambda x: x.max()-x.min()
print(frame.apply(f,axis='index'))
#传递到apply的函数不是必须返回一个标量，还可以返回由多个值组成的Series
def f1(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])

#不知道为什么这里定义函数之后直接给a赋值就会报错
a=frame.apply(f1,axis='index')
#元素级的python函数也是可以用的，假如你想得到frame中各个浮点值的格式化字符串，使用applymap即可
format=lambda x:'%.2f'%x
frame.applymap(format)
#之所以叫applymap，是因为Series有一个应用于元素级函数的map方法
frame['a'].map(format_)

a    2.021810
b    2.142919
d    1.046411
dtype: float64


utah      -0.18
ohio       1.63
texas     -0.39
oregon     0.73
Name: a, dtype: object

### 6.apply、applymap和map的区别

In [15]:
import pandas as pd
import numpy as np

df=pd.DataFrame(np.random.randint(0,5,(5,5)),index=list('ABCDE'),columns=list('abcde'))

#想让函数作用在一维向量上时，可以使用apply
fun=lambda x:x.max()
print(type(df.apply(fun)))
fun_2=lambda x:x**2
df.apply(fun_2)#返回每个元素的平方

#applymap作用于DataFrame的每一个元素，不能作用于Series
try:
    df.applymap(fun)
except:
    print('数值类型没有 .max方法')
df.applymap(fun_2)

#map将函数作用于Series的每一个元素
df['a'].apply(fun_2)

#所以你会发现没有作用于Series一维数组的方法

<class 'pandas.core.series.Series'>
数值类型没有 .max方法


A    16
B     9
C     1
D    16
E     1
Name: a, dtype: int64

### 7.排序和排名

 - 排序

In [10]:
#要对行或者列索引进行排序(按字典排序)，可使用sort_index方法，它将返回一个已排序的新对象
import pandas as pd
import numpy as np

obj=pd.Series(np.arange(4),index=['i','f','c','d'])
obj.sort_index()
print(obj)
#对于DataFrame，则可以根据任意一个轴上进行排序
frame=pd.DataFrame(np.arange(8).reshape(2,4),index=['one','two'],columns=['d','a','b','c'])
frame.sort_index()
frame.sort_index(axis='columns')
frame.sort_index(axis=1)
#数据默认是按升序排列的，但也可以按降序排列
frame.sort_index(axis=1,ascending=False)
#若要按值对Series进行排序，可使用sort_values方法
help('pandas.Series.sort_values')
s=pd.Series(np.random.randn(6),index=['a','v','d','s','g','l'])
s.sort_values()
#在排序时，任何缺失值都会默认被放到Series的末尾
frame.sort_values(by='d',ascending=False)
frame.sort_values(by=['d','a'],ascending=True,axis=0)
frame.sort_values(by='one',axis=1)

i    0
f    1
c    2
d    3
dtype: int32
Help on function sort_values in pandas.Series:

pandas.Series.sort_values = sort_values(self, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')
    Sort by the values.
    
    Sort a Series in ascending or descending order by some
    criterion.
    
    Parameters
    ----------
    axis : {0 or 'index'}, default 0
        Axis to direct sorting. The value 'index' is accepted for
        compatibility with DataFrame.sort_values.
    ascending : bool, default True
        If True, sort values in ascending order, otherwise descending.
    inplace : bool, default False
        If True, perform operation in-place.
    kind : {'quicksort', 'mergesort' or 'heapsort'}, default 'quicksort'
        Choice of sorting algorithm. See also :func:`numpy.sort` for more
        information. 'mergesort' is the only stable  algorithm.
    na_position : {'first' or 'last'}, default 'last'
        Argument 'first' puts NaNs at the begin

Unnamed: 0,d,a,b,c
one,0,1,2,3
two,4,5,6,7


 - 排名

In [None]:
#排序会从1开始一直到数组中有效数据的数量
#默认情况下，rank是通过为各组分配一个平均排名的方式来破坏平级关系的

obj=pd.Series([2,3,9,1,4,9,2])
print(obj.rank(axis=0,method='average'))
#也可以根据各值在原数据中出现的顺序给出排名
print(obj.rank(method='first'))
#降序
obj.randk(method='first',ascending=False)
obj1=pd.DataFrame(np.random.rand(3,4),index=['a','b','c'],columns=['one','three','four','eight'])
obj1.rank(axis=1)
obj1.rank(axis=1,method='max')

<center>下表列出了所有用于破坏平级关系的method选项</center>

| 方法 | 说明 |
| :-: | :-:|
| average | 默认，在相等的分组中，为各个值分配排名 |
| min | 使用整个分组的最小排名 |
| max | 使用整个分组的最大排名 |
| first | 按值在原始数据中的出现顺序分配排名 |
| dense | 类似 'min' 方法，但是排名总是在组间增加1，而不是组中相同的元素数 |


### 5.3 汇总和计算描述统计

#### 1.常用统计

In [None]:
import numpy as np
import pandas as pd

df=pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan],[0.75,-1.3]])
df.sum()
df.sum(axis=1,skipna=False)
df=pd.DataFrame(np.random.randn(3,4),index=['a','d','e'],columns=['one','three','five','seven'])
df.mean(axis=1)
df.iloc[2,2]=np.nan
df.mean(axis=1,skipna=False)
#有些方法返回的是间接统计(比如达到最大值或最小值的索引)
df.idxmax()
#另一些方法是累计型的
print(df.cumsum(axis=1,skipna=False))
#还有一种方法，用于一次性产生多个汇总统计
df.describe()
#对于非数值型数据，describe也会产生另一种汇总统计
obj=pd.Series(['a','b','c','f','c']*4)
print(obj.describe())

>描述和汇总统计:

| count | 非NA值的数量 |
| :-: | :-: |
| describe | 针对Series或各DataFrame列计算汇总统计 |
| min、max |　计算最大值和最小值 |
| argmin、argmax | 计算能够获取到最小值和最大值的索引值 |
| idxmin、 idxmax | 和argmin和argmax一样的，所以有什么意义吗 |
| quantile | 获取分位数 |
| sum | 值的总和 |
| mean | 平均值 |
| median | 中位数 |
| mad | 平均绝对离差 |
| var | 方差 |
| std | 标准差 |
| skew | 三阶矩（偏度）|　
| kurt | 四阶矩(峰度) |
| cumsum | 样本值的累积和 |
| cummin、cummax | 累计最小值和累计最大值 |
| cumprod | 累计积 |
| diff | 一阶差分 |
| pct_change | 计算百分比变化 |


In [None]:
#相关系数与方差
import pandas_datareader.data as web
import pandas as pd
import numpy as np

all_data={ticker:web.get_data_yahoo(ticker)\
     for ticker in ['AAPL','IBM','MSFT','GOOG']}
price=pd.DataFrame({ticker:data['Adj Close'] for ticker,data in all_data.items()})
returns=price.pct_change()

returns.tail(5)
#Series中的corr方法用于计算两个Series中重叠的、非NA的，按索引对齐的值的相关系数
#与此类似，cov用于计算协方差
returns['AAPL'].corr(returns['GOOGL'])
#另一方面，DataFrame的corr和cov方法将以DataFrame的形式分布返回完整的相关系数或者协方差矩阵
returns.corr()
#利用DataFrame的corrwith方法，你可以计算其列或行跟另一个Series或者DataFrame的相关系数
returns.corrwith(returns.IBM)

In [2]:
#唯一值、值计数以及成员资格
import pandas as pd
import numpy as np

obj=pd.Series(['a','c','b','c','f','e'])
#Series.unique可以得到Series中的唯一数组(array)：
uniques=obj.unique()
#如果需要的话，使用sort()对结果进行排序
uniques.sort()
#value_counts用来计算一个Series中各值出现的频率
#value_counts还是一个顶级pandas方法，可以用于任何数组或者序列
#为了便于查看，Series中的值是按频率降序排列的
counts=obj.value_counts()

#isin用于判断矢量化集合的成员资格，可用于过滤Series或者DataFrame中的数据
obj=pd.Series(np.array(['a','v','b','e','f','e','g','j','h']))
mask=obj.isin(['b','f'])

#与isin类似的是Index.get_indexer方法，它可以给你一个索引数组，从可能包含
#重复值的数组到另一个不同值的数组
to_match=pd.Series(['a','f','d','g','h','a','g','v'])
unique_vals=pd.Series(['a','b','c'])
#get_indexer返回的是to_match的值在unique_vals中的索引，如果没有，则返回-1
pd.Index(unique_vals).get_indexer(to_match)

array([ 0, -1, -1, -1, -1,  0, -1, -1], dtype=int64)

下表给出了这几个方法的一些参考信息

| 方法 | 说明 |
| :-: | :-: |
| isin | 计算一个表示 'Series'各值是否包含于传入的值序列中的布尔型数据 |
| match | 计算一个数组中的各值到另一个不同值数组的整数索引，对于数据对齐和连接类型的操作十分有用 |
| unique | 计算Series中的唯一数组，按发现的顺序返回,包括NaN |
| value_counts | 返回一个Series，其索引为唯一值，其值为频率，按计数值降序排列 |

#### 2.集中趋势

In [3]:
import numpy as np
from scipy import stats
import pandas as pd

array=np.random.randint(0,5,10)
#截尾均值(trimmed mean)
stats.tmean(array,limits=[3,8])
#缩尾均值(winsorized mean):把原始数据中最大的N个数用第N+1大的数替代，把原始数据中的最小的N个数用第N+1小的数替代
stats.mstats.winsorize(array,[0.1,0.1]).mean()
#中位数
np.median(array)
#分位数
pd.DataFrame([]).median
#众数
pd.DataFrame.mode

3.25

#### 3.离散程度

In [None]:
import numpy as np
import pandas as pd
from scipy import stats

#极差
np.ptp(np.arange(20))
#方差和标准差
np.var&np.std
#协方差
np.cov
#变异系数
np.var/np.std

#### 4.分布形状

In [2]:
import pandas as pd
import numpy as np

#偏度-skewness(3次方)
obj=pd.Series(np.random.randn(10))
obj.skew()
#峰度-kurtosis(4次方减3)
obj.kurt()

1.763007171941938