@[toc](pandas的学习)

In [23]:
import numpy as np
import pandas as pd 
from pandas import Series, DataFrame
import pandas_datareader.data as web

#  5.1 Series数据
- 索引
- 运算：自动对齐
- 缺失值、命名

In [None]:
# Series 由一维数据和索引组成如时间序列数据，索引为时间
series1 = pd.Series([1,3,5,7])
print(series1)
# 自定义索引
series2 =pd.Series([1,3,4,6],index=['a','b','c','d'])
series2
series2.index
# 通过索引的方式选取Series中的值
value1 = series2['c']
value2 = series2[['a','d','b']]
value2

In [None]:
# Series的运算：类似numpy
series3 = series2[series2>5]
print(series3)
series4 = series2*2
print(series4)
series5 = np.exp(series2)
print(series5)

In [None]:
# 可以将series看作一个有序字典
# 可以用字典来创建series
print('a' in series2)
sdata = {'zhao':1000,'qian':2000,'sun':3000,'zhou':4000}
series6 = pd.Series(sdata)
print(series6)
# 同时可以指定索引，将字典的键按想要的顺序排列即可
keys = ['sun','zhao','qian','li']
series7 = pd.Series(sdata,index=keys) # 不是键的keys值为NaN
# 是键但没有包含在keys的直接删去，不再序列中体现
series7

In [None]:
# 缺失数据
pd.isnull(series7) #pd中的函数
pd.notnull(series7)
series7.isnull()  # series实例的方法
series7.notnull()
# pd根据索引自动对齐数据
result = series6+series7
print(result)  # 只要有一处是缺失值，那么加起来也是缺失值
# name属性
series7.name = 'salary' # 序列名称
series7.index.name  = 'name'
series7

# 5.2 DataFrame创建
- 一组有序列：行索引+列索引，series组成的字典
- 一般是一个或多个二维块

In [None]:
# 创建DataFrame 一般是直接传入一个由列表或数组组成的字典
data = {
    'state':['ohio','ohio','Nevada','Neveda','Nevada','wang'],   # 必须等长
    'year':[2000,2001,2002,2003,2003,2004],
    'pop': [1.5,1.7,3.6,2.4,2.9,3.0]
}
frame  = pd.DataFrame(data)
frame

In [None]:
#预览DataFrame  head() tail()
frame.head()

In [None]:
frame.tail()

In [None]:
# 如果制定了列序列，DataFrame可自定义排序
df = pd.DataFrame(data,columns=['year','state','pop'])
df

In [None]:
# 类似于series，如果传入的列在数据中找不到，就会产生缺失值
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four', 'five','six'])
print(frame2.columns)
print(frame2)
# 从dataframe中获取序列 类似字典或属性的方式
print(frame2.year)   # 要符合python命名特征
print(frame2['pop']) # 实用性更强
# 列的值可以通过赋值的方式修改
frame2['debt'] = 14.1
print(frame2)
frame2['debt'] = np.arange(6.0)  # np中可以加小数  range只能是整数
print(frame2)
# 通过索引返回的列是数据的视图，并不是副本，因此修改后将直接反映在原数据上
# del可以删除某列
# 首先创建一列包含布尔值
frame2['eastern'] = frame2.state == 'ohio'
print(frame2)
del frame2['eastern']
print(frame2)

In [None]:
# 另一种DataFrame创建格式
# 传入嵌套字典
pop = {
    'Nevada':{2001:2.4,2002:2.9},
    'ohio':{2000:1.5,2001:1.7,2002:3.6}
}
frame3 = pd.DataFrame(pop)
print(frame3) # 内层的键作为行，外层的键作为列
# 内层字典的键会形成索引

In [None]:
# 也可以指定索引行
df = pd.DataFrame(pop,index=[2001,2002,2003])
print(df)
# dataframe的转置
print(frame3.T)

In [None]:
# 字典也可以由series组成
pdata = {
    'ohio': frame3['ohio'][:-1],
    'Nevada': frame3['Nevada'][:2]
}
df = pd.DataFrame(pdata)
print(df)

In [None]:
# 字典的列表:与嵌套字典正好相反 属于没有指定行索引
sdata = [{
    'name': 'wang',
    'age':12},{
        'name':'liu',
        'age':22
    }]
df = pd.DataFrame(sdata)
print(df)

# 总结： 创建方法
- 二维数组
- 由数组、列表、元组、series组成的字典，每个元素变成一列
- 嵌套字典，内层字典成为1列，键被合并成行索引
- 字典或series的列表 ：各项称为DF的一行，字典键和索引称为列表
- 字典、元组组成的列表
- 另一个DF

In [None]:
# 设置行索引名，列索引名
df.index.name = 'year'
df.columns.name='features'
print(df)
print(df.values) # 会以数组形式返回
frame2.values # 如果包含很多类型数据，会指定一种兼容的数据类型

# 5.3 索引对象
- pandas用index对象来定义轴标签和轴名称等数据
- 用到的数组或序列的标签都会转换成index对象
- 索引对象确定后不可修改
- 可使用python集合的方法

In [None]:
obj = pd.Series(range(3),index=['a','b','c'])
index = obj.index
index[1:]

In [None]:
# 索引对象确定后不可修改
# index[1] = 'd'
# TypeError: Index does not support mutable operations
# 可以自行创建索引然后在不同DF中使用 
labels = pd.Index(np.arange(3))
labels
obj2  = pd.Series([1.5,-2.5,0],index=labels)
obj2.index is labels
frame3
frame3.columns

In [None]:
# 类似于python集合运算，但可以包含相同元素
labels_index = pd.Index(['foo','foo','bar','bar'])
labels1 = labels_index.append(labels) # 添加到另一个index对象中
print(labels1)
labels2 = labels1.difference(labels_index) # 差集
print(labels2)
labels3 = labels1.intersection(labels) #交集
print(labels3)
# union并 
labels3.delete(2)  # 删除索引
labels3.drop(1)   # 删除值
# insert 插入值到索引i处
# unique计算唯一集合

# 5.4 pandas基本功能
- 重新索引：不论原索引是什么，直接找感兴趣的数据
- 移除某项数据：默认行，可以更换轴
- 序列、DF的索引、切片
- 标签运算符
- 整数索引的注意事项：[-1]
- 索引对齐与算数运算方法
- Series与DF之间的运算：所有行、所有列、广播
- 函数应用

In [None]:
obj = pd.Series([4.5,7.2,5.3,3.6],index=['d','b','a','c'])
print(obj)
# reindex重新索引
obj2 = obj.reindex(['a','b','c','d','e']) 
print(obj2)
# 时间序列的插值处理
obj3 = pd.Series(['blue','purple','yellow'],index=[0,2,4])
print(obj3)
obj3.reindex(range(6),method='ffill')
print(obj3)  #ffill不会对原来对象进行修改 index会改变原来数据视图
print(obj3.reindex(range(6),method='ffill'))

In [None]:
# 对于DataFrame类似
df = pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','b','c'],columns=['ohio','california','texas'])
print(df)
df1 = df.reindex(['a','b','c','d'])
print(df1)
# colums也可以重新索引
states = ['ohio','utah','california']
df2 = df.reindex(columns=states)
print(df2)

In [None]:
# 丢弃某个轴上的项：序列
obj = pd.Series(np.arange(5.),index=['a','b','c','d','e'])
print(obj)
obj1 = obj.drop('c')
print(obj1)
obj2 = obj.drop(['b','c'])  # 作为列表传入参数
print(obj2)
# DataFrame
df1 = pd.DataFrame(
    np.arange(16).reshape(4,4),
    index = ['ojio','colorado','utah','newyork'],
    columns=['one','two','three','four']
)
print(df1)
df2 = df1.drop(['colorado','utah']) # 默认是索引,存储的drop对象
print(df2)
print(df1)
df3 = df1.drop(['one','three'],axis=1) #固定轴方向，可以删除列
df4 = df1.drop(['two','four'],axis='columns') # 等价操作
print(df3)  
print(df4)
# drop函数的inplace参数可以对原始数据进行操作
df5 = df1.drop(['colorado','utah'],inplace=True)
print(df5)  # 返回的是删掉的对象
print(df1) #对原始数据进行了改变，删除了部分数据，谨慎使用

In [None]:
# 序列索引
obj = pd.Series(np.arange(4.0),index=['a','b','c','d'])
print(obj['b'])
print(obj[['b','d']])
print(obj[[2,3]])
print(obj[obj<2])
# 序列切片
print(obj['b':'d'])  # 与python不同末端是包含的
print(obj[2:3])  # python
obj[2:3] =5   #python
print(obj)

In [None]:
# DataFrame索引、切片
df1 = pd.DataFrame(
    np.arange(16).reshape((4,4)),
    index=['wang','liu','zhao','qian'],
    columns=['one','two','three','four'])
print(df1['one'])
print(df1[['one','four']])
print(df1[:2])
print(df1[df1['three']>5])  #>5的所有行，类似excel
# 布尔值
df1[df1<5] = 0 # 直接对df1进行修改
print(df1)
# 标签运算符loc和iloc
df1.loc['wang',['one','three']] # 类似numpy 选取行和列
df1.loc[['wang','zhao'],['one','two']] # 选取子矩阵
df1.iloc[2,[3,0,1]]  # 按整数索引选取
df1.iloc[:,:3]      # 类似numpy
# 选取某一位置标量
df1.at['wang','one'] #必须输入标签
df1.iat[0,0] # 输入整数索引

In [None]:
# 整数索引容易出错
ser1 = pd.Series(np.arange(3.0))
ser1
ser1[1]   #会报错，与列表和元组索引语法不同
# 采用非整数的索引
ser1.index=['a','b','c']
ser1
ser1[-1] # 可以正常索引
# 所以一般使用iloc进行索引
ser1.index=[0,1,2]
ser1
ser1.loc[:1] #按标签索引是 0和1的index
ser1.iloc[:1] # 按python索引进行索引 0的index

In [None]:
# 索引对齐
# 索引为并集，但是值：算数运算NaN +num = NaN
s1  = pd.Series([7.3,-2.5,3.4, 1.5],index=['a','c','d','e'])
s2 = pd.Series([-2.1,3.6,-1.5,4,3.1],index = ['a','c','e','f','g'])
s1
s2
s1+s2
# 对于DataFrame对齐会发生在行和列上
df1 = pd.DataFrame(
    np.arange(9.0).reshape((3,3)),columns=list('bcd'),
    index = ['ohio','texas','colorado']
)
df2 = pd.DataFrame(
    np.arange(12.0).reshape((4,3)),columns=list('bde'),
    index= ['utah', 'ohio','texas','oregon']

)
df1
df2
df1+df2
# 索引并但是值为交
# 若没有公用的行和列标签，那么结果为空
df3  = pd.DataFrame({'A':[1,2]})
df4 = pd.DataFrame({'B':[3,4]})
df3
df4
df3+df4

In [None]:
# DataFrame的算数方法
# 使用add方法，缺少索引时以0填充
df1 = pd.DataFrame(
    np.arange(12.0).reshape((3,4)),
    columns=list('abcd'))
df2 = pd.DataFrame(
    np.arange(16.0).reshape((4,4)),
    columns= list('bcde')
)
print(df1)
print(df2)
df1+df2
df1.add(df2,fill_value=0) # 解决不了两个都有缺失值的问题
df1.radd(df2,fill_value=0) # 逆方法radd
df1.sub(df2,fill_value=0)  #减法df1-df2
df1.rsub(df2,fill_value=0) #逆减法 df2-df1
# div  rdiv 除法   floordiv rfloordiv整除 mul rmul乘法  pow,rpow乘方
# 重新索引
df1.reindex(columns=df2.columns,fill_value=0)

In [None]:
# DataFrame与Series之间的运算:默认匹配列对行运算
# 二维数组与其某行之间的差
arr  = np.arange(12.).reshape((3,4))
print(arr)
arr[0]
arr-arr[0] # 每一行都会执行这一操作：广播
# DataFrame与Series
df1 = pd.DataFrame(
    np.arange(12.).reshape((4,3)),
    columns=list('abc'),
    index= ['utah','ohio','texas','oregon']
    )
series1 = df1.iloc[0]
print(df1)
series1
# 默认情况下，算数运算会将series的索引匹配到列，对每一行进行运算
df1 - series1
# 如果某个索引在DataFrame或series中不存在，则索引会形成并集
series2 = pd.Series(range(3),index=list('acd'))
df1 - series2

In [None]:
# 对行进行匹配对列运算需要用到函数方法
series3 = df1['a']
print(df1)
series3
df1.sub(series3,axis='index') # 传入希望匹配的轴索引


In [None]:
# 函数应用
# abs
df  = pd.DataFrame(
    np.random.randn(4,3),columns=list('bde'),
    index = ['utah','hoio','texas','oregon']
)
print(df)
np.abs(df) #可以用numpy的函数方法

In [None]:
# 将函数应用到各行或各列上形成一维数组：取每列的极值
f = lambda x: x.max() - x.min()
df.apply(f)
# 设置运算轴为columns
df.apply(f,axis='columns')
f  = lambda x: x.sum()
df.apply(f,axis='index') #sum mean 都很容易实现
# f 也可以是返回Series的函数


def  f(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])

df.apply(f)   # 这样可以编写描述性统计函数

In [None]:
# 元素级别的函数
f_str = lambda x: '%.2f' % x   # 得到格式化字符串
df.applymap(f_str) # 对所有元素的运算
df['e'].map(f_str)

In [None]:
# 排序
# 对索引排序
ser1 = pd.Series(range(4),index=['d','a','b','c'])
print(ser1)
ser1.sort_index()
df  = pd.DataFrame(
    np.arange(8).reshape(2,4),index=['three','one'],
    columns=['d','a','b','c'])
print(df)
df.sort_index()
df.sort_index(1)
df.sort_index(ascending=False)  # 上述都是默认升序排序，也可以降序排序
df.sort_index(axis=1,ascending=False)
# 对值排序
ser1.sort_values(ascending=False)
df.sort_values(by='b') #按某一列排序
df1 = pd.DataFrame({
    'b':[1,2,3,1],'c':[-2,-4,2,3]
})
df2 = df1.sort_values(by=['b','c'],ascending=[False,False])  # 当b列相同时，c列采用降序排列
df3 = df1.sort_values(by='b',ascending=False)   # 通常使用这个，结果和上面时不同的
print(df2)
print(df3)

In [None]:
# 排名 rank方法
# 按照值得大小给一个排名，相同值为平均排名
ser1 = pd.Series([7,-5,7,4,2,0,4])
ser1.rank()
# 相同值出现顺序排名
ser1.rank(method='first')
# 降序
ser1.rank(ascending=False,method='max') # 相同值取大的排名
# min取最小的排名


In [10]:
# 重复标签的索引
series = pd.Series(range(5),index=['a','a','b','b','c'])
series
series.index.is_unique  #is_unique属性
# 重复标签的索引返回一个series
series['a']
# 这样会使索引结果的数据类型不唯一，给数据处理带来困难
# 通常假定索引不重复，对于DataFrame也是如此
df = pd.DataFrame(np.random.randn(4,3),index=['a','a','b','b'])
df
df.loc['a'] #默认按列索引，加上loc可以像numpy一样索引

Unnamed: 0,0,1,2
a,-0.905191,-0.271237,0.745518
a,0.299545,-1.165359,0.104516


# 5.5 描述性统计
- 基于没有缺失数据的假设

In [22]:
df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns = ['one','two'])
print(df)   # 二维数组按照原来的格式添加标签
df.sum() # 返回每列的和，series
df.sum(axis=1) # 返回每行的和,默认会忽略na
df.mean(axis='columns',skipna=False) #设置为false之后，只要有一个na就会是na
# 层次化索引：可以在一个轴上定义多个索引 index=[['a','a','a','b',b',b','c','c','c','d','d','d'],[1,2,3,1,2,3,1,2,3]]     描述性统计函数利用level参数分组
# 返回索引
df.idxmax() # 每一列的最大值对应的行列索引
# 累加
df.cumsum()
# 一次性产生多个汇总
df.describe()  
# 对于非数值的数据
df1 = pd.Series(['a','a','b','c']*4)
df1.describe()
# 描述性统计方法汇总
# count  样本数量
# describe Series或describe列汇总数据
# argmin argmax计算整数索引位置
# idxmin idxmax 计算索引值位置
# quantile 计算分位数（0，1）
# sum\mean\median
# mad 绝对离差
# var/std/skew/kurt
# cumsum/cummin/cummax/cumprod
# diff 一阶差分
# pct_change 百分比变化

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3


count     16
unique     3
top        a
freq       8
dtype: object

In [None]:
# # 相关系数和协方差
# all_data = {
#     ticker:web.get_data_yahoo(ticker)
#     for ticker in ['AAPL','IBM','MSFT','GOOG']  # 字典生成器
# }
# price = pd.DataFrame(
#     {ticker:data['Adj Close']
#     for ticker,data  in all_data.items()}
# )
# volumn = pd.DataFrame(
#     {ticker:data['Volumn']
#     for ticker,data in all_data.items()}
# )
# returns = price.pct_change()
# returns.tail()
# returns['MSFT'].corr(returns['AAPL'])
# returns.MSFT.corr(returns['AAPL'])
# returns['MSFT'.cov(returns['AAPL'])]
# returns.corr()
# retunrs.cov()
# # 也可以传入别的序列
# returns.corrwith(returns.IBM)
# 传入dataframe 计算同列名的相关系数
# returns.corrwith(volumn)

In [52]:
# 唯一值、频数、成员资格
obj = pd.Series(['c','a','d','a','a','b','b','c','c'])
# 唯一值
uniques = obj.unique()
uniques.sort()  # 直接对原序列操作
uniques
# 频数
obj.value_counts() # 各个值得频数
pd.value_counts(obj.values,sort=False) #可用于任何数组和序列
# 成员资格 isin
mask = obj.isin(['b','c']) 
mask  # 相当于if语句，等于则返回T，否则F
obj[mask]
# 给出一个数组各值到另一个数组的整数索引 Index(unique).get_indexer(match)
to_match = pd.Series(['c','a','b','b','c','a'])
unique_vals = pd.Series(['c','b','a'])
pd.Index(unique_vals).get_indexer(to_match)
# 类似与match函数

array([0, 2, 1, 1, 0, 2], dtype=int64)

In [55]:
data = pd.DataFrame(
    {'Qu1':[1,3,4,3,4],
    'Qu2': [2,3,1,2,3],
    'Qu3':[1,5,2,4,4]}
)
print(data)
result = data.apply(pd.value_counts).fillna(0)   # 频数
print(result)

   Qu1  Qu2  Qu3
0    1    2    1
1    3    3    5
2    4    1    2
3    3    2    4
4    4    3    4
   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0
