# 这部分学习如何运用pandas库
1、数据结构：series，dataframe，panel
1.1 series

In [1]:
import pandas as pd
import numpy as np

In [2]:
obj = pd.Series([40,12,-3,25])
obj

0    40
1    12
2    -3
3    25
dtype: int64

In [3]:
obj[1]

12

In [4]:
#获取索引
obj.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
#获取数据
obj.values

array([40, 12, -3, 25])

In [6]:
#在series建立时也可以设置索引
obj2 = pd.Series([1,2,3,4],index = ['a','b','c','d'])
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [7]:
#可以直接写向量中位置来确定值
obj2[1]

2

In [8]:
#也可以直接调用index来确定值
obj2['b']

2

In [9]:
obj2

a    1
b    2
c    3
d    4
dtype: int64

In [10]:
#可以直接在[]中进行数据筛选
obj2[obj2>1]

b    2
c    3
d    4
dtype: int64

In [11]:
#####重要：统计描述
obj.describe()

count     4.000000
mean     18.500000
std      18.339393
min      -3.000000
25%       8.250000
50%      18.500000
75%      28.750000
max      40.000000
dtype: float64

In [12]:
####Series可以被转换为字典
obj3 = obj.to_dict()
obj3

{0: 40, 1: 12, 2: -3, 3: 25}

In [13]:
###字典也可以变为Series, 具体index顺序可以自己定(注意一定要以列表形式传入才会按自己设定的顺序显示)
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [14]:
###同样对Series可以进行一些数学运算, 也可以用numpy中的一些运算函数
obj*2
np.exp(obj)

0    2.353853e+17
1    1.627548e+05
2    4.978707e-02
3    7.200490e+10
dtype: float64

In [15]:
###在R中有is.na或者omit.na等语句处理缺失值，在pandas中也有类似语句
###pd.na与pd.issull类似
na = pd.isna(obj4)
na

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [16]:
na1 = pd.isnull(obj4)
na1

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [17]:
na2 = obj4.isnull() #也有这样的写法
na2

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [18]:
#这里与R语言十分类似，由于isna语句返回的是一列向量，可以进行筛选操作，运用正负号灵活选取
obj4[-na]

Ohio      35000.0
Oregon    16000.0
Texas     71000.0
dtype: float64

* Series一个非常重要的应用

In [19]:
#对于许多应⽤⽽⾔，Series最重要的⼀个功能是，它会根据运算的索引标签⾃动对⻬数据
obj5 = pd.Series(sdata)
obj5

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [20]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [21]:
obj4+obj5 #这就有点像数据的join功能

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [22]:
#Series对象本身及其索引都有⼀个name属性，该属性跟pandas其他的关键功能关系⾮常密切
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

|1.2 Dataframe     |
* DataFrame是⼀个表格型的数据结构，它含有⼀组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有⾏索引也有列索引，它可以被看做由Series组成的字典（共⽤同⼀个索引）。

In [23]:
#在index相同的情况下pandas会自动对齐数据
d = {'one':pd.Series([1,2,3], index = ['a','b','c']), 
     'two':pd.Series([1,2,3,4], index = ['a','b','c','d']) }
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [24]:
#注意！！！，如果原数据并没有定义标签，pandas是不能自动对齐数据的！
#以下两种写法都会提醒错误：数据长度不一致
d2 = {'one':[1,2,3], 'two':[1,2,3,4]}
df2 = pd.DataFrame(d2)
df2

ValueError: arrays must all be same length

In [25]:
d3 = {'one':pd.Series([1,2,3]), 'two':pd.Series([1,2,3,4])}
df3 = pd.DataFrame(d2)
df3

ValueError: arrays must all be same length

In [26]:
#简要显示前5行
df.head()

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [27]:
#建立一个新的表以便于进一步学习
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002,2003],
       'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [28]:
#也可以指定列顺序建立df，语句：
frame2 = pd.DataFrame(data, columns = ['year','state','pop'])
frame2.head()

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [29]:
#还可以给传入的数据定义行index，对数据缺失的新加入列，自动在结果中产生缺失值
#同样注意，新标签的数量要和数据长度一致
frame3 = pd.DataFrame(data, columns = ['year','state','pop','debt'], 
                      index = ['a','b','c','d','e','f'],)
frame3

Unnamed: 0,year,state,pop,debt
a,2000,Ohio,1.5,
b,2001,Ohio,1.7,
c,2002,Ohio,3.6,
d,2001,Nevada,2.4,
e,2002,Nevada,2.9,
f,2003,Nevada,3.2,


In [30]:
#获取列的方式和R语言类似,生产的是pandas的series，并且会返回相同的索引
type(frame3['state'])

pandas.core.series.Series

In [31]:
#获取行的方式目前看来和R语言存在较大不同
frame3.loc['c']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: c, dtype: object

In [44]:
#这个是自己试出来的，python这里可以直接通过标签提取信息，非常方便，比较厉害
frame3.loc['c']['year']

2002

In [45]:
#给某一个位置进行赋值
frame3['debt']['d'] = 16.5
frame3

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,year,state,pop,debt
a,2000,Ohio,1.5,
b,2001,Ohio,1.7,
c,2002,Ohio,3.6,
d,2001,Nevada,2.4,16.5
e,2002,Nevada,2.9,
f,2003,Nevada,3.2,


In [46]:
#或者给一整列赋值
frame3['debt'] = 17
frame3

Unnamed: 0,year,state,pop,debt
a,2000,Ohio,1.5,17
b,2001,Ohio,1.7,17
c,2002,Ohio,3.6,17
d,2001,Nevada,2.4,17
e,2002,Nevada,2.9,17
f,2003,Nevada,3.2,17


In [47]:
frame3['debt'] = np.arange(6)
frame3

Unnamed: 0,year,state,pop,debt
a,2000,Ohio,1.5,0
b,2001,Ohio,1.7,1
c,2002,Ohio,3.6,2
d,2001,Nevada,2.4,3
e,2002,Nevada,2.9,4
f,2003,Nevada,3.2,5


In [48]:
#将列表或数组赋值给某个列时，其⻓度必须跟DataFrame的⻓度相匹配。
frame2['debt'] = pd.Series([1,2,3,4,5,6,7])
frame2

#以上这段程序的结果告诉我们：
#（1）如果要实现这样一个操作：创建一个新的列，并且给其赋值，只需要跟上[要加的列名]
#（2）如果赋值Series在默认的数字索引下是不必须与df长度等长的，缺少记null,多了取前几位

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,1
1,2001,Ohio,1.7,2
2,2002,Ohio,3.6,3
3,2001,Nevada,2.4,4
4,2002,Nevada,2.9,5
5,2003,Nevada,3.2,6


In [49]:
#甚至还可以这样操作，原因是判断符先运算
frame3['eastern'] = frame3.state == 'Ohio'
frame3

Unnamed: 0,year,state,pop,debt,eastern
a,2000,Ohio,1.5,0,True
b,2001,Ohio,1.7,1,True
c,2002,Ohio,3.6,2,True
d,2001,Nevada,2.4,3,False
e,2002,Nevada,2.9,4,False
f,2003,Nevada,3.2,5,False


In [50]:
#del是用来删除列的
del frame3['eastern']
frame3

Unnamed: 0,year,state,pop,debt
a,2000,Ohio,1.5,0
b,2001,Ohio,1.7,1
c,2002,Ohio,3.6,2
d,2001,Nevada,2.4,3
e,2002,Nevada,2.9,4
f,2003,Nevada,3.2,5


In [51]:
#另外一种常见的数据形式是嵌套字典
#转换规则是：外层键为列，内层键为行索引
pop = {'Nevada':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame4 = pd.DataFrame(pop)
frame4

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [52]:
#dataframe转置,切片
frame3.T

Unnamed: 0,a,b,c,d,e,f
year,2000,2001,2002,2001,2002,2003
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9,3.2
debt,0,1,2,3,4,5


In [72]:
frame3.T['a'][:-1]

year     2000
state    Ohio
pop       1.5
Name: a, dtype: object

In [73]:
frame3.T.loc['pop'][:2]

a    1.5
b    1.7
Name: pop, dtype: object

In [82]:
frame3.T[1:2]['a']

state    Ohio
Name: a, dtype: object