# Pandas入门

pandas提供了快速便捷处理结构化数据的大量数据结构和函数。

## 一、pandas数据结构介绍

Series和DataFrame  
个人理解Series类似一个字典，而DataFrame类似多个字典的组合

### Series

#### (1)Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

In [1]:
import pandas as pd
import numpy as np
arr=[6,7,-5,9]
obj=pd.Series(arr)
obj
#左边是数据标签(索引),右边是数据

0    6
1    7
2   -5
3    9
dtype: int64

In [2]:
#索引
obj.index

RangeIndex(start=0, stop=4, step=1)

In [3]:
#值
obj.values

array([ 6,  7, -5,  9], dtype=int64)

#### (2)你可以自定义索引index==>(类似字典map)

In [4]:
obj2=pd.Series([1,-2,3,4],index=['a','b','c','d'])
obj2

a    1
b   -2
c    3
d    4
dtype: int64

#### (3)索引&根据索引修改值

In [5]:
obj2['a']

1

In [6]:
#根据索引index修改值value
obj2['b']=-6

In [7]:
#查询子串
obj2[['b','c','d']]

b   -6
c    3
d    4
dtype: int64

In [8]:
#根据值value来筛选
obj2[obj2>0]

a    1
c    3
d    4
dtype: int64

#### (4)运算

In [9]:
obj2*2

a     2
b   -12
c     6
d     8
dtype: int64

In [10]:
#取指数
np.exp(obj2)

a     2.718282
b     0.002479
c    20.085537
d    54.598150
dtype: float64

In [11]:
#判断index是否在Series内
'b' in obj2

True

#### (5)你可以传入字典map构建Series

In [12]:
#map字典
sdata={'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
#利用字典构建Series
obj3=pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [13]:
#传入字典，然后自己定义index
states=['Wuhan','Texas','Oregon','Utah']
obj4=pd.Series(sdata,index=states)
obj4
#可以发现Wuhan找不到对应的value

Wuhan         NaN
Texas     71000.0
Oregon    16000.0
Utah       5000.0
dtype: float64

In [14]:
#判断value是否为空
#obj4.isnull()同理
pd.isnull(obj4)
#pd.notnull()正好相反

Wuhan      True
Texas     False
Oregon    False
Utah      False
dtype: bool

In [15]:
#Series可以做运算，它会自动对齐（有的则做运算，没有的则NaN）
obj3+obj4

Ohio           NaN
Oregon     32000.0
Texas     142000.0
Utah       10000.0
Wuhan          NaN
dtype: float64

In [16]:
#可以为Series表格取名字，并对index列取名字
obj4.name='这个是表格名'
obj4.index.name='index_name'
obj4
#注意values没有name属性

index_name
Wuhan         NaN
Texas     71000.0
Oregon    16000.0
Utah       5000.0
Name: 这个是表格名, dtype: float64

### DataFrame

&ensp;&ensp;DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。虽然DataFrame是以二维结构保存数据的，但你仍然可以轻松地将其表示为更高维度的数据。

#### (1)通过字典创建DataFrame

In [17]:
data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
     'year':[2000,2001,2002,2001,2002,2003],
     'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame=pd.DataFrame(data)
frame
#没有指定index,所以index是默认从0开始的

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [18]:
#head函数默认输出前5行
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [19]:
#可以自定义列标题顺序
pd.DataFrame(data,columns=['year','pop','state'])

Unnamed: 0,year,pop,state
0,2000,1.5,Ohio
1,2001,1.7,Ohio
2,2002,3.6,Ohio
3,2001,2.4,Nevada
4,2002,2.9,Nevada
5,2003,3.2,Nevada


In [20]:
#自定义index
frame2=pd.DataFrame(data,index=['A','B','C','D','E','F'])
frame2

Unnamed: 0,state,year,pop
A,Ohio,2000,1.5
B,Ohio,2001,1.7
C,Ohio,2002,3.6
D,Nevada,2001,2.4
E,Nevada,2002,2.9
F,Nevada,2003,3.2


#### (2)通过列名获取一列Series

In [21]:
frame2['state']

A      Ohio
B      Ohio
C      Ohio
D    Nevada
E    Nevada
F    Nevada
Name: state, dtype: object

In [22]:
frame2.year

A    2000
B    2001
C    2002
D    2001
E    2002
F    2003
Name: year, dtype: int64

#### (3)通过index获取一行Series

In [23]:
frame2.loc['A']

state    Ohio
year     2000
pop       1.5
Name: A, dtype: object

#### (4)删除一列

In [24]:
#首先先创造一列
frame2['eastern']=frame2.state=='Ohio'
frame2

Unnamed: 0,state,year,pop,eastern
A,Ohio,2000,1.5,True
B,Ohio,2001,1.7,True
C,Ohio,2002,3.6,True
D,Nevada,2001,2.4,False
E,Nevada,2002,2.9,False
F,Nevada,2003,3.2,False


In [25]:
#通过列名删除
del frame2['eastern']
frame2.columns

Index(['state', 'year', 'pop'], dtype='object')

#### (5)DataFrame也可以做转置

In [26]:
frame2.T

Unnamed: 0,A,B,C,D,E,F
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
year,2000,2001,2002,2001,2002,2003
pop,1.5,1.7,3.6,2.4,2.9,3.2


In [27]:
frame2.values

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9],
       ['Nevada', 2003, 3.2]], dtype=object)

## 二、基本功能

### 重新索引

In [28]:
obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [29]:
#重新索引，没有的index默认为NaN
obj2=obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [30]:
#不同的步长
obj3=pd.Series(['blue','purple','yellow'],index=[0,2,4])
obj3
obj3.reindex(range(6),method='ffill') #ffill forward-fills the values 向前填充

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [31]:
#重新索引列名
#创建dataFrame
frame=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','b','c'],
                  columns=['A','B','C'])
frame

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [32]:
#列可以用columns关键字重新索引
states=['Wuhan','Putian','C']
frame.reindex(columns=states)

Unnamed: 0,Wuhan,Putian,C
a,,,2
b,,,5
c,,,8


### 删除某个轴上的项

In [33]:
#删除Series上的某个项(因为只有一个轴，故不用选轴)
obj=pd.Series(np.arange(5.),index=['a','b','c','d','e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [34]:
#删除index为c的项
new_obj=obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [35]:
#也可以一次删除多个
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [36]:
#删除DataFrame上某个轴的某个项
df=pd.DataFrame(np.arange(16).reshape((4,4)),
               index=['Ohio','Colorado','Utah','New York'],
               columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [37]:
#删除行
df.drop(['Colorado','Utah'])

Unnamed: 0,A,B,C,D
Ohio,0,1,2,3
New York,12,13,14,15


In [38]:
#删除列
df.drop('A',axis=1) #这里要指定删除列，否则会报错==>axis='columns'可替换axis=1

Unnamed: 0,B,C,D
Ohio,1,2,3
Colorado,5,6,7
Utah,9,10,11
New York,13,14,15


### 索引、选取和过滤

In [40]:
#Series索引
obj=pd.Series(np.arange(4.),index=['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [41]:
#类似字典的索引
obj['b']

1.0