# pandas 学习笔记
> created by vikky

In [82]:
%matplotlib inline
import pandas as pd
import numpy as np

## 二维数据结构：DataFrame
DataFrame可以看成平时常见的SQL表，表的列是字段，表的行是一条记录
通过pd.DataFrame(data,index,columns)可以创建一个DataFrame，columns用来指定列（字段）的名称

### DataFrame创建

>通过Series创建

In [83]:
d = {
    '第一列':pd.Series(np.random.randn(5)),
    '第二列':pd.Series(np.random.randn(6)) #行数不一致时，少的设为NaN
}
df = pd.DataFrame(d)
df

Unnamed: 0,第一列,第二列
0,2.205685,-0.486451
1,0.413962,0.757313
2,1.589055,0.005333
3,0.760898,-0.626887
4,0.007287,-1.294211
5,,-0.031729


>通过字典创建

In [84]:
d = {
    'id':[1,2,3,4],
    'name':['张三','李四','王五','李狗蛋']
}
df = pd.DataFrame(d,index=[name+'的' for name in d['name']],columns=['name','id','money']) #列的顺序可以通过columns指定，未找到的column设为NaN
df

Unnamed: 0,name,id,money
张三的,张三,1,
李四的,李四,2,
王五的,王五,3,
李狗蛋的,李狗蛋,4,


In [85]:
d = [
    {'第一列':1,'第二列':2,'第三列':3},
    {'第一列':4,'第二列':5,'第三列':6}
]
df = pd.DataFrame(d) #相同的key值合并成一列
df

Unnamed: 0,第一列,第三列,第二列
0,1,3,2
1,4,6,5


>通过二维数组创建

In [86]:
df = pd.DataFrame([[1,2,3],[4,5,6]],index=['第一行','第二行'],columns=['第一列','第二列','第三列'])
df

Unnamed: 0,第一列,第二列,第三列
第一行,1,2,3
第二行,4,5,6


### DataFrame查询

>**df[col]**：选择一列数据

In [87]:
df['第一列']

第一行    1
第二行    4
Name: 第一列, dtype: int64

>**df.loc[index]**：通过标签选择一行数据

In [88]:
df.loc['第一行']

第一列    1
第二列    2
第三列    3
Name: 第一行, dtype: int64

>**df.iloc[index]**：通过下标选择选择部分行和部分列数据

In [89]:
df.iloc[0]

第一列    1
第二列    2
第三列    3
Name: 第一行, dtype: int64

In [90]:
df.iloc[:1,:2]

Unnamed: 0,第一列,第二列
第一行,1,2


>**df[n:m]**：通过下标选择多行数据

In [91]:
df[:2]

Unnamed: 0,第一列,第二列,第三列
第一行,1,2,3
第二行,4,5,6


>**df.ix[slice,slice]**：通过切片的语法选择部分行和部分列的数据

In [92]:
df.ix[:1,:2] #已经不建议使用

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  """Entry point for launching an IPython kernel.


Unnamed: 0,第一列,第二列
第一行,1,2


### DataFrame操作

>增

In [93]:
df['col4'] = [7,8]
df

Unnamed: 0,第一列,第二列,第三列,col4
第一行,1,2,3,7
第二行,4,5,6,8


In [94]:
df.loc['row3'] = [9,10,11,12] 
df

Unnamed: 0,第一列,第二列,第三列,col4
第一行,1,2,3,7
第二行,4,5,6,8
row3,9,10,11,12


>删

In [95]:
del df['第一列']
df

Unnamed: 0,第二列,第三列,col4
第一行,2,3,7
第二行,5,6,8
row3,10,11,12


> 改

In [98]:
df['col4'].iloc[0] = 'No.1'
df

Unnamed: 0,第二列,第三列,col4
第一行,2,3,No.1
第二行,5,6,8
row3,10,11,12


### DataFrame运算

In [104]:
df+df

Unnamed: 0,第二列,第三列,col4
第一行,4,6,No.1No.1
第二行,10,12,16
row3,20,22,24


In [105]:
df*2

Unnamed: 0,第二列,第三列,col4
第一行,4,6,No.1No.1
第二行,10,12,16
row3,20,22,24


In [106]:
df.iloc[0]*2

第二列            4
第三列            6
col4    No.1No.1
Name: 第一行, dtype: object

In [108]:
df['col4']*2

第一行     No.1No.1
第二行           16
row3          24
Name: col4, dtype: object

In [113]:
df.loc['第一行'][0]*df['col4']['row3']

24