In [1]:
from pandas import Series,DataFrame
import pandas as pd
import numpy as np


## pandas的数据结构
> 分为series,DataFrame,Pannel,也就是一维二维多维结构

### Series结构
> Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。仅由一组数据即可产生最简单的Series：

In [2]:
obj1 = Series([2,3,4,5,6],index = [x for x in 'abcde'])

In [4]:
obj1.values

array([2, 3, 4, 5, 6], dtype=int64)

In [5]:
obj1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

#### 可以通过索引选取一个或多个值

In [6]:
obj1[['a','c']]

a    2
c    4
dtype: int64

#### 还可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中：

In [7]:
if 'b' in obj1:
    print('OK')

OK


In [4]:
for x,y in obj1.items():
    print(x,':',y)

a : 2
b : 3
c : 4
d : 5
e : 6


In [5]:
# 通过字典创建
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [6]:
obj2 = Series(sdata)

In [10]:
obj2.index = [x for x in 'abcd']

In [11]:
obj2

a    35000
b    16000
c    71000
d     5000
dtype: int64

In [12]:
index_list = obj2.index.tolist()

In [15]:
index_list[2] = 'zj'
obj2.index = index_list

In [16]:
obj2

a     35000
b     16000
zj    71000
d      5000
dtype: int64

In [12]:
# 你可以传入排好序的字典的键以改变顺序：
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj3 = Series(sdata,index = states)

In [13]:
#按声音找到对应数据，未找到的填写结果就为NaN（即“非数字”（not a number）
obj3


California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### 我将使用缺失（missing）或NA表示缺失数据。pandas的isnull和notnull函数可用于检测缺失数据：

In [14]:
pd.isnull(obj3)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [15]:
pd.notnull(obj3)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

#### 对于许多应用而言，Series最重要的一个功能是，它会根据运算的索引标签自动对齐数据：
> 如果你使用过数据库，你可以认为是类似join的操作。

In [16]:
obj2 + obj3

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

### DataFrame
> DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）


In [17]:
#建DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典：
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = DataFrame(data)

In [18]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [19]:
# 可以通过指定列序排定顺序
frame1 = DataFrame(data,columns = ['year','pop','state'])

In [20]:
frame1

Unnamed: 0,year,pop,state
0,2000,1.5,Ohio
1,2001,1.7,Ohio
2,2002,3.6,Ohio
3,2001,2.4,Nevada
4,2002,2.9,Nevada
5,2003,3.2,Nevada


In [21]:
#获取一列
frame['state']
#或frame.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [23]:
frame.iloc[3]

pop         2.4
state    Nevada
year       2001
Name: 3, dtype: object

In [29]:
frame['debt'] = range(1,7)

In [26]:
frame

Unnamed: 0,pop,state,year,debt
0,1.5,Ohio,2000,1
1,1.7,Ohio,2001,2
2,3.6,Ohio,2002,3
3,2.4,Nevada,2001,4
4,2.9,Nevada,2002,5
5,3.2,Nevada,2003,6


In [31]:
# 删除列
frame.drop(['debt'],axis = 1)

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [28]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [33]:
# 另一种是潜逃字典创建，外层为列内层为行
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)

In [34]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [35]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


##### 可以设置行列名称

In [36]:
frame3.columns.name = 'year'

In [37]:
frame3

year,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [38]:
frame3.index.name = 'state'

In [39]:
frame3

year,Nevada,Ohio
state,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [40]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

## 所有对象

** Index对象是不可变的，因此用户不能对其进行修改 **

** 除了类似于数组，Index的功能也类似一个固定大小的集合：**

In [41]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='year')

In [43]:
'Ohio' in frame3.columns

True

![](./imgs/5_1.jpg)

## 基本功能

### reindex


In [44]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
   ....:                      index=['a', 'c', 'd'],
   ....:                      columns=['Ohio', 'Texas', 'California'])


In [45]:
frame_re = frame.reindex(index = [x for x in 'abcde'], method = 'pad')

In [46]:
frame_re

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,0,1,2
c,3,4,5
d,6,7,8
e,6,7,8


### 丢弃指定轴上的项

** 注意inplace 参数 **

In [47]:
frame_re.drop(['b','e'])

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [48]:
frame_re

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,0,1,2
c,3,4,5
d,6,7,8
e,6,7,8


### 索引、选取和过滤

In [50]:
obj1[obj1 < 3]

a    2
dtype: int64

In [51]:
obj1[['a','c']]

a    2
c    4
dtype: int64

In [53]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
   .....:                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
   .....:                     columns=['one', 'two', 'three', 'four'])

# 选取一列
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [54]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [55]:
data[data['one'] < 5] #里面是一bool列表

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


#### 用loc和iloc进行选取

In [56]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


## 算术运算和数据对齐
> pandas最重要的一个功能是，它可以对不同索引的对象进行算术运算。在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。对于有数据库经验的用户，这就像在索引标签上进行自动外连接。看一个简单的例子：

In [59]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
   index=['a', 'c', 'e', 'f', 'g'])

In [60]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

### 在算术方法中填充值
> 使用函数而不是用运算符

add.radd,sub,rsub,div,rdiv,floordiv,rfloordiv,mul,rmul,pow,rpow

## DataFrame和Series之间的运算
> 广播功能

In [61]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
   .....:                      columns=list('bde'),
   .....:                      index=['Utah', 'Ohio', 'Texas', 'Oregon'])



In [62]:
series3 = frame['d']

In [66]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [67]:
frame.sub(series3,axis = 0)
# 传入的轴号就是希望匹配的轴。在本例中，我们的目的是匹配DataFrame的行索引（axis='index' or axis=0）并进行广播。

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### 函数应用和映射

apply、map、applymap函数的使用

In [70]:
frame7 = DataFrame({'a':[1,2,3],'b':[4,5,6]})
frame7['c'] = frame7.apply(lambda x:x['b'] - x['a'],axis = 1)

In [71]:
frame7

Unnamed: 0,a,b,c
0,1,4,3
1,2,5,3
2,3,6,3


### 排序和排名

sort_index,sort_values,rank分别为安所有排名，按值排名，排名顺序

In [72]:
frame7.rank()

Unnamed: 0,a,b,c
0,1.0,1.0,2.0
1,2.0,2.0,2.0
2,3.0,3.0,2.0


### 带有重复标签的轴索引

is_unique

## 汇总和计算描述统计

![](.\imgs\5-2.jpg)

### 相关系数与协方差

### 唯一值、值计数以及成员资格

In [75]:
obj8 = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [76]:
obj8.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

In [77]:
obj8.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [82]:
mask = obj8.isin(['b', 'c'])

In [83]:
obj8[~mask]

1    a
2    d
3    a
4    a
dtype: object

In [87]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
   .....:                      'Qu2': [2, 3, 1,7, 3],
   .....:                      'Qu3': [1, 5, 2, 8, 4]})



In [88]:
data.apply(pd.value_counts).fillna(0)

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,1.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,1.0
5,0.0,0.0,1.0
7,0.0,1.0,0.0
8,0.0,0.0,1.0
