| [03_data_science/07_Pandas数据类型.ipynb](https://github.com/shibing624/python-tutorial/blob/master/03_data_science/07_Pandas数据类型.ipynb)  | Pandas数据类型  |[Open In Colab](https://colab.research.google.com/github/shibing624/python-tutorial/blob/master/03_data_science/07_Pandas数据类型.ipynb) |

# Pandas数据分析

Pandas是Python的一个用于数据分析的库： http://pandas.pydata.org

API速查：http://pandas.pydata.org/pandas-docs/stable/api.html

基于NumPy,SciPy的功能，在其上补充了大量的数据操作（Data Manipulation）功能。

统计、分组、排序、透视表自由转换，如果你已经很熟悉结构化数据库（RDBMS）与Excel的功能，就会知道Pandas有过之而无不及！

## 为啥用Pandas?

普通的程序员看到一份数据会怎么做？

In [1]:
iris_file = '../data/numpy/iris.data.txt'

In [2]:
with open(iris_file, 'r', encoding='utf-8') as f:
    lines = f.readlines()

for idx, line in enumerate(lines):
    print(line)
    if idx == 10:
        break

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa

5.4,3.9,1.7,0.4,Iris-setosa

4.6,3.4,1.4,0.3,Iris-setosa

5.0,3.4,1.5,0.2,Iris-setosa

4.4,2.9,1.4,0.2,Iris-setosa

4.9,3.1,1.5,0.1,Iris-setosa

5.4,3.7,1.5,0.2,Iris-setosa



Pandas的意义就在于

### 快速的识别结构化数据

In [3]:
import numpy as np
import scipy as sp
import pandas as pd

data = pd.read_csv(iris_file, header=None, encoding='utf-8')
data

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### 快速的操作元数据

In [4]:
cnames = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
data.columns = cnames
data

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### 快速过滤

In [5]:
data[data['petal_width'] == data.petal_width.max()]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
100,6.3,3.3,6.0,2.5,Iris-virginica
109,7.2,3.6,6.1,2.5,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica


### 快速切片

In [6]:
data.iloc[::30, :2]

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
30,4.8,3.1
60,5.0,2.0
90,5.5,2.6
120,6.9,3.2


### 快速统计

In [7]:
data['class'].value_counts()

Iris-virginica     50
Iris-setosa        50
Iris-versicolor    50
Name: class, dtype: int64

In [8]:
for x in range(4):
    s = data.iloc[:,x]
    print('{0:<12}'.format(s.name), " Statistics: ",
    '{0:>5}  {1:>5}  {2:>5}  {3:>5}'.format(s.max(), s.min(), round(s.mean(),2),round(s.std(),2)))

sepal_length  Statistics:    7.9    4.3   5.84   0.83
sepal_width   Statistics:    4.4    2.0   3.05   0.43
petal_length  Statistics:    6.9    1.0   3.76   1.76
petal_width   Statistics:    2.5    0.1    1.2   0.76


### 快速“MapReduce”

In [9]:
slogs = lambda x:np.log(x)*x
entpy = lambda x:np.exp((slogs(x.sum())-x.map(slogs).sum())/x.sum())
data.groupby('class').agg(entpy)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,49.878745,49.695242,49.654909,45.810069
Iris-versicolor,49.815081,49.680665,49.694505,49.452305
Iris-virginica,49.772059,49.7145,49.7617,49.545918


# 1. Pandas(大熊猫)基础

Pandas的重要数据类型

* DataFrame(二维表)
* Series(一维序列)
* Index(行索引，行级元数据)

### 1.1 Series：pandas的长枪(数据表中的一列或一行,观测向量,一维数组...)

数据世界中对于任意一个个体的全面观测，或者对于任意一组个体某一属性的观测，全部可以抽象为Series的概念。

用值构建一个Series：

由默认index和values组成。

In [10]:
series1 = pd.Series(np.random.randn(4))
series1

0   -0.803673
1    0.360522
2   -2.659308
3   -1.810764
dtype: float64

In [11]:
print(type(series1))
print(series1.index)
print(series1.values)

<class 'pandas.core.series.Series'>
RangeIndex(start=0, stop=4, step=1)
[-0.80367297  0.36052177 -2.65930787 -1.81076401]


#### Series支持过滤的原理就如同NumPy：

In [12]:
series1 > 0

0    False
1     True
2    False
3    False
dtype: bool

In [13]:
series1[series1 > 0]

1    0.360522
dtype: float64

#### 当然也支持Broadcasting：

In [14]:
series1*2

0   -1.607346
1    0.721044
2   -5.318616
3   -3.621528
dtype: float64

In [15]:
series1+5

0    4.196327
1    5.360522
2    2.340692
3    3.189236
dtype: float64

#### 以及Universal Function：

In [16]:
print(series1)
print(np.exp(series1))

#NumPy Universal Function
f_np = np.frompyfunc(lambda x:np.exp(x*2 + 5), 1, 1)
f_np(series1)

0   -0.803673
1    0.360522
2   -2.659308
3   -1.810764
dtype: float64
0    0.447682
1    1.434077
2    0.069997
3    0.163529
dtype: float64


0    29.744792
1    305.22327
2     0.727155
3     3.968833
dtype: object

在序列上就使用行标，而不是创建一个2列的数据表，能够轻松辨别哪里是数据，哪里是元数据：

In [17]:
series2 = pd.Series(series1.values, index=['norm_' + str(i) for i in range(4)])
print(series2, type(series2))
print(series2.index)
print(type(series2.index))
print(series2.values)
series2

norm_0   -0.803673
norm_1    0.360522
norm_2   -2.659308
norm_3   -1.810764
dtype: float64 <class 'pandas.core.series.Series'>
Index(['norm_0', 'norm_1', 'norm_2', 'norm_3'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
[-0.80367297  0.36052177 -2.65930787 -1.81076401]


norm_0   -0.803673
norm_1    0.360522
norm_2   -2.659308
norm_3   -1.810764
dtype: float64

虽然行是有顺序的，但是仍然能够通过行级的index来访问到数据：

（当然也不尽然像Ordered Dict，因为行索引甚至可以重复，不推荐重复的行索引不代表不能用）

In [18]:
series2[['norm_0','norm_3']]

norm_0   -0.803673
norm_3   -1.810764
dtype: float64

In [19]:
'norm_0' in series2

True

In [20]:
'norm_6' in series2

False

默认行索引就像行号一样：

In [21]:
series1.index

RangeIndex(start=0, stop=4, step=1)

从Key不重复的Ordered Dict或者从Dict来定义Series就不需要担心行索引重复：

In [22]:
s_dict = {"Japan":"Tokyo", "Korea":"Seoul", "China":"Beijing"}
series3 = pd.Series(s_dict)

print(series3.index)
print(series3.values)
series3

Index(['Japan', 'Korea', 'China'], dtype='object')
['Tokyo' 'Seoul' 'Beijing']


Japan      Tokyo
Korea      Seoul
China    Beijing
dtype: object

与Dict区别一： 有序

In [23]:
lst = ["Japan", "China", "Singapore", "Korea"]
series4 = pd.Series(s_dict, index =lst)
series4

Japan          Tokyo
China        Beijing
Singapore        NaN
Korea          Seoul
dtype: object

In [24]:
print(series4.values)
print(series4.index)
print(series4.isnull())
print(series4.notnull())

['Tokyo' 'Beijing' nan 'Seoul']
Index(['Japan', 'China', 'Singapore', 'Korea'], dtype='object')
Japan        False
China        False
Singapore     True
Korea        False
dtype: bool
Japan         True
China         True
Singapore    False
Korea         True
dtype: bool


与Dict区别二： index内值可以重复，尽管不推荐。

In [25]:
lst = ['A', 'B', 'B', 'C']
series5 = pd.Series(series1.values, index=lst)
series5

A   -0.803673
B    0.360522
B   -2.659308
C   -1.810764
dtype: float64

In [26]:
series5[['B', 'A']]

B    0.360522
B   -2.659308
A   -0.803673
dtype: float64

整个序列级别的元数据信息：name

当数据序列以及index本身有了名字，就可以更方便的进行后续的数据关联啦！

In [27]:
series4.name

In [28]:
series4.index.name

In [29]:
series4.name = "Capital Series"
series4.index.name = "Nation"
series4

Nation
Japan          Tokyo
China        Beijing
Singapore        NaN
Korea          Seoul
Name: Capital Series, dtype: object

In [30]:
pd.DataFrame(series4)

Unnamed: 0_level_0,Capital Series
Nation,Unnamed: 1_level_1
Japan,Tokyo
China,Beijing
Singapore,
Korea,Seoul


### 1.2 DataFrame：pandas的战锤(数据表，二维数组)

Series的有序集合，就像R的DataFrame一样方便。

仔细想想，绝大部分的数据形式都可以表现为DataFrame。

#### 从Numpy二维数组、从文件或者从数据库定义：数据虽好，勿忘列名

In [31]:
data_np = np.asarray([('Japan', 'Tokyo', 4000),
                      ('Korea', 'Seoul', 1300),
                      ('China', 'Beijing', 9100)])
df1 = pd.DataFrame(data_np, columns=['nation','capital','GDP'])
df1

Unnamed: 0,nation,capital,GDP
0,Japan,Tokyo,4000
1,Korea,Seoul,1300
2,China,Beijing,9100


#### 等长的列数据保存在一个字典里（JSON）：很不幸，字典key是无序的

In [32]:
data_dict = {'nation': ['Japan', 'Korea', 'China'],
             'capital': ['Tokyo', 'Seoul', 'Beijing'],
             'GDP': [4900, 1300, 9100]}
df2 = pd.DataFrame(data_dict)
df2

Unnamed: 0,nation,capital,GDP
0,Japan,Tokyo,4900
1,Korea,Seoul,1300
2,China,Beijing,9100


#### 从另一个DataFrame定义DataFrame：啊，强迫症犯了！

In [33]:
df21 = pd.DataFrame(df2, columns=['nation', 'capital', 'GDP'])
df21

Unnamed: 0,nation,capital,GDP
0,Japan,Tokyo,4900
1,Korea,Seoul,1300
2,China,Beijing,9100


In [34]:
df22 = pd.DataFrame(df2, columns=['nation', 'capital', 'GDP'], index = [2, 0, 1])
df22

Unnamed: 0,nation,capital,GDP
2,China,Beijing,9100
0,Japan,Tokyo,4900
1,Korea,Seoul,1300


#### 从DataFrame中取出列？两种方法（与JavaScript完全一致！）

* '.'的写法容易与其他预留关键字产生冲突
* '[ ]'的写法最安全。

In [35]:
print(df22.nation)
print(df22.capital)
print(df22['GDP'])

2    China
0    Japan
1    Korea
Name: nation, dtype: object
2    Beijing
0      Tokyo
1      Seoul
Name: capital, dtype: object
2    9100
0    4900
1    1300
Name: GDP, dtype: int64


In [36]:
df22['capital']

2    Beijing
0      Tokyo
1      Seoul
Name: capital, dtype: object

#### 从DataFrame中取出行？（至少）两种方法：

In [37]:
df22[0:1] # 给出的实际是DataFrame

Unnamed: 0,nation,capital,GDP
2,China,Beijing,9100


In [38]:
df22.iloc[0] # 通过对应Index给出行

nation       China
capital    Beijing
GDP           9100
Name: 2, dtype: object

#### 像Numpy切片一样的终极招式：iloc

In [39]:
df22.iloc[0,:]

nation       China
capital    Beijing
GDP           9100
Name: 2, dtype: object

In [40]:
df22.iloc[:,0]

2    China
0    Japan
1    Korea
Name: nation, dtype: object

#### 听说你从Table地狱来，大熊猫笑了

然而动态增加列无法用"."的方式完成，只能用"[ ]"

In [41]:
df22['population'] = [1600, 130, 55]
df22['region'] = 'East_Asian'
df22

Unnamed: 0,nation,capital,GDP,population,region
2,China,Beijing,9100,1600,East_Asian
0,Japan,Tokyo,4900,130,East_Asian
1,Korea,Seoul,1300,55,East_Asian


### 1.3 Index：pandas进行数据操作的鬼牌（行级索引）

行级索引是

* 元数据
* 可能由真实数据产生，因此可以视作数据
* 可以由多重索引也就是多个列组合而成
* 可以和列名进行交换，也可以进行堆叠和展开，达到Excel透视表效果

Index有四种...哦不，很多种写法，一些重要的索引类型包括

* pd.Index（普通）
* Int64Index（数值型索引）
* MultiIndex（多重索引，在数据操纵中更详细描述）
* DatetimeIndex（以时间格式作为索引）
* PeriodIndex （含周期的时间格式作为索引）

#### 直接定义普通索引，长得就和普通的Series一样

In [42]:
index_names = ['a','b','c']
s = pd.Series(index_names)
print(pd.Index(index_names))
print(pd.Index(s))
s

Index(['a', 'b', 'c'], dtype='object')
Index(['a', 'b', 'c'], dtype='object')


0    a
1    b
2    c
dtype: object

#### Immutable，牢记！
pd.Index是不可变的

In [43]:
index_names = ['a', 'b', 'c']
index0 = pd.Index(index_names)
print(index0.values)
# index0[2] = 'd' # 改变值会出错

['a' 'b' 'c']


#### 扔进去一个含有多元组的List，就有了MultiIndex
MyltiIndex 也是immutable的。

In [44]:
multi1 = pd.Index([['Row_' + str(x + 1), 'Col_' + str(y + 1)] for x in range(4) for y in range(4)])
multi1.name = ('index1', 'index2')
multi1

Index([['Row_1', 'Col_1'], ['Row_1', 'Col_2'], ['Row_1', 'Col_3'],
       ['Row_1', 'Col_4'], ['Row_2', 'Col_1'], ['Row_2', 'Col_2'],
       ['Row_2', 'Col_3'], ['Row_2', 'Col_4'], ['Row_3', 'Col_1'],
       ['Row_3', 'Col_2'], ['Row_3', 'Col_3'], ['Row_3', 'Col_4'],
       ['Row_4', 'Col_1'], ['Row_4', 'Col_2'], ['Row_4', 'Col_3'],
       ['Row_4', 'Col_4']],
      dtype='object', name=('index1', 'index2'))

In [45]:
multi2 = pd.Index([('Row_' + str(x + 1), 'Col_' + str(y + 1)) for x in range(4) for y in range(4)])
multi2

MultiIndex([('Row_1', 'Col_1'),
            ('Row_1', 'Col_2'),
            ('Row_1', 'Col_3'),
            ('Row_1', 'Col_4'),
            ('Row_2', 'Col_1'),
            ('Row_2', 'Col_2'),
            ('Row_2', 'Col_3'),
            ('Row_2', 'Col_4'),
            ('Row_3', 'Col_1'),
            ('Row_3', 'Col_2'),
            ('Row_3', 'Col_3'),
            ('Row_3', 'Col_4'),
            ('Row_4', 'Col_1'),
            ('Row_4', 'Col_2'),
            ('Row_4', 'Col_3'),
            ('Row_4', 'Col_4')],
           )

In [46]:
# multi2.name = ['index1', 'index2'] # 出错

#### 对于Series来说，如果拥有了多重Index，数据，变形！

下列代码说明：

* 二重MultiIndex的Series可以unstack()成DataFrame
* DataFrame可以stack成拥有二重MultiIndex的Series

In [47]:
data_for_multi1 = pd.Series(range(0, 16), index=multi2)
data_for_multi1

Row_1  Col_1     0
       Col_2     1
       Col_3     2
       Col_4     3
Row_2  Col_1     4
       Col_2     5
       Col_3     6
       Col_4     7
Row_3  Col_1     8
       Col_2     9
       Col_3    10
       Col_4    11
Row_4  Col_1    12
       Col_2    13
       Col_3    14
       Col_4    15
dtype: int64

In [48]:
data_for_multi1.unstack()

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,0,1,2,3
Row_2,4,5,6,7
Row_3,8,9,10,11
Row_4,12,13,14,15


In [49]:
data_for_multi1.unstack().stack()

Row_1  Col_1     0
       Col_2     1
       Col_3     2
       Col_4     3
Row_2  Col_1     4
       Col_2     5
       Col_3     6
       Col_4     7
Row_3  Col_1     8
       Col_2     9
       Col_3    10
       Col_4    11
Row_4  Col_1    12
       Col_2    13
       Col_3    14
       Col_4    15
dtype: int64

我们来看一下非平衡数据的例子：

Row_1,2,3,4和Col_1,2,3,4并不是全组合的。

In [50]:
multi2 = pd.Index([('Row_' + str(x), 'Col_' + str(y + 1)) for x in range(5) for y in range(x)])
multi2

MultiIndex([('Row_1', 'Col_1'),
            ('Row_2', 'Col_1'),
            ('Row_2', 'Col_2'),
            ('Row_3', 'Col_1'),
            ('Row_3', 'Col_2'),
            ('Row_3', 'Col_3'),
            ('Row_4', 'Col_1'),
            ('Row_4', 'Col_2'),
            ('Row_4', 'Col_3'),
            ('Row_4', 'Col_4')],
           )

In [51]:
data_for_multi2 = pd.Series(np.arange(10), index=multi2)
data_for_multi2

Row_1  Col_1    0
Row_2  Col_1    1
       Col_2    2
Row_3  Col_1    3
       Col_2    4
       Col_3    5
Row_4  Col_1    6
       Col_2    7
       Col_3    8
       Col_4    9
dtype: int64

In [52]:
data_for_multi2.unstack()

Unnamed: 0,Col_1,Col_2,Col_3,Col_4
Row_1,0.0,,,
Row_2,1.0,2.0,,
Row_3,3.0,4.0,5.0,
Row_4,6.0,7.0,8.0,9.0


In [53]:
data_for_multi2.unstack().stack()

Row_1  Col_1    0.0
Row_2  Col_1    1.0
       Col_2    2.0
Row_3  Col_1    3.0
       Col_2    4.0
       Col_3    5.0
Row_4  Col_1    6.0
       Col_2    7.0
       Col_3    8.0
       Col_4    9.0
dtype: float64

#### DateTime标准库如此好用，你值得拥有

In [54]:
import datetime
dates = [datetime.datetime(2021, 1, 1), datetime.datetime(2021, 1, 8), datetime.datetime(2021, 1, 30)]
pd.DatetimeIndex(dates)

DatetimeIndex(['2021-01-01', '2021-01-08', '2021-01-30'], dtype='datetime64[ns]', freq=None)

#### 如果你不仅需要时间格式统一，时间频率也要统一的话

In [55]:
periodindex1 = pd.period_range('2021-01', '2021-04', freq='M')
periodindex1

PeriodIndex(['2021-01', '2021-02', '2021-03', '2021-04'], dtype='period[M]', freq='M')

#### 月级精度和日级精度如何转换？

有的公司统一以1号代表当月，有的公司统一以最后一天代表当月，转化起来很麻烦，可以asfreq

In [56]:
periodindex1.asfreq('D', how='start')

PeriodIndex(['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01'], dtype='period[D]', freq='D')

In [57]:
periodindex1.asfreq('D', how='end')

PeriodIndex(['2021-01-31', '2021-02-28', '2021-03-31', '2021-04-30'], dtype='period[D]', freq='D')

#### 最后的最后，我要真正把两种频率的时间精度匹配上？

In [58]:
periodindex_mon = pd.period_range('2021-01', '2021-03', freq='M').asfreq('D', how='start')
periodindex_day = pd.period_range('2021-01-01', '2021-03-01', freq='D')

periodindex_mon

PeriodIndex(['2021-01-01', '2021-02-01', '2021-03-01'], dtype='period[D]', freq='D')

In [59]:
periodindex_day

PeriodIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
             '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
             '2021-01-09', '2021-01-10', '2021-01-11', '2021-01-12',
             '2021-01-13', '2021-01-14', '2021-01-15', '2021-01-16',
             '2021-01-17', '2021-01-18', '2021-01-19', '2021-01-20',
             '2021-01-21', '2021-01-22', '2021-01-23', '2021-01-24',
             '2021-01-25', '2021-01-26', '2021-01-27', '2021-01-28',
             '2021-01-29', '2021-01-30', '2021-01-31', '2021-02-01',
             '2021-02-02', '2021-02-03', '2021-02-04', '2021-02-05',
             '2021-02-06', '2021-02-07', '2021-02-08', '2021-02-09',
             '2021-02-10', '2021-02-11', '2021-02-12', '2021-02-13',
             '2021-02-14', '2021-02-15', '2021-02-16', '2021-02-17',
             '2021-02-18', '2021-02-19', '2021-02-20', '2021-02-21',
             '2021-02-22', '2021-02-23', '2021-02-24', '2021-02-25',
             '2021-02-26', '2021-0

#### 粗粒度数据＋reindex＋ffill/bfill

In [60]:
full_ts = pd.Series(periodindex_mon, index=periodindex_mon).reindex(periodindex_day)
full_ts.head()

2021-01-01    2021-01-01
2021-01-02           NaT
2021-01-03           NaT
2021-01-04           NaT
2021-01-05           NaT
Freq: D, dtype: period[D]

In [61]:
full_ts = pd.Series(periodindex_mon, index=periodindex_mon).reindex(periodindex_day, method='ffill')
full_ts.head()

2021-01-01    2021-01-01
2021-01-02    2021-01-01
2021-01-03    2021-01-01
2021-01-04    2021-01-01
2021-01-05    2021-01-01
Freq: D, dtype: period[D]

#### 关于索引，方便的操作有？

前面描述过了，索引有序，重复，但一定程度上又能通过key来访问，也就是说，某些集合操作都是可以支持的。

In [62]:
index1 = pd.Index(['A', 'B', 'B', 'C', 'C'])
index2 = pd.Index(['C', 'D', 'E', 'E', 'F'])
index3 = pd.Index(['B', 'C', 'A'])
print(index1.append(index2))
print(index1.difference(index2))
print(index1.intersection(index2))
print(index1.union(index2)) # Support unique-value Index well
print(index1.isin(index2))
print(index1.delete(2))
print(index1.insert(0, 'K')) # Not suggested
print(index3.drop('A')) # Support unique-value Index well
print(index1.is_monotonic, index2.is_monotonic, index3.is_monotonic)
print(index1.is_unique, index2.is_unique, index3.is_unique)

Index(['A', 'B', 'B', 'C', 'C', 'C', 'D', 'E', 'E', 'F'], dtype='object')
Index(['A', 'B'], dtype='object')
Index(['C'], dtype='object')
Index(['A', 'B', 'B', 'C', 'C', 'D', 'E', 'E', 'F'], dtype='object')
[False False False  True  True]
Index(['A', 'B', 'C', 'C'], dtype='object')
Index(['K', 'A', 'B', 'B', 'C', 'C'], dtype='object')
Index(['B', 'C'], dtype='object')
True True False
False False True


# 2. Pandas的I/O

老生常谈，从基础来看，我们仍然关心pandas对于与外部数据是如何交互的。

### 2.1 结构化数据输入输出

* read_csv与to_csv 是一对输入输出的工具，read_csv直接返回pandas.DataFrame，而to_csv只要执行命令即可写文件
  * read_table：功能类似
  * read_fwf：操作fixed width file
* read_excel与to_excel方便的与excel交互

还记得刚开始的例子吗？

* header 表示数据中是否存在列名，如果在第0行就写就写0，并且开始读数据时跳过相应的行数，不存在可以写none
* names 表示要用给定的列名来作为最终的列名
* encoding 表示数据集的字符编码，通常而言一份数据为了方便的进行文件传输都以utf-8作为标准

提问：下列例子中，header=4，names=cnames时，究竟会读到怎样的数据？

In [63]:
print('cnames:', cnames)
irisdata = pd.read_csv(iris_file, header=None, names=cnames, encoding='utf-8')
irisdata[::30]

cnames: ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
30,4.8,3.1,1.6,0.2,Iris-setosa
60,5.0,2.0,3.5,1.0,Iris-versicolor
90,5.5,2.6,4.4,1.2,Iris-versicolor
120,6.9,3.2,5.7,2.3,Iris-virginica


希望了解全部参数的请移步API：

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv

这里介绍一些常用的参数：

读取处理：

* skiprows：跳过一定的行数
* nrows：仅读取一定的行数
* skipfooter：尾部有固定的行数永不读取
* skip_blank_lines：空行跳过

内容处理：

* sep/delimiter：分隔符很重要，常见的有逗号，空格和Tab('\t')
* na_values：指定应该被当作na_values的数值
* thousands：处理数值类型时，每千位分隔符并不统一 (1.234.567,89或者1,234,567.89都可能)，此时要把字符串转化为数字需要指明千位分隔符

收尾处理：

* index_col：将真实的某列（列的数目，甚至列名）当作index
* squeeze：仅读到一列时，不再保存为pandas.DataFrame而是pandas.Series


### 2.1.x Excel ... ?

对于存储着极为规整数据的Excel而言，其实是没必要一定用Excel来存，尽管Pandas也十分友好的提供了I/O接口。


In [66]:
iris_excel_file = 'irisdata.xls'
irisdata.to_excel(iris_excel_file, index=None)
irisdata_from_excel = pd.read_excel(iris_excel_file, header=0)
irisdata_from_excel[::30]

  irisdata.to_excel(iris_excel_file, index=None)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
30,4.8,3.1,1.6,0.2,Iris-setosa
60,5.0,2.0,3.5,1.0,Iris-versicolor
90,5.5,2.6,4.4,1.2,Iris-versicolor
120,6.9,3.2,5.7,2.3,Iris-virginica


In [67]:
import os
os.remove(iris_excel_file)

唯一重要的参数：sheetname=k，标志着一个excel的第k个sheet页将会被取出。（从0开始）

### 2.2 半结构化数据

JSON：网络传输中常用的一种数据格式。

仔细看一下，实际上这就是我们平时收集到异源数据的风格是一致的：

* 列名不能完全匹配
* 关联键可能并不唯一
* 元数据被保存在数据里

In [65]:
import json
json_data = [{'name': 'Wang', 'sal': 50000, 'job': 'VP'},
             {'name': 'Zhang', 'job': 'Manager', 'report': 'VP'},
             {'name': 'Li', 'sal': 5000, 'report': 'Manager'}]
data_employee = pd.read_json(json.dumps(json_data))
data_employee_ri = data_employee.reindex(columns=['name', 'job', 'sal', 'report'])
data_employee_ri

Unnamed: 0,name,job,sal,report
0,Wang,VP,50000.0,
1,Zhang,Manager,,VP
2,Li,,5000.0,Manager


本节完。