# Pandas 数据处理入门

**注：**  拿到一个新软件包，如何入手学习呢？
1. 这个软件包的核心数据结构是什么？
1. 这个软件包的核心算法是什么？

Pandas 是建立在 Numpy 基础之上建立的新程序库，核心提供了一种高效的 DataFrame 数据结构。

## Pandas 中的对象简介

In [3]:
import numpy as np
import pandas as pd

*  `pd.Series` 对象
*  `pd.DataFrame` 对象
*  `pd.Index` 对象

## Series 对象

Series 对象是一个**带索引数据**构成的**一维数组**, 它除了存储数据外，还**显式**地把**索引**也存储下来！

Numpy 数据用的是**隐式**的索引！

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series 对象有两个基本属性 

* `values`
* `index`

In [5]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

 用户可以用与 Numpy 数组类似的索引方式索引

In [7]:
data[0]

0.25

In [8]:
data[0:2]

0    0.25
1    0.50
dtype: float64

**思考：** Series 把索引也保存下来，不是多此一举吗？

1) Series 是通用的 Numpy 一维数组， 但比 Numpy 更加灵活。

2) Series 是一种特殊的 Python 字典， 但比 Python 字典更加高效。

###  Series 是通用的 Numpy 一维数组， 但比 Numpy 更加灵活

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [10]:
data['a']
data['b']

0.5

In [11]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

### Series 是一种特殊的 Python 字典， 但比 Python 字典更加高效

In [12]:
population_dict = {'Beijing': 38332521,
                   'Henan': 26448193,
                   'Hunan': 19651127,
                   'Guangdong': 19552860}
population = pd.Series(population_dict)
population

Beijing      38332521
Henan        26448193
Hunan        19651127
Guangdong    19552860
dtype: int64

In [13]:
population['Beijing']

38332521

In [14]:
population['Beijing':'Guangdong']

Beijing      38332521
Henan        26448193
Hunan        19651127
Guangdong    19552860
dtype: int64

3) Series 对象的创建

In [15]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [16]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

用 `index` 参数来筛选字典中的键值对，即选择字典中的一部分元素来构建 Series 对象 。

In [18]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

### Series 数据的选择方法 

In [19]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

**1) 将 Series 看作字典**

In [20]:
data['b']

0.5

In [21]:
'a' in data

True

In [22]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [23]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [24]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

**2) 将 Series 看作一维数组**

In [25]:
data['a':'c'] # 显式索引做为切片

a    0.25
b    0.50
c    0.75
dtype: float64

In [26]:
data[0:2] # 隐式索引做为切片

a    0.25
b    0.50
dtype: float64

In [27]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [28]:
data[(data > 0.3) & (data <= 0.5)] # 布尔索引(或者叫掩码)

b    0.5
dtype: float64

In [29]:
data[['a', 'e']] # 花哨索引(francy indexing)

a    0.25
e    1.25
dtype: float64

**注意：**

1. 什么是显式索引？
1. 什么是隐式索引？
1. 什么情况下会出现混乱? 用**整数形式**的**显式索引**的时候！

In [30]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [31]:
data[1] # 显式索引

'a'

In [32]:
data[1:3] # 隐式索引

3    b
5    c
dtype: object

**3) 索引器**

Series 有三个**索引器**属性来解决上面的混乱。

* Series.loc， 表示取值和切片都是显式的

In [33]:
data

1    a
3    b
5    c
dtype: object

In [34]:
data.loc[1]

'a'

In [35]:
data.loc[1:3]

1    a
3    b
dtype: object

* Series.iloc， 表示取值和切片都是 Python 形式的隐式索引，即从 0 开始， 左闭右开区间!

In [36]:
data

1    a
3    b
5    c
dtype: object

In [37]:
data.iloc[1]

'b'

In [38]:
data.iloc[1:3]

3    b
5    c
dtype: object

* Series.ix，混合索引形式， 特价于中括号索引 `data[]`。

## DataFrame 对象

DataFrame 对象是 Pandas 另一个基础的数据结构。

### 一个通用的 Numpy 二维数组，但比 Numpy 数组更加灵活，带有灵活的**行索引**，又有**列名**。

In [39]:
area_dict = {'Beijing': 16410.54,
             'Henan':167000, 
             'Hunan':211800, 
             'Guangdong':179770} # 平方千米
area = pd.Series(area_dict)
area

Beijing       16410.54
Henan        167000.00
Hunan        211800.00
Guangdong    179770.00
dtype: float64

In [66]:
gdp_dict = {'Beijing': 3.03,
            'Henan':4.8, 
            'Hunan':3.64, 
            'Guangdong':9.73} # 万亿元
gdp = pd.Series(gdp_dict)
gdp

Beijing      3.03
Henan        4.80
Hunan        3.64
Guangdong    9.73
dtype: float64

In [72]:
data = pd.DataFrame({"GDP":gdp, "area":area})
data

Unnamed: 0,GDP,area
Beijing,3.03,16410.54
Henan,4.8,167000.0
Hunan,3.64,211800.0
Guangdong,9.73,179770.0


**属性：**
1. `index`: 存储行标签
1. `columns`: 存储列标签

In [70]:
data.values

array([[3.030000e+00, 1.641054e+04],
       [4.800000e+00, 1.670000e+05],
       [3.640000e+00, 2.118000e+05],
       [9.730000e+00, 1.797700e+05]])

In [68]:
data.index

Index(['Beijing', 'Henan', 'Hunan', 'Guangdong'], dtype='object')

In [69]:
data.columns

Index(['GDP', 'area'], dtype='object')

### 它是一个特殊的 Python 字典, 但比 Python 字典更加高效

In [73]:
data['area']

Beijing       16410.54
Henan        167000.00
Hunan        211800.00
Guangdong    179770.00
Name: area, dtype: float64

In [74]:
data['GDP']

Beijing      3.03
Henan        4.80
Hunan        3.64
Guangdong    9.73
Name: GDP, dtype: float64

### DataFrame 对象的创建

(1) 通过单个 Series 对象创建

In [75]:
pd.DataFrame(area, columns=['area'])

Unnamed: 0,area
Beijing,16410.54
Henan,167000.0
Hunan,211800.0
Guangdong,179770.0


(2) 通过字典列表创建

In [79]:
data = [{'a': i, 'b': 2*i} for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [80]:
pd.DataFrame(data, index=['A', 'B', 'C'])

Unnamed: 0,a,b
A,0,0
B,1,2
C,2,4


(3) 通过 Series 对象字典创建

In [81]:
pd.DataFrame({'GDP': gdp, 'area': area})

Unnamed: 0,GDP,area
Beijing,3.03,16410.54
Henan,4.8,167000.0
Hunan,3.64,211800.0
Guangdong,9.73,179770.0


(3) 通过 Numpy 二维数组创建

In [82]:
pd.DataFrame(np.random.rand(3, 2), 
             columns=['foo', 'bar'], 
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.453929,0.054787
b,0.516564,0.218991
c,0.569695,0.575849


### DataFrame 对象的数据选择方法 

(1) 将 DataFrame 看作字典

In [83]:
area = pd.Series( {'Beijing': 16410.54,
                   'Henan':167000, 
                   'Hunan':211800, 
                   'Guangdong':179770})# 平方千米
area

Beijing       16410.54
Henan        167000.00
Hunan        211800.00
Guangdong    179770.00
dtype: float64

In [84]:
gdp = pd.Series({'Beijing': 3.03, 
                 'Henan':4.8,
                 'Hunan':3.64, 
                 'Guangdong':9.73})# 万亿元
gdp

Beijing      3.03
Henan        4.80
Hunan        3.64
Guangdong    9.73
dtype: float64

In [85]:
data = pd.DataFrame({'area':area, 'GDP':gdp})
data

Unnamed: 0,area,GDP
Beijing,16410.54,3.03
Henan,167000.0,4.8
Hunan,211800.0,3.64
Guangdong,179770.0,9.73


In [86]:
data['density'] = data['GDP']/data['area']
data

Unnamed: 0,area,GDP,density
Beijing,16410.54,3.03,0.000185
Henan,167000.0,4.8,2.9e-05
Hunan,211800.0,3.64,1.7e-05
Guangdong,179770.0,9.73,5.4e-05


(2) 将 DataFrame 看作二维数组

In [55]:
data.values

array([[1.64105400e+04, 3.03000000e+00, 1.84637434e-04],
       [1.67000000e+05, 4.80000000e+00, 2.87425150e-05],
       [2.11800000e+05, 3.64000000e+00, 1.71860246e-05],
       [1.79770000e+05, 9.73000000e+00, 5.41247149e-05]])

In [56]:
data.T

Unnamed: 0,Beijing,Henan,Hunan,Guangdong
area,16410.54,167000.0,211800.0,179770.0
GDP,3.03,4.8,3.64,9.73
density,0.000185,2.9e-05,1.7e-05,5.4e-05


In [87]:
data.values[0][1] # [0, 1]

3.03

In [58]:
data.iloc[:3, :2]

Unnamed: 0,area,GDP
Beijing,16410.54,3.03
Henan,167000.0,4.8
Hunan,211800.0,3.64


In [97]:
a = data.loc[:'Hunan', :'GDP']
a

Unnamed: 0,area,GDP
Beijing,16410.54,3.03
Henan,167000.0,4.8
Hunan,211800.0,3.64


(3) 其它取值方法

In [60]:
data['Henan':'Hunan'] # 显式切片索引

Unnamed: 0,area,GDP,density
Henan,167000.0,4.8,2.9e-05
Hunan,211800.0,3.64,1.7e-05


In [61]:
data[1:3] # 隐式切片

Unnamed: 0,area,GDP,density
Henan,167000.0,4.8,2.9e-05
Hunan,211800.0,3.64,1.7e-05


## Index 对象

In [101]:
d = {'a':2, [2, 3]:4}

TypeError: unhashable type: 'list'

In [102]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

1) 将 Index 看作不可变数组

In [104]:
ind[1]

3

In [106]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

2) 将 Index 看作有序集合，和 Python 的中的 `set` 对象有很多相似的操作

In [107]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [108]:
indA & indB # 交集

Int64Index([3, 5, 7], dtype='int64')

In [109]:
indA | indB # 并集

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [110]:
indA ^ indB # 异或

Int64Index([1, 2, 9, 11], dtype='int64')

## 数据分析案例

In [127]:
import numpy as np
import pandas as pd

data0 = pd.read_csv('./data/area.csv')
data0

Unnamed: 0,省,面积
0,北京市,1.68
1,安徽省,13.97
2,福建省,12.13
3,甘肃省,45.44
4,广东省,18.0
5,广西壮族自治区,23.6
6,贵州省,17.6
7,海南省,3.4
8,河北省,18.77
9,河南省,16.7


In [128]:
data0['省'].values
data0.keys()

Index(['省', '面积'], dtype='object')

In [134]:
s0 = pd.Series(data0['面积'].values,
               index= data0['省'].values)
data = pd.DataFrame(s0, columns=['面积'])
data

Unnamed: 0,面积
北京市,1.68
安徽省,13.97
福建省,12.13
甘肃省,45.44
广东省,18.0
广西壮族自治区,23.6
贵州省,17.6
海南省,3.4
河北省,18.77
河南省,16.7


In [112]:
data1 = pd.read_csv('./data/pop_and_gdp.csv')
data1

Unnamed: 0,省,年份,人口(万人),地区gdp(亿元)
0,北京市,2018,2154.0,30319.98
1,北京市,2017,2171.0,28014.94
2,北京市,2016,2173.0,25669.13
3,北京市,2015,2171.0,23014.59
4,北京市,2014,2152.0,21330.83
...,...,...,...,...
584,重庆市,2004,2793.0,3034.58
585,重庆市,2003,2803.0,2555.72
586,重庆市,2002,2814.0,2232.86
587,重庆市,2001,2829.0,1976.86
