# Pandas 数据处理入门

**注：**  拿到一个新软件包，如何入手学习呢？
1. 这个软件包的核心数据结构是什么？
1. 这个软件包的核心算法是什么？

Pandas 是建立在 Numpy 基础之上建立的新程序库，核心提供了一种高效的 DataFrame 数据结构。

## Pandas 中的对象简介

In [2]:
import numpy as np
import pandas as pd

*  `pd.Series` 对象
*  `DataFrame` 对象
*  `pd.Index` 对象

## Series 对象

Series 对象是一个**带索引数据**构成的**一维数组**, 它除了存储数据外，还**显式**地把**索引**也存储下来！

Numpy 数据用的是**隐式**的索引！

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series 对象有两个基本属性 

* `values`
* `index`

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

 用户可以用与 Numpy 数组类似的索引方式索引

In [5]:
data[0]

0.25

In [6]:
data[0:2]

0    0.25
1    0.50
dtype: float64

**思考：** Series 把索引也保存下来，不是多此一举吗？

1) Series 是通用的 Numpy 一维数组， 但比 Numpy 更加灵活。

2) Series 是一种特殊的 Python 字典， 但比 Python 字典更加高效。

###  Series 是通用的 Numpy 一维数组， 但比 Numpy 更加灵活

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data['a']

0.25

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

### Series 是一种特殊的 Python 字典， 但比 Python 字典更加高效

In [9]:
population_dict = {'Beijing': 38332521,
                   'Henan': 26448193,
                   'Hunan': 19651127,
                   'Guangdong': 19552860}
population = pd.Series(population_dict)
population

Beijing      38332521
Henan        26448193
Hunan        19651127
Guangdong    19552860
dtype: int64

In [10]:
population['Beijing']

38332521

In [11]:
population['Beijing':'Guangdong']

Beijing      38332521
Henan        26448193
Hunan        19651127
Guangdong    19552860
dtype: int64

3) Series 对象的创建

In [12]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [13]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [14]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

用 `index` 参数来筛选字典中的键值对，即选择字典中的一部分元素来构建 Series 对象 。

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

### Series 数据的选择方法 

In [30]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

**1) 将 Series 看作字典**

In [None]:
data['b']

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items)

In [31]:
data['e'] = 1.25

**2) 将 Series 看作一维数组**

In [None]:
data['a':'c'] # 显式索引做为切片

In [None]:
data[0:2] # 隐式索引做为切片

In [None]:
data[(data > 0.3) & (data < 0.5)] # 布尔索引(或者叫掩码)

In [None]:
data[['a', 'e']] # 花哨索引(francy indexing)

**注意：**

1. 什么是显式索引？
1. 什么是隐式索引？
1. 什么情况下会出现混乱? 用**整数形式**的**显式索引**的时候！

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [34]:
data[1] # 显式索引

'a'

In [None]:
data[1:3] # 隐式索引

**3) 索引器**

Series 有三个索引器属性来解决上面的混乱。

* Series.loc， 表示取值和切片都是显式的

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

* Series.iloc， 表示取值和切片都是 Python 形式的隐式索引，即从 0 开始， 左闭右开区间！

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

* Series.ix，混合索引形式， 特价于中括号索引 `data[]`。

## DataFrame 对象

DataFrame 对象是 Pandas 另一个基础的数据结构。

### 一个通用的 Numpy 二维数组，但比 Numpy 数组更加灵活，带有灵活的**行索引**，又有**列名**。

In [6]:
area_dict = {'Beijing': 16410.54, 'Henan':167000, 'Hunan':211800, 'Guangdong':179770} # 平方千米
area = pd.Series(area_dict)
area

Beijing       16410.54
Henan        167000.00
Hunan        211800.00
Guangdong    179770.00
dtype: float64

In [7]:
gdp_dict = {'Beijing': 3.03, 'Henan':4.8, 'Hunan':3.64, 'Guangdong':9.73} # 万亿元
gdp = pd.Series(gdp_dict)
gdp

Beijing      3.03
Henan        4.80
Hunan        3.64
Guangdong    9.73
dtype: float64

In [8]:
data = pd.DataFrame({"GDP":gdp, "area":area})
data

Unnamed: 0,GDP,area
Beijing,3.03,16410.54
Henan,4.8,167000.0
Hunan,3.64,211800.0
Guangdong,9.73,179770.0


**属性：**
1. `index`: 存储行标签
1. `columns`: 存储列标签

In [19]:
data.index

Index(['Beijing', 'Henan', 'Hunan', 'Guangdong'], dtype='object')

In [20]:
data.columns

Index(['GDP', 'area'], dtype='object')

### 它是一个特殊的 Python 字典, 但比 Python 字典更加高效

In [9]:
data['area']

Beijing       16410.54
Henan        167000.00
Hunan        211800.00
Guangdong    179770.00
Name: area, dtype: float64

In [10]:
data['GDP']

Beijing      3.03
Henan        4.80
Hunan        3.64
Guangdong    9.73
Name: GDP, dtype: float64

### DataFrame 对象的创建

(1) 通过单个 Series 对象创建

In [11]:
pd.DataFrame(area, columns=['area'])

Unnamed: 0,area
Beijing,16410.54
Henan,167000.0
Hunan,211800.0
Guangdong,179770.0


(2) 通过字典列表创建

In [None]:
data = [{'a': i, 'b': 2*i} for i in range(3)]
data

In [13]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


(3) 通过 Series 对象字典创建

In [14]:
pd.DataFrame({'GDP': gdp, 'area': area})

Unnamed: 0,GDP,area
Beijing,3.03,16410.54
Henan,4.8,167000.0
Hunan,3.64,211800.0
Guangdong,9.73,179770.0


(3) 通过 Numpy 二维数组创建

In [15]:
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.595037,0.481091
b,0.160069,0.210133
c,0.528399,0.496588


### DataFrame 对象的数据选择方法 

(1) 将 DataFrame 看作字典

In [19]:
area = pd.Series( {'Beijing': 16410.54, 'Henan':167000, 'Hunan':211800, 'Guangdong':179770})# 平方千米
area

Beijing       16410.54
Henan        167000.00
Hunan        211800.00
Guangdong    179770.00
dtype: float64

In [20]:
gdp = pd.Series({'Beijing': 3.03, 'Henan':4.8, 'Hunan':3.64, 'Guangdong':9.73})# 万亿元
gdp

Beijing      3.03
Henan        4.80
Hunan        3.64
Guangdong    9.73
dtype: float64

In [None]:
data = pd.DataFrame({'area':area, 'GDP':gdp})
data

In [24]:
data['density'] = data['GDP']/data['area']
data

Unnamed: 0,area,GDP,density
Beijing,16410.54,3.03,0.000185
Henan,167000.0,4.8,2.9e-05
Hunan,211800.0,3.64,1.7e-05
Guangdong,179770.0,9.73,5.4e-05


(2) 将 DataFrame 看作二维数组

In [26]:
data.values

array([[1.64105400e+04, 3.03000000e+00, 1.84637434e-04],
       [1.67000000e+05, 4.80000000e+00, 2.87425150e-05],
       [2.11800000e+05, 3.64000000e+00, 1.71860246e-05],
       [1.79770000e+05, 9.73000000e+00, 5.41247149e-05]])

In [28]:
data.T

Unnamed: 0,Beijing,Henan,Hunan,Guangdong
area,16410.54,167000.0,211800.0,179770.0
GDP,3.03,4.8,3.64,9.73
density,0.000185,2.9e-05,1.7e-05,5.4e-05


In [None]:
data.values[0]

In [None]:
data.iloc[:3, :2]

In [31]:
data.loc[:'Hunan', :'GDP']

Unnamed: 0,area,GDP
Beijing,16410.54,3.03
Henan,167000.0,4.8
Hunan,211800.0,3.64


(3) 其它取值方法

In [None]:
data['Henan':'Hunan'] # 显式切片索引

In [34]:
data[1:3] # 隐式切片

Unnamed: 0,area,GDP,density
Henan,167000.0,4.8,2.9e-05
Hunan,211800.0,3.64,1.7e-05


## Index 对象

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

1) 将 Index 看作不可变数组

In [None]:
ind[1]

In [None]:
idd[::2]

In [25]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


2) 将 Index 看作有序集合，和 Python 的中的 `set` 对象有很多相似的操作

In [26]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [27]:
indA & indB # 交集

Int64Index([3, 5, 7], dtype='int64')

In [28]:
indA | indB # 并集

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [29]:
indA ^ indB # 异或

Int64Index([1, 2, 9, 11], dtype='int64')

## 数据分析案例

In [42]:
import numpy as np
import pandas as pd

data0 = pd.read_csv('./data/area.csv')
data1 = pd.read_csv('./data/pop_and_gdp.csv')
data1

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,人口(万人),地区gdp(亿元)
0,北京市,2018,2154.0,30319.98
1,北京市,2017,2171.0,28014.94
2,北京市,2016,2173.0,25669.13
3,北京市,2015,2171.0,23014.59
4,北京市,2014,2152.0,21330.83
...,...,...,...,...
584,重庆市,2004,2793.0,3034.58
585,重庆市,2003,2803.0,2555.72
586,重庆市,2002,2814.0,2232.86
587,重庆市,2001,2829.0,1976.86
