# Pandas 数据处理

`Pandas` 是在 `NumPy` 基础上建立的新程序库, 提供了一种高效 `DataFrame` 数据结构, `DataFrame` 本质上是一种带航标签和列标签、支持相同类型数据和缺失的多维数组.

# 目录

1. [安装 Pandas](#1)

2. [Pandas 对象简介](#2)

2. [数据取值与选择](#３)

### Pandas 的安装

如果你有 `Anaconda`，你可以简单地使用你的终端或命令提示符安装 `Pandas`：

`conda install pandas`

如果您的计算机上没有 `Anaconda`，请使用以下命令从终端安装 `Pandas`：

`pip install pandas`

#### Pandas 的导入

In [2]:
import pandas as pd

In [3]:
pd.__version

<module 'pandas.__version' from '/usr/lib/python3/dist-packages/pandas/__version.py'>

### Pandas 对象简介

从底层视角观察 `Pandas` 对象, 可以把它看成是增强版的 `NumPy` 结构画化数组. 行和列都不再只是简单的整数索引, 还可以带上标签. 首先看 Pandas 的三个基本数据结构 `Series` 、`DataFrame` 和`Index`.

#### Pandas 的 Series 对象

`Pandas` 的 `Series` 对象是一个带索引数据构成的一维数组.

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

从上面可以看出, `Series` 对象是将一组数据和索引绑在一起, 我们可以通过 `value` 和　`index` 属性获取数据.

In [5]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

In [6]:
data.index

RangeIndex(start=0, stop=4, step=1)

与 `NumPy` 数组一样, 数据可以通过 `Python` 中括号索引标签获取.

In [7]:
data[1]

0.5

In [8]:
data[1:3]

1    0.50
2    0.75
dtype: float64

`Pandas` 的 `Series` 对象比它模仿的一维 `NumPy` 数组更加通用、灵活。 

####  `Series` 是通用的 `NumPy` 数组

本质的区别是索引：

+ Series 对象用一种显式定义的索引与数值无关.
+ NumPy 数组通过隐式定义的整数索引获取数组.

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],index = ['a', 'b', 'c', 'd'])
data 

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

获取数值的方法与之前相同.

In [11]:
data['a']

0.25

也可以使用不连续或者不按顺序的索引.

In [13]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],index = [2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [14]:
data[5]

0.5

#### Series 是特殊的字典

+ 字典：一种将任意键映射到一组任意值的数据结果
+ Series 对象其实是一种将类型键映射到一组类型值的数据结构上

直接用 Python 的字典创建一个 Series 对象, 让 Series 对象与字典的类比更加清晰.


In [15]:
population_dic = {'California': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 1932322,
                  'Illinise': 1230472}
population = pd.Series(population_dic)
population

California    38332521
Florida        1932322
Illinise       1230472
New York      19651127
Texas         26448193
dtype: int64

用字典创建的 Series 对象时,　其索引默认按照顺序呢排列, 典型的字典数值获取方式仍然有效

In [16]:
population['California']

38332521

和字典不同,　Ｓeries 对象还支持数组形式操作, 比如切片.

In [18]:
population['California':'Illinise']

California    38332521
Florida        1932322
Illinise       1230472
dtype: int64

#### 创建 Series 对象

In [20]:
#pd.Series(data, index=index)

data 可以是列表、数组、标量、字典等, 每种形式都可以通过显式指定索引筛选需要的结果.


In [22]:
data = pd.Series([2, 4, 6])
data

0    2
1    4
2    6
dtype: int64

### Pandas　的 DataFrame 对象

Pandas 的另一个基础数据结构是 DataFrame, 和上一节的 Series 对象一样, 可以作为一个通用 NumPy 数组.　也可以看作是特殊的 Python 字典.

#### DataFrame 是通用的 NumPy 数组.

如果将 Series 类比为带灵活索引的一维数组, 那么 DataFrame 就可以看作是一种既有灵活的行索引,　又有灵活列名的二维数组。

In [29]:
area_dir = {'California': 1234,
            'Texas': 2644,
            'New York': 1965,
            'Florida': 1932,
            'Illinise': 2472}
   
area = pd.Series(area_dir)
area

California    1234
Florida       1932
Illinise      2472
New York      1965
Texas         2644
dtype: int64

再结合之前创建 population 的 Series 对象,　用一个字典创建一个包含这些信心的二维对象.

In [30]:
states = pd.DataFrame({'population':population,
                       'area': area})

states

Unnamed: 0,area,population
California,1234,38332521
Florida,1932,1932322
Illinise,2472,1230472
New York,1965,19651127
Texas,2644,26448193


和 Series 对象一样, DataFrame 也有一个 index 属性可以获取索引标签. 

In [32]:
states.index

Index(['California', 'Florida', 'Illinise', 'New York', 'Texas'], dtype='object')

DataFrame 还有一个 columns 属性, 是存放列标签的 index 对象.

In [33]:
states.columns

Index(['area', 'population'], dtype='object')

因此, DataFrame 可以看作一种通用 NumPy 二维数组, 它的行为与列都可以通过索引获取.

#### DataFrame 是特殊的