# Pandas 数据结构
pandas 是一个 Python Data Analysis Library（数据分析库），它是基于 NumPy 的一个开源 Python 库，它被广泛用于数据分析，以及数据清洗和准备等工作。

## 1. 导入

In [16]:
import pandas as pd
import numpy as np

## 2. Series


### 2.1 创建 Series
pandas.Series(data, index, dtype, name, copy)
* data: 一组数据，可以是字典、ndarray或标量。
* index: 数据索引标签，如果不指定，默认从0开始。
* dtype: 数据类型，默认会自己判断。
* name: 设置的名称。
* copy: 拷贝数据，默认为False。

#### 2.1.1 从列表创建

In [17]:
s_2_1_1 = pd.Series([1,2,3,4,5,6])
print(s_2_1_1)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64


#### 2.1.2 从 ndarray 创建


In [18]:
s_2_1_2 = pd.Series(np.arange(5), index=['a','b','c','d','e'])
print(s_2_1_2)

a    0
b    1
c    2
d    3
e    4
dtype: int64


#### 2.1.3 从字典创建

In [19]:
temp_dict = {"name":"zhangsan", "age":27, "tel": 10086}
s_2_1_3 = pd.Series(temp_dict)
print(s_2_1_3)

name    zhangsan
age           27
tel        10086
dtype: object


#### 2.1.4 从标量值构造

In [20]:
s_2_1_4 = pd.Series(1., index=list("abcde"))
print(s_2_1_4)

a    1.0
b    1.0
c    1.0
d    1.0
e    1.0
dtype: float64


### 2.2 切片和索引
构造示例数据

In [21]:
s_2_2 = pd.Series(np.arange(5), index=list("abcde"))
print(s_2_2)

a    0
b    1
c    2
d    3
e    4
dtype: int64


#### 2.2.1. 支持数字索引操作

In [22]:
print(s_2_2[0])

0


#### 2.2.2 支持切片操作

In [23]:
print(s_2_2[:3])

a    0
b    1
c    2
dtype: int64


#### 2.2.3. 花式索引

In [24]:
print(s_2_2[[2,1,3]])

c    2
b    1
d    3
dtype: int64


#### 2.2.4. 布尔索引

In [25]:
print(s_2_2[s_2_2%2==0])

a    0
c    2
e    4
dtype: int64


#### 2.2.5. 字典索引

In [26]:
print(s_2_2['a'])

0


### 2.3 运算

In [27]:
s_2_3 = pd.Series(np.arange(5), index=list("abcde"))

###

#### 2.3.1 对应位置相加

In [28]:
s_2_3_1 = s_2_3 + s_2_3
print(s_2_3_1)

a    0
b    2
c    4
d    6
e    8
dtype: int64


#### 2.3.2 对应位置相乘

In [29]:
s_2_3_2 = s_2_3 * s_2_3
print(s_2_3_2)

a     0
b     1
c     4
d     9
e    16
dtype: int64


#### 2.3.3 各位置加2

In [30]:
s_2_3_3 = s_2_3 + 2
print(s_2_3_3)

a    2
b    3
c    4
d    5
e    6
dtype: int64


### 2.4 自动对齐
* 默认使用index的值进行对齐，而不是相对位置
* 不能对齐的部分当做缺失值处理

In [31]:
s_2_4 = pd.Series(np.arange(5), index=list("abcde"))
result = s_2_4[1:] + s_2_4[:-1]
print(result)

a    NaN
b    2.0
c    4.0
d    6.0
e    NaN
dtype: float64


### 2.5 缺失值处理

#### 2.5.1 Series.isna() 检测缺失值

#### 2.5.2 Series.finllna() 填充缺失值
Series.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
* **values:** dict, Series, or DataFrame(填充nan的值，不能是list)
* **method:** {'backfill','bfill','pad','ffill',None}, default None(填充方法，用前/后的值进行填充)
* **axis:** {0 or 'index'}{前后或者上下填充}
* **limit:** nt, default None (连续填充的值的数量)

#### 2.5.3 Series.dropna() 删除缺失值
Series.dropna(axis=0, implace=False, how=None)
* **axis:** 默认为0，表示逢空值剔除整行，如果设置参数axis=1表示逢空值去掉整列。
* **inplace:** 如果设置为True，将计算得到的值直接覆盖之前的值并返回None，修改的是源数据。
* **how:** 默认为any如果一行（或一列）里任何一个数据有出现NA就去掉整行，如果设置为how='all'一行（或一列）都是NA才去掉这整行。

In [34]:
s_2_5 = pd.Series([1,2,None,4,None])
print(s_2_5.isna())
print(s_2_5.fillna(0.))
print(s_2_5.dropna())

0    False
1    False
2     True
3    False
4     True
dtype: bool
0    1.0
1    2.0
2    0.0
3    4.0
4    0.0
dtype: float64
0    1.0
1    2.0
3    4.0
dtype: float64
0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64


### 2.6 属性：name、index 和 values

In [35]:
s_2_6 = pd.Series(np.arange(5), index=list("abcde"), name="name_2_6")
print(s_2_6.name)
print(s_2_6.index)
print(s_2_6.values)

name_2_6
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[0 1 2 3 4]


## 3 DataFrame 含有行（index）列（columns）的二维数组

### 3.1 创建DataFrame
pandas.DataFrame(data, index, columns, dtype, copy)
* **data:** 一组数据（ndarray、Series、map、lists、dict等类型）
* **index:** 索引值，或者可以称为行标签
* **columns:** 列标签，默认为RangeIndex（0,1,2,3,...,n）
* **dtype:** 数据类型
* **copy:**  拷贝数据，默认为False

#### 3.1.1 使用单个列表创建