# 数据结构

In [None]:
import numpy as np
import pandas as pd

`Pandas`中有两种主要的数据结构`Series`和`DataFrame`。

## Series

`Series`是一维数组的对象，由一组数据和对应的**索引**组成。如果不指定索引，默认会创建一个从`0`开始的整数序列索引，数组里面可以放任意类型的数据。

In [None]:
series = pd.Series([1.2, 3.4, 5.6, 7.8])
series

### 属性

`Series`提供了一系列属性来获取相关信息。

`index`：获取索引信息。

In [None]:
series.index

`values`：获取数组的值。

In [None]:
series.values

`dtype`：获取数据类型。

In [None]:
series.dtype

`size`：获取数组元素个数。

In [None]:
series.size

`ndim`：获取数组维度。

In [None]:
series.ndim

### 方法

`pd.Series()`用于创建一个`Series`一维数组对象。

In [None]:
series = pd.Series([90, 80, 70, 60, 50])
series

在创建的时候，可以自定义索引的名称。

In [None]:
series = pd.Series([90, 80, 70, 60, 50], index=['A', 'B', 'C', 'D', 'F'])
series

也支持使用字典的形式创建：

In [None]:
series = pd.Series({'A': 90, 'B': 80, 'C': 70, 'D': 60, 'F': 50})
series

通过`reindex()`可以修改原来的索引顺序，如果没有对应的索引会使用`NaN`表示。

In [None]:
series = series.reindex(['B', 'F', 'D', 'A', 'C', 'E'])
series

`argmin()`和`argmax()`用于获取最小值和最大值的索引。

In [None]:
series = pd.Series([78, 34, 88, 12, 67])
series

In [None]:
print(series.argmin())
print(series.argmax())

`isnull()`和`notnull()`用于判断是否是缺失值`NaN`。

In [None]:
series = pd.Series([np.nan, 34, np.nan, np.nan, 67])
series

In [None]:
series.isnull()

In [None]:
series.notnull()

`copy()`用于拷贝`Series`对象。

- 浅拷贝：`copy(deep=False)`
- 深拷贝：`copy(deep=True)`

#### 浅拷贝

In [None]:
series = pd.Series([178.2, 165.4, 185.6, 160.9], index=['张三', '李四', '王五', '赵六'])
series

In [None]:
series_copy = series.copy(deep=False)
series_copy

In [None]:
series['张三'] = 180.3
series

In [None]:
series_copy

#### 深拷贝

In [None]:
series = pd.Series([178.2, 165.4, 185.6, 160.9], index=['张三', '李四', '王五', '赵六'])
series

In [None]:
series_copy = series.copy(deep=True)
series_copy

In [None]:
series['张三'] = 180.3
series

In [None]:
series_copy

`drop()`用于删除数据项，该函数默认返回新的新的`Series`对象。如果想要原地修改，可以设置`inplace`参数为`True`。

In [None]:
series = pd.Series([178.2, 165.4, 185.6, 160.9], index=['张三', '李四', '王五', '赵六'])
series

In [None]:
series = series.drop(['张三', '王五'])
series

可以直接设置`inplace=True`实现原地修改。

In [None]:
series = pd.Series([178.2, 165.4, 185.6, 160.9], index=['张三', '李四', '王五', '赵六'])
series

In [None]:
series.drop(['张三', '王五'], inplace=True)
series

## DataFrame

`DataFrame`是表格型数据结构，由**行索引**和**列索引**组成。

In [None]:
df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [20, 19, 20, 19],
    '性别': ['男', '女', '男', '女']
})

df

### 属性

`DataFrame`提供了一系列属性来获取相关信息。

`index`：获取索引信息。

In [None]:
df.index

`values`：获取`DataFrame`的值。

In [None]:
df.values

`dtypes`：获取数据类型。

In [None]:
df.dtypes

`size`：获取`DataFrame`元素个数。

In [None]:
df.size

`ndim`：获取`DataFrame`维度。

In [None]:
df.ndim

`shape`：获取`DataFrame`的形状。

In [None]:
df.shape

### 方法

`pd.DataFrame()`用于创建一个`DataFrame`对象。

使用字典进行创建：

In [None]:
df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [20, 19, 20, 19],
    '性别': ['男', '女', '男', '女']
})

df

也可以单独指定数据、索引、列名：

In [None]:
df = pd.DataFrame(
    [['张三', 20, '男'], ['李四', 19, '女'], ['王五', 20, '男'], ['赵六', 19, '女']],
    index = ['学生1', '学生2', '学生3', '学生4'],
    columns = ['姓名', '年龄', '性别']
)

df

`head()`用于获取数据的前`n`行。

In [None]:
df.head(2)

`tail()`用于获取数据的后`n`行。

In [None]:
df.tail(2)

`info()`用于查看数据的描述信息，例如**行数**、**列数**、**数据类型**、**非空值的数量**等。

In [None]:
df.info()

`T`用于将`DataFrame`的行和列置换。

In [None]:
df.T

`sum()`用于求和，默认按列求和（`axis=0`）。

In [None]:
df = pd.DataFrame({
    '年龄': [20, 19, 20, 19],
    '成绩': [88, 92, 95, 70]
})

df

In [None]:
df.sum()

设置`axis=1`可以按行求和。在该例中，按行求和没有实际意义。

In [None]:
df.sum(axis=1)

除了`sum()`，还有一系列其它统计函数。

In [None]:
df.min()

In [None]:
df.max()

In [None]:
df.mean()