## Importing pandas

### 检查pandas安装环境

**1.** 将`pandas`导入，并重命名为`pd`.

In [None]:
import pandas as pd

**2.** 打印导入的`pandas`的版本信息

In [None]:
pd.__version__

**3.** 打印pandas依赖的所有库的信息.

In [None]:
pd.show_versions()

## DataFrame基础

### 基础功能，包括在DataFrame中选择，排序，聚合数据

Note: 首先需要导入`numpy`:
```python
import numpy as np
```

现有如下的python字典`data`和python列表`labels`:

``` python
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
```

**4.** 从字典中构造一个名为`df`的DataFrame，使用`labels`作为其索引

**5.** 展示数据集的汇总的基础信息

**6.** 返回`df`的前3行

**7.** 选择`df`中的`animal`和`age`两列

**8.** 选择第`[3, 4, 8]`行以及`animal`和`age`列

**9.** 选择`visits`字段大于等于3的行

**10.** 选择`age`缺失（即值为空）的行

**11.** 选择`animal`字段为'cat'并且`age`小于3的样本

**12.** 选择`age`在2到4之间（都包含）的数据

**13.** 将索引为'f'的数据中的`age`改为1.5

**14.** 计算所有`visits`的和

**15.** 计算`df`中每种动物的平均年龄

**16.** 用自定义的数据在原来的`df`最后新增一行`k`，然后删除它，还原原来的数据集

**17.** 计算`df`中每种动物的数量

**18.** 对`df`进行排序：按照`age`降序，按照`visits`升序排列

**19.** 'priority'包含了'yes'和'no'两个值，将'yes'和'no'分别替换成`True`和`False`

**20.** 将'animal'列的'snake'全都替换成'python'

**21.** 对每种动物和每个visits值求平均年龄，即用df做透视表，每行是一种动物，每列是一个visits值，求对应的平均age（使用.pivot_table）

## DataFrames: 以下会稍微难一些

### Note: 可能需要使用一些组合的方法才能得到答案


**22.** 有一个DataFrame `df`，其中有一列整数`A`:

```python
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
```

找出那些刚好和它上一个元素相等的元素

**23.** 给定一个只含有整数的DataFrame：

```python
df = pd.DataFrame(np.random.random(size=(5, 3))) # a 5x3 frame of float values
```

每个元素减去其所在行的均值

**24.** 有一个包含了10列实数的DataFrame:
```python
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
```
找到那个和最小的字段

**25.** 怎么计算每一行的唯一值数量？（.unique, .nunique）

## DataFrames: 下边就更难了……

**26.** 有一个包含了10个数值字段的DataFrame，每列含有5个空值。查找那些第三个元素为空的字段。

In [None]:
# 构造数据集
data = []
for i in range(10):
    vals = np.append(np.random.randint(0, 10, 5), [np.nan,] * 5)
    np.random.shuffle(vals)
    data.append(vals)
data = pd.DataFrame(data, columns=list('ABCDEFGHIJ'))
data

**27.** 有一个DataFrame如下所示：
```python
df = pd.DataFrame({'grps': list('aaabbcaabcccbbc'), 
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})
```

对于`grps`的每一组，求最大的三个元素的和

**28.** 一个DataFrame有两个整数字段'A'和'B'，字段'A'的值在0-100之间即$x_A \in [0, 100]$，对于'A'的每个10等分区间（(例如. `(0, 10]`, `(10, 20]`, ...)，求字段'B'的和