# 章节练习

In [None]:
!pip install xlrd

In [None]:
import numpy as np
import pandas as pd

1. 计算`students.xlsx`中由5名学生成绩的均值、方差、中位数、上四分位数、下四分位数。

In [None]:
df = pd.read_excel('data/students.xlsx')
df

In [None]:
df['成绩'].mean()

In [None]:
df['成绩'].var()

In [None]:
df['成绩'].median()

In [None]:
df['成绩'].quantile(0.75)

In [None]:
df['成绩'].quantile(0.25)

2. 创建并访问`Series`对象

（1）创建下表所示的`Series`对象，其中`a`~`f`为索引标签

| a | b | c | d | e | f |
| --- | --- | --- | --- | --- | --- |
| 30 | 25 | 27 | 41 | 25 | 34 |

In [None]:
series = pd.Series({'a': 30, 'b': 25, 'c': 27, 'd': 41, 'e': 25, 'f': 34})
series

（2）增加新数据，值为`27`，索引为`g`

In [None]:
series['g'] = 27
series

（3）修改索引`d`对应的值为`40`

In [None]:
series['d'] = 40
series

（4）查询值大于`27`的数据

In [None]:
series[series > 27]

（5）删除位置序号为`1`~`3`的数据

【提示】`series.index[start:end]`

In [None]:
series.drop(series.index[1:4], inplace=True)
series

3. 创建并访问`DataFrame`对象

（1）创建$3 \times 3 $的`DataFrame`对象：数据的值为`1`~`9`；行索引标签为字符`a`、`b`、`c`；列索引标签为字符串`one`、`two`、`three`

【提示】使用`NumPy`的`arange()`和`reshape()`生成值为`1`~`9`的二维`ndarray`对象。

In [None]:
df = pd.DataFrame(
    np.arange(1, 10).reshape(3, 3),
    index=['a', 'b', 'c'],
    columns=['one', 'two', 'three']
)

df

（2）查询列索引为`two`和`three`的两列数据

In [None]:
df[['two', 'three']]

（3）查询第`0`、`2`行、第`0`、`2`列的数据

In [None]:
df.iloc[[0, 2], [0, 2]]

（4）筛选第`1`列中值大于`2`的所有行数据，另存为`data1`对象

In [None]:
data1 = df[df.iloc[:, 1] > 2]
data1

（5）为`data1`添加一列数据，列索引为`four`，值都为`10`

In [None]:
data1['four'] = 10
data1

（6）将`data1`所有值大于`9`的数据修改为`8`

In [None]:
data1[data1 > 9] = 8
data1

（7）删除`data1`中第`0`行和第`1`行数据

In [None]:
data1.drop(data1.index[[0, 1]], inplace=True)
data1

4. 创建$ 50 \times 7 $的`DataFrame`对象，数据为`[10, 99]`之间的随机整数，列索引标签为字符`a`~`g`，将`DataFrame`对象保存到`output.csv`中

【提示】使用`NumPy`的随机生成函数`randint()`生成数据。

In [None]:
df = pd.DataFrame(
    np.random.randint(10, 100, size=(50, 7)),
    columns=['a', 'b', 'c', 'd', 'e', 'f', 'g']
)

df

In [None]:
df.to_csv('output.csv', index=False)

5. 海伦一直使用在线交友网站寻找合适的交友对象，为了方便分析，她将交友数据存放在`datingTestSet.xls`文件中

（1）从文件中读取有效数据保存到`DataFrame`对象中，跳过所有文字解释行

In [None]:
df = pd.read_excel('data/datingTestSet.xls', header=None, skiprows=2)
df

（2）列索引标签设为`['flymiles', 'videogame', 'icecream', 'type']`

In [None]:
df.columns = ['flymiles', 'videogame', 'icecream', 'type']
df

（3）显示读取的前`5`条数据

In [None]:
df.head(5)

（4）显示所有`type`为`largeDoses`的数据

In [None]:
df[df['type'] == 'largeDoses']

6. 数据清洗

（1）从`studentsInfo.xlsx`文件的`Group1`表中读取数据

In [None]:
df = pd.read_excel('data/studentsInfo.xlsx', sheet_name='Group1')
df

（2）将`案例教学`列的值全改为`NaN`

In [None]:
df['案例教学'] = np.nan
df

（3）滤除每行数据中缺失`3`项以上（**包含**`3`项）的行

【提示】`dropna()`的`thresh`参数用于表示保留**至少**有`thresh`个**非空值**的行。

例如一共有10列，想要删除大于等于3个缺失值的行，即保留至少有8个非空值的行。

In [None]:
df.dropna(thresh=len(df.columns) - 3 + 1, inplace=True)
df

（4）滤除值全部为`NaN`的列

【提示】`dropna()`的`how`参数用于指定删除的方式。

`how`有2个取值：

- `any`：存在至少一个`NaN`则删除
- `all`：全部都为`NaN`则删除

In [None]:
df.dropna(axis=1, how='all', inplace=True)
df

7. 数据填充

（1）从`studentsInfo.xlsx`文件的`Group1`表中读取数据

In [None]:
df = pd.read_excel('data/studentsInfo.xlsx', sheet_name='Group1')
df

（2）使用列的平均值填充`体重`和`成绩`列的`NaN`数据

In [None]:
df['体重'].fillna(df['体重'].mean(), inplace=True)
df['成绩'].fillna(df['成绩'].mean(), inplace=True)
df

（3）使用同列前一行数据填充`年龄`列的`NaN`数据

In [None]:
df['年龄'].fillna(method='ffill', inplace=True)
df

（4）使用中位数填充`月生活费`列的`NaN`数据

In [None]:
df['月生活费'].fillna(df['月生活费'].median(), inplace=True)
df

8. 数据合并

（1）从`studentsInfo.xlsx`文件的`Group3`表中读取数据，将`序号`、`性别`、`年龄`列保存到`data1`对象中

In [None]:
data1 = pd.read_excel('data/studentsInfo.xlsx', sheet_name='Group3', usecols=['序号', '性别', '年龄'])
data1

（2）从`studentsInfo.xlsx`文件的`Group3`表中读取数据，将`序号`、`身高`、`体重`、`成绩`列保存到`data2`对象中

In [None]:
data2 = pd.read_excel('data/studentsInfo.xlsx', sheet_name='Group3', usecols=['序号', '身高', '体重', '成绩'])
data2

（3）将`data2`合并到`data1`中，连接方式为**内连接**

In [None]:
data1 = pd.merge(data1, data2, how='inner')
data1

9. 数据的排序和排名

In [None]:
df = pd.read_excel('data/studentsInfo.xlsx', sheet_name='Group3')
df

（1）按`月生活费`对数据进行升序排列

In [None]:
df.sort_values(by='月生活费', inplace=True)
df

（2）按`身高`对数据进行降序排名，并将并列取值方式设置为`min`。（使用上一大题完成后的`data1`）

In [None]:
data1['身高'].rank(method='min', ascending=False)