## 收集

In [None]:
import pandas as pd

In [None]:
patients = pd.read_csv('patients.csv')
treatments = pd.read_csv('treatments.csv')
adverse_reactions = pd.read_csv('adverse_reactions.csv')

## 评估

In [None]:
patients

In [None]:
treatments

In [None]:
adverse_reactions

In [None]:
patients.info()

In [None]:
treatments.info()

In [None]:
adverse_reactions.info()

In [None]:
all_columns = pd.Series(list(patients) + list(treatments) + list(adverse_reactions))
all_columns[all_columns.duplicated()]

In [None]:
list(patients)

In [None]:
patients[patients['address'].isnull()]

In [None]:
patients.describe()

In [None]:
treatments.describe()

In [None]:
patients.sample(5)

In [None]:
patients.surname.value_counts()

In [None]:
patients.address.value_counts()

In [None]:
patients[patients.address.duplicated()]

In [None]:
patients.weight.sort_values()

In [None]:
weight_lbs = patients[patients.surname == 'Zaitseva'].weight * 2.20462
height_in = patients[patients.surname == 'Zaitseva'].height
bmi_check = 703 * weight_lbs / (height_in * height_in)
bmi_check

In [None]:
patients[patients.surname == 'Zaitseva'].bmi

In [None]:
sum(treatments.auralin.isnull())

In [None]:
sum(treatments.novodra.isnull())

#### 质量
##### `patients` 表格
- 邮编是浮点，而不是字符串
- 邮编有时是四位数
- Tim Neudorf 的身高是 27 英尺，而不是 72 英尺
- 有时使用州的全称，其他用简称
- Dsvid Gustafsson
- 缺少人口统计信息 (地址列至联系方式列) ***(无法清理)***
- 错误的数据类型 (指定性别、州、邮编和出生日期列)
- 多个手机号格式
- John Doe 的默认数据
- Jakobsen、Gersten、Taylor 多条记录
- Zaitseva 体重单位是 kgs，不是 lbs 

##### `treatments` 表格
- 缺少 HbA1c 变化
- Auralin 和 Novodra 初始剂量和最终剂量中的字母 'u' 
- 小写形式的姓和名
- 缺少记录 (280 而不是 350)
- 错误的数据类型 (auralin 和 novodra 列)
- HbA1c 变化不准确 (多个开头的 4 被误写为 9 )
- auralin 和 novodra 列中空值用破折号 (-) 表示

##### `adverse_reactions` 表格
- 小写形式的姓和名

#### 清洁度
-  `patients` 表格中的联系方式一列应该拆分为手机号和邮箱两列
-  `treatments` 表格两列中的三个变量 (治疗、初始剂量和最终剂量)
-  不良反应应是 `treatments` 表格的一部分
-  `patients` 表格中的姓和名两列复制到 `treatments` 和 `adverse_reactions` 表格中

## 清理

In [None]:
patients_clean = patients.copy()
treatments_clean = treatments.copy()
adverse_reactions_clean = adverse_reactions.copy()

### 缺失数据

<font color='red'>观看 *"首先解决缺失数据问题"* 视频后，完成下列两个 "缺失数据" **定义、代码和测试** 顺序。</font>

#### `treatments`： 缺少记录 (280 而不是 350)

##### 定义
*这里是你的定义。注释：缺少的 `treatments` 记录存储在文件中，命名为 `treatments_cut.csv`，你可以在这个 Jupyter Notebook 指示板中查看 (点击 Notebook 左上角的 **jupyter** 标志)。提示： 解答中使用的函数 [文档页面](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html) 。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### `treatments`：缺少 HbA1c 变化和 HbA1c 变化不准确 (多个开头的 4 被误写为 9)
*注释： "HbA1c 变化不准确 (多个开头的 4 被误写为 9)" 的观察属于准确度问题，而不是完整性问题，由于通过修改缺失的 "缺少 HbA1c 变化" 的清理操作，因此这也被包含在这个标题下面。在一个 **定义、代码和测试** 表头中多个观察数据会在这个记事本中出现。*

##### 定义
*这里是你的定义。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

### 清洁度

<font color='red'>观看 *"清洁度清理"* 视频后，完成下列四个 "清洁度" **定义、代码和测试** 顺序。</font>

####  `patients` 表格中的联系方式一列应该包括两个变量：手机号和邮箱

##### 定义
*这里是你的定义。提示 1：通过 pandas 的 [`str.extract` 方法](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.extract.html) 使用常规表达。这是个神奇的 [正则表达式教程](https://regexone.com/)。提示 2： [各种手机号正则表达式模式](https://stackoverflow.com/questions/16699007/regular-expression-to-match-standard-10-digit-phone-number)。提示 3：[邮箱地址正则表达式模式](http://emailregex.com/)，你可能需要用这个进行修改，区分邮箱地址和手机号。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

####  `treatments` 表格两列中的三个变量 (治疗、初始剂量和最终剂量)

##### 定义
*这里是你的定义。提示：使用 pandas 的 [融合函数](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.melt.html) 和 [`str.split()` 方法](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.split.html)。这是非常不错的 [`融合` 教程](https://deparkes.co.uk/2016/10/28/reshape-pandas-data-with-melt/).*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### 不良反应应是 `treatments` 表格的一部分

##### 定义
*这里是你的定义。提示：解答中使用的函数 [教程 ](https://chrisalbon.com/python/pandas_join_merge_dataframe.html) 。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

####  `patients` 表格中的姓和名两列复制到 `treatments` 和 `adverse_reactions`小写 表格中，以及小写形式的姓和名 

##### 定义
*这里是你的定义。提示：解答中使用的函数 [教程](https://chrisalbon.com/python/pandas_join_merge_dataframe.html) 和另一个函数的[教程](http://erikrood.com/Python_References/dropping_rows_cols_pandas.html) 。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

### 质量

<font color='red'>观看 *"质量清理"* 视频后，完成剩余 "质量" **定义、代码和测试** 顺序。</font>

#### 邮编是浮点，而不是字符串，有时是四位数

##### 定义
*这里是你的定义。提示：查看 "数据清理过程" 页面。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### Tim Neudorf 的身高是 27 英尺，而不是 72 英尺

##### 定义
*这里是你的定义。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### 有时使用州的全称，其他用简称

##### 定义
*这里是你的定义。提示：解答中使用的函数 [教程](https://chrisalbon.com/python/pandas_apply_operations_to_dataframes.html) 。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### Dsvid Gustafsson

##### 定义
*这里是你的定义。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### 错误的数据类型 (指定性别、州、邮编和出生日期列) 和错误的数据类型 (auralin 和 novodra 列)，以及 Auralin 和 Novodra 初始剂量和最终剂量中的字母 'u' 

##### 定义
*这里是你的定义。提示：解答中使用的方法 [文档页面](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.astype.html)、函数 [文档页面](http://pandas.pydata.org/pandas-docs/version/0.20/generated/pandas.to_datetime.html) 以及另一种方法的 [文档页面](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.strip.html)。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### 多个手机号格式

##### 定义
*这里是你的定义。提示：有用的 [Stack Overflow 答案](https://stackoverflow.com/a/123681)。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### John Doe 的默认数据

##### 定义
*这里是你的定义。记住，假设替换后的  John Doe 数据不可恢复。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码

#### Jakobsen、Gersten、Taylor 多条记录

##### 定义
*这里是你的定义。*

##### 代码

In [None]:
# 这里是你的清理代码

##### Test

In [None]:
# 这里是你的测试代码

#### Zaitseva 体重单位是 kgs，不是 lbs 

##### 定义
*这里是你的定义。*

##### 代码

In [None]:
# 这里是你的清理代码

##### 测试

In [None]:
# 这里是你的测试代码