清洗这个项目的数据时要牢记几个要点：
- 我们只需要含有图片的原始评级 (不包括转发)。尽管数据集中有 5000 多条数据，但是并不是所有都是狗狗评分，并且其中有一些是转发。
- 完整地评估和清理整个数据集将需要大量时间，实践和展示数据处理技巧没有必要将这个数据集全部清理。因此，本项目的要求只是评估和清理此数据集中的至少 8 个质量问题和至少 2 个整洁度问题。
- 根据 整洁数据 tidy data 的规则要求，本项目的数据清理应该包括将三个数据片段进行合并。
- 如果分子评级超过分母评级，不需要进行清洗。这个 特殊评分系统 是 WeRateDogs 人气度较高的主要原因。（同样，也不需要删除分子小于分母的数据）
- 不必收集 2017 年 8 月 1 日之后的数据，你可以收集到这些推特的基本信息，但是你不能收集到这些推特对应的图像预测数据，因为你没有图像预测算法的使用权限。

- 数据整理，其中包括：
  - 收集数据
  - 评估数据：收集上述三个数据集之后，使用目测评估和编程评估的方式，对数据进行质量和清洁度的评估。在你的 wrangle_act.ipynb Jupyter Notebook 中记录评估过程和结果，最终列出至少 8 个质量问题 和 2 个清洁度问题。要符合项目规范，必须对项目动机中的要求进行评估（参见上一页课程的 关键要点 标题）。
  - 清洗数据：对你在评估时列出的每个问题进行清洗。在 wrangle_act.ipynb 展示清洗的过程。结果应该为一个优质干净整洁的主数据集（pandas DataFrame 类型） （如果都是以推特 ID 为观察对象的一些特征列，则清理最终只能有一个主数据集，如果有其他观察对象及其对应的特征字段，可以创建其他的数据集，同样需要清理）。同样地，必须符合项目动机的要点要求。
- 对清洗过的数据进行储存、分析和可视化：将清理后的数据集存储到 CSV 文件中，命名为 twitter_archive_master.csv。如果有其他观察对象的数据集存在，需要多个表格，那么要给这些文件合理命名。另外，你也可以把清洗后的数据存储在 SQLite 数据库中（如果这样存储的话，该数据库文件也需要提交）。在 wrangle_act.ipynb Jupyter Notebook 中对清洗后的数据进行分析和可视化。必须生成至少 3 个见解和 1 个可视化。
- 书面报告 1) 你的数据整理工作 和 2) 你的数据分析和可视化：创建一个 300-600 字的书面报告，命名为 wrangle_report.pdf，在该报告中简要描述你的数据整理过程。这份报告可以看作是一份内部文档，供你的团队成员查看交流。创建一个 250 字以上的书面报告，命名为 act_report.pdf，在该报告中，你可以与读者交流观点，展示你使用整理过的数据生成的可视化图表。这份报告可以看作是一份外部文档，如博客帖子或杂志文章。

## 收集

In [9]:
import pandas as pd

In [17]:
twitter = pd.read_csv('twitter-archive-enhanced.csv')
twitter.tail()                              

Unnamed: 0,tweet_id,in_reply_to_status_id,in_reply_to_user_id,timestamp,source,text,retweeted_status_id,retweeted_status_user_id,retweeted_status_timestamp,expanded_urls,rating_numerator,rating_denominator,name,doggo,floofer,pupper,puppo
2351,666049248165822465,,,2015-11-16 00:24:50 +0000,"<a href=""http://twitter.com/download/iphone"" r...",Here we have a 1949 1st generation vulpix. Enj...,,,,https://twitter.com/dog_rates/status/666049248...,5,10,,,,,
2352,666044226329800704,,,2015-11-16 00:04:52 +0000,"<a href=""http://twitter.com/download/iphone"" r...",This is a purebred Piers Morgan. Loves to Netf...,,,,https://twitter.com/dog_rates/status/666044226...,6,10,a,,,,
2353,666033412701032449,,,2015-11-15 23:21:54 +0000,"<a href=""http://twitter.com/download/iphone"" r...",Here is a very happy pup. Big fan of well-main...,,,,https://twitter.com/dog_rates/status/666033412...,9,10,a,,,,
2354,666029285002620928,,,2015-11-15 23:05:30 +0000,"<a href=""http://twitter.com/download/iphone"" r...",This is a western brown Mitsubishi terrier. Up...,,,,https://twitter.com/dog_rates/status/666029285...,7,10,a,,,,
2355,666020888022790149,,,2015-11-15 22:32:08 +0000,"<a href=""http://twitter.com/download/iphone"" r...",Here we have a Japanese Irish Setter. Lost eye...,,,,https://twitter.com/dog_rates/status/666020888...,8,10,,,,,


In [18]:
twitter.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2356 entries, 0 to 2355
Data columns (total 17 columns):
tweet_id                      2356 non-null int64
in_reply_to_status_id         78 non-null float64
in_reply_to_user_id           78 non-null float64
timestamp                     2356 non-null object
source                        2356 non-null object
text                          2356 non-null object
retweeted_status_id           181 non-null float64
retweeted_status_user_id      181 non-null float64
retweeted_status_timestamp    181 non-null object
expanded_urls                 2297 non-null object
rating_numerator              2356 non-null int64
rating_denominator            2356 non-null int64
name                          2356 non-null object
doggo                         2356 non-null object
floofer                       2356 non-null object
pupper                        2356 non-null object
puppo                         2356 non-null object
dtypes: float64(4), int64(3), ob

In [24]:
twitter.text.value_counts()

Downright majestic af 12/10 https://t.co/WFh2FEbYzj                                                                                                              1
Like father (doggo), like son (pupper). Both 12/10 https://t.co/pG2inLaOda                                                                                       1
This pupper forgot how to walk. 12/10 happens to all of us (vid by @bbuckley96) https://t.co/KFTrkSOuu3                                                          1
RT @dog_rates: This is Gromit. He's pupset because there's no need to beware of him. Just wants a pettin. 10/10 https://t.co/eSvz4EapHH                          1
This is Coco. She gets to stay on the Bachelor for another week. Super pumped 11/10 https://t.co/wsCB6LFNxD                                                      1
This is Loki. He knows he's adorable. One ear always pupared. 12/10 would snug in depicted fashion forever https://t.co/OqNggd4Oio                               1
This is Gary. He's a h

## 评估
## 清理

### 问题1

#### 定义  
- 选择所有非描述且拼写错误的列标题 (ApplicationP、AboutC、RequiredQual、JobRequirment) 并替换为完整单词 (ApplicationProcedure、AboutCompany、RequiredQualifications、JobRequirements)

#### 代码

#### 测试

## 分析和可视化

#### 质量
##### `patients` 表格
- 邮编是浮点，而不是字符串
- 邮编有时是四位数
- Tim Neudorf 的身高是 27 英尺，而不是 72 英尺
- 有时使用州的全称，其他用简称
- Dsvid Gustafsson
- 缺少人口统计信息 (地址列至联系方式列) ***(无法清理)***
- 错误的数据类型 (指定性别、州、邮编和出生日期列)
- 多个手机号格式
- John Doe 的默认数据
- Jakobsen、Gersten、Taylor 多条记录
- Zaitseva 体重单位是 kgs，不是 lbs 

##### `treatments` 表格
- 缺少 HbA1c 变化
- Auralin 和 Novodra 初始剂量和最终剂量中的字母 'u' 
- 小写形式的姓和名
- 缺少记录 (280 而不是 350)
- 错误的数据类型 (auralin 和 novodra 列)
- HbA1c 变化不准确 (首个 4s 误写为 9s)
- auralin 和 novodra 列中空值用破折号 (-) 表示

##### `adverse_reactions` 表格
- 小写形式的姓和名

#### 清洁度
-  `patients` 表格中的联系方式一列应该拆分为两个变量：手机号和邮箱
-  `treatments` 表格两列中的三个变量 (治疗、初始剂量和最终剂量)
- 不良反应应是 `treatments` 表格的一部分
-  `patients` 表格中的姓和名两列复制到 `treatments` 和 `adverse_reactions` 表格中

## 清理