# Assessing
# 评估数据

## Gather

In [1]:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', 100)  # 设置显示数据的最大列数，防止出现省略号…，导致数据显示不全
pd.set_option('expand_frame_repr', False)  # 当列太多时不自动换行

In [2]:
patients = pd.read_csv('patients.csv')
treatments = pd.read_csv('treatments.csv')
adverse_reactions = pd.read_csv('adverse_reactions.csv')

## Assess

- ### patients/病人 表

In [3]:
#显示前5行
patients.head()

Unnamed: 0,patient_id,assigned_sex,given_name,surname,address,city,state,zip_code,country,contact,birthdate,weight,height,bmi
0,1,female,Zoe,Wellish,576 Brown Bear Drive,Rancho California,California,92390.0,United States,951-719-9170ZoeWellish@superrito.com,7/10/1976,121.7,66,19.6
1,2,female,Pamela,Hill,2370 University Hill Road,Armstrong,Illinois,61812.0,United States,PamelaSHill@cuvox.de+1 (217) 569-3204,4/3/1967,118.8,66,19.2
2,3,male,Jae,Debord,1493 Poling Farm Road,York,Nebraska,68467.0,United States,402-363-6804JaeMDebord@gustr.com,2/19/1980,177.8,71,24.8
3,4,male,Liêm,Phan,2335 Webster Street,Woodbridge,NJ,7095.0,United States,PhanBaLiem@jourrapide.com+1 (732) 636-8246,7/26/1951,220.9,70,31.7
4,5,male,Tim,Neudorf,1428 Turkey Pen Lane,Dothan,AL,36303.0,United States,334-515-7487TimNeudorf@cuvox.de,2/18/1928,192.3,27,26.1


`patients` 列:
- **patient_id**: 生产Auralin的制药公司的[主患者指数](https://en.wikipedia.org/wiki/Enterprise_master_patient_index)（即患者数据库）中每位患者的唯一标识符
- **assigned_sex**: 出生时每位患者的指定性别（男性或女性）
- **given_name**: 每个患者的名字
- **surname**: 每位患者的姓氏
- **address**: 每位患者的主要地址
- **city**: 每个病人主要地址的相应城市
- **state**: 每个患者主要地址的对应状态
- **zip_code**: 每个患者主要地址的相应邮政编码
- **country**: 每个患者主要地址的相应国家（本次临床试验的所有美国）
- **contact**: 每位患者的电话号码和电子邮件信息
- **birthdate**: 每位患者的出生日期（月/日/年）。该临床试验的纳入标准是年龄>=18 （没有最大年龄，因为糖尿病是老年人群中日益严重的问题）
- **weight**: 每位患者的体重（lbns/ 磅）
- **height**: 每位患者的身高（in/ 英寸）
- **bmi**: 每位患者的体重指数（BMI）。BMI是一个使用人的身高和体重的简单计算。公式为BMI = kg/m<sup>2</sup>，其中kg是一个人的体重（千克），m<sup>2</sup>是他们的身高（米）。BMI为25.0或以上是超重，而健康范围为18.5至24.9。该临床试验的纳入标准是16 >= BMI >= 38。

In [4]:
# 简单摘要
patients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 503 entries, 0 to 502
Data columns (total 14 columns):
patient_id      503 non-null int64
assigned_sex    503 non-null object
given_name      503 non-null object
surname         503 non-null object
address         491 non-null object
city            491 non-null object
state           491 non-null object
zip_code        491 non-null float64
country         491 non-null object
contact         491 non-null object
birthdate       503 non-null object
weight          503 non-null float64
height          503 non-null int64
bmi             503 non-null float64
dtypes: float64(3), int64(2), object(9)
memory usage: 55.1+ KB


In [5]:
# 各列汇总统计数据
patients.describe()

Unnamed: 0,patient_id,zip_code,weight,height,bmi
count,503.0,491.0,503.0,503.0,503.0
mean,252.0,49084.118126,173.43499,66.634195,27.483897
std,145.347859,30265.807442,33.916741,4.411297,5.276438
min,1.0,1002.0,48.8,27.0,17.1
25%,126.5,21920.5,149.3,63.0,23.3
50%,252.0,48057.0,175.3,67.0,27.2
75%,377.5,75679.0,199.5,70.0,31.75
max,503.0,99701.0,255.9,79.0,37.7


In [6]:
# 随机样本
patients.sample(5)

Unnamed: 0,patient_id,assigned_sex,given_name,surname,address,city,state,zip_code,country,contact,birthdate,weight,height,bmi
461,462,male,Cannan,Cabrera,2102 Geraldine Lane,New York,NY,10014.0,United States,646-289-4177CannanCabreraOrdonez@superrito.com,10/12/1980,209.7,71,29.2
219,220,male,Mỹ,Quynh,,,,,,,4/9/1978,237.8,69,35.1
497,498,male,Masataka,Murakami,1179 Patton Lane,Tulsa,OK,74116.0,United States,MasatakaMurakami@einrot.com+1 (918) 984-9171,8/19/1937,155.1,72,21.0
380,381,female,Silje,Kristiansen,4992 Moonlight Drive,Pleasantville,NJ,8232.0,United States,SiljeAKristiansen@dayrep.com609-641-2070,2/7/1996,162.4,64,27.9
272,273,female,Klementyna,Sokołowska,202 Ingram Street,Dayton,OH,45402.0,United States,KlementynaSokolowska@superrito.com+1 (937) 518...,3/6/1955,168.7,60,32.9


In [7]:
#　检查缺失数据
patients[patients['address'].isnull()]

Unnamed: 0,patient_id,assigned_sex,given_name,surname,address,city,state,zip_code,country,contact,birthdate,weight,height,bmi
209,210,female,Lalita,Eldarkhanov,,,,,,,8/14/1950,143.4,62,26.2
219,220,male,Mỹ,Quynh,,,,,,,4/9/1978,237.8,69,35.1
230,231,female,Elisabeth,Knudsen,,,,,,,9/23/1976,165.9,63,29.4
234,235,female,Martina,Tománková,,,,,,,4/7/1936,199.5,65,33.2
242,243,male,John,O'Brian,,,,,,,2/25/1957,205.3,74,26.4
249,250,male,Benjamin,Mehler,,,,,,,10/30/1951,146.5,69,21.6
257,258,male,Jin,Kung,,,,,,,5/17/1995,231.7,69,34.2
264,265,female,Wafiyyah,Asfour,,,,,,,11/3/1989,158.6,63,28.1
269,270,female,Flavia,Fiorentino,,,,,,,10/9/1937,175.2,61,33.1
278,279,female,Generosa,Cabán,,,,,,,12/16/1962,124.3,69,18.4


In [8]:
# 对surname列计数
patients.surname.value_counts()

Doe            6
Jakobsen       3
Taylor         3
Berg           2
Batukayev      2
Woźniak        2
Lương          2
Correia        2
Kadyrov        2
Liễu           2
Gersten        2
Aranda         2
Grímsdóttir    2
Dratchev       2
Nilsen         2
Tucker         2
Lund           2
Cabrera        2
Ogochukwu      2
Johnson        2
Tạ             2
Souza          2
Schiavone      2
Bùi            2
Parker         2
Silva          2
Hueber         2
Kowalczyk      2
Lâm            2
Collins        2
              ..
Vaneker        1
Selassie       1
Mathiesen      1
Markus         1
Villalpando    1
Jørgensen      1
Löfgren        1
Wubbels        1
Mobourne       1
Zsinkó         1
Filípek        1
She            1
Mikkelsen      1
Wieczorek      1
Zaitseva       1
Sokołowska     1
Miramontes     1
Østergaard     1
Leppäluoto     1
Mehari         1
Galić          1
Scheltens      1
Allaire        1
Nyborg         1
Cabán          1
Knutsen        1
Haugen         1
Konovšek      

In [9]:
# 对weight列值排序
patients.weight.sort_values()

210     48.8
459    102.1
335    102.7
74     103.2
317    106.0
171    106.5
51     107.1
270    108.1
198    108.5
48     109.1
478    109.6
141    110.2
38     111.8
438    112.0
14     112.0
235    112.2
307    112.4
191    112.6
408    113.1
49     113.3
326    114.0
338    114.1
253    117.0
321    118.4
168    118.8
1      118.8
350    119.0
207    119.2
265    120.0
341    120.3
       ...  
332    224.0
252    224.2
12     224.2
222    224.8
166    225.3
111    225.9
101    226.2
150    226.6
352    227.7
428    227.7
88     227.7
13     228.4
339    229.0
182    230.3
121    230.8
257    231.7
395    231.9
246    232.1
219    237.8
11     238.7
50     238.9
441    239.1
499    239.6
439    242.0
487    242.4
144    244.9
61     244.9
283    245.5
118    254.5
485    255.9
Name: weight, Length: 503, dtype: float64

In [10]:
# 打印address列重复值
patients[patients.address.duplicated()]

Unnamed: 0,patient_id,assigned_sex,given_name,surname,address,city,state,zip_code,country,contact,birthdate,weight,height,bmi
29,30,male,Jake,Jakobsen,648 Old Dear Lane,Port Jervis,New York,12771.0,United States,JakobCJakobsen@einrot.com+1 (845) 858-7707,8/1/1985,155.8,67,24.4
219,220,male,Mỹ,Quynh,,,,,,,4/9/1978,237.8,69,35.1
229,230,male,John,Doe,123 Main Street,New York,NY,12345.0,United States,johndoe@email.com1234567890,1/1/1975,180.0,72,24.4
230,231,female,Elisabeth,Knudsen,,,,,,,9/23/1976,165.9,63,29.4
234,235,female,Martina,Tománková,,,,,,,4/7/1936,199.5,65,33.2
237,238,male,John,Doe,123 Main Street,New York,NY,12345.0,United States,johndoe@email.com1234567890,1/1/1975,180.0,72,24.4
242,243,male,John,O'Brian,,,,,,,2/25/1957,205.3,74,26.4
244,245,male,John,Doe,123 Main Street,New York,NY,12345.0,United States,johndoe@email.com1234567890,1/1/1975,180.0,72,24.4
249,250,male,Benjamin,Mehler,,,,,,,10/30/1951,146.5,69,21.6
251,252,male,John,Doe,123 Main Street,New York,NY,12345.0,United States,johndoe@email.com1234567890,1/1/1975,180.0,72,24.4


BMI = kg/m<sup>2</sup>，其中kg是一个人的体重（千克），m<sup>2</sup>是他们的身高（米）。

In [11]:
# 身高体重比例
weight_lbs =192.3
height_in = 72
703 * weight_lbs / (height_in*height_in)

26.077719907407406

- ### treatments/治疗 表

In [12]:
treatments.head()

Unnamed: 0,given_name,surname,auralin,novodra,hba1c_start,hba1c_end,hba1c_change
0,veronika,jindrová,41u - 48u,-,7.63,7.2,
1,elliot,richardson,-,40u - 45u,7.56,7.09,0.97
2,yukitaka,takenaka,-,39u - 36u,7.68,7.25,
3,skye,gormanston,33u - 36u,-,7.97,7.62,0.35
4,alissa,montez,-,33u - 29u,7.78,7.46,0.32


`treatments` 列:
- **given_name**: 参与临床试验的主患者指数中每位患者的名字
- **surname**: 参与临床试验的主患者指数中每位患者的姓氏
- **auralin**: 在治疗的第24周测量的24周治疗结束时，转换为Auralin前一周的胰岛素基线中位日剂量（短跑前的数字）和胰岛素的终止中位日剂量（短划线后的数字）。两者都以单位（短'u'）来衡量，这是国际测量单位和胰岛素的标准测量。
- **novodra**: 与上述相同，但继续用Novodra治疗的患者除外
- **hba1c_start**: 患者在治疗第一周开始时的HbA1c水平。HbA1c代表血红蛋白A1c。该糖化血红蛋白测试测量的是平均血糖已经在过去的三个月。因此，它是一种了解糖尿病控制情况的有效方法。每个患有糖尿病的人都应该每年进行2到4次这种测试。以％计。
- **hba1c_end**: 治疗最后一周末患者的HbA1c水平
- **hba1c_change**: 患者HbA1c水平从治疗开始到结束的变化，即`hba1c_start` - `hba1c_end`。对于Auralin被认为有效，它必须与目前的胰岛素标准Novodra“非劣效”。这种“非劣效性”在统计学上定义为95％置信区间的上限小于0.4％，对于Novodra和Auralin（即Novodra减去Auralin）的平均HbA1c变化之间的差异。

In [13]:
treatments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 280 entries, 0 to 279
Data columns (total 7 columns):
given_name      280 non-null object
surname         280 non-null object
auralin         280 non-null object
novodra         280 non-null object
hba1c_start     280 non-null float64
hba1c_end       280 non-null float64
hba1c_change    171 non-null float64
dtypes: float64(3), object(4)
memory usage: 15.4+ KB


In [14]:
treatments.describe()

Unnamed: 0,hba1c_start,hba1c_end,hba1c_change
count,280.0,280.0,171.0
mean,7.985929,7.589286,0.546023
std,0.568638,0.569672,0.279555
min,7.5,7.01,0.2
25%,7.66,7.27,0.34
50%,7.8,7.42,0.38
75%,7.97,7.57,0.92
max,9.95,9.58,0.99


In [15]:
sum(treatments.auralin.isnull())

0

In [16]:
sum(treatments.novodra.isnull())

0

- ### adverse_reactions/不良反应 表

In [17]:
adverse_reactions.head()

Unnamed: 0,given_name,surname,adverse_reaction
0,berta,napolitani,injection site discomfort
1,lena,baer,hypoglycemia
2,joseph,day,hypoglycemia
3,flavia,fiorentino,cough
4,manouck,wubbels,throat irritation


`adverse_reactions` 列:
- **given_name**: 主要患者指数中参与临床试验且有不良反应的每位患者的名字（包括治疗Auralin和Novodra的患者）
- **surname**: 主患者指数中每位患者的姓氏，参与临床试验并有不良反应（包括治疗Auralin和Novodra的患者）
- **adverse_reaction**: 患者报告的不良反应

其他有用信息:
- 胰岛素抵抗因人而异，这就是为什么需要起始中位日剂量和终止中位日剂量，即计算剂量变化的原因。
- 在他们想要帮助的人中测试药物和医疗产品是很重要的。不同年龄，种族，性别和种族的人必须参加临床试验。这种多样性反映在`patients`表中。
- 确保列名称具有足够的描述性是熟悉数据的重要一步。“足够描述性”是主观的。理想情况下，您需要短列名称（因此它们更容易以代码形式键入和读取），但也需要完全描述性。长度与描述性是一种权衡和共同的争论（变量名称存在类似的争论）。该auralin和novodra列名也有可能不是足够的描述，但你会解决以后，所以不要担心现在。

In [18]:
adverse_reactions.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 3 columns):
given_name          34 non-null object
surname             34 non-null object
adverse_reaction    34 non-null object
dtypes: object(3)
memory usage: 896.0+ bytes


In [19]:
adverse_reactions.describe()

Unnamed: 0,given_name,surname,adverse_reaction
count,34,34,34
unique,34,33,6
top,jia li,johnson,hypoglycemia
freq,1,2,19


In [20]:
all_colums = pd.Series(list(patients) + list(treatments) + list(adverse_reactions))
all_colums[all_colums.duplicated()]

14    given_name
15       surname
21    given_name
22       surname
dtype: object

## Quality
####  *`treatment`表*
- 丢失数据(应该350名患者，实际280)
- 缺少hba1c_change
- 'auralin`和`novodra`列中的起始剂量和最终剂量旁边的'u'
- 小写名称
- 错误数据类型（zip_code, assigned sex, state, birthday）
- 错误的HbA1c change

#### `patients`表
- zip_code格式不佳（例如，四位数和浮点数据类型而不是五位数字和字符串或对象数据类型）
- 患者身高值不正确（例如，Tim Neudorf身高27英寸而不是72英寸）
- state不一致(有时是完整的州名，有时是缩写)
- Dsvid 拼写错误，应该是David
- 错误数据类型（auranlin and novodra colums）
- 话号码格式不一致
- 有不可恢复的无名氏记录
- Jakobsen, Gersten, Taylor有多项记录
- Zaitseva的重量是“kgs”而不是“lbs”（磅）

#### `adverse_reactions`表
- 小写名称

### 数据质量维度
数据质量维度有助于在评估和清洁时指导您的思维过程。四个主要数据质量维度是：

- **Completeness 完整性**：我们是否拥有所有应该记录的记录？我们是否缺少记录？是否缺少特定的行，列或单元格？
- **Validity 有效性**：我们有记录，但它们无效，即它们不符合已定义的模式。模式是一组定义的数据规则。这些规则可以是现实世界的约束（例如，负高度是不可能的）和特定于表的约束（例如表中的唯一键约束）。
- **Accuracy 准确性**：不准确的数据是有效的错误数据。它遵循已定义的架构，但仍然不正确。例如：患者的体重因重量过大而重5磅太重。
- **Consistency 一致性**：不一致的数据既有效又准确，但有多种正确的方法可以引用相同的内容。期望在表中和/或表内表示相同数据的列中的一致性，即标准格式。

### Tidiness
- 联系人列表中，电话和邮箱应该分为两列
- 治疗表中，将auranlin and novodra 分为三个变量（treatment, start does and end does）

### 脏数据的来源
**脏数据=低质量数据=内容问题**

脏数据有很多来源。基本上，只要人类参与其中，就会有脏数据。我们有很多方法可以处理我们使用的数据。

- 我们将有用户输入错误。
- 在某些情况下，我们不会有任何数据编码标准，或者我们确实有标准，它们将很难应用，导致结果数据出现问题
- 我们可能必须集成数据，其中不同的模式已用于相同类型的项目。
- 我们将拥有遗留数据系统，当光盘和内存限制比现在更严格时，数据不会被编码。随着时间的推移系统发展。需求变化，数据变化。
- 我们的一些数据不具备应有的唯一标识符。
- 在从一种格式到另一种格式的转换中，其他数据将丢失。
- 然后，当然，程序员总是会出错。
- 最后，数据可能在宇宙射线或其他物理现象的传输或存储中被破坏。嘿，这不是我们的错。

### 凌乱数据的来源
- **凌乱的数据=不整洁的数据=结构问题**

- **凌乱的数据通常是数据规划不佳的结果**。或者缺乏对整洁数据的好处的认识。幸运的是，凌乱的数据通常比上面提到的大多数脏数据源更容易解决。