# 项目：调查数据集（未前往就诊的挂号预约）

## 目录
<ul>
<li><a href="#intro">简介</a></li>
<li><a href="#wrangling">数据整理</a></li>
<li><a href="#eda">探索性数据分析</a></li>
<li><a href="#conclusions">结论</a></li>
</ul>

<a id='intro'></a>
## 简介

> **提示**：在这一段报告中对你选择进行分析的数据集进行简要介绍。在本段末尾，对你计划在报告过程中探索的问题进行描述。自己尝试建立至少一个因变量和三个自变量的分析报告。如果你不确定要问什么问题，务必熟悉数据集、数据集变量以及数据集上下文，以便确定要探索的问题。

> 如果尚未选择和下载数据，务必先进行这一步，再回到这里。如需在这个工作区中处理数据，还需要将其上传到工作区。因此，请单击左上角的 jupyter 图标，回到工作区目录。右上角有一个‘上传’按钮，可以将你的数据文件添加到工作区。然后单击 .ipynb 文件名，回到这里。

In [1]:
# 用这个框对你计划使用的所有数据包设置
#   导入语句。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("noshowappointments-kagglev2-may-2016.csv")

# 务必包含一个‘咒语’，以便将你的视图
#   与 notebook 保持一致。关于更多信息，请访问这个网页：
#   http://ipython.readthedocs.io/en/stable/interactive/magics.html
%matplotlib inline

UsageError: Line magic function `%` not found.


<a id='wrangling'></a>
## 数据整理

> **提示**：在这一段报告中载入数据，检查简洁度，然后整理和清理数据集，以进行分析。务必将步骤仔细归档，并确定清理决策是否正确。

### 常规属性

In [None]:
# 加载数据并打印几行。进行几项操作，检查数据
#   类型，以及是否有缺失数据或错误数据。

使用head()功能查看數據內容，檢查標題與內容分隔是否正確

In [None]:
df.head()

使用info()功能，檢查數據是否有缺失值

In [None]:
df.info()

由上述兩個函式的結果來看，欄位與數據內容沒有擠在同一欄有分隔，且各欄的數據並無缺失值。

> **提示**：_不应_在每个框中进行太多操作。可以自由创建框，进行数据探索。在这个项目中，可以在初始 notebook 中进行大量探索操作。不要求对其进行组织，但务必仔细阅读备注，理解每个代码框的用途。完成分析之后，可以创建 notebook 副本，在其中去除多余数据，组织步骤，从而形成结构连贯、紧密的报告。

> **提示**：务必向你的读者告知你在调查中采取的步骤。在每个代码框或每组相关代码框后面，用 markdown 框对前面的框中的调查结果向读者进行说明。尽量做到这一点，以便读者理解后续框中的内容。

### 数据清理（未前往就诊的挂号预约）

In [None]:
# 讨论数据结构和需要解决的任何问题之后，
#   在本段的第二部分进行这些清理步骤。


**datetime型: **由於'ScheduledDay'和'AppointmentDay'不是datetime型，可以使用pandas的to_datetime()函式將字符改為datetime型，以方便後續分析

In [None]:
df['ScheduledDay'] = pd.to_datetime(df['ScheduledDay'])
df['AppointmentDay'] = pd.to_datetime(df['AppointmentDay'])

In [None]:
df.info()

現在，可以看到'ScheduledDay'和'AppointmentDay'已是datetime型了。

**重命名列:**重命名所有列標籤，將 '-' 替換為 '_' ，並將所有內容轉換為小寫


In [None]:
df.rename(columns=lambda x: x.strip().lower().replace("-", "_"), inplace=True)

In [None]:
#檢視目前所有列標籤
df.info()

確認所有列標籤都改為小寫與下划線

In [None]:
# 瞭解數據集的日期
df['scheduledday'].value_counts().sort_index()

**轉換列值: **為了方便數據分析，將no_show的string型轉換成int型，新增noshow欄位以紀錄這項數據。

no_show = No 轉換成 noshow = 0，表示病人已依約就診。

no_show = Yes 轉換成 noshow = 1，表示病人未前往就診。

In [None]:
#複製兩個數據集
df_no = df.copy()
df_yes = df.copy()

In [None]:
#df_no數據集保留no_show = No
#df_yes數據集保留no_show = Yes
df_no = df_no[df_no.no_show == 'No']
df_yes = df_yes[df_yes.no_show == 'Yes']

In [None]:
#確認no_show的唯一值為No
df_no['no_show'].unique()

In [None]:
#確認no_show的唯一值為Yes
df_yes['no_show'].unique()

In [None]:
#查看数据集维度
df_no.shape

In [None]:
#查看数据集维度
df_yes.shape

In [None]:
#為no_show = No的數據集創建數字组0
noshow_no = np.repeat('0', 88208)
noshow_no

In [None]:
#為no_show = Yes的數據集創建數字组1
noshow_yes = np.repeat('1', 22319)
noshow_yes

將名為noshow的新列新增到數據組，並丟棄原本no_show列。

In [None]:
#將noshow = 0新增到數據集df_no
df_no.loc[:,'noshow'] = noshow_no
#將原本no_show列丟棄
df_no.drop(['no_show'], axis=1, inplace=True)
df_no.tail()

In [None]:
#將noshow = 1新增到數據集df_yes
df_yes.loc[:,'noshow'] = noshow_yes
#將原本no_show列丟棄
df_yes.drop(['no_show'], axis=1, inplace=True)
df_yes.tail()

In [None]:
#合併兩個數據集
new_df = df_no.append(df_yes, ignore_index=True)
new_df['noshow'] = pd.to_numeric(new_df['noshow'], downcast = 'integer')
new_df.info()

確認已合併兩個數據集，且新增列標籤noshow,並丟棄no_show

<a id='eda'></a>
## 探索性数据分析

> **提示**：整理和清理数据之后，现在可以进行探索。计算统计值，创建视图，解决你在简介段提出的研究问题。建议采用系统化方法。一次探索一个变量，然后探索变量之间的关系。

### 研究问题 1（探討是否有巴西福利项目與是否有就診的比例！）

In [None]:
#獲取是否有巴西福利项目和是否就診的數量
scholarship_counts = new_df.groupby(['scholarship','noshow']).count()['patientid']
scholarship_counts

In [None]:
#獲取是否有巴西福利项目的總數
scholarship_totals = new_df.groupby('scholarship').count()['patientid']
scholarship_totals

In [None]:
#將沒有巴西福利项目的數量除以沒有巴西福利项目的總數，以獲取是否就診的比例
no_schr_proportions = scholarship_counts[0] / scholarship_totals[0]
no_schr_proportions

In [None]:
#將有巴西福利项目的數量除以有巴西福利项目的總數，以獲取是否就診的比例
yes_schr_proportions = scholarship_counts[1] / scholarship_totals[1]
yes_schr_proportions

**在柱狀圖上繪製比例**

設置兩個項目的 x 座標位置和每個條柱的寬度。

In [None]:
ind = np.arange(len(no_schr_proportions))  # 組的 x 座標位置
width = 0.35       # 條柱的寬度

In [None]:
# 繪製條柱
no_bar = plt.bar(ind, no_schr_proportions, width, color='r', alpha=.7, label='Without Scholarship')
yes_bar = plt.bar(ind + width, yes_schr_proportions, width, color='b', alpha=.7, label='With Scholarship')

# 標題與標籤
plt.ylabel('Proportion')
plt.xlabel('No-show')
plt.title('Proportion by Scholarship and No-show')
locations = ind + width / 2  # x 座標刻度位置
labels = ['No', 'Yes']  # x 座標刻度標籤
plt.xticks(locations, labels)

# 圖例
plt.legend()

**結論**

1.在有就診的情況下，沒有福利項目的比例高於有福利項目。

2.在沒有就診的情況下，有福利項目的比例高於沒有福利項目。

### 研究问题 2（探討性別與是否有就診的比例！）

In [None]:
#獲取性別與是否就診的數量
gender_counts = new_df.groupby(['gender','noshow']).count()['patientid']
gender_counts

In [None]:
#獲取性別與是否就診的總數
gender_totals = new_df.groupby('gender').count()['patientid']
gender_totals

In [None]:
#將女性的數量除以女性的總數，以獲取是否就診的比例
f_proportions = gender_counts['F'] / gender_totals['F']
f_proportions

In [None]:
#將男性的數量除以男性的總數，以獲取是否就診的比例
m_proportions = gender_counts['M'] / gender_totals['M']
m_proportions

In [None]:
ind = np.arange(len(f_proportions))  # 組的 x 座標位置
width = 0.3       # 條柱的寬度

In [None]:
# 繪製條柱
f_bar = plt.bar(ind, f_proportions, width, color='r', alpha=.7, label='Female')
m_bar = plt.bar(ind + width, m_proportions, width, color='b', alpha=.7, label='Male', )

# 標題與標籤
plt.ylabel('Proportion')
plt.xlabel('No-show')
plt.title('Proportion by Gender and No-show')
locations = ind + width / 2  # x 座標刻度位置
labels = ['No', 'Yes']  # x 座標刻度標籤
plt.xticks(locations, labels)

# 圖例
plt.legend()

**結論**

可以發現性別與是否就診的情況並無太大的差異，亦即性別不影響是否就診的關係

### 研究问题 3（探討年紀越輕的人 No-show的比例更高嗎?）

In [None]:
# 先檢查每個年紀的次數
df['age'].value_counts()

In [None]:
# 由於數據的排序是依照年紀次數降冪排序，先將資料調整為以年紀做升冪排序
## 複製一個新的數據集
age_df = new_df.copy()
## 將數據集依年紀做升冪排序
age_df.sort_values(by=['age'], inplace = True)
## 檢查每個年紀的次數
age_df['age'].value_counts().sort_index()

In [None]:
#發現年紀數據中有負數的，由於年紀不可能有負數，所以先過濾負數的數據
age_df = age_df[age_df.age != -1] 

In [None]:
# 再次檢查每個年紀的次數
age_df['age'].value_counts().sort_index()

數據集中已沒有年紀為負數的資料

In [None]:
# 刪除不需要的欄位
age_df = age_df.drop(['patientid', 'appointmentid', 'scheduledday', 'appointmentday', 'gender', 'neighbourhood', 'scholarship', 'hipertension', 'diabetes', 'alcoholism', 'handcap', 'sms_received'], axis = 1 );

In [None]:
# 檢視目前數據集的欄位
age_df.info()

In [None]:
# 獲取年紀的平均數
age_df['age'].describe()

In [None]:
# 選擇年紀小於平均值的樣本
young_age = age_df.query('age < 37.089219')
# 選擇年紀大於平均值的樣本
elder_age = age_df.query('age >= 37.089219')
# 確保查詢中的每個樣本只出現一次
num_age = age_df.shape[0]
num_age == young_age['noshow'].count() + elder_age['noshow'].count()

In [None]:
#年紀小於平均值的樣本，其是否就診的次數
young_counts = young_age.groupby('noshow').count()
#年紀大於平均值的樣本，其是否就診的次數
elder_counts = elder_age.groupby('noshow').count()

In [None]:
#年紀小於平均值的樣本總數
young_totals = young_age.count()
#年紀大於平均值的樣本總數
elder_totals = elder_age.count()

In [None]:
#年紀小於平均值的樣本總數，其是否就診的比例
young_proportions = young_counts['age'] / young_totals['age']
young_proportions

In [None]:
#年紀大於平均值的樣本總數，其是否就診的比例
elder_proportions = elder_counts['age'] / elder_totals['age']
elder_proportions

In [None]:
#將兩個數據集合併為一個數據集
#參考作法: https://stackoverflow.com/questions/36539396/how-to-create-a-dataframe-while-preserving-order-of-the-columns
from collections import OrderedDict
age_proportions = pd.DataFrame(OrderedDict({'younger':young_proportions, 'elder':elder_proportions}))
age_proportions

In [None]:
# 以圓餅圖呈現年紀小於平均值，其是否就診的比例，與年紀大於平均值，其是否就診的比例
age_proportions.plot(kind='pie', labels=['No','Yes'], autopct='%.2f%%', subplots=True, figsize=(12, 6), title = 'Proportion of Age and No-Show');

**結論**

由以上數據可發現，年紀較輕的人其不依約就診的比例高於年紀較大的人

<a id='conclusions'></a>
## 结论

> **提示**：最后，总结你的调查结果。确保了解探索结果的限制。如果尚未进行任何统计检验，不要做出任何统计结论。切记不要根据相互关系推导出因果关系！

> **提示**：如果对报告满意，应将其副本保存为 HTML 或 PDF 形式。导出报告之前请检查一遍，确保报告流程完整。应删除所有类似的“提示”引用段，以保持报告简洁。还需要查看课程结尾的项目提交页的项目审阅规范。

> 如需将报告导出到工作区，应运行下面的代码框。如果正确，会返回代码 0，工作区目录下会生成 .html 文件（单击左上角的 jupyter 图标）。也可以通过 **文件** > **下载为** 子菜单下载 html 报告，然后手动上传到工作区目录。完成之后，可以单击右下角的“提交项目”，提交你的项目。恭喜！

**總結**

因數據內容為2015和2016兩年的數據，所以上述調查結果只適用於分析這兩年是否就診的情況。對於未來的預測，可能會因其他因子的改變，而影響年紀或性別等與是否就診的關係！


**附著** 項目過程中參考的網站

1. https://stackoverflow.com/questions/36539396/how-to-create-a-dataframe-while-preserving-order-of-the-columns
