In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.set_theme() # Apply the default theme

# **A. THU THẬP DỮ LIỆU**

### *1. Ngữ cảnh, câu chuyện gì khiến nhóm sinh viên thực hiện việc tìm kiếm dữ liệu?*
* Trong đời sống hiện đại, sức khỏe là một trong những khía cạnh được con người quan tâm nhiều nhất. Theo Tổ chức Y tế Thế giới (WHO), đột quỵ là nguyên nhân gây tử vong đứng thứ 2 trên toàn cầu, chiếm khoảng 11% tổng số ca tử vong. Vì vậy, nhóm 15 quyết định tìm hiểu dữ liệu về các yếu tố và hành vi trong cuộc sống có thể dẫn đến nguy cơ đột quỵ.

### *2. Dữ liệu mà nhóm sinh viên là về chủ đề gì và lấy từ nguồn nào?*
* Dữ liệu nhóm cung cấp về chủ đề Các yếu tố và thói quen sinh hoạt của bệnh nhân có thể dẫn đến nguy cơ đột quỵ. Dữ liệu này được sử dụng để dự đoán, xác định xem một bệnh nhân có khả năng bị đột quỵ hay không dựa vào các yếu tố như giới tính, độ tuổi, bệnh cao huyết áp, tình trạng bệnh tim, tình trạng kết hôn, tính chất công việc, môi trường sinh sống, chỉ số đường huyết, chỉ số BMI, tình trạng hút thuốc của bệnh nhân.
* Nguồn: Stroke Prediction Dataset từ Kaggle, https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset

### *3. Người ta có cho phép sử dụng dữ liệu như thế này hay không?*
* Người cung cấp dataset cho phép sử dụng dữ liệu với mục đích giáo dục. Trong phần Acknowledgements có chú thích: (Confidential Source) - Use only for educational purposes.

### *4. Người ta đã thu thập dữ liệu này như thế nào? Phương pháp thực hiện là gì?*
* Về vấn đề cách thức thu thập dữ liệu, Dataset Creator đã công bố trên Kaggle Discussion, về vấn đề bảo mật quyền riêng tư, các nguồn thông tin và phương pháp thu thập dữ liệu trong dataset chỉ được lưu hành nội bộ.
* Link bài đăng của Dataset Creator: https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset/discussion/237113

# **B. KHÁM PHÁ DỮ LIỆU**

## **1. Đọc dữ liệu và một số thông tin phổ biến**

In [None]:
patient_df = pd.read_csv('healthcare_dataset_stroke.csv', index_col='id')
patient_df.head()

* Số dòng và cột của dataset

In [None]:
n_rows, n_cols = patient_df.shape
print(f"Number of rows: {n_rows}")
print(f"Number of columns: {n_cols}")

* Dữ liệu có bị lặp

In [None]:
is_duplicate_rows = patient_df.duplicated().any()
is_duplicate_rows

## **2. Khám phá dữ liệu**

### *2.1. Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?*
* Theo mô tả dữ liệu và quan sát sơ bộ Stroke Prediction Dataset, một dòng cho biết các thông tin về yếu tố và thói quen, hành vi có nguy cơ dẫn đến đột quỵ của một bệnh nhân. 
* Không có vấn đề các dòng có ý nghĩa khác nhau.

### *2.2. Mỗi cột có ý nghĩa gì?*
Ý nghĩa từng cột:
* **id**: mã định danh từng bệnh nhân, mỗi bệnh nhân có một mã định danh riêng.
* **gender**: giới tính của bệnh nhân, gồm 3 loại: 'Male', 'Female' và 'Other'.
* **age**: tuổi của từng bệnh nhân.
* **hypertension**: tình trạng bệnh cao huyết áp của bệnh nhân, gồm 2 loại: '0' nếu bệnh nhân không bị cao huyết áp và '1' nếu bệnh nhân có bệnh cao huyết áp.
* **heart_disease**: tình trạng bệnh tim của bệnh nhân, gồm 2 loại: '0' nếu bệnh nhân không bị bệnh tim và '1' nếu bệnh nhân có bệnh tim.
* **ever_married**: tình trạng kết hôn, gồm 2 loại: 'No' nếu bệnh nhân chưa từng kết hôn và 'Yes' nếu bệnh nhân đang hoặc đã từng kết hôn.
* **work_type**: loại công việc mà bệnh nhân đang làm, gồm 5 loại: 'Private', 'Self-employed', 'Govt_job', 'children' và 'Never_worked'.
* **Residence_type**: loại môi trường bệnh nhân sinh sống, gồm 2 loại: 'Rural' và 'Urban'.
* **avg_glucose_level**: chỉ số đường huyết của từng bệnh nhân.
* **bmi**: chỉ số Body Mass Index (BMI) của từng bệnh nhân.
* **smoking_status**: tình trạng hút thuốc của bệnh nhân, gồm 4 loại: 'formerly smoked', 'never smoked', 'smokes' và 'Unknown'.
* **stroke**: tình trạng bệnh nhân đã từng bị đột quỵ hay không, gồm 2 loại: '0' nếu bệnh nhân không bị đột quỵ và '1' nếu bệnh nhân từng bị đột quỵ.

### *2.3. Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp hay không?*

In [None]:
col_dtypes = patient_df.dtypes
col_dtypes

*Kiểm tra xem có cột nào có kiểu dữ liệu chưa phù hợp không?*
* Các cột `gender`, `ever_married`, `work_type`, `Residence_type`, `smoking_status` đều có dtype là object, thường ám chỉ kiểu chuỗi. Để kiểm tra được kiểu dữ liệu thật sự của các phần tử trong cột thì phải tiến hành truy xuất vào từng phần tử và dùng câu lệnh type để xem kiểu dữ liệu.

In [None]:
for i in range(len(patient_df)):
    assert type(patient_df['gender'].iloc[i]) == str
    assert type(patient_df['ever_married'].iloc[i]) == str
    assert type(patient_df['work_type'].iloc[i]) == str
    assert type(patient_df['Residence_type'].iloc[i]) == str
    assert type(patient_df['smoking_status'].iloc[i]) == str

* Như vậy, kiểu dữ liệu của các phần tử trong các cột `gender`, `ever_married`, `work_type`, `Residence_type`, `smoking_status` đều là kiểu chuỗi, nên phù hợp.
* Cột `id` có kiểu dữ liệu **int64** là phù hợp vì mã định danh của bệnh nhân đều ở dạng số nguyên. Còn các cột `hypertension`, `heart_disease`, `stroke` đều có dữ liệu dạng số là '0' và '1' nên kiểu dữ liệu **int64** là phù hợp.
* Các cột `age`, `avg_glucose_level`, `bmi` đều là những chỉ số, có thể không phải ở dạng số nguyên nên kiểu dữ liệu **float64** là phù hợp.

### *2.4. `Phân loại` các features dạng **Numerical** and **Categorical** và `sự phân bố` của các features*

#### 2.4.1. Phân loại
* Categorical: `gender`, `hypertension`, `heart_disease`, `ever_married`, `work_type`, `Residence_type`, `smoking_status`, `stroke`
  * Nominal: `gender`, `hypertension`, `heart_disease`, `ever_married`, `work_type`, `Residence_type`, `smoking_status`, `stroke`
  * Ordinal: không có dữ liệu được phân loại theo Ordinal.
* Numerical: `age`, `avg_glucose_level`, `bmi`
  * Discrete: không có dữ liệu được phân loại theo Discrete.
  * Continuous: `age`, `avg_glucose_level`, `bmi`

* Theo như data dictionary, nếu mà bệnh nhân được đánh dấu là 1, thì người ấy bị đột quỵ. Rõ ràng, số 0 hay 1 là một cái cờ hiệu để biết rằng bệnh nhân đó có bị đột quỵ hay không. Đúng, kiểu dữ liệu của column 'Stroke' là int64, điều này là nó thuộc loại số. Tuy nhiên, ta có thể thay đổi với những dòng lệnh sau.

In [None]:
patient_df['stroke'] = patient_df['stroke'].astype('category')

In [None]:
patient_df['stroke'].dtype

In [None]:
num_features = ['age', 'avg_glucose_level', 'bmi']
cat_features = ['gender', 'hypertension', 'heart_disease', 'ever_married', 'work_type', 'Residence_type', 'smoking_status']

features = num_features + cat_features
print(features)

* Chuyển những đặc trưng thuộc Categorical mà ta đã phân tích ở trên về đúng kiểu `category`

In [None]:
def convert_cat(df, features):
    for feature in features:
        df[feature] = df[feature].astype('category')

convert_cat(patient_df, cat_features)   

In [None]:
patient_df.info()

#### 2.4.2. Sự phân tán của các đặc trưng (Chỗ này có thể phân tích rõ xíu từng đặc trưng)

`Distribution of Numerical feature values across the samples`

In [None]:
patient_df.describe()

* Column 'bmi' có chứa giá trị null. Mình sẽ xử lý ở bước EDA
* Nhìn vào các giá trị min, std và max của 3 đặc trưng. Ta thấy có xuất hiện giá trị ngoại lai

`Distribution of Categorical feature values across the samples`

In [None]:
patient_df.describe(include='category')

#### Biến mục tiêu: Stroke

In [None]:
stroke_df = patient_df['stroke'].value_counts().to_frame()

In [None]:
patient_df['stroke'].value_counts(normalize=True).to_frame()

In [None]:
sizes = np.asarray(stroke_df).flatten()
labels = 'non-stroke', 'stroke'
explode = (0, 0.2)

fig,ax = plt.subplots(figsize=(8,5))

ax.pie(sizes, explode=explode, labels=labels,
        autopct='%1.2f%%',
        shadow=True, startangle=90)

ax.axis('equal')
ax.set_title(label="Tỷ lệ người bị bệnh đột quỵ và không đột quỵ", loc='left');

Dữ liệu mà ta đang trực quan có 4.87% người bị mắc bệnh đột quỵ.

### *2.5. Feature Engineering and Data Wrangling (Data pre-processing)*

* Tiền xử lý Feature `BMI`

In [None]:
def display_missing(df, feature_cols):
    n_rows = df.shape[0]
    for col in feature_cols:
        missing_count = df[col].isnull().sum()
        if missing_count > 0:
            print(f"Column {col} has {missing_count/n_rows*100:.2f} % missing values.")

display_missing(patient_df, patient_df.columns)

In [None]:
patient_df['bmi'].describe()

In [None]:
sns.boxplot(data=patient_df, x='bmi')
plt.title("Sự phân tán của thuộc tính BMI");

* Ta thấy giá trị mean = 28.89 và độ lệch chuẩn std = 7.85
* Tuy nhiên, giá trị max = 97.6. Xuất hiện giá trị ngoại lai. Vì vậy, ta không thể dùng fill null bằng chiến lược điền bằng mean vì có thể gây ra sai số nhiều.

* Chiến lược ta sẽ chọn 1 giá trị bmi `hợp lý` dựa vào feature `age`

`B1:` Ta nhóm các giá trị độ tuổi thành từng nhóm trẻ em (0-16), thanh niên (16-40), trung niên (40-65), cao tuoi (65-100)

In [None]:
patient_df['age_title'] = pd.cut(patient_df['age'], bins=[0,11,17,29,44,64,100], 
                                 labels=["Trẻ em", "Thiếu niên", "Thanh niên", "Người lớn", "Trung niên", "Cao tuổi"])

`B2:` Ta nhóm cột `Title` (theo loại độ tuổi) và tính giá trị `bmi` theo từng loại

In [None]:
bmi_by_gender_age = patient_df.groupby(['age_title']).median(numeric_only=True)['bmi'].to_frame()
bmi_by_gender_age

`B3:` Điền những giá trị `bmi` vào chỗ null sao cho hợp lý.

In [None]:
patient_df['bmi'] = patient_df.groupby(['age_title'])['bmi'].apply(lambda x: x.fillna(x.median()))

In [None]:
count = patient_df['bmi'].isna().sum()
print(f"Số lượng giá trị null của column bmi sau khi xử lý là: {count}")

**`Sau khi có xử lý các giá trị null ở column BMI`**
* `Ta phân loại BMI 5 mức độ béo phì theo WHO`
- Thiếu cân: < 18.5
- Cân đối: 18.5 - 24.9
- Thừa cân: 25-29.9
- Béo phì: 30-34.9
- Béo phì nguy hiểm: >= 35

In [None]:
patient_df['bmi_title'] = pd.cut(patient_df['bmi'], bins=[0, 18.5, 25, 30, 35, 100], right=False,
                   labels=["Thiếu cân", "Cân đối", "Thừa cân", "Béo phì", "Béo phì nguy hiểm"])

In [None]:
patient_df.head()
# patient_df['bmi_title'] = patient_df.drop("bmi_title", axis=1)

## 3. Correlating categorical features (Mối quan hệ)

### 3.1 Correlating categorical features
Categorical: `stroke`, `gender`, `hypertension`, `heart_disease`, `ever_married`, `work_type`, `Residence_type`, `smoking_status`

#### `Gender: giới tính`

In [None]:
patient_df.groupby('gender')['stroke'].value_counts().to_frame()

In [None]:
people_by_stroke = patient_df.loc[(patient_df.stroke == 1),('stroke','gender')]

In [None]:
sns.countplot(data=people_by_stroke, x='gender')
plt.title("Số người mắc bệnh đột quỵ theo giới tính")
plt.xlabel("Giới tính")
plt.ylabel("Số lượng");

* **Nhận xét:** 
- Người có giới tính khác nam và nữ không có khả năng bị đột quỵ.
- Số lượng người bị đột quỵ xuất hiện nhiều ở giới tính nữ hơn là giới tính nam.

#### `Hypertension: tăng huyết áp ` 

In [None]:
fig = plt.figure(figsize=(15,8))
labels = 'non-stroke', 'stroke'
explode = (0, 0.1)

hpt_df=patient_df.groupby(['hypertension'])

hpt1_df=hpt_df.get_group(1)
stroke_hpt1_df=hpt1_df['stroke'].value_counts()
sizes1= np.asarray(stroke_hpt1_df).flatten()

hpt0_df=hpt_df.get_group(0)
stroke_hpt0_df=hpt0_df['stroke'].value_counts()
sizes0 = np.asarray(stroke_hpt0_df).flatten()

ax1 = plt.subplot2grid((1,2),(0,0))
plt.pie(sizes1, explode=explode, labels=labels,autopct='%2.2f%%', startangle=90,colors=('tab:gray','tab:orange'))
plt.title('Tỷ lệ người bị đột quỵ mà bị bệnh cao huyết áp', fontsize=16)

ax1 = plt.subplot2grid((1,2),(0,1))
plt.pie(sizes0, explode=explode, labels=labels,autopct='%5.2f%%', startangle=90,colors=('tab:gray','tab:orange'))
plt.title('Tỷ lệ người bị đột quỵ mà không bị bệnh cao huyết áp', fontsize=16);

#### `Heart disease: bệnh tim mạch`

In [None]:
fig = plt.figure(figsize=(15,8))
labels = 'non-stroke', 'stroke'
explode = (0, 0.1)
hds_df = patient_df.groupby(['heart_disease'])
hds1_df = hds_df.get_group(1)
stroke_hds1_df = hds1_df['stroke'].value_counts()
sizes1 = np.asarray(stroke_hds1_df).flatten()

hds0_df = hds_df.get_group(0)
stroke_hds0_df = hds0_df['stroke'].value_counts()
sizes0 = np.asarray(stroke_hds0_df).flatten()

ax1 = plt.subplot2grid((1,2),(0,0))
plt.pie(sizes1, explode=explode, labels=labels,autopct='%2.2f%%', startangle=90,colors=('tab:olive','tab:cyan'))
plt.title('Tỷ lệ người bị đột quỵ mà bị bệnh tim', fontsize=16)

ax1 = plt.subplot2grid((1,2),(0,1))
plt.pie(sizes0, explode=explode, labels=labels,autopct='%2.2f%%', startangle=90,colors=('tab:olive','tab:cyan'))
plt.title('Tỷ lệ người bị đột quỵ mà không bị bệnh tim', fontsize=16);

* **Nhận xét:** Tỷ lệ người bị đột quỵ mà mắc bệnh tim `gấp khoảng 4 lần` tỷ lệ người đột quỵ mà không bị bệnh tim.

#### `Married: tình trạng hôn nhân`

In [None]:
patient_df['ever_married'].value_counts()

In [None]:
sns.countplot(data=patient_df, x='stroke', hue='ever_married')

- Bước 1: Mình lọc ra những người thuộc độ tuổi có thể kết hơn ra trước (Nữ >= 18, Nam >= 21). Nếu không chia thì trẻ em cũng tính như chưa kết hôn sẽ ta trực quan bị nghiêng.
- Bước 2: Trực quan trên dữ liệu này.

In [None]:
patient_df['gender'].unique()

In [None]:
male_age_able_got_married = patient_df.loc[((patient_df.age >= 18)& (patient_df.gender=="Female")) |
                                             ((patient_df.age >= 21)& (patient_df.gender=="Male"))]

In [None]:
male_age_able_got_married

In [None]:
male_age_able_got_married.groupby(['ever_married'])['stroke'].value_counts()

#### `Smoke: hút thuốc`

In [None]:
ss_grp = patient_df.groupby('smoking_status')

SS_fig, axes = plt.subplots(2, 2, figsize = (12, 12))
explode = (0, 0.1)
labels = 'Non-stroke', 'Stroke'
colors = 'dodgerblue', 'sandybrown'

ss = []

for i, key in zip(range(0, len(ss_grp.groups.keys())), ss_grp.groups.keys()):
    ss.append(np.asarray(ss_grp.get_group(key)['stroke'].value_counts()))
    axes[i // 2, i % 2].pie(ss[i], 
                            explode = explode, labels = labels, colors = colors, autopct = '%2.2f%%', startangle = 90)
    axes[i // 2, i % 2].set_title(f"Status: {key}")
SS_fig.supxlabel('Percentage of people with stroke and their smoking status');

### 3.2 Correlating numerical features
* Numerical: `AGE`, `AVG_GLUCOZO_LEVEL`, `BMI` 

#### `Age`

In [None]:
sns.countplot(data=patient_df, x='age_title', hue='stroke');

*  **Nhận xét:** Ta thấy ở độ tuổi trung niên và cao tuổi có khả năng mắc bệnh đột quỵ cao hơn những người thuộc độ tuổi còn lại. Vì vậy, những người ở độ tuổi trung niên và cao tuổi cần hết sức cẩn thận.

In [None]:
sns.histplot(data=patient_df, x="age", hue='stroke', bins=40, kde=True);

* Phân tích tỷ lệ người mắc bệnh đột quỵ ở độ tuổi từ 78 đến 82.

In [None]:
num_patient_78_82 = patient_df.loc[(patient_df.age >= 78) & (patient_df.age <= 82), 'stroke'].value_counts()
print(f"Tỷ lệ bệnh nhân ở độ tuổi từ 78 đến 82 mắc bệnh đột quỵ là:{num_patient_78_82[1] / num_patient_78_82.sum() * 100: .2f}%")

* **Nhận xét:** 
- Bệnh đột quỵ có dấu hiệu xuất hiện ở tuổi 40 tuổi nhưng không quá nhiều.
- Độ tuổi 56-60, người ở độ tuổi này có dấu hiệu bị đột quỵ cao hơn so với người có độ tuổi 40.
- Từ 60-68 tuổi, mức độ đột quỵ không quá thay đổi nhiều.
- Người từ 68 trở đi thì tỷ lệ người đột quỵ có dấu hiệu tăng rõ rõ rệt hơn so với độ tuổi 56-60.
- Đỉnh điểm, người ở độ tuổi 78-82 có tỷ tỷ lệ bị mắc bệnh đột quỵ cực kỳ cao, `20.91%`. Chúng ta cần quan tâm cha mẹ hay ông bà nhiều hơn ở mức độ này.

#### `BMI (body mass ...)` 

In [None]:
patient_df.head()

In [None]:
sns.countplot(data=patient_df, x='bmi_title', hue='stroke');

* **Nhận xét:** 
- Người có chỉ số cơ thể ở mức `cân đối` thì vẫn có nguy cơ đột quỵ nhưng cũng không quá nhiều.
- Tuy nhiên, những người thừa cân, béo phì và béo phì nguy hiểm cần phải cẩn thận với bệnh đột quỵ

#### `Avg_glucozo_level: mức độ glucozo trung bình trong máu` 

In [None]:
stroke_df = patient_df.groupby(['stroke'])
stroke1_df = stroke_df.get_group(1)

sns.kdeplot(x = stroke1_df['avg_glucose_level'], y =stroke1_df['bmi'], fill=True);

## 4. Maching Learning

### `4.1 Chọn thuộc tính để chuẩn bị train mô hình`

In [136]:
num_features = ['age', 'avg_glucose_level', 'bmi']
cat_features = ['gender', 'hypertension', 'heart_disease', 'ever_married', 'smoking_status']

features = num_features + cat_features
print(features)

['age', 'avg_glucose_level', 'bmi', 'gender', 'hypertension', 'heart_disease', 'ever_married', 'smoking_status']


In [137]:
X = patient_df[features]
y = patient_df['stroke']

In [138]:
X.head()

Unnamed: 0_level_0,age,avg_glucose_level,bmi,gender,hypertension,heart_disease,ever_married,smoking_status
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
9046,67.0,228.69,36.6,Male,0,1,Yes,formerly smoked
51676,61.0,202.21,30.4,Female,0,0,Yes,never smoked
31112,80.0,105.92,32.5,Male,0,1,Yes,never smoked
60182,49.0,171.23,34.4,Female,0,0,Yes,smokes
1665,79.0,174.12,24.0,Female,1,0,Yes,never smoked


In [139]:
y.head()

id
9046     1
51676    1
31112    1
60182    1
1665     1
Name: stroke, dtype: category
Categories (2, int64): [0, 1]

### `4.2 Chia dữ liệu từ dataset ban đầu để train`
* X -> X_train chiếm `80%` và X_test chiếm `10%`

In [140]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

In [141]:
X_train.shape, X_test.shape

((4088, 8), (1022, 8))

### `4.3 Train mô hình`

* Một số thư kiện sklearn giúp ta pre-proccessing

In [142]:
#preprocess pipeline 
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

num_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

cat_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder(handle_unknown='ignore'))
])

In [143]:
preprocessor = ColumnTransformer(transformers=[
    ('num', num_transformer, num_features),
    ('cat', cat_transformer, cat_features)
])

In [144]:
preprocessor.fit(X_train)

In [145]:
X_train = preprocessor.transform(X_train)

In [146]:
X_test = preprocessor.transform(X_test)

* Lưu ý: Mình không train hết 80% trên X_train đã split ở dataset.
* Chia X_train trên thành `80%` X_train và `20%` X_valid. X_valid t dùng để kiểm chứng mô hình mà mình đã train.
* Tương tự, ta cũng split y_train.

In [147]:
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, train_size=0.8, test_size=0.2)

In [174]:
X_train.shape, X_val.shape

((3270, 16), (818, 16))

In [152]:
X_test.shape

(1022, 16)

* `X_train, X_valid, X_test`
* `y_train, y_valid, y_test`

* Áp dụng cây quyết định phân loại vì chúng ta đang theo hướng từ thông tin của một bệnh nhân cho ra người đó có bị đột quỵ hay không? Vận dụng lý thuyết cây quyết định đã học ở môn Cơ sở trí tuệ nhân tạo.

In [161]:
#binary classification

# sklearn model
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import precision_score, recall_score, classification_report, confusion_matrix

In [162]:
# Decision Tree
decision_tree = DecisionTreeClassifier(criterion='entropy', max_depth=8, random_state=2022)
decision_tree.fit(X_train, y_train)

### `Bước 2: Validation Data`

In [175]:
decision_tree.score(X_val, y_val)

0.9547677261613692

In [176]:
y_pred = decision_tree.predict(X_val)

In [177]:
precision_score(y_val, y_pred), recall_score(y_val, y_pred)

(0.35, 0.22580645161290322)

In [166]:
print(classification_report(y_val, y_pred))

              precision    recall  f1-score   support

           0       0.97      0.98      0.98       787
           1       0.35      0.23      0.27        31

    accuracy                           0.95       818
   macro avg       0.66      0.60      0.63       818
weighted avg       0.95      0.95      0.95       818



`Phân tích report:`
* Lớp người không bị đột quỵ với mô hình dự đoán rất tốt
* Tuy nhiên với lớp người không bị đột quỵ thì độ chỉnh xác chỉ có 35%

### `Bước 3: Test Data`

In [183]:
y_test_preds = decision_tree.predict(X_test)

In [186]:
pd.DataFrame({'y': y_test, 'y_preds': y_test_preds})

Unnamed: 0_level_0,y,y_preds
id,Unnamed: 1_level_1,Unnamed: 2_level_1
61960,1,0
31741,0,0
59451,0,0
40670,0,0
25391,0,0
...,...,...
2953,0,0
47799,0,0
61013,0,0
66400,1,0
