# Thực hiện thống kê mô tả trên tập dữ liệu về phân loại mắc bệnh tiểu đường

# Thực hiện thống kê mô tả trên tập dữ liệu về phân loại chất lượng rượu đỏ.
Phân tích này nhằm tính toán các thước đo thống kê mô tả (trung bình, trung vị, mode, phương sai, độ lệch chuẩn, min, max, phân vị, IQR) để hiểu rõ hơn về đặc điểm của dữ liệu rượu đỏ, đặc biệt là cột `Outcome` và các thuộc tính đầu vào.

## 1. Import thư viện và nạp dữ liệu vào notebook

In [2]:
import numpy as np
import pandas as pd
from IPython import display
from scipy import stats

# Tải dữ liệu
df_dataset = pd.read_csv('diabetes.csv')

# Hiển thị 5 dòng đầu tiên
display.display(df_dataset.head())

# Kiểm tra kiểu dữ liệu
print('Kiểu dữ liệu của các cột:')
print(df_dataset.dtypes)

# Kiểm tra kích thước dữ liệu
print(f'Kích thước dữ liệu: {df_dataset.shape}')


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Kiểu dữ liệu của các cột:
Pregnancies                   int64
Glucose                       int64
BloodPressure                 int64
SkinThickness                 int64
Insulin                       int64
BMI                         float64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome                       int64
dtype: object
Kích thước dữ liệu: (768, 9)


**Nhận xét:**
+ Tập dữ liệu gồm 768 dòng và 9 cột, với 8 cột đầu tiên là đầu vào (inout features) và 1 cột `Outcome` biểu thị người mắc bệnh tiểu đường.
+ Tất cả các cột đầu vào là kiểu số (float64 và int64), phù hơp cho phân tích thống kê.
+ Các thuộc tính đầu vào bao gồm các đặc điểm như Pregnancies, Glucose,... ảnh hưởng đến nguy cơ mắc bệnh tiểu đường.

## 2. Thống kê mô tả tổng quan bằng describe()
Sử dụng phương thức `describe()` để có cái nhìn tổng quan về các thước đo thống kê của tất cả các cột.


In [3]:
print('Thống kê mô tả tổng quan: ')
display.display(df_dataset.describe())

Thống kê mô tả tổng quan: 


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


**Nhận xét về `describe()`:**
+ Cột `Outcome`: giá trị trung bình (mean) ~ 0.35, độ lệch chuẩn ~0.48 cho thấy số người mắc bệnh không mắc bệnh cao hơn số người mắc bệnh
+ Cột Insulin có sự biến động (std) rất cao ~ 115 -> cho thấy được sự biến động lớn.


## 3. Thống kê chi tiết cho cột Outcome


In [6]:
# Trung bình
df_mean=np.mean(df_dataset['Outcome'])
print(f'Trung bình của OutCome: {df_mean:.2f}')

# Trung vj
df_median=np.median(df_dataset['Outcome'])
print(f'Trung vị: {df_median:.2f}')

#Mode
df_mode=stats.mode(df_dataset['Outcome'])
print(f'Mode: {df_mode}')

#Phương sai
df_var=np.var(df_dataset['Outcome'], ddof=1)
print(f'Phuongw sai: {df_var}')

#Độ lệch chuẩn
df_std=np.std(df_dataset['Outcome'], ddof=1)
print(f'Độ lệch chuẩn: {df_std}') 
   # Min, Max
df_max = np.max(df_dataset['Outcome'])
df_min = np.min(df_dataset['Outcome'])
print(f'Giá trị lớn nhất của Outcome: {df_max}')
print(f'Giá trị nhỏ nhất của Outcome: {df_min}')

# Phân vị thứ 60
df_percentile = np.percentile(df_dataset['Outcome'], 60)
print(f'Phân vị thứ 60 của Outcome: {df_percentile}')

# Tứ phân vị thứ ba (Q3)
df_quartile = np.quantile(df_dataset['Outcome'], 0.75)
print(f'Tứ phân vị thứ ba (Q3) củaOutcome: {df_quartile}')

# Khoảng tứ phân vị (IQR)
df_IQR = stats.iqr(df_dataset['Outcome'])
print(f'Khoảng tứ phân vị (IQR) của Outcome: {df_IQR}')

Trung bình của OutCome: 0.35
Trung vị: 0.00
Mode: ModeResult(mode=np.int64(0), count=np.int64(500))
Phuongw sai: 0.22748261625380098
Độ lệch chuẩn: 0.4769513772427971
Giá trị lớn nhất của Outcome: 1
Giá trị nhỏ nhất của Outcome: 0
Phân vị thứ 60 của Outcome: 0.0
Tứ phân vị thứ ba (Q3) củaOutcome: 1.0
Khoảng tứ phân vị (IQR) của Outcome: 1.0
