# Machine Learning Mastery With Python
## Chương 5-6: Phân tích dữ liệu thăm dò (EDA)

Notebook này hướng dẫn các bước phân tích dữ liệu thăm dò (Exploratory Data Analysis - EDA) sử dụng Pandas và Matplotlib, giúp bạn hiểu rõ hơn về dữ liệu trước khi xây dựng mô hình Machine Learning.

---

## Mục lục
1. [Xem nhanh dữ liệu](#xem-nhanh)
2. [Thống kê mô tả](#mo-ta)
3. [Kiểm tra phân phối class](#phan-phoi)
4. [Kiểm tra kiểu dữ liệu](#kieu-du-lieu)
5. [Ma trận tương quan](#tuong-quan)
6. [Kiểm tra skew](#skew)
7. [Vẽ biểu đồ](#bieu-do)
8. [Tổng kết](#tong-ket)

<a id="xem-nhanh"></a>
## 1. Xem nhanh dữ liệu

Xem một số dòng đầu, kích thước dữ liệu, và tên cột để có cái nhìn tổng quan.

In [None]:
import pandas as pd

# Đọc dữ liệu (giả sử đã có file pima-indians-diabetes.data.csv)
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv('pima-indians-diabetes.data.csv', names=names)

print("5 dòng đầu:")
print(data.head())  # Xem 5 dòng đầu

print("\nKích thước dữ liệu:", data.shape)  # (768, 9)
print("\nTên cột:", data.columns.tolist())


<a id="mo-ta"></a>
## 2. Thống kê mô tả

Xem các chỉ số thống kê cơ bản cho từng thuộc tính số: min, max, mean, std, quartiles,...


In [None]:
print(data.describe())

<a id="phan-phoi"></a>
## 3. Kiểm tra phân phối class

Kiểm tra xem dữ liệu có cân bằng giữa các lớp hay không (nếu là bài toán phân loại).


In [None]:
print("Phân phối label/class:")
print(data['class'].value_counts())
print("Tỷ lệ phần trăm:")
print(data['class'].value_counts(normalize=True))


<a id="kieu-du-lieu"></a>
## 4. Kiểm tra kiểu dữ liệu từng thuộc tính


In [None]:
print("Kiểu dữ liệu các cột:")
print(data.dtypes)

# Kiểm tra để biết cột nào là số, cột nào là object/categorical.

<a id="tuong-quan"></a>
## 5. Ma trận tương quan

Tính hệ số tương quan giữa các thuộc tính số.


In [None]:
print("Ma trận tương quan:")
print(data.corr())

# Giá trị gần 1 hoặc -1: tương quan mạnh
# Gần 0: tương quan yếu
# Có thể dùng để phát hiện thuộc tính dư thừa hoặc đa cộng tuyến

<a id="skew"></a>
## 6. Kiểm tra skew (độ lệch phân phối)

Skew giúp xác định thuộc tính nào phân phối lệch nhiều, có thể cần transform.


In [None]:
print("Skew (độ lệch):")
print(data.skew())

# Skew > 1 hoặc < -1: lệch mạnh, có thể cần log/box-cox transform

<a id="bieu-do"></a>
## 7. Vẽ biểu đồ

Giúp trực quan hóa phân phối thuộc tính và mối quan hệ giữa các thuộc tính.


In [None]:
# Historigram
import matplotlib.pyplot as plt
data.hist(figsize=(10,8))
plt.suptitle("Histogram cho từng thuộc tính")
plt.show()

# Dễ nhận biết outlier, phân phối lệch

In [None]:
# Density Plot
data.plot(kind='density', subplots=True, layout=(3,3), sharex=False, figsize=(10,8))
plt.suptitle("Density plot cho từng thuộc tính")
plt.show()

# Xem mượt hơn histogram, dễ so sánh nhiều thuộc tính

In [None]:
# Boxplot
data.plot(kind='box', subplots=True, layout=(3,3), sharex=False, sharey=False, figsize=(10,8))
plt.suptitle("Boxplot cho từng thuộc tính")
plt.show()

# Tìm outlier, giá trị bất thường

In [None]:
# Scatter Matrix
pd.plotting.scatter_matrix(data, figsize=(12,12))
plt.suptitle("Scatter matrix giữa các thuộc tính")
plt.show()

# Nhìn mối liên hệ giữa các thuộc tính, phát hiện tương quan tuyến tính

In [None]:
# Correlation Matrix Heatmap
import seaborn as sns
plt.figure(figsize=(10,8))
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title("Ma trận tương quan (Correlation Matrix)")
plt.show()

# Dễ phát hiện thuộc tính tương quan mạnh/yếu

<a id="tong-ket"></a>
## 8. Tổng kết

- Đã phân tích tổng quan dữ liệu bằng các số liệu thống kê và biểu đồ.
- Phát hiện được các vấn đề tiềm ẩn như: outlier, thuộc tính lệch, thuộc tính tương quan mạnh,...
- Sẵn sàng cho bước tiền xử lý dữ liệu tiếp theo.

