# 1.1. THỐNG KÊ MÔ TẢ

##1.1.3. Bài tập thực hành 1
Thực hiện thống kê mô tả trên tập dữ liệu về phân loại chất lượng rượu đỏ.

Dữ liệu lấy tại https://www.kaggle.com/code/eisgandar/red-wine-quality-eda-classification

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
from google.colab import files

# Upload file
uploaded = files.upload()

# Đọc file CSV
df = pd.read_csv("winequality-red.csv")

# Chọn các cột cần xem(các dataset ảnh hưởng mạnh đến chất lượng rượu)
cols = ['alcohol', 'volatile acidity', 'sulphates', 'citric acid']

# In 10 dòng đầu
print(df[cols].head(10))

####1. Import thư viện và nạp dữ liệu vào notebook

####2. Thông tin sơ bộ dữ liệu

In [None]:
# In kiểu dữ liệu các cột
print("\nKiểu dữ liệu của các cột:")
print(df[cols].dtypes)

# In số hàng và số cột của DataFrame
print("\nKích thước của DataFrame (số hàng, số cột):")
print(df.shape)

####3. Loại bỏ dữ liệu trùng lặp

In [None]:
# Kiểm tra số dòng trùng lặp
print("Số dòng trùng lặp:", df.duplicated().sum())

# Nếu có thì loại bỏ
df = df.drop_duplicates()

# Kiểm tra lại sau khi loại bỏ
print("Số dòng trùng lặp sau khi xử lý:", df.duplicated().sum())
print("Kích thước dataset sau khi xử lý:", df.shape)

####4. Thay thế dữ liệu và thay đổi định dạng của dữ liệu

In [None]:
# --- Kiểm tra kiểu dữ liệu ---
print("\nKiểu dữ liệu ban đầu:")
print(df.dtypes)

# Ví dụ: nếu muốn chuyển cột 'quality' từ float -> int
if df['quality'].dtype == 'float64':
    df['quality'] = df['quality'].astype(int)
    print("\nĐã chuyển cột 'quality' từ float → int")

# Nếu không có cột nào cần chuyển đổi
else:
    print("\nDataset này không cần thay thế/đổi định dạng dữ liệu.")


####5. Xử lý dữ liệu thiếu

In [None]:
# --- Kiểm tra dữ liệu thiếu ---
print("\nSố giá trị thiếu ở mỗi cột:")
print(df.isnull().sum())
#Dataset này không có dữ liệu thiếu.

####6. Thống kê mô tả dữ liệu (Descriptive Statistics)

In [None]:
for col in cols:
    print(f"\n===== {col.upper()} =====")
    data = df[col]

    data_mean = np.mean(data)
    data_median = np.median(data)
    data_mode = stats.mode(data, keepdims=True)
    data_variance = np.var(data)
    data_sd = np.std(data)
    data_max = np.max(data)
    data_min = np.min(data)
    data_quartile = np.quantile(data, [0.25, 0.5, 0.75])
    data_IQR = stats.iqr(data)

    print("Mean:", round(data_mean, 3))
    print("Median:", round(data_median, 3))
    print("Mode:", data_mode.mode[0])
    print("Variance:", round(data_variance, 3))
    print("Std Dev:", round(data_sd, 3))
    print("Max:", data_max)
    print("Min:", data_min)
    print("Quartiles (Q1, Q2, Q3):", data_quartile)
    print("IQR:", round(data_IQR, 3))

####7. Nhận xét
---
**Alcohol**
Mean = 10.43, Median = 10.2, Mode = 9.5 → khá gần nhau → dữ liệu phân bố tương đối cân đối, không quá lệch.=>Cho thấy nồng độ cồn của các mẫu rượu đỏ khá đồng đều, dao động quanh 10.2–10.43%.
IQR = 1.6 → mức độ phân tán trung bình.=>Cho thấy mức độ phân tán trung bình, nhưng giá trị tối đa (14.9) cao hơn nhiều so với trung bình, chỉ ra sự tồn tại của một số mẫu rượu có nồng độ cồn cao bất thường (outliers).
Max = 14.9, Min = 8.4 → có một số giá trị cao hơn hẳn trung bình (rượu nồng độ cồn cao), có thể coi là outliers phía phải.
Ảnh hưởng đến chất lượng: Nồng độ cồn cao thường liên quan đến rượu chất lượng cao hơn, vì nó góp phần tạo độ đậm đà và hương vị phong phú. Các outliers với nồng độ cồn cao có thể là những loại rượu đặc biệt, cao cấp.

**Volatile Acidity**
Mean = 0.529, Median = 0.52, Mode = 0.5 → khá gần nhau → dữ liệu gần đối xứng.
IQR = 0.25, biến thiên vừa phải.=>Cho thấy có outliers lệch phải, tức là một số mẫu rượu có độ axit dễ bay hơi cao bất thường.
Max = 1.58 cao hơn hẳn so với Q3 = 0.64 → xuất hiện outliers lệch phải.
Ảnh hưởng đến chất lượng: Độ axit dễ bay hơi cao thường làm giảm chất lượng rượu, vì nó tạo ra mùi vị khó chịu (giống mùi giấm). Các mẫu có outliers này có thể bị đánh giá chất lượng thấp hơn.

**Sulphates**
Mean = 0.659, Median = 0.62, Mode = 0.54 → Mean > Median → phân bố hơi lệch phải nhẹ.=>Cho thấy hầu hết các mẫu có hàm lượng sunfat tập trung gần giá trị trung tâm (0.54–0.659).
IQR = 0.18 → độ phân tán nhỏ, đa số tập trung quanh trung tâm.=>Cho thấy một số mẫu có hàm lượng sunfat cao bất thường.
Max = 2.0 khá cao → có outliers phía phải.
Ảnh hưởng đến chất lượng: Sunfat đóng vai trò như chất bảo quản và tăng cường hương vị. Hàm lượng sunfat vừa phải thường cải thiện chất lượng rượu, nhưng hàm lượng quá cao (outliers) có thể gây ảnh hưởng tiêu cực đến hương vị.

**Citric Acid**
Mean = 0.272, Median = 0.26, Mode = 0.0 → có nhiều giá trị 0.0 → phân bố lệch trái, nhưng cũng có giá trị cao tới 1.0 → có outliers phía phải.
IQR = 0.34 → độ phân tán cao hơn so với sulphates.=>Tức là hàm lượng axit citric giữa các mẫu rượu có sự biến động đáng kể.
Ảnh hưởng đến chất lượng: Axit citric góp phần tạo độ tươi mới và cân bằng hương vị. Hàm lượng thấp (gần 0) có thể làm rượu thiếu sức sống, trong khi hàm lượng cao (outliers) có thể làm rượu chua quá mức, ảnh hưởng tiêu cực đến chất lượng.
---


##1.1.4. Bài tập thực hành 2
Thực hiện thống kê mô tả trên tập dữ liệu về bệnh tiểu đường. Dữ liệu lấy tại

https://www.kaggle.com/code/vincentlugat/pima-indians-diabetes-eda-prediction-0-906

####1. Import thư viện và nạp dữ liệu vào notebook

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
from google.colab import files

# Upload file
uploaded = files.upload()

# Đọc file CSV
df = pd.read_csv("diabetes.csv")

# Chọn các cột có ảnh hưởng mạnh đến Outcome
cols = ['Glucose', 'BMI', 'Age', 'DiabetesPedigreeFunction', 'Pregnancies']

# In 10 dòng đầu
print(df[cols].head(10))

####2. Thông tin sơ bộ dữ liệu

In [None]:
# In kiểu dữ liệu các cột
print("\nKiểu dữ liệu của các cột:")
print(df[cols].dtypes)

# In số hàng và số cột của DataFrame
print("\nKích thước của DataFrame (số hàng, số cột):")
print(df.shape)

####3. Loại bỏ dữ liệu trùng lặp

In [None]:
# Kiểm tra số dòng trùng lặp
print("Số dòng trùng lặp:", df.duplicated().sum())

# Nếu có thì loại bỏ
df = df.drop_duplicates()

# Kiểm tra lại sau khi loại bỏ
print("Số dòng trùng lặp sau khi xử lý:", df.duplicated().sum())
print("Kích thước dataset sau khi xử lý:", df.shape)

####4. Thay thế dữ liệu và thay đổi định dạng của dữ liệu

In [None]:
# --- Kiểm tra kiểu dữ liệu ---
print("\nKiểu dữ liệu ban đầu:")
print(df.dtypes)

# Thay thế các giá trị 0 bất hợp lý thành NaN
cols_with_zero = ['Glucose','BMI']
df[cols_with_zero] = df[cols_with_zero].replace(0, np.nan)

####5. Xử lý dữ liệu thiếu

In [None]:
# --- Kiểm tra dữ liệu thiếu ---
print("\nSố giá trị thiếu ở mỗi cột:")
print(df.isnull().sum())
#Dataset này không có dữ liệu thiếu.

####6. Thống kê mô tả dữ liệu (Descriptive Statistics)

In [None]:
for col in cols:
    print(f"\n===== {col.upper()} =====")
    data = df[col]
    data = df[col].dropna()  # loại bỏ giá trị NaN trước khi tính toán

    data_mean = np.mean(data)
    data_median = np.median(data)
    data_mode = stats.mode(data, keepdims=True).mode[0]  # Lấy giá trị mode
    data_variance = np.var(data, ddof=1)  # dùng ddof=1 để tính phương sai mẫu
    data_sd = np.std(data, ddof=1)       # độ lệch chuẩn mẫu
    data_max = np.max(data)
    data_min = np.min(data)
    data_quartile = np.quantile(data, [0.25, 0.5, 0.75])
    data_IQR = stats.iqr(data)

    print("Mean:", round(data_mean, 3))
    print("Median:", round(data_median, 3))
    print("Mode:", data_mode)
    print("Variance:", round(data_variance, 3))
    print("Std Dev:", round(data_sd, 3))
    print("Max:", data_max)
    print("Min:", data_min)
    print("Quartiles (Q1, Q2, Q3):", np.round(data_quartile, 3))
    print("IQR:", round(data_IQR, 3))

#### 7. Nhận xét
---
**Glucose**  
Mean = 121.7, Median = 117.0, Mode = 99.0 → Mean > Median > Mode → dữ liệu phân bố hơi lệch phải.  
IQR = 42.0 → mức độ phân tán cao.  
Max = 199.0, Min = 44.0 → có một số giá trị cao hơn hẳn Q3 = 141.0, có thể coi là outliers phía phải.  
**Ảnh hưởng đến bệnh tiểu đường**: Glucose cao thường liên quan đến nguy cơ mắc tiểu đường cao hơn, đặc biệt các outliers có thể chỉ ra các trường hợp nghiêm trọng.

**BMI**  
Mean = 32.5, Median = 32.3, Mode = 32.0 → khá gần nhau → dữ liệu gần đối xứng.  
IQR = 9.1 → mức độ phân tán trung bình.  
Max = 67.1, Min = 18.2 → giá trị tối đa cao hơn hẳn Q3 = 36.6 → xuất hiện outliers lệch phải.  
**Ảnh hưởng đến bệnh tiểu đường**: BMI cao thường làm tăng nguy cơ tiểu đường do thừa cân/béo phì. Các outliers có thể đại diện cho các trường hợp béo phì nghiêm trọng.

**Age**  
Mean = 33.2, Median = 29.0, Mode = 22 → Mean > Median > Mode → phân bố lệch phải.  
IQR = 17.0 → mức độ phân tán cao.  
Max = 81, Min = 21 → giá trị tối đa cao hơn hẳn Q3 = 41.0 → có outliers phía phải.  
**Ảnh hưởng đến bệnh tiểu đường**: Tuổi cao thường làm tăng nguy cơ mắc tiểu đường do lão hóa. Các outliers có thể đại diện cho các trường hợp lớn tuổi có nguy cơ cao.

**DiabetesPedigreeFunction**  
Mean = 0.472, Median = 0.372, Mode = 0.254 → Mean > Median > Mode → phân bố lệch phải.  
IQR = 0.382 → mức độ phân tán trung bình.  
Max = 2.42, Min = 0.078 → giá trị tối đa cao hơn hẳn Q3 = 0.626 → có outliers phía phải.  
**Ảnh hưởng đến bệnh tiểu đường**: Giá trị cao chỉ ra tiền sử gia đình mắc tiểu đường, làm tăng nguy cơ. Các outliers có thể đại diện cho các trường hợp có yếu tố di truyền mạnh.

**Pregnancies**  
Mean = 3.8, Median = 3.0, Mode = 1 → Mean > Median > Mode → phân bố lệch phải.  
IQR = 5.0 → mức độ phân tán trung bình.  
Max = 17, Min = 0 → giá trị tối đa cao hơn hẳn Q3 = 6.0 → có outliers phía phải.  
**Ảnh hưởng đến bệnh tiểu đường**: Số lần mang thai cao có thể làm tăng nguy cơ tiểu đường ở phụ nữ. Các outliers có thể đại diện cho các trường hợp mang thai nhiều lần bất thường.
---

#1.2. XỬ LÝ VÀ TRỰC QUAN HÓA DỮ LIỆU

##1.2.2. Bài tập thực hành 1
Thực hiện trực quan hóa dữ liệu trên tập dữ liệu về phân loại chất lượng rượu đỏ. Dữ liệu lấy tại
https://www.kaggle.com/code/eisgandar/red-wine-quality-eda-classification

##1. Import thư viện và nạp dữ liệu

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv("winequality-red (1).csv", sep=",")
df.head()
df.info()
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0
mean,8.319637,0.527821,0.270976,2.538806,0.087467,15.874922,46.467792,0.996747,3.311113,0.658149,10.422983,5.636023
std,1.741096,0.17906,0.194801,1.409928,0.047065,10.460157,32.895324,0.001887,0.154386,0.169507,1.065668,0.807569
min,4.6,0.12,0.0,0.9,0.012,1.0,6.0,0.99007,2.74,0.33,8.4,3.0
25%,7.1,0.39,0.09,1.9,0.07,7.0,22.0,0.9956,3.21,0.55,9.5,5.0
50%,7.9,0.52,0.26,2.2,0.079,14.0,38.0,0.99675,3.31,0.62,10.2,6.0
75%,9.2,0.64,0.42,2.6,0.09,21.0,62.0,0.997835,3.4,0.73,11.1,6.0
max,15.9,1.58,1.0,15.5,0.611,72.0,289.0,1.00369,4.01,2.0,14.9,8.0


In [None]:
from google.colab import files
uploaded = files.upload()

####2.Chuẩn bị dữ liệu cho Visualization

In [None]:
numeric_cols = ['alcohol','sulphates','citric acid','pH']
target_col = 'quality'


In [None]:
print(df.columns.tolist())


['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol', 'quality']


####3. Visualization Univariate (1 biến)
Case 1 – Histogram (basic → advanced)

In [None]:
# basic
sns.histplot(df['alcohol'], bins=30, kde=True)
plt.show()

# advanced
plt.figure(figsize=(10,6))
ax = sns.histplot(df['alcohol'], bins=30, kde=True, color='skyblue')
ax.set_title("Histogram of Alcohol", fontsize=16)
ax.set_xlabel("Alcohol")
ax.set_ylabel("Count")
plt.show()


####Case 2 – Boxplot (basic → advanced)

In [None]:
# basic
sns.boxplot(y=df['sulphates'])
plt.show()

# advanced
plt.figure(figsize=(6,6))
ax = sns.boxplot(y=df['sulphates'], color='lightgreen')
ax.set_title("Boxplot of Sulphates", fontsize=16)
ax.set_ylabel("Sulphates")
plt.show()


####Case 3 – Countplot cho quality

In [None]:
# basic
sns.countplot(x=df['quality'])
plt.show()

# advanced
plt.figure(figsize=(8,6))
ax = sns.countplot(x=df['quality'], palette="viridis")
ax.set_title("Distribution of Wine Quality", fontsize=16)
ax.set_xlabel("Quality score")
ax.set_ylabel("Count")
plt.show()


####4. 4. Visualization Bivariate (2 biến)

####Case 1 – Boxplot Alcohol theo Quality

In [None]:
plt.figure(figsize=(10,6))
ax = sns.boxplot(x=df['quality'], y=df['alcohol'], palette="Set2")
ax.set_title("Alcohol by Wine Quality", fontsize=16)
ax.set_xlabel("Quality")
ax.set_ylabel("Alcohol")
plt.show()


####Case 2 – Violin Plot Alcohol theo Quality

In [None]:
plt.figure(figsize=(10,6))
ax = sns.violinplot(x=df['quality'], y=df['alcohol'], inner="quartile", palette="muted")
ax.set_title("Alcohol Distribution by Quality", fontsize=16)
plt.show()


####Case 3 – Scatter Plot Citric acid vs Alcohol (màu theo quality)

In [None]:
plt.figure(figsize=(10,6))
ax = sns.scatterplot(data=df, x="citric acid", y="alcohol", hue="quality", palette="viridis", alpha=0.7)
ax.set_title("Citric Acid vs Alcohol by Quality", fontsize=16)
plt.show()


####Case 4 – Heatmap Correlation

In [None]:
plt.figure(figsize=(12,8))
corr = df.corr()
ax = sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f")
ax.set_title("Correlation Heatmap", fontsize=16)
plt.show()


####5. Nhận xét
-Chất lượng rượu đỏ tập trung chủ yếu ở mức 5–6, ít rượu điểm 7–8.

-Alcohol có xu hướng tăng khi quality tăng → rượu ngon thường có nồng độ cồn cao hơn.

-Sulphates có một số outliers, phân bố lệch phải.

-Heatmap cho thấy quality tương quan dương với alcohol (~ 0.48), tương quan âm với volatile acidity (~-0.39).

-Dữ liệu có outliers nhẹ, phân bố các biến chủ yếu skewed (lệch phải).

###1.2.3. Bài tập thực hành 2
+ Thực hiện trực quan hóa dữ liệu trên tập dữ liệu về bệnh tiểu đường. Dữ liệu lấy tại
https://www.kaggle.com/code/vincentlugat/pima-indians-diabetes-eda-prediction-0-906
+ Thực hiện EDA trên tập dữ liệu mua sắm tại siêu thị. Tập dữ liệu lấy từ
https://www.kaggle.com/code/rajatkumar30/eda-online-retail

1. Import thư viện & nạp dữ liệu

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


df = pd.read_csv("diabetes.csv")

df.head()
df.info()
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [None]:
from google.colab import files
uploaded = files.upload()

Saving diabetes.csv to diabetes.csv


2. Visualization – Univariate (1 biến)

In [None]:
sns.histplot(df['Glucose'], bins=30, kde=True)
plt.title("Histogram of Glucose")
plt.show()

sns.histplot(df['BMI'], bins=30, kde=True, color="orange")
plt.title("Histogram of BMI")
plt.show()


Boxplot (BloodPressure)

In [None]:
sns.boxplot(y=df['BloodPressure'])
plt.title("Boxplot of BloodPressure")
plt.show()


Countplot (Outcome)

In [None]:
sns.countplot(x=df['Outcome'], palette="Set2")
plt.title("Distribution of Diabetes Outcome (0=No, 1=Yes)")
plt.show()


3. Visualization – Bivariate (2 biến)
Scatter Plot: Glucose vs BMI

In [None]:
sns.scatterplot(x='Glucose', y='BMI', hue='Outcome', data=df, palette="coolwarm", alpha=0.6)
plt.title("Scatter Plot: Glucose vs BMI by Outcome")
plt.show()


Violin Plot: Age theo Outcome

In [None]:
sns.violinplot(x='Outcome', y='Age', data=df, palette="muted", inner="quartile")
plt.title("Age Distribution by Diabetes Outcome")
plt.show()


Heatmap: Ma trận tương quan

In [None]:
plt.figure(figsize=(10,8))
corr = df.corr(numeric_only=True)
sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm")
plt.title("Correlation Heatmap - Diabetes Dataset")
plt.show()


4. Nhận xét (mẫu)

-Glucose và BMI phân bố lệch phải, có nhiều giá trị cao.

-BloodPressure có outliers và một số giá trị bằng 0 bất thường → cần xử lý.

-Outcome mất cân bằng: nhóm không tiểu đường (0) nhiều hơn nhóm tiểu đường (1).

-Scatterplot cho thấy người bị tiểu đường (Outcome=1) thường có Glucose cao hơn.

-Age trung bình ở nhóm Outcome=1 cao hơn nhóm 0.

-Tương quan: Outcome liên quan nhiều nhất đến Glucose, BMI, Age.

#1.3. Phân tích đơn biến và hai biến

# Bài thực hành 1.3.3 và 1.3.4 – Phân tích EDA tự động

Trong bài này, ta sử dụng 2 công cụ EDA tự động:
- **SweetViz** (1.3.3): tạo báo cáo trực quan tổng quan và so sánh nhóm.
- **AutoViz** (1.3.4): sinh nhiều biểu đồ phân tích đơn biến và hai biến.

Dữ liệu áp dụng: **Marketing Campaign** từ Kaggle.  
Mục tiêu: phát hiện missing values, phân phối dữ liệu, outliers và mối quan hệ giữa các biến.


##1.3.3. Bài tập thực hành 1
Tìm hiểu các tính năng và cách sử dụng sản phẩm SweetViz (https://pypi.org/project/sweetviz) áp dụng
trên tập dữ liệu Marketing Campaign

####1. Import thư viện và nạp dữ liệu

In [None]:
!pip install numpy==1.26.4
!pip install sweetviz --upgrade --quiet
import sweetviz as sv



In [None]:
import pandas as pd
df = pd.read_csv("marketing_campaign.csv", sep="\t")
print("Kích thước:", df.shape)
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'marketing_campaign.csv'

####2. Khởi tạo báo cáo SweetViz

In [None]:
import sweetviz as sv

report = sv.analyze(df, target_feat="Response")
report.show_html("sweetviz_overview.html")

[link text](https://)####3. Quan sát kết quả

In [None]:
cmp_resp = sv.compare_intra(
    df, df["Response"] == 1,
    ["Responders (1)", "Non-responders (0)"],
    target_feat="Response"
)
cmp_resp.show_html("sweetviz_compare_response.html")

In [None]:
from IPython.display import display, HTML

with open("sweetviz_overview.html", "r", encoding="utf-8") as f:
    report_html = f.read()

display(HTML(report_html))

#### 2.1. Báo cáo tổng quan (sweetviz_overview.html)
- Dataset có 2240 dòng, 29 biến.
- Cột **Income** có ~1% missing values, phân phối lệch phải, xuất hiện nhiều outliers.
- **Year_Birth**: phần lớn khách hàng sinh 1950–1980, có vài giá trị bất thường (ví dụ 1893).
- **Education**: nhiều nhất là nhóm Graduation, kế đến PhD; ít khách ở nhóm Basic.
- **Marital_Status**: phần lớn là Married hoặc Together.
- **Chi tiêu (MntWines, MntMeatProducts, …)**: lệch phải, nhiều khách chi tiêu rất thấp, một số chi tiêu cực cao.
- **Recency**: trải đều từ 0 đến 99 ngày, một số khách lâu không mua hàng → outlier.
- **Response**: mất cân bằng, chỉ ~15% khách hàng phản hồi.

In [None]:
from IPython.display import display, HTML

with open("sweetviz_compare_response.html", "r", encoding="utf-8") as f:
    report_html = f.read()

display(HTML(report_html))

#### 2.2 Báo cáo so sánh nhóm (sweetviz_compare_response.html)
- **Thu nhập (Income):** Nhóm Responders có thu nhập trung bình cao hơn Non-responders.
- **Chi tiêu:** Responders chi tiêu nhiều hơn, đặc biệt là rượu vang và thịt.
- **Recency:** Responders có Recency thấp hơn (mới mua hàng gần đây).
- **NumWebVisitsMonth:** Non-responders có xu hướng truy cập web nhiều nhưng ít mua hàng; Responders ngược lại.
- **AcceptedCmp (các chiến dịch trước):** Responders có tỷ lệ chấp nhận chiến dịch trước cao hơn Non-responders.
- **Complain:** Tỷ lệ phàn nàn không khác biệt nhiều giữa 2 nhóm.

### 3. Nhận xét chung
- Nhóm **Responders** thường có đặc điểm: thu nhập cao hơn, chi tiêu nhiều hơn, mua gần đây hơn, và có lịch sử phản hồi chiến dịch tốt hơn.
- Nhóm **Non-responders**: thu nhập/chi tiêu thấp hơn, Recency cao hơn (xa lần mua gần nhất), nhiều người chỉ ghé web nhưng không mua.
- **Ý nghĩa:** Doanh nghiệp nên tập trung marketing vào nhóm khách hàng có thu nhập cao, chi tiêu cao, Recency thấp, và có hành vi mua tích cực trong quá khứ.

##1.3.4. Bài tập thực hành 2
Tìm hiểu các tính năng và cách sử dụng sản phẩm AutoViz (https://pypi.org/project/autoviz) áp dụng trên
tập dữ liệu Marketing Campaign

####1. Import thư viện và nạp dữ liệu

In [None]:
!pip install autoviz -q
from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()

####2. Khởi tạo báo cáo AutoViz

In [None]:
report = AV.AutoViz(
    filename="",
    dfte=df,
    depVar="Response",
    verbose=2,
    chart_format="png",
    save_plot_dir="autoviz_report"
)

####3. Quan sát kết quả

In [None]:
import os
!ls -R autoviz_report

In [None]:
import os
from IPython.display import Image, display

# Đọc trong thư mục con 'Response'
pngs = [f for f in os.listdir("autoviz_report/Response") if f.endswith(".png")]
print("Tổng số hình vẽ:", len(pngs))

for f in sorted(pngs):
    display(Image(filename=f"autoviz_report/Response/{f}"))

####4. Nhận xét


### Nhận xét từ AutoViz

- **Histogram:** Income, TotalSpending, Recency đều lệch phải. Có nhiều khách hàng thu nhập thấp/chi tiêu thấp, một số outliers thu nhập và chi tiêu cực cao.  
- **Boxplot/Violin plot:** Income và TotalSpending có rất nhiều outliers; việc clip hoặc log-transform là cần thiết trước khi modeling.  
- **Scatter plot:** Có mối quan hệ tuyến tính rõ ràng giữa Income và TotalSpending. Một số khách hàng Income cao nhưng chi tiêu thấp → nhóm đặc biệt cần phân tích riêng.  
- **Heatmap tương quan:** Các biến chi tiêu (MntWines, MntMeatProducts, MntFruits, …) tương quan chặt với nhau và với TotalSpending.  
- **Biến mục tiêu Response:** Khách hàng có Response=1 thường có Income và TotalSpending cao hơn, Recency thấp hơn (vừa mua gần đây).  
- **Nhóm hành vi mua:** NumWebVisitsMonth và NumStorePurchases có xu hướng ngược nhau (khách vào web nhiều thì ít mua tại cửa hàng).  

**Ý nghĩa:** AutoViz trực quan hóa toàn diện, giúp phát hiện missing values, outliers, phân phối dữ liệu và mối quan hệ quan trọng. Đây là cơ sở để tiền xử lý (fill NA, clip/log outliers, chuẩn hoá, one-hot) và chọn đặc trưng cho mô hình phân loại Response.

