# BÀI TẬP THỰC HÀNH 1.3.3 & 1.3.4
# SỬ DỤNG CÔNG CỤ EDA TỰ ĐỘNG - SWEETVIZ VÀ AUTOVIZ

**Mục tiêu:**
- Tìm hiểu và sử dụng SweetViz cho EDA tự động
- Tìm hiểu và sử dụng AutoViz cho trực quan hóa tự động
- So sánh ưu nhược điểm của các công cụ
- Áp dụng trên dữ liệu Marketing Campaign thực tế

**Dataset:** Customer Personality Analysis từ Kaggle
- Link: https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis
- Mô tả: Dữ liệu về hành vi mua sắm và đặc điểm khách hàng

**Lưu ý:** Cần cài đặt các thư viện trước khi chạy:
```bash
pip install sweetviz autoviz
```

## 1. IMPORT THƯ VIỆN VÀ CẤU HÌNH

In [2]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

print("✓ Đã import thư viện cơ bản thành công!")

✓ Đã import thư viện cơ bản thành công!


## 2. GIỚI THIỆU VỀ SWEETVIZ

### 2.1. Tổng quan về SweetViz

**SweetViz** là thư viện Python mã nguồn mở tạo báo cáo EDA đẹp mắt và chi tiết chỉ với vài dòng code.

#### Tính năng chính:
- ✓ Phân tích đơn biến cho tất cả các features
- ✓ So sánh giữa training và test sets
- ✓ Phân tích target variable
- ✓ Phát hiện missing values và duplicates
- ✓ Tính toán correlations
- ✓ Báo cáo HTML interactive đẹp mắt

#### Cài đặt:
```bash
pip install sweetviz
```

#### Documentation:
- PyPI: https://pypi.org/project/sweetviz/
- GitHub: https://github.com/fbdesignpro/sweetviz

### 2.2. Nạp dữ liệu Marketing Campaign

In [3]:
try:
    marketing_data = pd.read_csv("marketing_campaign.csv", sep='\t')
    print("✓ Đã nạp dữ liệu từ file local")
except FileNotFoundError:
    # Cách 2: Tạo dữ liệu mẫu nếu không có file
    print("⚠ Không tìm thấy file. Tạo dữ liệu mẫu...")
    np.random.seed(42)
    n_samples = 2240
    
    marketing_data = pd.DataFrame({
        'ID': range(1, n_samples + 1),
        'Year_Birth': np.random.randint(1940, 2000, n_samples),
        'Education': np.random.choice(['Graduation', 'PhD', 'Master', 'Basic', '2n Cycle'], n_samples),
        'Marital_Status': np.random.choice(['Married', 'Single', 'Together', 'Divorced', 'Widow'], n_samples),
        'Income': np.random.randint(10000, 150000, n_samples),
        'Kidhome': np.random.randint(0, 3, n_samples),
        'Teenhome': np.random.randint(0, 3, n_samples),
        'Dt_Customer': pd.date_range('2012-01-01', periods=n_samples, freq='D').strftime('%d-%m-%Y'),
        'Recency': np.random.randint(0, 100, n_samples),
        'MntWines': np.random.randint(0, 1500, n_samples),
        'MntFruits': np.random.randint(0, 200, n_samples),
        'MntMeatProducts': np.random.randint(0, 1500, n_samples),
        'MntFishProducts': np.random.randint(0, 250, n_samples),
        'MntSweetProducts': np.random.randint(0, 250, n_samples),
        'MntGoldProds': np.random.randint(0, 300, n_samples),
        'NumDealsPurchases': np.random.randint(0, 15, n_samples),
        'NumWebPurchases': np.random.randint(0, 25, n_samples),
        'NumCatalogPurchases': np.random.randint(0, 25, n_samples),
        'NumStorePurchases': np.random.randint(0, 15, n_samples),
        'NumWebVisitsMonth': np.random.randint(0, 20, n_samples),
        'AcceptedCmp1': np.random.randint(0, 2, n_samples),
        'AcceptedCmp2': np.random.randint(0, 2, n_samples),
        'AcceptedCmp3': np.random.randint(0, 2, n_samples),
        'AcceptedCmp4': np.random.randint(0, 2, n_samples),
        'AcceptedCmp5': np.random.randint(0, 2, n_samples),
        'Response': np.random.randint(0, 2, n_samples),
        'Complain': np.random.randint(0, 2, n_samples)
    })
    print("✓ Đã tạo dữ liệu mẫu")

print(f"\n📊 Thông tin dataset:")
print(f"  - Kích thước: {marketing_data.shape[0]} dòng x {marketing_data.shape[1]} cột")
print(f"  - Missing values: {marketing_data.isnull().sum().sum()}")
print(f"\n5 dòng đầu tiên:")
marketing_data.head()

⚠ Không tìm thấy file. Tạo dữ liệu mẫu...
✓ Đã tạo dữ liệu mẫu

📊 Thông tin dataset:
  - Kích thước: 2240 dòng x 27 cột
  - Missing values: 0

5 dòng đầu tiên:


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp1,AcceptedCmp2,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,Response,Complain
0,1,1978,2n Cycle,Married,36081,0,1,01-01-2012,39,564,...,24,1,18,1,0,0,1,1,1,1
1,2,1991,Master,Married,34354,2,2,02-01-2012,91,212,...,21,9,18,1,1,1,0,0,1,0
2,3,1968,Graduation,Divorced,103297,0,1,03-01-2012,57,1089,...,15,9,4,1,0,0,0,0,0,1
3,4,1954,Master,Widow,28300,1,0,04-01-2012,17,1255,...,22,5,10,0,1,0,1,1,0,1
4,5,1982,Master,Married,74384,1,1,05-01-2012,56,810,...,10,13,6,1,1,0,1,0,0,0


In [4]:

print("📋 Thông tin chi tiết về các cột:")
marketing_data.info()

📋 Thông tin chi tiết về các cột:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID                   2240 non-null   int64 
 1   Year_Birth           2240 non-null   int32 
 2   Education            2240 non-null   object
 3   Marital_Status       2240 non-null   object
 4   Income               2240 non-null   int32 
 5   Kidhome              2240 non-null   int32 
 6   Teenhome             2240 non-null   int32 
 7   Dt_Customer          2240 non-null   object
 8   Recency              2240 non-null   int32 
 9   MntWines             2240 non-null   int32 
 10  MntFruits            2240 non-null   int32 
 11  MntMeatProducts      2240 non-null   int32 
 12  MntFishProducts      2240 non-null   int32 
 13  MntSweetProducts     2240 non-null   int32 
 14  MntGoldProds         2240 non-null   int32 
 15  NumDealsPurchases    2

In [5]:

print("📈 Thống kê mô tả:")
marketing_data.describe()

📈 Thống kê mô tả:


Unnamed: 0,ID,Year_Birth,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,...,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp1,AcceptedCmp2,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,Response,Complain
count,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,...,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0
mean,1120.5,1970.080357,80010.821875,0.979464,0.980357,49.703571,745.80625,100.075893,750.020536,124.24375,...,11.995089,7.284821,9.711607,0.501339,0.513393,0.5,0.520982,0.510714,0.511607,0.515179
std,646.776623,17.305411,40306.191909,0.826929,0.81881,28.414947,431.662289,57.020542,435.958005,71.366409,...,7.12684,4.228631,5.811222,0.50011,0.499932,0.500112,0.499671,0.499997,0.499977,0.499881
min,1.0,1940.0,10028.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,560.75,1956.0,45261.75,0.0,0.0,25.0,373.75,51.0,360.0,63.0,...,6.0,4.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,1120.5,1971.0,80902.5,1.0,1.0,49.0,757.0,101.0,751.5,122.0,...,12.0,7.0,10.0,1.0,1.0,0.5,1.0,1.0,1.0,1.0
75%,1680.25,1985.0,114960.0,2.0,2.0,75.0,1126.0,148.25,1137.25,186.0,...,18.0,11.0,15.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
max,2240.0,1999.0,149931.0,2.0,2.0,99.0,1499.0,199.0,1498.0,249.0,...,24.0,14.0,19.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


### 2.3. Sử dụng SweetViz

#### 2.3.1. Báo cáo cơ bản

In [6]:

import sweetviz as sv

print("⏳ Đang tạo báo cáo SweetViz cơ bản...")
report_basic = sv.analyze(marketing_data)

report_basic.show_html('sweetviz_marketing_basic.html', open_browser=False)

print("✓ Đã tạo báo cáo: sweetviz_marketing_basic.html")
print("  📂 Mở file HTML để xem báo cáo chi tiết")
print("  📊 Báo cáo bao gồm: phân tích 29 features, correlations, missing values")

⏳ Đang tạo báo cáo SweetViz cơ bản...


                                             |                                             | [  0%]   00:00 ->…

Report sweetviz_marketing_basic.html was generated.
✓ Đã tạo báo cáo: sweetviz_marketing_basic.html
  📂 Mở file HTML để xem báo cáo chi tiết
  📊 Báo cáo bao gồm: phân tích 29 features, correlations, missing values


#### 2.3.2. Báo cáo với Target Variable
##### Tạo báo cáo với target variable
- Hàm: sv.analyze(dataframe, target_feat='column_name')
- Input: 
   1. DataFrame: 2240 dòng x 29 cột
  2. target_feat: 'Response' (có phản hồi chiến dịch không)
 - Output: Report với phân tích target
 - Tính năng thêm:
   1. So sánh phân bố của features giữa Response=0 và Response=1
   2. Tính associations của từng feature với Response
   3. Highlight features có correlation cao với target
   4. Chi-square test cho categorical variables
   5. Correlation coefficient cho numeric variables
 - Số biến phân tích: 28 features vs 1 target (Response)
 - Use case: Tìm features quan trọng để dự đoán phản hồi chiến dịch

In [7]:
# Sử dụng 'Response' làm target variable cho Marketing Campaign
print("⏳ Đang tạo báo cáo với target variable 'Response'...")
report_target = sv.analyze(marketing_data, target_feat='Response')

# Lưu báo cáo
report_target.show_html('sweetviz_marketing_target.html', open_browser=False)

print("✓ Đã tạo báo cáo với target: sweetviz_marketing_target.html")
print("  🎯 Báo cáo này phân tích mối quan hệ của các features với Response")
print("  💡 Giúp xác định features nào ảnh hưởng đến phản hồi chiến dịch marketing")

⏳ Đang tạo báo cáo với target variable 'Response'...


                                             |                                             | [  0%]   00:00 ->…

Report sweetviz_marketing_target.html was generated.
✓ Đã tạo báo cáo với target: sweetviz_marketing_target.html
  🎯 Báo cáo này phân tích mối quan hệ của các features với Response
  💡 Giúp xác định features nào ảnh hưởng đến phản hồi chiến dịch marketing


#### 2.3.3. So sánh Train vs Test Sets
##### So sánh train và test
- Hàm: sv.compare([df1, "name1"], [df2, "name2"])
- Input: 2 lists, mỗi list chứa [DataFrame, tên hiển thị]
- Output: Report so sánh 2 datasets
- Nội dung:
  1. So sánh phân bố của từng feature giữa train và test
  2.  Kiểm tra data drift (sự thay đổi phân bố)
  3. Highlight sự khác biệt đáng kể
  4. Statistical tests (KS test, Chi-square)
- Số biến: 29 cột x 2 datasets = 58 phân tích
- Mục đích: Đảm bảo train và test có phân bố tương tự

In [8]:

from sklearn.model_selection import train_test_split

# Chia dữ liệu
train_data, test_data = train_test_split(marketing_data, test_size=0.3, random_state=42)
print(f"📊 Đã chia dữ liệu:")
print(f"  - Train set: {train_data.shape[0]} dòng")
print(f"  - Test set: {test_data.shape[0]} dòng")

print("\n⏳ Đang tạo báo cáo so sánh Train vs Test...")
report_compare = sv.compare([train_data, "Training"], [test_data, "Testing"])

# Lưu báo cáo
report_compare.show_html('sweetviz_marketing_compare.html', open_browser=False)

print("✓ Đã tạo báo cáo so sánh: sweetviz_marketing_compare.html")
print("  📊 Báo cáo này so sánh phân bố giữa train và test sets")
print("  ⚠ Kiểm tra xem có data drift không trước khi train model")

📊 Đã chia dữ liệu:
  - Train set: 1568 dòng
  - Test set: 672 dòng

⏳ Đang tạo báo cáo so sánh Train vs Test...


                                             |                                             | [  0%]   00:00 ->…

Report sweetviz_marketing_compare.html was generated.
✓ Đã tạo báo cáo so sánh: sweetviz_marketing_compare.html
  📊 Báo cáo này so sánh phân bố giữa train và test sets
  ⚠ Kiểm tra xem có data drift không trước khi train model


#### 2.3.4. So sánh theo Target (Intra-dataset comparison)
##### So sánh khách hàng có phản hồi vs không phản hồi chiến dịch

 So sánh giữa 2 nhóm trong cùng dataset
 - Hàm: sv.compare_intra(dataframe, condition, ["label1", "label2"])
 - Input: 
   1. dataframe: DataFrame cần phân tích
   2. condition: Boolean mask để chia nhóm (True/False array)
   3. labels: List 2 tên nhóm [nhóm True, nhóm False]
 - Output: Report so sánh 2 nhóm
 - Ví dụ: So sánh khách hàng Response=1 vs Response=0
 - Số biến: 28 features x 2 nhóm = 56 phân tích
 - Mục đích: Tìm đặc điểm khác biệt giữa 2 nhóm khách hàng
 - Use case: Hiểu profile của khách hàng có phản hồi tích cực

In [9]:

print("⏳ Đang tạo báo cáo so sánh theo Response...")
report_compare_target = sv.compare_intra(marketing_data, 
                                         marketing_data["Response"] == 1,
                                         ["Có phản hồi", "Không phản hồi"])

# Lưu báo cáo
report_compare_target.show_html('sweetviz_marketing_compare_response.html', open_browser=False)

print("✓ Đã tạo báo cáo so sánh theo Response: sweetviz_marketing_compare_response.html")
print("  👥 Báo cáo này so sánh đặc điểm giữa 2 nhóm khách hàng")
print("  💼 Giúp hiểu profile khách hàng có khả năng phản hồi cao")

⏳ Đang tạo báo cáo so sánh theo Response...


                                             |                                             | [  0%]   00:00 ->…

Report sweetviz_marketing_compare_response.html was generated.
✓ Đã tạo báo cáo so sánh theo Response: sweetviz_marketing_compare_response.html
  👥 Báo cáo này so sánh đặc điểm giữa 2 nhóm khách hàng
  💼 Giúp hiểu profile khách hàng có khả năng phản hồi cao


### 2.4. Tóm tắt các file báo cáo SweetViz đã tạo

In [10]:
print("="*80)
print("CÁC FILE BÁO CÁO SWEETVIZ ĐÃ TẠO:")
print("="*80)
print("1. sweetviz_marketing_basic.html")
print("   → Báo cáo EDA tổng quan cho toàn bộ dataset Marketing Campaign")
print("   → Phân tích 29 features: demographic, spending, purchasing behavior")
print("\n2. sweetviz_marketing_target.html")
print("   → Báo cáo phân tích mối quan hệ với biến Response")
print("   → Xác định features quan trọng cho dự đoán phản hồi chiến dịch")
print("\n3. sweetviz_marketing_compare.html")
print("   → Báo cáo so sánh giữa train set và test set")
print("   → Kiểm tra data drift và đảm bảo phân bố tương đồng")
print("\n4. sweetviz_marketing_compare_response.html")
print("   → Báo cáo so sánh giữa khách hàng có và không có phản hồi")
print("   → Hiểu profile và hành vi của từng nhóm khách hàng")
print("="*80)

CÁC FILE BÁO CÁO SWEETVIZ ĐÃ TẠO:
1. sweetviz_marketing_basic.html
   → Báo cáo EDA tổng quan cho toàn bộ dataset Marketing Campaign
   → Phân tích 29 features: demographic, spending, purchasing behavior

2. sweetviz_marketing_target.html
   → Báo cáo phân tích mối quan hệ với biến Response
   → Xác định features quan trọng cho dự đoán phản hồi chiến dịch

3. sweetviz_marketing_compare.html
   → Báo cáo so sánh giữa train set và test set
   → Kiểm tra data drift và đảm bảo phân bố tương đồng

4. sweetviz_marketing_compare_response.html
   → Báo cáo so sánh giữa khách hàng có và không có phản hồi
   → Hiểu profile và hành vi của từng nhóm khách hàng


## 3. GIỚI THIỆU VỀ AUTOVIZ

### 3.1. Tổng quan về AutoViz

**AutoViz** tự động tạo các biểu đồ trực quan hóa tốt nhất cho dữ liệu của bạn với một dòng code duy nhất.

#### Tính năng chính:
- ✓ Tự động chọn loại biểu đồ phù hợp
- ✓ Xử lý được dữ liệu lớn (millions of rows)
- ✓ Phát hiện patterns và relationships
- ✓ Hỗ trợ nhiều loại dữ liệu (numeric, categorical, datetime)
- ✓ Tạo biểu đồ đẹp với Matplotlib/Seaborn/Plotly

#### Cài đặt:
```bash
pip install autoviz
```

#### Documentation:
- PyPI: https://pypi.org/project/autoviz/
- GitHub: https://github.com/AutoViML/AutoViz

### 3.2. Sử dụng AutoViz

In [11]:

from autoviz.AutoViz_Class import AutoViz_Class
import os

AV = AutoViz_Class()

os.makedirs('autoviz_marketing_output', exist_ok=True)

print("✓ Đã khởi tạo AutoViz")
print("⏳ Đang tạo biểu đồ... (có thể mất 2-5 phút)")

Imported v0.1.905. Please call AutoViz in this sequence:
    AV = AutoViz_Class()
    %matplotlib inline
    dfte = AV.AutoViz(filename, sep=',', depVar='', dfte=None, header=0, verbose=1, lowess=False,
               chart_format='svg',max_rows_analyzed=150000,max_cols_analyzed=30, save_plot_dir=None)
✓ Đã khởi tạo AutoViz
⏳ Đang tạo biểu đồ... (có thể mất 2-5 phút)


In [12]:
dft = AV.AutoViz(
    filename="",  # Để trống vì dùng DataFrame
    sep=',',
    depVar='Response',  # Target variable
    dfte=marketing_data,  # DataFrame input
    header=0,
    verbose=1,  # Hiển thị progress
    lowess=False,  # Không vẽ LOWESS (tăng tốc)
    chart_format='png',  # Lưu dưới dạng PNG
    max_rows_analyzed=2500,  # Phân tích tối đa 2500 dòng
    max_cols_analyzed=30,  # Phân tích tối đa 30 cột
    save_plot_dir='autoviz_marketing_output'  # Thư mục output
)

print("\n✓ Đã tạo các biểu đồ trong thư mục: autoviz_marketing_output/")
print("  📊 Kiểm tra thư mục để xem tất cả các biểu đồ đã tạo")

Shape of your Data Set loaded: (2240, 27)
#######################################################################################
######################## C L A S S I F Y I N G  V A R I A B L E S  ####################
#######################################################################################
Classifying variables in data set...
    Number of Numeric Columns =  0
    Number of Integer-Categorical Columns =  15
    Number of String-Categorical Columns =  2
    Number of Factor-Categorical Columns =  0
    Number of String-Boolean Columns =  0
    Number of Numeric-Boolean Columns =  6
    Number of Discrete String Columns =  0
    Number of NLP String Columns =  0
    Number of Date Time Columns =  1
    Number of ID Columns =  2
    Number of Columns to Delete =  0
    26 Predictors classified...
        2 variable(s) removed since they were ID or low-information variables
        List of variables removed: ['ID', 'Dt_Customer']

################ Binary_Classification probl

Unnamed: 0,Data Type,Missing Values%,Unique Values%,Minimum Value,Maximum Value,DQ Issue
Year_Birth,int32,0.0,2,1940.0,1999.0,Possible date-time colum: transform before modeling step.
Education,object,0.0,0,,,No issue
Marital_Status,object,0.0,0,,,No issue
Income,int32,0.0,99,10028.0,149931.0,No issue
Kidhome,int32,0.0,0,0.0,2.0,No issue
Teenhome,int32,0.0,0,0.0,2.0,No issue
Recency,int32,0.0,4,0.0,99.0,No issue
MntWines,int32,0.0,51,0.0,1499.0,No issue
MntFruits,int32,0.0,8,0.0,199.0,No issue
MntMeatProducts,int32,0.0,51,0.0,1498.0,No issue


Total Number of Scatter Plots = 120
Could not draw some Time Series plots. 'NoneType' object has no attribute 'suptitle'
All Plots done
Time to run AutoViz = 19 seconds 

 ###################### AUTO VISUALIZATION Completed ########################

✓ Đã tạo các biểu đồ trong thư mục: autoviz_marketing_output/
  📊 Kiểm tra thư mục để xem tất cả các biểu đồ đã tạo


### 3.3. Các loại biểu đồ AutoViz tạo ra

AutoViz tự động tạo các biểu đồ sau cho Marketing Campaign dataset:

#### 📊 Scatter Plots:
- Mối quan hệ giữa Income vs MntWines, MntMeatProducts, etc.
- Colored by Response (target variable)
- Phát hiện patterns trong spending behavior

#### 📈 Distribution Plots:
- Histogram cho Income, Age, Recency
- Bar charts cho Education, Marital_Status
- KDE plots cho continuous variables

#### 🔥 Heatmaps:
- Correlation matrix cho spending variables
- Missing values pattern
- Associations giữa campaigns

#### 📦 Box Plots:
- Phân bố Income theo Response
- Spending patterns theo Education level
- Phát hiện outliers trong từng nhóm

#### 🎯 Violin Plots:
- Phân bố chi tiết của Age theo Marital_Status
- Spending distribution theo Response

#### 📉 Pair Plots:
- Mối quan hệ giữa các spending variables
- Patterns trong purchasing behavior

## 4. SO SÁNH SWEETVIZ VS AUTOVIZ

| TIÊU CHÍ | SWEETVIZ | AUTOVIZ |
|----------|----------|----------|
| **Đầu ra** | HTML report interactive | PNG/SVG images |
| **Tốc độ** | Nhanh (30-60s) | Chậm hơn (2-5 phút) |
| **Dễ sử dụng** | Rất dễ (1-2 dòng code) | Rất dễ (1 dòng code) |
| **Tùy chỉnh** | Hạn chế | Nhiều options hơn |
| **Báo cáo** | Đầy đủ, chuyên nghiệp | Nhiều biểu đồ riêng lẻ |
| **So sánh datasets** | Có (built-in) | Không |
| **Target analysis** | Có (built-in) | Có (depVar parameter) |
| **Dữ liệu lớn** | Tốt (< 1M rows) | Rất tốt (millions rows) |
| **Visualization** | Đẹp, professional | Đẹp, nhiều loại |
| **File size** | 1 file HTML (2-5 MB) | Nhiều PNG files (10-50 MB) |

### Khi nào sử dụng:

#### 🎯 SweetViz:
- ✓ Cần báo cáo nhanh, đầy đủ
- ✓ Trình bày cho stakeholders
- ✓ So sánh train/test sets
- ✓ Phân tích target variable
- ✓ Dữ liệu vừa và nhỏ (< 100K rows)
- ✓ Cần 1 file duy nhất dễ share

#### 🎯 AutoViz:
- ✓ Cần nhiều loại biểu đồ chi tiết
- ✓ Dữ liệu rất lớn (> 100K rows)
- ✓ Muốn tùy chỉnh từng biểu đồ
- ✓ Cần export images cho báo cáo Word/PowerPoint
- ✓ Khám phá sâu patterns và relationships
- ✓ Cần biểu đồ chất lượng cao cho publication

**💡 TIP:** Sử dụng cả hai công cụ để có cái nhìn toàn diện nhất!
- Bắt đầu với SweetViz để có overview nhanh
- Dùng AutoViz để khám phá chi tiết các patterns thú vị

## 5. CODE MẪU ĐẦY ĐỦ

### 5.1. Code mẫu SweetViz

In [None]:
# CODE MẪU: SỬ DỤNG SWEETVIZ
# - Input: DataFrame hoặc file CSV
# - Output: File HTML report
# - Số dòng code: 2-5 dòng cho mỗi loại báo cáo

import pandas as pd
import sweetviz as sv

# Nạp dữ liệu
data = pd.read_csv("your_data.csv")

# 1. Báo cáo cơ bản
report = sv.analyze(data)
report.show_html("report.html")

# 2. Báo cáo với target
report = sv.analyze(data, target_feat='target_column')
report.show_html("report_target.html")

# 3. So sánh train/test
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size=0.3)
report = sv.compare([train, "Training"], [test, "Testing"])
report.show_html("report_compare.html")

# 4. So sánh theo điều kiện
report = sv.compare_intra(data, data["target"] == 1, ["Class 1", "Class 0"])
report.show_html("report_intra.html")

### 5.2. Code mẫu AutoViz

In [None]:
# CODE MẪU: SỬ DỤNG AUTOVIZ
# - Input: File CSV hoặc DataFrame
# - Output: Nhiều file PNG/SVG
# - Số dòng code: 1 dòng chính + parameters

from autoviz.AutoViz_Class import AutoViz_Class

# Khởi tạo
AV = AutoViz_Class()

# Trực quan hóa từ file
# - filename: Đường dẫn file
# - depVar: Target variable (optional)
# - max_rows_analyzed: Giới hạn số dòng (tăng tốc)
# - save_plot_dir: Thư mục lưu biểu đồ
dft = AV.AutoViz(
    filename="your_data.csv",
    sep=',',
    depVar='target_column',
    dfte=None,
    header=0,
    verbose=1,
    lowess=False,
    chart_format='png',
    max_rows_analyzed=150000,
    max_cols_analyzed=30,
    save_plot_dir='./plots'
)

# Hoặc với DataFrame
# - dfte: DataFrame input
# - filename: Để trống khi dùng DataFrame
dft = AV.AutoViz(
    filename="",
    sep=',',
    depVar='target_column',
    dfte=your_dataframe,
    header=0,
    verbose=1,
    chart_format='png',
    save_plot_dir='./plots'
)

## 6. TÀI LIỆU THAM KHẢO

### SweetViz:
- PyPI: https://pypi.org/project/sweetviz/
- GitHub: https://github.com/fbdesignpro/sweetviz
- Tutorial: https://towardsdatascience.com/sweetviz-automated-eda-in-python

### AutoViz:
- PyPI: https://pypi.org/project/autoviz/
- GitHub: https://github.com/AutoViML/AutoViz
- Tutorial: https://towardsdatascience.com/autoviz-a-new-tool-for-automated-visualization

### Dataset:
- Customer Personality Analysis: https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis

### Công cụ khác:
- **Pandas Profiling (ydata-profiling)**: https://github.com/ydataai/ydata-profiling
- **D-Tale**: https://github.com/man-group/dtale
- **Lux**: https://github.com/lux-org/lux
- **DataPrep**: https://github.com/sfu-db/dataprep

## 7. KẾT LUẬN

### Những điểm chính cần nhớ:

1. **SweetViz** phù hợp cho:
   - Báo cáo nhanh và chuyên nghiệp
   - So sánh datasets (train/test, groups)
   - Trình bày cho stakeholders
   - Phân tích target variable

2. **AutoViz** phù hợp cho:
   - Khám phá sâu với nhiều biểu đồ
   - Dữ liệu lớn (millions of rows)
   - Tùy chỉnh chi tiết từng biểu đồ
   - Export images cho presentations

3. **Best Practice cho Marketing Campaign Analysis:**
   - Sử dụng SweetViz để hiểu overview và identify key features
   - Dùng AutoViz để khám phá relationships giữa spending patterns
   - Kết hợp với EDA thủ công để có insights sâu hơn về customer behavior
   - Focus vào features có correlation cao với Response

4. **Insights từ Marketing Campaign:**
   - Income và spending patterns là predictors quan trọng
   - Education level ảnh hưởng đến response rate
   - Recency (số ngày từ lần mua cuối) có mối quan hệ với Response
   - Số lượng campaigns đã accept trước đó predict response tốt