## 1. Giới thiệu SweetViz & tính năng chính

SweetViz là thư viện Python mã nguồn mở, hỗ trợ tự động hóa giai đoạn Exploratory Data Analysis (EDA) và xuất báo cáo tương tác ở định dạng HTML. 

| Tính năng                                                 | Mô tả                                                                                                                                                                                         |
| --------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Phân tích đơn (analyze)**                               | Tạo báo cáo chi tiết cho một dataset duy nhất, bao gồm phân phối, missing values, thống kê mô tả, mối liên hệ giữa biến với biến khác. ([Medium][1])                                          |
| **So sánh hai dataset (compare)**                         | So sánh hai DataFrame (ví dụ: train vs test) về phân phối, missing, mối tương quan. ([Analytics Vidhya][2])                                                                                   |
| **So sánh nội bộ (compare_intra / intra-set comparison)** | So sánh các nhóm con (sub-groups) trong cùng dataset (ví dụ nhóm có target = 1 vs 0) để xem đặc điểm phân biệt. ([nb-data.com][3])                                                            |
| **Xác định loại biến & override**                         | Tự động phát hiện biến số, biến phân loại, văn bản… và cho phép bạn ghi đè loại nếu cần. ([Analytics Vidhya][2])                                                                              |
| **Hiển thị associations**                                 | Tạo ma trận hoặc biểu đồ “associations” để cho thấy mối liên kết giữa các biến (liên quan tới correlation, uncertainty coefficient, correlation ratio) tùy loại biến. ([Analytics Vidhya][2]) |
| **Giao diện HTML tương tác**                              | Kết quả xuất ra file HTML có thể mở trong trình duyệt, tương tác (hover, drill-down). ([PyPI][4])                                                                                             |
| **Tùy chỉnh giao diện**                                   | Trong phiên bản mới, có các tham số như `layout`, `scale`, `open_browser` để điều chỉnh hiển thị báo cáo. ([Analytics Vidhya][5])                                                             |
| **Show trong notebook**                                   | Phiên bản mới hỗ trợ `show_notebook()` để hiển thị trực tiếp trong notebook (iframe) thay vì mở ngoài HTML. ([Analytics Vidhya][5])                                                           |

[1]: https://medium.com/data-science/sweetviz-automated-eda-in-python-a97e4cabacde?utm_source=chatgpt.com "Sweetviz: Automated EDA in Python | by Himanshu Sharma"
[2]: https://www.analyticsvidhya.com/blog/2021/05/sweetviz-library-eda-in-seconds/?utm_source=chatgpt.com "SweetViz Library - EDA in Seconds - Analytics Vidhya"
[3]: https://www.nb-data.com/p/python-packages-for-automated-eda?utm_source=chatgpt.com "Python Packages for Automated EDA You Should Use"
[4]: https://pypi.org/project/sweetviz/?utm_source=chatgpt.com "Sweetviz - PyPI"
[5]: https://www.analyticsvidhya.com/blog/2021/01/making-exploratory-data-analysis-sweeter-with-sweetviz-2-0/?utm_source=chatgpt.com "Making Exploratory Data Analysis Sweeter with Sweetviz 2.0"


Nhược điểm / lưu ý:

Báo cáo là HTML ngoài, không hiển thị inline đồ họa trong .py script mà không qua notebook (một số hạn chế môi trường). 
Analytics Vidhya
+1

Với dataset cực lớn hoặc nhiều biến, có thể tốn thời gian/memory.

Nếu dữ liệu có biến phức tạp hoặc cần tùy chỉnh sâu, bạn vẫn cần làm EDA thủ công bổ sung.

## 2. Áp dụng SweetViz cho dataset Marketing Campaign

Giả sử bạn có dataset **Marketing Campaign** chứa các biến như:

- **Biến đặc điểm khách hàng**: tuổi, thu nhập, kênh tiếp cận, khu vực, giới tính, ...
- **Biến kết quả (target)**: có phản hồi / mua / chuyển đổi (0/1)
- **Các biến chiến dịch**: số lần gửi, chi phí, kênh, thời gian, ...

### Có thể dùng SweetViz để:

1. **Khám phá tổng thể dataset**
   - Xem phân phối từng biến, missing, outlier, giá trị phổ biến  
   - Xem mối liên hệ giữa các biến và target  
   - Xem associations giữa các biến  

2. **So sánh giữa hai nhóm**
   - So sánh nhóm đã chuyển đổi (target = 1) và nhóm không chuyển đổi (target = 0) để xem đặc điểm nào khác biệt  
   - Nếu có dataset test/holdout, so sánh train vs test  

3. **Phát hiện điểm bất thường**
   - Biến nào có missing cao  
   - Phân phối lạ  
   - Nhóm ít dữ liệu  


## 3. Code mẫu sử dụng SweetViz cho Marketing Campaign

In [11]:
import numpy as np
import warnings

# Tạo class Warning thay thế
if not hasattr(np, "VisibleDeprecationWarning"):
    class VisibleDeprecationWarning(UserWarning):
        pass
    np.VisibleDeprecationWarning = VisibleDeprecationWarning

import pandas as pd
import sweetviz as sv

# Đọc dữ liệu
df = pd.read_csv("marketing_campaign.csv", sep="\t")

# Tạo báo cáo với target = "Response"
report = sv.analyze(df, target_feat="Response")

# Xuất HTML
report.show_html("marketing_campaign_sweetviz_report.html")


[Summarizing dataframe]                      |          | [  0%]   00:00 -> (? left)

Done! Use 'show' commands to display/save.   |██████████| [100%]   00:00 -> (00:00 left)


Report marketing_campaign_sweetviz_report.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


## 4. Tài liệu tham khảo

[1] Aurélien Géron, Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, O’Reilly, 2019.
[2] Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning, Springer, 2009.
[3] Documentation: https://scikit-learn.org

[4] Documentation: https://pandas.pydata.org