# AutoViz - Giới thiệu

## 1. AutoViz là gì?  
[AutoViz](https://pypi.org/project/autoviz/) (Automatic Visualization) là một thư viện Python giúp **tự động hóa việc trực quan hóa dữ liệu (EDA)** chỉ bằng vài dòng lệnh.  

👉 Mục tiêu chính: rút ngắn thời gian viết code vẽ biểu đồ thủ công, giúp người dùng nhanh chóng:  
- Nhìn tổng quan phân phối dữ liệu  
- Phát hiện mối quan hệ giữa các biến  
- Xác định outlier  
- Kiểm tra missing values  
- Nắm bắt các đặc trưng nổi bật  



## 2. Tính năng nổi bật  

| Tính năng                                       | Mô tả                                                                                                                                                    | Lợi ích khi áp dụng cho marketing campaign                                                                                                |
| ----------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------- |
| **Tự động chọn biến & loại biểu đồ**            | AutoViz tự xác định biến số (numeric) / phân loại (categorical) và chọn biểu đồ phù hợp (histogram, scatter, boxplot, bar, heatmap, v.v.). ([Medium][1]) | Bạn không phải suy nghĩ chọn biểu đồ nào cho biến nào — AutoViz giúp bạn nhanh chóng xem phân phối, mối quan hệ giữa biến số & phân loại. |
| **Phân tích chất lượng dữ liệu (Data Quality)** | AutoViz có phần hiển thị missing values, giá trị bất thường, các biến low-information, và gợi ý xử lý dữ liệu. ([Medium][2])                             | Bạn có thể nhanh chóng phát hiện biến có nhiều giá trị thiếu, biến không đổi hoặc nhiễu, trước khi bước tiền xử lý.                       |
| **FixDQ (tự sửa dữ liệu)**                      | AutoViz có module `FixDQ` để “sửa nhanh” các vấn đề chất lượng dữ liệu (ví dụ duplicate, missing) nếu có. ([Medium][2])                                  | Giúp bạn tiết kiệm thời gian xử lý dữ liệu ban đầu, đặc biệt nếu dataset có ít lỗi phổ biến.                                              |
| **Hỗ trợ biểu đồ tương tác & HTML**             | AutoViz có tùy chọn `chart_format='bokeh'` hoặc `chart_format='html'` để tạo biểu đồ tương tác hoặc lưu file HTML. ([PyPI][3])                           | Bạn có thể gửi file HTML cho đồng nghiệp xem, hoặc tương tác trực tiếp trong notebook.                                                    |
| **Hạn chế phân tích nếu dataset quá lớn**       | Bạn có thể đặt `max_rows_analyzed` và `max_cols_analyzed` để giới hạn bớt biểu đồ cho dataset lớn. ([PyPI][3])                                           | Giúp tránh lỗi hoặc quá chậm khi dataset marketing có nhiều records hoặc nhiều biến.                                                      |
| **Tùy chọn param – kiểm soát đầu vào**          | Bạn có thể truyền tham số như tên file, separator, biến phụ thuộc (target), verbose, v.v. ([Medium][1])                                                  | Khi bạn có biến target (ví dụ “is_converted”), bạn có thể chỉ định nó để AutoViz tạo các biểu đồ liên quan.                               |

[1]: https://medium.com/%40tubelwj/autoviz-automatic-visualization-tool-for-python-94eb10f6223f?utm_source=chatgpt.com "Autoviz — Automatic Visualization Tool for Python | by Gen. Devin DL."
[2]: https://medium.com/%40soulawalid/python-autoviz-data-exploration-made-it-easy-475a9646630f?utm_source=chatgpt.com "Python AutoViz : Data exploration made it Easy ! | Dr. Walid Soula"
[3]: https://pypi.org/project/autoviz/0.1.54/?utm_source=chatgpt.com "autoviz · PyPI"


## 3. Cách sử dụng cơ bản

In [13]:
import pandas as pd
from autoviz.AutoViz_Class import AutoViz_Class

# Đọc file đúng cách (tab-separated)
df = pd.read_csv("marketing_campaign.csv", sep="\t")

print(df.columns.tolist())   # Kiểm tra lại cột

# Khởi tạo AutoViz
AV = AutoViz_Class()

# Gọi AutoViz
df_plot = AV.AutoViz(
    filename="marketing_campaign.csv",   # để AutoViz tự đọc file
    sep="\t",                            # dùng tab
    depVar="Response",                   # cột mục tiêu có trong dataset
    header=0,
    verbose=1,
    lowess=False,
    chart_format="svg",
    max_rows_analyzed=200000,
    max_cols_analyzed=30,
    save_plot_dir="autoviz_output"
)


['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'Recency', 'MntWines', 'MntFruits', 'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts', 'MntGoldProds', 'NumDealsPurchases', 'NumWebPurchases', 'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth', 'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1', 'AcceptedCmp2', 'Complain', 'Z_CostContact', 'Z_Revenue', 'Response']
Shape of your Data Set loaded: (2240, 29)
#######################################################################################
######################## C L A S S I F Y I N G  V A R I A B L E S  ####################
#######################################################################################
Classifying variables in data set...
    Number of Numeric Columns =  1
    Number of Integer-Categorical Columns =  15
    Number of String-Categorical Columns =  2
    Number of Factor-Categorical Columns =  0
    Number of String-Boolean Colu

Unnamed: 0,Data Type,Missing Values%,Unique Values%,Minimum Value,Maximum Value,DQ Issue
Year_Birth,int64,0.0,2.0,1893.0,1996.0,Column has 3 outliers greater than upper bound (2004.00) or lower than lower bound(1932.00). Cap them or remove them.
Education,object,0.0,0.0,,,No issue
Marital_Status,object,0.0,0.0,,,"3 rare categories: ['Alone', 'Absurd', 'YOLO']. Group them into a single category or drop the categories."
Income,float64,1.166181,,1730.0,666666.0,"24 missing values. Impute them with mean, median, mode, or a constant value such as 123., Column has 8 outliers greater than upper bound (117909.50) or lower than lower bound(-13900.50). Cap them or remove them."
Kidhome,int64,0.0,0.0,0.0,2.0,No issue
Teenhome,int64,0.0,0.0,0.0,2.0,No issue
Dt_Customer,object,0.0,32.0,,,Possible high cardinality column with 663 unique values: Use hash encoding or text embedding to reduce dimension.
Recency,int64,0.0,4.0,0.0,99.0,No issue
MntWines,int64,0.0,37.0,0.0,1493.0,Column has 33 outliers greater than upper bound (1225.50) or lower than lower bound(-698.50). Cap them or remove them.
MntFruits,int64,0.0,7.0,0.0,199.0,Column has 207 outliers greater than upper bound (81.00) or lower than lower bound(-47.00). Cap them or remove them.


Could not draw wordcloud plot for Dt_Customer. 
Looks like you are missing some required data for this feature.

To download the necessary data, simply run

    python -m textblob.download_corpora

or use the NLTK downloader to download the missing data: http://nltk.org/data.html
If this doesn't fix the problem, file an issue at https://github.com/sloria/TextBlob/issues.

All Plots done
Time to run AutoViz = 3 seconds 

 ###################### AUTO VISUALIZATION Completed ########################


[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |   

## 4. Các tính năng nổi bật khi áp dụng vào dữ liệu Marketing Campaign

### 4.1. Đánh giá chất lượng dữ liệu (Data Quality)

AutoViz sẽ hiển thị các báo cáo như:

- **Số giá trị thiếu (null) từng cột**
- **Phân phối giá trị duy nhất**
- **Phát hiện ngoại lệ (outlier)**
- **Kiểm tra biến có thông tin thấp** (ví dụ: biến chỉ có 1 giá trị) → sẽ bị loại ra

#### Tài liệu tham khảo
- [Medium](https://medium.com) (+3)
- [PyPI](https://pypi.org/project/autoviz/) (+3)
- [GitHub](https://github.com/AutoViML/AutoViz) (+3)

#### Gợi ý xử lý dữ liệu
(đối với phiên bản AutoViz mới có hỗ trợ **FixDQ**)  
- [GitHub](https://github.com/AutoViML/AutoViz) (+2)  
- [Medium](https://medium.com) (+2)
