## 1.3.4. Bài tập thực hành 2
### Tìm hiểu các tính năng và cách sử dụng sản phẩm AutoViz áp dụng trên tập dữ liệu Marketing Campaign

**Giới thiệu AutoViz:**
AutoViz là một thư viện Python hỗ trợ phân tích dữ liệu khám phá (EDA – Exploratory Data Analysis) tự động.

Thay vì phải viết nhiều dòng code để vẽ từng biểu đồ thủ công, AutoViz có thể:
- Tự động nhận diện loại dữ liệu (số, phân loại, thời gian).

- Xử lý cơ bản dữ liệu (loại bỏ missing values, chuẩn hóa định dạng).

- Sinh ra nhiều biểu đồ trực quan (histogram, boxplot, scatter plot, heatmap).

- Điều này giúp nhà phân tích tiết kiệm thời gian khi tìm hiểu tập dữ liệu mới và nhanh chóng nắm được bức tranh tổng quan trước khi xây dựng mô hình.

**Một số tính năng chính của AutoViz:**

- Tự động phân tích dữ liệu đầu vào: phát hiện kiểu dữ liệu, phân phối, giá trị thiếu.

- Trực quan hóa đa dạng:

    - Histogram và Boxplot cho biến số.

    - Scatter plot giữa các cặp biến số.

    - Heatmap thể hiện tương quan giữa các biến số.

- So sánh theo biến mục tiêu: nếu dataset có biến phân loại (target), AutoViz sẽ phân tích phân phối và đặc trưng của các nhóm.

- Hỗ trợ dữ liệu lớn: có thể làm việc với hàng trăm nghìn dòng.

#### Cách sử dụng đối với file Marketing Campaign:

In [None]:
import pandas as pd
import os
import webbrowser
from autoviz.AutoViz_Class import AutoViz_Class

AV = AutoViz_Class()

df = pd.read_csv("marketing_campaign.csv", sep="\t")

df.drop_duplicates(inplace=True)
if "Income" in df.columns:
    df["Income"] = pd.to_numeric(df["Income"], errors="coerce")
    df["Income"] = df["Income"].fillna(df["Income"].median())

# AutoViz chạy trên DataFrame
df_av = AV.AutoViz(
    filename="",       
    dfte=df,         
    depVar="Response",        
    sep=",", 
    header=0, 
    verbose=1, 
    chart_format="png",
    max_rows_analyzed=150000, 
    max_cols_analyzed=30
)

In [None]:
# --- Tạo file HTML report ---
report_file = "autoviz_report.html"
plots_dir = os.path.join("AutoViz_Plots", "Response")

with open(report_file, "w", encoding="utf-8") as f:
    f.write("<html><head><title>AutoViz Report</title></head><body>")
    f.write("<h1>AutoViz Report</h1>")

    # Duyệt qua toàn bộ file plot
    if os.path.exists(plots_dir):
        for img in sorted(os.listdir(plots_dir)):
            file_path = os.path.join(plots_dir, img)

            if img.endswith((".png", ".svg")):
                f.write(f"<h3>{img}</h3>")
                f.write(f'<img src="{file_path}" style="max-width:100%; border:1px solid #ccc;"><br><br>')

            elif img.endswith(".html"):
                f.write(f"<h3>{img}</h3>")
                f.write(f'<iframe src="{file_path}" width="100%" height="600" style="border:1px solid #ccc;"></iframe><br><br>')
    else:
        f.write("<p>⚠️ Không tìm thấy thư mục AutoViz_Plots/Response</p>")

    f.write("</body></html>")

print(f" File report đã tạo: {os.path.abspath(report_file)}")
webbrowser.open("file://" + os.path.abspath(report_file))

**Nhận xét khi áp dụng với tập dữ liệu Marketing Campaign:**

Khi dùng AutoViz để phân tích file marketing_campaign.csv, có thể rút ra một số điểm sau:

- Dữ liệu gồm cả số (như Year_Birth, Income, Recency, MntWines, MntMeatProducts) và chữ (như Education, Marital_Status). Cột Income có giá trị bị thiếu, đã được thay bằng trung vị để đảm bảo phân tích mượt hơn.

- Biến mục tiêu là Response (0 = không phản hồi, 1 = có phản hồi). AutoViz dựa vào đó để so sánh các đặc điểm giữa hai nhóm khách hàng.

- Một vài kết quả nổi bật:

        - Year_Birth nằm trong khoảng 1892–1996, cho thấy AutoViz đã bỏ bớt giá trị ngoại lai.

        - Income có phân phối lệch phải: đa số thu nhập trung bình, một số ít thu nhập rất cao.

        - Các biến gia đình như Kidhome và Teenhome có liên quan nhẹ đến Response.

        - Recency (số ngày từ lần mua gần nhất) cũng có ảnh hưởng, khách hàng mua gần đây thường dễ phản hồi hơn.

        - Chi tiêu như MntWines hay MntMeatProducts không liên quan rõ ràng tới Response.

        - Nhóm có Education = PhD và Marital_Status = Married thường có Income cao hơn so với các nhóm khác.

Nhìn chung, AutoViz giúp thấy nhanh đặc điểm và mối liên hệ giữa các biến với Response, tuy nhiên không phải cột nào cũng có biểu đồ rõ ràng. Đây chỉ là bước khám phá dữ liệu ban đầu, cần thêm các phân tích thống kê hoặc mô hình dự đoán để rút ra kết luận chắc chắn hơn.