# Phân tích dữ liệu Marketing Campaign với AutoViz

Notebook này trình bày cách sử dụng thư viện AutoViz để phân tích tập dữ liệu Marketing Campaign.

## 1. Cài đặt và import các thư viện cần thiết

In [None]:
# Cài đặt AutoViz nếu chưa có
!pip install autoviz

# Import các thư viện cần thiết
import pandas as pd
import numpy as np
from autoviz.AutoViz_Class import AutoViz_Class

## 2. Đọc và khám phá dữ liệu

In [None]:
# Đọc dữ liệu từ file CSV
df = pd.read_csv('marketing_campaign.csv', sep='\t')

# Hiển thị 5 dòng đầu tiên
df.head()

In [None]:
# Kiểm tra thông tin cơ bản của dữ liệu
df.info()

In [None]:
# Kiểm tra thống kê mô tả
df.describe()

## 3. Phân tích dữ liệu với AutoViz

### 3.1. Khởi tạo AutoViz và phân tích tổng quan

In [None]:
# Khởi tạo AutoViz
AV = AutoViz_Class()

# Phân tích dữ liệu với AutoViz
dft = AV.AutoViz(
    filename='',
    sep='\t',
    depVar='Response',  # Biến mục tiêu
    dfte=df,
    header=0,
    verbose=2,
    lowess=False,
    chart_format='png',
    max_rows_analyzed=2240,  # Phân tích toàn bộ dữ liệu
    max_cols_analyzed=30
)

### 3.2. Phân tích với các biến mục tiêu khác nhau

In [None]:
# Phân tích với biến mục tiêu là AcceptedCmp1 (Chiến dịch 1)
dft_cmp1 = AV.AutoViz(
    filename='',
    sep='\t',
    depVar='AcceptedCmp1',
    dfte=df,
    header=0,
    verbose=1,
    lowess=False,
    chart_format='png',
    max_rows_analyzed=1000,  # Giảm số lượng dòng để tăng tốc độ
    max_cols_analyzed=30
)

### 3.3. Phân tích với tập dữ liệu con

In [None]:
# Tạo tập dữ liệu con chỉ bao gồm các khách hàng có con
df_with_children = df[(df['Kidhome'] > 0) | (df['Teenhome'] > 0)]

# Phân tích tập dữ liệu con
dft_children = AV.AutoViz(
    filename='',
    sep='\t',
    depVar='Response',
    dfte=df_with_children,
    header=0,
    verbose=1,
    lowess=False,
    chart_format='png',
    max_rows_analyzed=1000,
    max_cols_analyzed=30
)

### 3.4. Phân tích với các tùy chọn nâng cao

In [None]:
# Tạo biến mới tổng hợp các chiến dịch được chấp nhận
df['TotalAccepted'] = df['AcceptedCmp1'] + df['AcceptedCmp2'] + df['AcceptedCmp3'] + \
                      df['AcceptedCmp4'] + df['AcceptedCmp5']

# Phân tích với biến mục tiêu mới và các tùy chọn nâng cao
dft_advanced = AV.AutoViz(
    filename='',
    sep='\t',
    depVar='TotalAccepted',
    dfte=df,
    header=0,
    verbose=1,
    lowess=True,  # Sử dụng LOWESS smoothing cho biểu đồ scatter
    chart_format='png',
    max_rows_analyzed=1000,
    max_cols_analyzed=30,
    ignore_vars=['ID', 'Z_CostContact', 'Z_Revenue'],  # Bỏ qua các biến không cần thiết
    save_plot_dir='./AutoViz_Advanced_Plots'  # Lưu biểu đồ vào thư mục riêng
)

## 4. Nhận xét và phân tích

### 4.1. Ưu điểm của AutoViz

1. **Tự động hóa cao:** AutoViz tự động tạo ra nhiều loại biểu đồ khác nhau chỉ với một dòng mã, giúp tiết kiệm thời gian đáng kể.

2. **Phát hiện vấn đề chất lượng dữ liệu:** AutoViz tự động phát hiện và báo cáo các vấn đề về chất lượng dữ liệu như giá trị thiếu, giá trị trùng lặp, v.v.

3. **Đa dạng biểu đồ:** AutoViz tạo ra nhiều loại biểu đồ khác nhau như biểu đồ phân phối, biểu đồ hộp, biểu đồ thanh, biểu đồ nhiệt, biểu đồ scatter, v.v.

4. **Phân tích theo biến mục tiêu:** AutoViz tự động phân tích mối quan hệ giữa các biến và biến mục tiêu, giúp hiểu rõ hơn về các yếu tố ảnh hưởng.

5. **Tùy chỉnh linh hoạt:** AutoViz cung cấp nhiều tùy chọn để điều chỉnh quá trình phân tích, từ việc chọn biến mục tiêu đến việc bỏ qua các biến không cần thiết.

### 4.2. Phân tích kết quả

Từ các biểu đồ được tạo ra bởi AutoViz, chúng ta có thể rút ra một số nhận xét về tập dữ liệu Marketing Campaign:

1. **Phân phối biến mục tiêu:** Biến Response có sự mất cân bằng, với số lượng khách hàng phản hồi (1) ít hơn nhiều so với số lượng khách hàng không phản hồi (0).

2. **Mối quan hệ giữa các biến:** Biểu đồ nhiệt cho thấy có mối tương quan giữa các biến liên quan đến chi tiêu (MntWines, MntMeatProducts, v.v.) và biến mục tiêu Response.

3. **Phân phối thu nhập:** Biểu đồ phân phối cho thấy thu nhập của khách hàng có phân phối lệch phải, với một số lượng nhỏ khách hàng có thu nhập cao.

4. **Ảnh hưởng của việc có con:** Biểu đồ hộp cho thấy khách hàng có con có xu hướng chi tiêu ít hơn và ít phản hồi chiến dịch hơn so với khách hàng không có con.

5. **Hiệu quả của các chiến dịch trước đó:** Biểu đồ thanh cho thấy khách hàng đã phản hồi các chiến dịch trước đó có xu hướng phản hồi chiến dịch hiện tại cao hơn.

### 4.3. So sánh với SweetViz

So với SweetViz, AutoViz có một số điểm khác biệt:

1. **Tập trung vào biến mục tiêu:** AutoViz tập trung nhiều hơn vào việc phân tích mối quan hệ giữa các biến và biến mục tiêu, trong khi SweetViz cung cấp cái nhìn tổng quan hơn về toàn bộ dữ liệu.

2. **Phát hiện vấn đề chất lượng dữ liệu:** AutoViz có khả năng phát hiện và báo cáo các vấn đề về chất lượng dữ liệu tốt hơn so với SweetViz.

3. **Định dạng đầu ra:** SweetViz tạo ra báo cáo HTML tương tác, trong khi AutoViz tạo ra các file hình ảnh riêng lẻ.

4. **Tùy chỉnh:** AutoViz cung cấp nhiều tùy chọn hơn để điều chỉnh quá trình phân tích, nhưng giao diện của SweetViz thân thiện với người dùng hơn.

5. **Hiệu suất:** AutoViz có thể xử lý các tập dữ liệu lớn hơn so với SweetViz, nhưng có thể chậm hơn trong một số trường hợp.

## 5. Kết luận

AutoViz là một công cụ mạnh mẽ cho phân tích dữ liệu khám phá tự động, đặc biệt hữu ích khi cần nhanh chóng hiểu về một tập dữ liệu mới. Với khả năng tạo ra nhiều loại biểu đồ khác nhau và phát hiện vấn đề chất lượng dữ liệu, AutoViz giúp tiết kiệm thời gian đáng kể trong quá trình EDA.

Đối với tập dữ liệu Marketing Campaign, AutoViz đã giúp chúng ta hiểu rõ hơn về các yếu tố ảnh hưởng đến tỷ lệ phản hồi của khách hàng, từ đó có thể đưa ra các quyết định marketing hiệu quả hơn.

Tuy nhiên, AutoViz cũng có một số hạn chế như không cung cấp báo cáo tương tác như SweetViz và có thể chậm khi xử lý các tập dữ liệu lớn. Vì vậy, tùy thuộc vào nhu cầu cụ thể, chúng ta có thể lựa chọn giữa AutoViz và SweetViz hoặc kết hợp cả hai để có cái nhìn toàn diện nhất về dữ liệu.