BÀI TẬP THỰC HÀNH 2: SỬ DỤNG D-TALE ĐỂ PHÂN TÍCH DỮ LIỆU

Mục tiêu:

Hiểu rõ tính năng và cách sử dụng của thư viện D-Tale.

Áp dụng D-Tale để thực hiện Phân tích Dữ liệu Khám phá (EDA) một cách nhanh chóng và tương tác trên tập dữ liệu Marketing Campaign.

1. Giới thiệu về D-Tale

D-Tale là gì?
D-Tale là một công cụ mạnh mẽ dùng để trực quan hóa và phân tích dữ liệu Pandas DataFrame trong Python. Nó tạo ra một giao diện web tương tác, cho phép người dùng khám phá, làm sạch và phân tích dữ liệu mà không cần viết nhiều code, rất phù hợp cho việc Phân tích Dữ liệu Khám phá (EDA).

Các tính năng nổi bật:

Giao diện tương tác: Cung cấp một giao diện web đầy đủ tính năng để xem, sắp xếp và lọc dữ liệu.

Phân tích chi tiết từng cột: Dễ dàng xem các thống kê mô tả, biểu đồ phân phối, các giá trị thường gặp và các giá trị ngoại lai cho mỗi cột chỉ bằng vài cú nhấp chuột.

Trực quan hóa nâng cao: Tích hợp sẵn các công cụ để vẽ biểu đồ, xem bản đồ nhiệt (heatmap) về mối tương quan, và tạo các biểu đồ 3D.

Xử lý dữ liệu: Hỗ trợ các thao tác như xử lý giá trị bị thiếu (missing values), chuyển đổi kiểu dữ liệu, tạo cột mới ngay trên giao diện.

Xuất mã nguồn: Một tính năng độc đáo là D-Tale có thể xuất ra đoạn code Python tương ứng với các thao tác bạn đã thực hiện trên giao diện, giúp bạn tái sử dụng và tích hợp vào quy trình làm việc của mình.

2. Chuẩn bị môi trường

Bước 1: Cài đặt thư viện
Nếu chưa có, bạn hãy mở Terminal/Anaconda Prompt và cài đặt D-Tale và pandas.

 Lệnh cài đặt trong Anaconda Prompt hoặc Terminal
 pip install pandas
 pip install dtale
Tiếp theo, chúng ta sẽ tải dữ liệu vào một Pandas DataFrame.

In [8]:
import pandas as pd
import dtale
from datetime import date

# Đọc dữ liệu từ file CSV
# File marketing_campaign.csv cần được đặt cùng thư mục hoặc cần chỉ định đường dẫn đầy đủ
try:
    df = pd.read_csv('marketing_campaign.csv', sep='\t')
    print("Tải dữ liệu gốc thành công!")
    print(f"Dữ liệu gốc có {df.shape[0]} hàng và {df.shape[1]} cột.")
except FileNotFoundError:
    print("Lỗi: Không tìm thấy file 'marketing_campaign.csv'. Vui lòng kiểm tra lại.")
    exit()

# Hiển thị thông tin cơ bản của dữ liệu
print("\nThông tin ban đầu của dữ liệu (df.info()):")
df.info()

Tải dữ liệu gốc thành công!
Dữ liệu gốc có 2240 hàng và 29 cột.

Thông tin ban đầu của dữ liệu (df.info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-

3. Tiền xử lý và làm sạch dữ liệu (Data Preprocessing)

Trước khi khám phá, một bước quan trọng là làm sạch và chuẩn bị dữ liệu.

3.1. Xử lý giá trị bị thiếu (Missing Values)

Cột Income (Thu nhập) có một số giá trị bị thiếu. Chúng ta sẽ thay thế các giá trị này bằng giá trị trung vị (median) của cột.

In [9]:
# Kiểm tra số lượng giá trị thiếu trong mỗi cột
print("\nSố lượng giá trị thiếu trước khi xử lý:")
print(df.isnull().sum())

# Tính giá trị trung vị của cột 'Income'
income_median = df['Income'].median()

# Điền các giá trị thiếu bằng giá trị trung vị
df['Income'].fillna(income_median, inplace=True)

print(f"\nĐã điền các giá trị thiếu trong cột 'Income' bằng trung vị: {income_median}")


Số lượng giá trị thiếu trước khi xử lý:
ID                      0
Year_Birth              0
Education               0
Marital_Status          0
Income                 24
Kidhome                 0
Teenhome                0
Dt_Customer             0
Recency                 0
MntWines                0
MntFruits               0
MntMeatProducts         0
MntFishProducts         0
MntSweetProducts        0
MntGoldProds            0
NumDealsPurchases       0
NumWebPurchases         0
NumCatalogPurchases     0
NumStorePurchases       0
NumWebVisitsMonth       0
AcceptedCmp3            0
AcceptedCmp4            0
AcceptedCmp5            0
AcceptedCmp1            0
AcceptedCmp2            0
Complain                0
Z_CostContact           0
Z_Revenue               0
Response                0
dtype: int64

Đã điền các giá trị thiếu trong cột 'Income' bằng trung vị: 51381.5



A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.





3.2. Tạo các cột dữ liệu mới (Feature Engineering)

Để việc phân tích sâu hơn, chúng ta sẽ tạo ra một số cột mới từ dữ liệu có sẵn.

In [10]:
# 1. Tạo cột 'Age' (Tuổi) từ 'Year_Birth'
current_year = date.today().year
df['Age'] = current_year - df['Year_Birth']

# 2. Tạo cột 'TotalChildren' (Tổng số con)
df['TotalChildren'] = df['Kidhome'] + df['Teenhome']

# 3. Tạo cột 'TotalSpending' (Tổng chi tiêu)
mnt_cols = [col for col in df.columns if 'Mnt' in col]
df['TotalSpending'] = df[mnt_cols].sum(axis=1)

# 4. Tạo cột 'EnrollmentLength' (Thời gian gắn bó)
# Chuyển đổi Dt_Customer sang kiểu datetime
df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], dayfirst=True)
# Tính số ngày gắn bó tính đến hôm nay
df['EnrollmentDays'] = (pd.to_datetime('today') - df['Dt_Customer']).dt.days

print("\nĐã tạo thành công các cột mới: 'Age', 'TotalChildren', 'TotalSpending', 'EnrollmentDays'.")

# Xem 5 dòng đầu của dữ liệu sau khi đã xử lý
print("\n5 dòng dữ liệu đầu tiên sau khi xử lý:")
df.head()


Đã tạo thành công các cột mới: 'Age', 'TotalChildren', 'TotalSpending', 'EnrollmentDays'.

5 dòng dữ liệu đầu tiên sau khi xử lý:


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response,Age,TotalChildren,TotalSpending,EnrollmentDays
0,5524,1957,Graduation,Single,58138.0,0,0,2012-09-04,58,635,...,0,0,0,3,11,1,68,0,1617,4787
1,2174,1954,Graduation,Single,46344.0,1,1,2014-03-08,38,11,...,0,0,0,3,11,0,71,2,27,4237
2,4141,1965,Graduation,Together,71613.0,0,0,2013-08-21,26,426,...,0,0,0,3,11,0,60,0,776,4436
3,6182,1984,Graduation,Together,26646.0,1,0,2014-02-10,26,11,...,0,0,0,3,11,0,41,1,53,4263
4,5324,1981,PhD,Married,58293.0,1,0,2014-01-19,94,173,...,0,0,0,3,11,0,44,1,422,4285


4. Phân tích khám phá với D-Tale
   
Bây giờ, với bộ dữ liệu đã được làm sạch và bổ sung, chúng ta sẽ sử dụng D-Tale để khám phá.



In [11]:
# Khởi chạy D-Tale trên DataFrame đã xử lý
# Tham số name để đặt tên cho tab D-Tale trên trình duyệt
d = dtale.show(df, name="Marketing Campaign Analysis")

# Lệnh này sẽ in ra một đường link, hãy nhấp vào đó để mở giao diện D-Tale

Các bước khám phá trong giao diện D-Tale:

Phân tích tổng quan:

Truy cập menu Describe ở góc trên bên trái.

Bạn sẽ thấy một bảng tóm tắt thống kê cho tất cả các cột số (giá trị trung bình, độ lệch chuẩn, min, max,...), tương tự kết quả của df.describe(). Điều này giúp nhanh chóng nắm bắt được thang đo và phân phối của các biến.

Phân tích mối tương quan:

Từ menu chính, chọn Correlations.

D-Tale sẽ hiển thị một bản đồ nhiệt (heatmap) tương tác. Di chuột qua các ô để xem hệ số tương quan giữa hai biến.

Phát hiện: Bạn có thể sẽ thấy mối tương quan dương mạnh giữa TotalSpending và Income, điều này là hợp lý vì người có thu nhập cao hơn có xu hướng chi tiêu nhiều hơn.

Phân tích một biến cụ thể:

Nhấp vào tiêu đề cột Age trong bảng dữ liệu.

Một cửa sổ sẽ mở ra với biểu đồ histogram phân phối độ tuổi của khách hàng, các giá trị thường gặp và các thống kê chi tiết. Bạn có thể phát hiện ra các giá trị ngoại lai (ví dụ: người có tuổi > 100).

Trực quan hóa và xây dựng biểu đồ:

Từ menu chính, chọn Charts.

Sử dụng giao diện kéo-thả:

X-Axis: Kéo cột Education (Học vấn).

Y-Axis: Kéo cột TotalSpending (Tổng chi tiêu).

Type: Chọn Bar Chart.

Aggregation: Chọn Mean (Trung bình).

Biểu đồ sẽ cho thấy mức chi tiêu trung bình theo từng trình độ học vấn, giúp bạn trả lời câu hỏi: "Liệu trình độ học vấn có ảnh hưởng đến sức mua không?".

5. Tận dụng tính năng "Code Export"

Đây là một trong những tính năng mạnh mẽ nhất của D-Tale. Giả sử sau khi tương tác, bạn đã lọc ra nhóm khách hàng có thu nhập trên 80,000 USD.

Trong giao diện D-Tale, bạn thực hiện thao tác lọc trên cột Income.

Sau đó, nhấp vào nút Export ở góc trên bên phải và chọn Code Export.

D-Tale sẽ sinh ra một đoạn code Pandas tương ứng với thao tác bạn vừa làm.

Ví dụ về code được sinh ra:

In [12]:
# Đoạn code này là VÍ DỤ về những gì D-Tale có thể tạo ra
# Bạn có thể sao chép và dán nó vào notebook của mình để tái sử dụng

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
	df = df.to_frame(index=False)

# Filter dataframe
df_filtered = df.loc[df['Income'] > 80000]

# Hiển thị kết quả sau khi lọc
print("\nKết quả lọc các khách hàng có thu nhập > 80,000:")
print(df_filtered.head())


Kết quả lọc các khách hàng có thu nhập > 80,000:
      ID  Year_Birth   Education Marital_Status   Income  Kidhome  Teenhome  \
15  2114        1946         PhD         Single  82800.0        0         0   
29  1966        1965         PhD        Married  84618.0        0         0   
40  8601        1980  Graduation        Married  80011.0        0         1   
53  2225        1977  Graduation       Divorced  82582.0        0         0   
55  6260        1955      Master       Together  82384.0        0         0   

   Dt_Customer  Recency  MntWines  ...  AcceptedCmp1  AcceptedCmp2  Complain  \
15  2012-11-24       23      1006  ...             1             0         0   
29  2013-11-22       96       684  ...             0             0         0   
40  2013-04-29        3       421  ...             0             0         0   
53  2014-06-07       54       510  ...             1             0         0   
55  2012-11-19       55       984  ...             0             0         

Tính năng này giúp bạn chuyển từ việc khám phá thủ công sang xây dựng một kịch bản xử lý dữ liệu tự động một cách dễ dàng.