# Nhiệm vụ 2: Khám phá và xử lý dữ liệu Marketing Campaign
**Nguồn dữ liệu:** [Customer Personality Analysis - Kaggle](https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis)


### 1.Import thư viện và nạp dữ liệu

In [4]:
# 🔹 Import thư viện
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 🔹 Nạp dữ liệu (CSV tab-delimited)
marketing_data = pd.read_csv("data/marketing_campaign.csv", sep="\t")

# 🔹 Chọn các cột cần thiết
cols_needed = ['ID','Year_Birth', 'Education','Marital_Status','Income',
               'Kidhome','Teenhome','Dt_Customer','Recency','NumStorePurchases','NumWebVisitsMonth']

# 🔹 Lọc cột tồn tại trong CSV
marketing_data = marketing_data[[c for c in cols_needed if c in marketing_data.columns]]

# 🔹 Xem 5 dòng đầu tiên
marketing_data.head()


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,NumStorePurchases,NumWebVisitsMonth
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,4,7
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,2,5
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,10,4
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,4,6
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,6,5


Nhận xét:
- Dữ liệu gồm các thông tin nhân khẩu học, tình trạng hôn nhân, thu nhập, số con và hành vi mua hàng của khách hàng.
Cột Dt_Customer thể hiện ngày trở thành khách hàng, Recency là số ngày kể từ lần mua gần nhất.

### 2.Loại bỏ dữ liệu trùng lặp

In [5]:
# Xóa các dòng trùng lặp
marketing_data_duplicate = marketing_data.drop_duplicates()

# Xóa dòng có index = 1 (nếu cần)
marketing_data = marketing_data.drop(labels=[1], axis=0)

# Xóa cột Year_Birth (ví dụ minh họa)
marketing_data = marketing_data.drop(labels=['Year_Birth'], axis=1)

# Kiểm tra kích thước sau khi xóa
marketing_data.shape


(2239, 10)

Nhận xét:
- Sau khi loại bỏ trùng lặp, dữ liệu trở nên sạch hơn, giảm khả năng sai lệch khi phân tích thống kê.

### 3.Thay thế và thay đổi định dạng dữ liệu

In [6]:
# Thay giá trị trong cột Teenhome
marketing_data['Teenhome_replaced'] = marketing_data['Teenhome'].replace(
    [0,1,2],
    ['has no teen','has teen','has teen']
)

# Điền giá trị thiếu trong cột Income bằng 0
marketing_data['Income'] = marketing_data['Income'].fillna(0)

# Chuyển kiểu dữ liệu từ float sang int
marketing_data['Income_changed'] = marketing_data['Income'].astype(int)

# Hiển thị vài dòng để kiểm tra
marketing_data.head()


Unnamed: 0,ID,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,NumStorePurchases,NumWebVisitsMonth,Teenhome_replaced,Income_changed
0,5524,Graduation,Single,58138.0,0,0,04-09-2012,58,4,7,has no teen,58138
2,4141,Graduation,Together,71613.0,0,0,21-08-2013,26,10,4,has no teen,71613
3,6182,Graduation,Together,26646.0,1,0,10-02-2014,26,4,6,has no teen,26646
4,5324,PhD,Married,58293.0,1,0,19-01-2014,94,6,5,has no teen,58293
5,7446,Master,Together,62513.0,0,1,09-09-2013,16,10,6,has teen,62513


Nhận xét:
- Việc thay thế giúp dữ liệu dễ hiểu hơn cho người đọc.
- Cột Income đã được xử lý giá trị thiếu và đổi sang kiểu số nguyên để thống nhất định dạng.

### 4.Xử lý dữ liệu thiếu

In [7]:
# Kiểm tra số lượng giá trị thiếu
marketing_data.isnull().sum()

# Loại bỏ các dòng có giá trị thiếu
marketing_data_withoutna = marketing_data.dropna(how='any')

# Kiểm tra kích thước sau khi loại bỏ
marketing_data_withoutna.shape


(2239, 12)

Nhận xét:
- Một số cột có giá trị bị thiếu, chủ yếu là ở cột Income.
- Sau khi loại bỏ các dòng chứa giá trị thiếu, dữ liệu có kích thước nhỏ hơn nhưng đảm bảo tính toàn vẹn.

### 5.Kết luận chung

Dữ liệu sau khi xử lý đã:
- Loại bỏ trùng lặp và dữ liệu thiếu.
- Thay thế và đổi định dạng dữ liệu hợp lý.
- Sẵn sàng cho các bước phân tích, trực quan và huấn luyện mô hình tiếp theo.
