# Khám phá và xử lý dữ liệu Marketing Campaign

### 1. Import thư viện và nạp dữ liệu vào notebook

In [13]:
# ----------------------------
# Load và chuẩn hóa dataset
# ----------------------------
import pandas as pd

# Load CSV với tab separator
marketing_data = pd.read_csv("data/marketing_campaign.csv", sep='\t')

# Loại bỏ khoảng trắng thừa ở đầu / cuối tên cột
marketing_data.columns = marketing_data.columns.str.strip()

# Xem lại các cột
print("Danh sách cột trong dataset:")
print(marketing_data.columns)

# Chọn các cột quan trọng (chỉ giữ những cột thực sự tồn tại)
cols_to_keep = ['ID','Year_Birth', 'Education','Marital_Status','Income','Kidhome', 
                'Teenhome','Dt_Customer', 'Recency','NumStorePurchases','NumWebVisitsMonth',
                'MntWines','MntFruits','MntMeatProducts','MntFishProducts','MntSweetProducts',
                'MntGoldProds','NumDealsPurchases','NumWebPurchases','NumCatalogPurchases',
                'AcceptedCmp3','AcceptedCmp4','AcceptedCmp5','AcceptedCmp1','AcceptedCmp2',
                'Complain','Z_CostContact','Z_Revenue','Response']


Danh sách cột trong dataset:
Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Teenhome', 'Dt_Customer', 'Recency', 'MntWines', 'MntFruits',
       'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts',
       'MntGoldProds', 'NumDealsPurchases', 'NumWebPurchases',
       'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth',
       'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1',
       'AcceptedCmp2', 'Complain', 'Z_CostContact', 'Z_Revenue', 'Response'],
      dtype='object')


### 2 Loại bỏ dữ liệu trùng lặp 

In [12]:
marketing_data.head()
# Remove duplicates across the columns in our dataset:
marketing_data_duplicate = marketing_data.drop_duplicates()
# Delete a specified row at index value 1:
marketing_data.drop(labels=[1], axis=0)
# Delete a single column
marketing_data.drop(labels=['Year_Birth'], axis=1)

The history saving thread hit an unexpected error (OperationalError('database or disk is full')).History will not be written to the database.


Unnamed: 0,ID,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,NumStorePurchases,NumWebVisitsMonth,...,NumCatalogPurchases,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,Graduation,Single,58138.0,0,0,04-09-2012,58,4,7,...,10,0,0,0,0,0,0,3,11,1
1,2174,Graduation,Single,46344.0,1,1,08-03-2014,38,2,5,...,1,0,0,0,0,0,0,3,11,0
2,4141,Graduation,Together,71613.0,0,0,21-08-2013,26,10,4,...,2,0,0,0,0,0,0,3,11,0
3,6182,Graduation,Together,26646.0,1,0,10-02-2014,26,4,6,...,0,0,0,0,0,0,0,3,11,0
4,5324,PhD,Married,58293.0,1,0,19-01-2014,94,6,5,...,3,0,0,0,0,0,0,3,11,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10870,Graduation,Married,61223.0,0,1,13-06-2013,46,4,5,...,3,0,0,0,0,0,0,3,11,0
2236,4001,PhD,Together,64014.0,2,1,10-06-2014,56,5,7,...,2,0,0,0,1,0,0,3,11,0
2237,7270,Graduation,Divorced,56981.0,0,0,25-01-2014,91,13,6,...,3,0,1,0,0,0,0,3,11,0
2238,8235,Master,Together,69245.0,0,1,24-01-2014,8,10,3,...,5,0,0,0,0,0,0,3,11,0


### 3. Thay thế dữ liệu và thay đổi định dạng của dữ liệu

In [23]:
import pandas as pd

# Load CSV với tab separator và chuẩn hóa tên cột
marketing_data = pd.read_csv("data/marketing_campaign.csv", sep='\t')
marketing_data.columns = marketing_data.columns.str.strip()  # loại bỏ khoảng trắng

# Thay thế giá trị Teenhome
# - 0 -> 'has no teen', 1 hoặc 2 -> 'has teen'
# - fillna(0) trước để tránh NaN gây lỗi
marketing_data['Teenhome_replaced'] = marketing_data['Teenhome'].fillna(0).replace(
    [0,1,2], ['has no teen','has teen','has teen']
)

# Fill giá trị thiếu trong cột Income bằng 0
marketing_data['Income'] = marketing_data['Income'].fillna(0)

# Chuyển cột Income sang kiểu int
# - Nếu còn NaN, dùng kiểu Int64 hỗ trợ NaN
marketing_data['Income_changed'] = marketing_data['Income'].astype(int)

# Kiểm tra kết quả
print("5 dòng đầu tiên sau xử lý Teenhome và Income:")
print(marketing_data[['Teenhome','Teenhome_replaced','Income','Income_changed']].head())

# Kiểm tra kiểu dữ liệu để chắc chắn
print("\nKiểu dữ liệu các cột:")
print(marketing_data[['Teenhome_replaced','Income','Income_changed']].dtypes)

5 dòng đầu tiên sau xử lý Teenhome và Income:
   Teenhome Teenhome_replaced   Income  Income_changed
0         0       has no teen  58138.0           58138
1         1          has teen  46344.0           46344
2         0       has no teen  71613.0           71613
3         0       has no teen  26646.0           26646
4         0       has no teen  58293.0           58293

Kiểu dữ liệu các cột:
Teenhome_replaced     object
Income               float64
Income_changed         int64
dtype: object


### 4. Xử lý dữ liệu thiếu

In [21]:
# Kiểm tra số giá trị thiếu theo cột
marketing_data.isnull().sum()  
# => Đếm số NaN trong từng cột

# Loại bỏ các dòng có ít nhất 1 giá trị thiếu
marketing_data_withoutna = marketing_data.dropna(how='any')
# => Tạo DataFrame mới, bỏ dòng missing

# Kiểm tra kích thước DataFrame sau khi loại bỏ missing
marketing_data_withoutna.shape
# => (số dòng, số cột) còn lại, ví dụ (2240,31)


(2240, 31)