In [3]:
import numpy as np
import pandas as pd
import os

# read file
data = pd.read_csv("ecommerce_customer_data_custom_ratios.csv")

# Hiển thị các cột ban đầu
print("Các cột trong dataset:\n", data.columns.tolist())

# Ktra ttin
print(" Kiểm tra thông tin dataset:\n")
data.info() # Lấy thông tin về số lượng và kiểu dữ liệu của các cột trong DataFrame
data.shape  # Trả về một tuple chứa tổng số hàng và cột của DataFrame
data.head() # Hiển thị trước 4 hàng đầu tiên của tập dữ liệu

Các cột trong dataset:
 ['Customer ID', 'Purchase Date', 'Product Category', 'Product Price', 'Quantity', 'Total Purchase Amount', 'Payment Method', 'Customer Age', 'Returns', 'Customer Name', 'Age', 'Gender', 'Churn']
 Kiểm tra thông tin dataset:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250000 entries, 0 to 249999
Data columns (total 13 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   Customer ID            250000 non-null  int64  
 1   Purchase Date          250000 non-null  object 
 2   Product Category       250000 non-null  object 
 3   Product Price          250000 non-null  int64  
 4   Quantity               250000 non-null  int64  
 5   Total Purchase Amount  250000 non-null  int64  
 6   Payment Method         250000 non-null  object 
 7   Customer Age           250000 non-null  int64  
 8   Returns                202404 non-null  float64
 9   Customer Name          250000 non-null  object 
 10 

Unnamed: 0,Customer ID,Purchase Date,Product Category,Product Price,Quantity,Total Purchase Amount,Payment Method,Customer Age,Returns,Customer Name,Age,Gender,Churn
0,46251,8/9/2020 9:38,Electronics,12,3,740,Credit Card,37,0.0,Christine Hernandez,37,Male,0
1,46251,5/3/2022 12:56,Home,468,4,2739,PayPal,37,0.0,Christine Hernandez,37,Male,0
2,46251,23/5/2022 18:18,Home,288,2,3196,PayPal,37,0.0,Christine Hernandez,37,Male,0
3,46251,12/11/2020 13:13,Clothing,196,1,3509,PayPal,37,0.0,Christine Hernandez,37,Male,0
4,13593,27/11/2020 17:55,Home,449,1,3452,Credit Card,49,0.0,James Grant,49,Female,1


In [7]:
# Đếm số lượng giá trị duy nhất trong mỗi cột
print ("Đếm số lượng giá trị duy nhất trong mỗi cột: ")
data.nunique()

Đếm số lượng giá trị duy nhất trong mỗi cột: 


Customer ID               49673
Purchase Date            234633
Product Category              4
Product Price               491
Quantity                      5
Total Purchase Amount      5247
Payment Method                4
Customer Age                 53
Returns                       2
Customer Name             39920
Age                          53
Gender                        2
Churn                         2
dtype: int64

In [9]:
# Chuyển cột 'Purchase Date' sang datetime với định dạng DD/MM/YYYY HH:MM
print("\nChuyển định dạng Datetime:")
data['Purchase Date'] = pd.to_datetime(data['Purchase Date'], format='%d/%m/%Y %H:%M')
# Kiểm tra kết quả
print(data['Purchase Date'].head())


Chuyển định dạng Datetime:
0   2020-09-08 09:38:00
1   2022-03-05 12:56:00
2   2022-05-23 18:18:00
3   2020-11-12 13:13:00
4   2020-11-27 17:55:00
Name: Purchase Date, dtype: datetime64[ns]


In [13]:
# Danh sách các cột cần xóa
columns_to_remove = ["Customer Name", "Total Purchase Amount", "Payment Method", "Returns", "Age", "Churn"]

# Kiểm tra và xóa cột
existing_columns_to_remove = [col for col in columns_to_remove if col in data.columns]
data = data.drop(columns=existing_columns_to_remove)

# Lọc cột bị xóa
print(f"Các cột đã xóa: {existing_columns_to_remove}")
if len(existing_columns_to_remove) < len(columns_to_remove):
    missing_columns = set(columns_to_remove) - set(existing_columns_to_remove)
    print(f"Các cột không tồn tại trong dataset: {missing_columns}")

# Kiểm tra và hiển thị thông tin dataset sau khi xóa cột
print("Dataset sau khi xóa cột:")
print(data.head())



Các cột đã xóa: []
Các cột không tồn tại trong dataset: {'Total Purchase Amount', 'Customer Name', 'Churn', 'Age', 'Returns', 'Payment Method'}
Dataset sau khi xóa cột:
   Customer ID       Purchase Date Product Category  Product Price  Quantity  \
0        46251 2020-09-08 09:38:00      Electronics             12         3   
1        46251 2022-03-05 12:56:00             Home            468         4   
2        46251 2022-05-23 18:18:00             Home            288         2   
3        46251 2020-11-12 13:13:00         Clothing            196         1   
4        13593 2020-11-27 17:55:00             Home            449         1   

   Customer Age  Gender  
0            37    Male  
1            37    Male  
2            37    Male  
3            37    Male  
4            49  Female  


In [17]:
# Lưu file mới
updated_file_path = 'updated_dataset.csv'
try:
    data.to_csv(updated_file_path, index=False)
    print(f"Dataset đã được lưu tại: {updated_file_path}")
except Exception as e:
    raise Exception(f"Lỗi khi lưu dataset: {e}")

Dataset đã được lưu tại: updated_dataset.csv


In [21]:
# Tìm tất cả các dòng có ít nhất một giá trị null
rows_with_null = data[data.isnull().any(axis=1)]
#Kiểm tra nếu bất kỳ giá trị nào trong hàng (axis=1) là null.

print(rows_with_null)

Empty DataFrame
Columns: [Customer ID, Purchase Date, Product Category, Product Price, Quantity, Customer Age, Gender]
Index: []


In [23]:
#Kiểm tra duplicates, trả về tất cả cột duplicates
data[data.duplicated(keep=False)] 

Unnamed: 0,Customer ID,Purchase Date,Product Category,Product Price,Quantity,Customer Age,Gender


In [25]:
#Phát hiện giá trị ngoại lai
# Tính IQR cho cột Age
Q1_age = data['Customer Age'].quantile(0.25) #quý 1 - 25%
Q3_age = data['Customer Age'].quantile(0.75) #quý 3 - 75%
IQR_age = Q3_age - Q1_age

lower_bound_age = Q1_age - 1.5 * IQR_age 
upper_bound_age = Q3_age + 1.5 * IQR_age 

# Phát hiện giá trị ngoại lai trong cột Age
outliers_age = data[(data['Customer Age'] < lower_bound_age) | (data['Customer Age'] > upper_bound_age)]
print("Outliers in Age:")
print(outliers_age)


Outliers in Age:
Empty DataFrame
Columns: [Customer ID, Purchase Date, Product Category, Product Price, Quantity, Customer Age, Gender]
Index: []
