# I. Thông tin Dataset

## Nguồn gốc
Dataset được cung cấp lấy từ Kaggle (https://www.kaggle.com/datasets/iamsouravbanerjee/customer-shopping-trends-dataset)

## Nội dung
Dataset bao gồm các dữ liệu được ghi nhận lại thông qua hoạt động mua sắm của khách hàng.

Dataset bao gồm nhiều features có liên quan tới hành vi mua sắm mua khách hàng, bao gồm các thông tin cần thiết để các doanh nghiệp có thể nâng cao sự thấu hiểu đối với khách hàng của mình (giới tính, tuổi, phương thức thanh toán ...).


___

# II. Khám phá dữ liệu

## Import thư viện cần thiết

Trước hết, import các thư viện cần thiết cho việc khám phá, xử lý và phân tích trở nên dễ dàng hơn.

In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Đọc dataset từ file csv
Đọc dữ liệu từ file `shopping_trends.csv` được cung cấp

In [12]:
raw_df = pd.read_csv("../data/raw/shopping_trends.csv")

In ra 5 dòng đầu tiên của dataset để có thể nắm bắt được khái quát các cột và nội dung của mỗi observation


In [13]:
raw_df.head()

Unnamed: 0,Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,Review Rating,Subscription Status,Payment Method,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Preferred Payment Method,Frequency of Purchases
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Credit Card,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Bank Transfer,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Cash,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,PayPal,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Cash,Free Shipping,Yes,Yes,31,PayPal,Annually


## Số dòng và cột

In [14]:
raw_df.shape

(3900, 19)

Dễ dàng thấy rằng dataset bao gồm 3900 dòng và 18 cột

## Ý nghĩa của các dòng

Mỗi dòng tương ứng với một quan sát của một hoạt động mua sắm của khách hàng tại thời điểm cụ thể nào đó. Mỗi dòng cung cấp các thông tin như giới tính, tuổi, loại quần áo, giá thành...


## Ý nghĩa của các cột

Để hiểu rõ hơn về nội dung của dataset, ta cần phải giải thích ý nghĩa của từng cột trong dataset. 

- `Customer ID` - giá trị để phân biệt các khách hàng 

- `Age` - tuổi của khách hàng

- `Gender` - giới tính khách hàng

- `Item Purchased` - sản phẩm đã mua

- `Category` - phân loại của sản phẩm

- `Purchase Amount (USD)` - giá tiền đã trả (USD)

- `Location` - địa điểm mua hàng

- `Size` - kích cỡ sản phẩm

- `Color` - màu sắc sản phẩm

- `Season` - mùa mua hàng (tính tại thời điểm mua)

- `Review Rating` - đánh giá sản phẩm từ khách hàng

- `Subscription Status` - chỉ ra khách hàng có là hội viên hay không (Y/N)

- `Payment Method` - phương thức thanh toán

- `Shipping Type` - phương thức giao hàng (chọn bởi khách hàng)

- `Discount Applied` - sản phẩm được giảm giá (Y/N)

- `Promo Code Used` - áp dụng mã giảm giá (Y/N)

- `Previous Purchases` - số lượng giao dịch đến nay (không tính giao dịch hiện tại)

- `Preferred Payment Method`  - phương thức thanh toán được ưu tiên bởi khách hàng

- `Frequency of Purchases` - tần suất mua sắm

## Kiểm tra sự trùng lắp của các dòng


Để kiểm tra giữa các dòng có sự trùng lắp hay không ta thực hiện như sau:

In [16]:
raw_df.duplicated().sum()

0

Output là 0 cho thấy không có sự trùng lắp giữa các dòng.

## Liệu kiểu dữ liệu của các cột đã hợp lý hay chưa?

Trước hết, quan sát kiểu dữ liệu khi đọc lên từ file csv

In [17]:
raw_df.dtypes

Customer ID                   int64
Age                           int64
Gender                       object
Item Purchased               object
Category                     object
Purchase Amount (USD)         int64
Location                     object
Size                         object
Color                        object
Season                       object
Review Rating               float64
Subscription Status          object
Payment Method               object
Shipping Type                object
Discount Applied             object
Promo Code Used              object
Previous Purchases            int64
Preferred Payment Method     object
Frequency of Purchases       object
dtype: object

- `Customer ID` có kiểu dữ liệu là `int64`, tuy nhiên mục đích của `Customer ID` là để phân biệt các khách hàng với nhau. Do đó, ta nên chuyển về kiểu Categorical thì hợp lý hơn là Numerical như hiện tại.


- Xem xét các cột còn lại, kiểu dữ liệu của từng cột đã hợp lý, không cần thao tác gì thêm.

Đổi kiểu dữ liệu của cột `Customer ID` sang `Categorical`

In [21]:
raw_df["Customer ID"] = raw_df["Customer ID"].astype("object")
raw_df.dtypes

Customer ID                  object
Age                           int64
Gender                       object
Item Purchased               object
Category                     object
Purchase Amount (USD)         int64
Location                     object
Size                         object
Color                        object
Season                       object
Review Rating               float64
Subscription Status          object
Payment Method               object
Shipping Type                object
Discount Applied             object
Promo Code Used              object
Previous Purchases            int64
Preferred Payment Method     object
Frequency of Purchases       object
dtype: object

## Sự phân bố của các cột Numerical

Các cột Numerical trong Dataset gồm có:

- `Age`

- `Purchase Amount (USD)`

- `Review Rating`

- `Previous Purchases`

In [24]:
numeric_col = ["Age", "Purchase Amount (USD)", "Review Rating", "Previous Purchases"]
num_df = raw_df[numeric_col].copy()
num_df.head()

Unnamed: 0,Age,Purchase Amount (USD),Review Rating,Previous Purchases
0,55,53,3.1,14
1,19,64,3.1,2
2,50,73,3.1,23
3,21,90,3.5,49
4,45,49,2.7,31


Kiểm tra missing values của các cột trong `num_df`

In [28]:
num_df.isnull().sum()

Age                      0
Purchase Amount (USD)    0
Review Rating            0
Previous Purchases       0
dtype: int64

**Nhận xét**

Nhìn chung, các cột `numerical` không có missing values.

Gọi phương thức `describe()` để hiển thị **summary statistics** của các cột `Numerical`

In [27]:
num_df.describe()

Unnamed: 0,Age,Purchase Amount (USD),Review Rating,Previous Purchases
count,3900.0,3900.0,3900.0,3900.0
mean,44.1,59.8,3.7,25.4
std,15.2,23.7,0.7,14.4
min,18.0,20.0,2.5,1.0
25%,31.0,39.0,3.1,13.0
50%,44.0,60.0,3.7,25.0
75%,57.0,81.0,4.4,38.0
max,70.0,100.0,5.0,50.0


**Nhận xét**

- Các giá trị min, max đã hợp lý và không có cột nào mang giá trị min, max bất thường

## Sự phân bố của các cột Categorical
