# **Black Friday Sales**

1. **Mô tả**:

- Black Friday Sales là một bộ dữ liệu bao gồm các giao dịch bán hàng được ghi lại tại một cửa hàng bán lẻ. Đây là một bộ dữ liệu điển hình để khám phá và mở rộng kỹ năng tạo đặc trưng (feature engineering) cũng như hiểu biết từ các trải nghiệm mua sắm hàng ngày. Đây là một bài toán hồi quy, với bộ dữ liệu chứa hơn 500,000 dòng và 12 cột

2. **Ứng dụng**:

- Bộ dữ liệu này giúp ta hiểu sâu hơn về các khía cạnh của việc mua sắm trong ngày Black Friday, một trong những ngày mua sắm lớn nhất trong năm. Nó có thể được sử dụng để:

  - Dự đoán số tiền mua sắm của khách hàng
  - Phân tích hành vi mua sắm
  - Xây dựng các chiến lược tiếp thị và bán hàng hiệu quả

3. **Vấn đề cần giải quyết**:

- Phân tích dữ liệu chuẩn bị cho việc dự đoán số tiền mua sắm của khách hàng

> Thông Tin Các Cột Dữ Liệu (dataset: ``black_friday_data.csv``)

| Tên Cột                    | Mô Tả                                                                 |
|----------------------------|----------------------------------------------------------------------|
| **User_ID**                | ID duy nhất của người dùng. Tổng cộng có 5891 người dùng trong bộ dữ liệu. |
| **Product_ID**             | ID duy nhất của sản phẩm. Tổng cộng có 3623 sản phẩm trong bộ dữ liệu. |
| **Gender**                 | Giới tính của người thực hiện giao dịch.                               |
| **Age**                    | Nhóm tuổi của người thực hiện giao dịch.                               |
| **Occupation**             | Nghề nghiệp của người dùng, được gán nhãn từ 0 đến 20.                |
| **City_Category**          | Loại thành phố nơi người dùng sinh sống. Các thành phố được phân thành 3 loại 'A', 'B' và 'C'. |
| **Stay_In_Current_City_Years** | Thời gian người dùng đã sống ở thành phố hiện tại.                       |
| **Marital_Status**         | Tình trạng hôn nhân: 0 nếu chưa kết hôn và 1 nếu đã kết hôn.          |
| **Product_Category_1**     | Loại sản phẩm. Tất cả 3 loại đã được gán nhãn số.                      |
| **Product_Category_2**     | Loại sản phẩm. Tất cả 3 loại đã được gán nhãn số.                      |
| **Product_Category_3**     | Loại sản phẩm. Tất cả 3 loại đã được gán nhãn số.                      |
| **Purchase**               | Số tiền mua sắm.    

## **THỰC HÀNH VÀ ỨNG DỤNG**

- Import Library

In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

### **A. Áp Dụng Kiến Thức Pandas**
- Thực hành Đọc dữ liệu với file `.csv` 
- CSV là viết tắt của Comma Separated Value - là những giá trị được phân tách bằng dấu phẩy và là tệp văn bản thuần túy chứa dữ liệu. Nó được biết đến như một trong những định dạng lưu trữ dữ liệu đơn giản nhất và được Data Scientist và Data Engineer thường xuyên sử dụng.

#### Loading and Inspecting Data

In [2]:
test = pd.read_csv('./dataset/black_friday_data.csv')
test.head(10)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969
5,1000003,P00193542,M,26-35,15,A,3,0,1,2.0,,15227
6,1000004,P00184942,M,46-50,7,B,2,1,1,8.0,17.0,19215
7,1000004,P00346142,M,46-50,7,B,2,1,1,15.0,,15854
8,1000004,P0097242,M,46-50,7,B,2,1,1,16.0,,15686
9,1000005,P00274942,M,26-35,20,A,1,1,8,,,7871


##### Giải thích:

- ``pd.read_csv('./dataset/black_friday_data.csv')``: Sử dụng hàm read_csv của thư viện pandas để đọc dữ liệu từ file CSV có tên 'black_friday_data.csv' và lưu vào biến test.
- ``test.head(10)``: Hiển thị 10 dòng đầu tiên của DataFrame mart để xem qua cấu trúc và một phần dữ liệu của file CSV đã được đọc.

In [3]:
test.shape

(537577, 12)

##### Giải thích:

- ``test.shape``: Trả về một tuple thể hiện kích thước của DataFrame test, với số hàng và số cột tương ứng.

In [4]:
test.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

##### Giải thích:

- ``test.columns``: Trả về danh sách các tên cột của DataFrame test

In [5]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     537577 non-null  int64  
 1   Product_ID                  537577 non-null  object 
 2   Gender                      537577 non-null  object 
 3   Age                         537577 non-null  object 
 4   Occupation                  537577 non-null  int64  
 5   City_Category               537577 non-null  object 
 6   Stay_In_Current_City_Years  537577 non-null  object 
 7   Marital_Status              537577 non-null  int64  
 8   Product_Category_1          537577 non-null  int64  
 9   Product_Category_2          370591 non-null  float64
 10  Product_Category_3          164278 non-null  float64
 11  Purchase                    537577 non-null  int64  
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


##### Giải thích:

- ``test.info()``: Hiển thị thông tin tóm tắt về DataFrame test, bao gồm:
    - Tổng số lượng hàng (entries).
    - Tên các cột.
    - Số lượng giá trị không rỗng (non-null) trong mỗi cột.
    - Kiểu dữ liệu của mỗi cột (e.g., int64, float64, object).
    - Dung lượng bộ nhớ mà DataFrame chiếm dụng.

### **B. Áp Dụng Kiến Thức Numpy**

#### 1. Basic Numpy Operations

In [6]:
# Chuyển đổi cột 'Purchase' thành mảng numpy
purchase = test['Purchase'].to_numpy()

# Tính toán các thống kê mô tả cơ bản
mean_purchase = np.mean(purchase)
median_purchase = np.median(purchase)
std_purchase = np.std(purchase)

print("Mean Purchase:", mean_purchase)
print("Median Purchase:", median_purchase)
print("Standard Deviation of Purchase:", std_purchase)

Mean Purchase: 9333.859852635065
Median Purchase: 8062.0
Standard Deviation of Purchase: 4981.017499809046


##### Giải thích:

- ``to_numpy()``: Chuyển đổi cột 'Purchase' thành mảng numpy.
- ``np.mean()``: Tính giá trị trung bình của mảng.
- ``np.median()``: Tính giá trị trung vị của mảng.
- ``np.std()``: Tính độ lệch chuẩn của mảng.

#### 2. Handling Missing Values

In [7]:
# Kiểm tra các giá trị thiếu trong 'Product_Category_2' và 'Product_Category_3'
missing_values_cat2 = np.isnan(test['Product_Category_2']).sum()
missing_values_cat3 = np.isnan(test['Product_Category_3']).sum()
print("Number of missing values in 'Product_Category_2':", missing_values_cat2)
print("Number of missing values in 'Product_Category_3':", missing_values_cat3)

Number of missing values in 'Product_Category_2': 166986
Number of missing values in 'Product_Category_3': 373299


##### Giải thích:

- ``np.isnan()``: Kiểm tra các giá trị NaN trong mảng.

#### 3. Data Transformation

In [8]:
# Biến đổi log của 'Purchase'
log_purchase = np.log(purchase)

# Hiển thị dữ liệu đã biến đổi
print("Original Purchase:", purchase[:5])
print("Log Transformed Purchase:", log_purchase[:5])

Original Purchase: [ 8370 15200  1422  1057  7969]
Log Transformed Purchase: [9.03240916 9.62905071 7.25981961 6.96318999 8.98331429]


##### Giải thích:

- ``np.log()``: Áp dụng phép biến đổi log tự nhiên cho các giá trị trong mảng.

#### 4. Data Aggregation

In [9]:
# Tổng hợp 'Purchase' theo 'Age'
age_purchase = test.groupby('Age')['Purchase'].sum().to_numpy()

# Hiển thị dữ liệu tổng hợp
print("Total Purchase by Age Group:", age_purchase)

Total Purchase by Age Group: [ 132659006  901669280 1999749106 1010649565  413418223  361908356
  197614842]


##### Giải thích:

- ``groupby()``: Nhóm dữ liệu theo cột 'Age'.
- ``sum()``: Tính tổng số tiền mua sắm cho từng nhóm tuổi.
- ``to_numpy()``: Chuyển đổi kết quả thành mảng numpy.

#### 5. Data Normalization

In [10]:
# Chuẩn hóa Min-Max của 'Purchase'
min_purchase = np.min(purchase)
max_purchase = np.max(purchase)

normalized_purchase = (purchase - min_purchase) / (max_purchase - min_purchase)
print("Normalized Purchase:", normalized_purchase[:5])

Normalized Purchase: [0.34425471 0.63151918 0.05202725 0.03667564 0.32738896]


##### Giải thích:

- ``np.min()``: Tìm giá trị nhỏ nhất trong mảng.
- ``np.max()``: Tìm giá trị lớn nhất trong mảng.
- Biểu thức ``(purchase - min_purchase) / (max_purchase - min_purchase)``: Áp dụng chuẩn hóa Min-Max cho các giá trị trong mảng.

### **C. Thực Hiện Làm Sạch Dữ Liệu - Data Cleaning**

In [11]:
# Kiểm tra các giá trị bị thiếu
missing_values = test.isnull().sum()
print(missing_values)

User_ID                            0
Product_ID                         0
Gender                             0
Age                                0
Occupation                         0
City_Category                      0
Stay_In_Current_City_Years         0
Marital_Status                     0
Product_Category_1                 0
Product_Category_2            166986
Product_Category_3            373299
Purchase                           0
dtype: int64


##### Giải thích:

- ``test.isnull().sum()``: Kiểm tra và đếm số lượng giá trị bị thiếu (NaN) trong mỗi cột của DataFrame test.

In [12]:
# Tính phần trăm các giá trị bị thiếu so với tổng số dữ liệu
missing_percentage = (test.isnull().sum() / len(test)) * 100
print(missing_percentage)

User_ID                        0.000000
Product_ID                     0.000000
Gender                         0.000000
Age                            0.000000
Occupation                     0.000000
City_Category                  0.000000
Stay_In_Current_City_Years     0.000000
Marital_Status                 0.000000
Product_Category_1             0.000000
Product_Category_2            31.062713
Product_Category_3            69.441029
Purchase                       0.000000
dtype: float64


##### Giải thích:

- ``test.isnull().sum() / len(test) * 100``: Tính phần trăm các giá trị bị thiếu so với tổng số dòng dữ liệu trong DataFrame test.
- Từ output trả về, ta có: ~31% giá trị Product_Category_2 + ~69% giá trị thiếu Product_Category_3.

In [13]:
# Điền các giá trị thiếu trong cột 'Product_Category_2' bằng giá trị trung bình của cột này
test['Product_Category_2'] = test['Product_Category_2'].fillna(test['Product_Category_2'].mean())

# Điền các giá trị thiếu trong cột 'Product_Category_3' bằng giá trị trung bình của cột này
test['Product_Category_3'] = test['Product_Category_3'].fillna(test['Product_Category_3'].mean())

##### Giải thích:

- ``test['Product_Category_2'].fillna()``: Điền các giá trị thiếu trong cột 'Product_Category_2' bằng giá trị trung bình của cột và cập nhật trực tiếp vào DataFrame test.
- ``test['Product_Category_3'].fillna()``: Điền các giá trị thiếu trong cột 'Product_Category_3' bằng giá trị trung bình của cột và cập nhật trực tiếp vào DataFrame test.

In [14]:
# Xác minh các giá trị bị thiếu đã được xử lý
missing_values_after = test.isnull().sum()
print(missing_values_after)

User_ID                       0
Product_ID                    0
Gender                        0
Age                           0
Occupation                    0
City_Category                 0
Stay_In_Current_City_Years    0
Marital_Status                0
Product_Category_1            0
Product_Category_2            0
Product_Category_3            0
Purchase                      0
dtype: int64


##### Giải thích:

- ``test.isnull().sum()``: Kiểm tra và đếm lại số lượng giá trị bị thiếu trong mỗi cột của DataFrame test sau khi đã xử lý các giá trị bị thiếu.

### **D. Áp Dụng Kiến Thức Matplotlib - Data Visualization**