# **Black Friday Sales**

1. **Mô tả**:

- Black Friday Sales là một bộ dữ liệu bao gồm các giao dịch bán hàng được ghi lại tại một cửa hàng bán lẻ. Đây là một bộ dữ liệu điển hình để khám phá và mở rộng kỹ năng tạo đặc trưng (feature engineering) cũng như hiểu biết từ các trải nghiệm mua sắm hàng ngày. Đây là một bài toán hồi quy, với bộ dữ liệu chứa 550,069 dòng và 12 cột

2. **Ứng dụng**:

- Bộ dữ liệu này giúp ta hiểu sâu hơn về các khía cạnh của việc mua sắm trong ngày Black Friday, một trong những ngày mua sắm lớn nhất trong năm. Nó có thể được sử dụng để:

  - Dự đoán số tiền mua sắm của khách hàng
  - Phân tích hành vi mua sắm
  - Xây dựng các chiến lược tiếp thị và bán hàng hiệu quả

3. **Vấn đề cần giải quyết**:

- Phân tích dữ liệu chuẩn bị cho việc dự đoán số tiền mua sắm của khách hàng

> Thông Tin Các Cột Dữ Liệu (dataset: ``black_friday_data.csv``)

| Tên Cột                    | Mô Tả                                                                 |
|----------------------------|----------------------------------------------------------------------|
| **User_ID**                | ID duy nhất của người dùng. Tổng cộng có 5891 người dùng trong bộ dữ liệu. |
| **Product_ID**             | ID duy nhất của sản phẩm. Tổng cộng có 3623 sản phẩm trong bộ dữ liệu. |
| **Gender**                 | Giới tính của người thực hiện giao dịch.                               |
| **Age**                    | Nhóm tuổi của người thực hiện giao dịch.                               |
| **Occupation**             | Nghề nghiệp của người dùng, được gán nhãn từ 0 đến 20.                |
| **City_Category**          | Loại thành phố nơi người dùng sinh sống. Các thành phố được phân thành 3 loại 'A', 'B' và 'C'. |
| **Stay_In_Current_City_Years** | Thời gian người dùng đã sống ở thành phố hiện tại.                       |
| **Marital_Status**         | Tình trạng hôn nhân: 0 nếu chưa kết hôn và 1 nếu đã kết hôn.          |
| **Product_Category_1**     | Loại sản phẩm. Tất cả 3 loại đã được gán nhãn số.                      |
| **Product_Category_2**     | Loại sản phẩm. Tất cả 3 loại đã được gán nhãn số.                      |
| **Product_Category_3**     | Loại sản phẩm. Tất cả 3 loại đã được gán nhãn số.                      |
| **Purchase**               | Số tiền mua sắm.    

## **THỰC HÀNH VÀ ỨNG DỤNG**

- Import Library

In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

### **A. Áp Dụng Kiến Thức Pandas**
- Thực hành Đọc dữ liệu với file `.csv` 
- CSV là viết tắt của Comma Separated Value - là những giá trị được phân tách bằng dấu phẩy và là tệp văn bản thuần túy chứa dữ liệu. Nó được biết đến như một trong những định dạng lưu trữ dữ liệu đơn giản nhất và được Data Scientist và Data Engineer thường xuyên sử dụng.

#### Loading and Inspecting Data

In [2]:
test = pd.read_csv('./dataset/black_friday_data.csv')
test.head(10)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3
0,1000004,P00128942,M,46-50,7,B,2,1,1,11.0,
1,1000009,P00113442,M,26-35,17,C,0,0,3,5.0,
2,1000010,P00288442,F,36-45,1,B,4+,1,5,14.0,
3,1000010,P00145342,F,36-45,1,B,4+,1,4,9.0,
4,1000011,P00053842,F,26-35,1,C,1,0,4,5.0,12.0
5,1000013,P00350442,M,46-50,1,C,3,1,2,3.0,15.0
6,1000013,P00155442,M,46-50,1,C,3,1,1,11.0,15.0
7,1000013,P0094542,M,46-50,1,C,3,1,2,4.0,9.0
8,1000015,P00161842,M,26-35,7,A,1,0,10,13.0,16.0
9,1000022,P00067942,M,18-25,15,A,4+,0,5,14.0,


##### Giải thích:

- ``pd.read_csv('./dataset/black_friday_data.csv')``: Sử dụng hàm read_csv của thư viện pandas để đọc dữ liệu từ file CSV có tên 'black_friday_data.csv' và lưu vào biến test.
- ``test.head(10)``: Hiển thị 10 dòng đầu tiên của DataFrame mart để xem qua cấu trúc và một phần dữ liệu của file CSV đã được đọc.

In [3]:
test.shape

(233599, 11)

##### Giải thích:

- ``test.shape``: Trả về một tuple thể hiện kích thước của DataFrame test, với số hàng và số cột tương ứng.

In [4]:
test.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3'],
      dtype='object')

##### Giải thích:

- ``test.columns``: Trả về danh sách các tên cột của DataFrame test

In [5]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 233599 entries, 0 to 233598
Data columns (total 11 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   User_ID                     233599 non-null  int64  
 1   Product_ID                  233599 non-null  object 
 2   Gender                      233599 non-null  object 
 3   Age                         233599 non-null  object 
 4   Occupation                  233599 non-null  int64  
 5   City_Category               233599 non-null  object 
 6   Stay_In_Current_City_Years  233599 non-null  object 
 7   Marital_Status              233599 non-null  int64  
 8   Product_Category_1          233599 non-null  int64  
 9   Product_Category_2          161255 non-null  float64
 10  Product_Category_3          71037 non-null   float64
dtypes: float64(2), int64(4), object(5)
memory usage: 19.6+ MB


##### Giải thích:

- ``test.info()``: Hiển thị thông tin tóm tắt về DataFrame test, bao gồm:
    - Tổng số lượng hàng (entries).
    - Tên các cột.
    - Số lượng giá trị không rỗng (non-null) trong mỗi cột.
    - Kiểu dữ liệu của mỗi cột (e.g., int64, float64, object).
    - Dung lượng bộ nhớ mà DataFrame chiếm dụng.

### **B. Áp Dụng Kiến Thức Numpy**