# **TIỀN XỬ LÝ DỮ LIỆU**
Dataset: https://www.kaggle.com/datasets/ahmedabbas757/coffee-sales/data

## **1. Import thư viện:**

In [3]:
import pandas as pd
import numpy as np

## **2. Tiền xử lý:**
### **Thu thập dữ liệu:**

In [5]:
data = pd.read_excel("./data/Coffee Shop Sales.xlsx")
data = pd.DataFrame(data)
data.head()

Unnamed: 0,transaction_id,transaction_date,transaction_time,transaction_qty,store_id,store_location,product_id,unit_price,product_category,product_type,product_detail
0,1,2023-01-01,07:06:11,2,5,Lower Manhattan,32,3.0,Coffee,Gourmet brewed coffee,Ethiopia Rg
1,2,2023-01-01,07:08:56,2,5,Lower Manhattan,57,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg
2,3,2023-01-01,07:14:04,2,5,Lower Manhattan,59,4.5,Drinking Chocolate,Hot chocolate,Dark chocolate Lg
3,4,2023-01-01,07:20:24,1,5,Lower Manhattan,22,2.0,Coffee,Drip coffee,Our Old Time Diner Blend Sm
4,5,2023-01-01,07:22:41,2,5,Lower Manhattan,57,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg


---

### **Khám phá dữ liệu**
#### **- Tập dữ liệu có bao nhiêu dòng? Bao nhiêu cột?**

In [8]:
shape = data.shape
shape

(149116, 11)

#### **- Ý nghĩa của mỗi dòng trong tập dữ liệu?**

Mỗi dòng trong tập dữ liệu thể hiện một thông tin giao dịch có ngày giờ cụ thể tạo một cửa hàng cà phê ở NYC.

#### **- Ý nghĩa của mỗi cột trong tập dữ liệu?**

Dưới đây là ý nghĩa của từng cột: 

| Giá trị cột          | Mô tả                                                 |
|----------------------|-------------------------------------------------------|
| `transaction_id`     | mã giao dịch                                          |
| `transaction_date`   | ngày giao dịch (MM/DD/YY)                             |
| `transaction_time`   | thời gian giao dịch trong ngày (HH:MM:SS)             |
| `transaction_qty`    | số lượng sản phẩm bán trong một giao dịch             |
| `store_id`           | mã của hàng thực hiện giao dịch                       |
| `store_location`     | địa chỉ cửa hàng thực hiện giao dịch                  |
| `product_id`         | mã sản phẩm được bán                                  |
| `unit_price`         | đơn giá của sản phẩm được bán                         |
| `product_category`   | mô tả phân loại sản phẩm                              |
| `product_type`       | mô tả loại sản phẩm                                   |
| `product_detail`     | chi tiết sản phẩm                                     |


#### **- Tập dữ liệu có tồn tại những hàng trùng nhau không?**

In [11]:
duplicates = data[data.duplicated(keep = "first")]
print(f'Raw data have {len(duplicates)} duplicated lines.')

Raw data have 0 duplicated lines.


#### **- Kiểu dữ liệu của mỗi cột là gì? Có hợp lý với ý nghĩa của cột không?**

In [13]:
data.dtypes

transaction_id               int64
transaction_date    datetime64[ns]
transaction_time            object
transaction_qty              int64
store_id                     int64
store_location              object
product_id                   int64
unit_price                 float64
product_category            object
product_type                object
product_detail              object
dtype: object

Các cột dữ liệu: `transaction_id`, `store_id`, `product_id` đang được lưu trữ với kiểu dữ liệu số. Tuy nhiên, các thuộc tính này lại mang ý nghĩa về sự phân loại nên chuyển các thuộc tính trên thành kiểu dữ liệu phân loại.

In [15]:
data['transaction_id'] = data['transaction_id'].astype(str)
data['store_id'] = data['transaction_id'].astype(str)
data['product_id'] = data['transaction_id'].astype(str)

Ngoài ra, cột dữ liệu `transaction_date` và `transaction_time` cần gộp chung lại thành cột dữ liệu `transaction_datetime` và chuẩn hóa về dạng *datetime64[ns]*.

In [17]:
data['transaction_date'] = data['transaction_date'].astype(str)
tmp = [f'{data['transaction_date'][i]} {data['transaction_time'][i]}' for i in range(data.shape[0])]
data['transaction_datetime'] = pd.to_datetime(tmp)

Xóa 2 cột `transaction_date` và `transaction_time`

In [19]:
data = data.drop(columns=['transaction_date', 'transaction_time'])

In [20]:
data.head()

Unnamed: 0,transaction_id,transaction_qty,store_id,store_location,product_id,unit_price,product_category,product_type,product_detail,transaction_datetime
0,1,2,1,Lower Manhattan,1,3.0,Coffee,Gourmet brewed coffee,Ethiopia Rg,2023-01-01 07:06:11
1,2,2,2,Lower Manhattan,2,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg,2023-01-01 07:08:56
2,3,2,3,Lower Manhattan,3,4.5,Drinking Chocolate,Hot chocolate,Dark chocolate Lg,2023-01-01 07:14:04
3,4,1,4,Lower Manhattan,4,2.0,Coffee,Drip coffee,Our Old Time Diner Blend Sm,2023-01-01 07:20:24
4,5,2,5,Lower Manhattan,5,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg,2023-01-01 07:22:41


In [21]:
data.dtypes

transaction_id                  object
transaction_qty                  int64
store_id                        object
store_location                  object
product_id                      object
unit_price                     float64
product_category                object
product_type                    object
product_detail                  object
transaction_datetime    datetime64[ns]
dtype: object

#### **- Sự phân bố dữ liệu?**
**Đối với dữ liệu số**

Thực hiện một số thống kê cơ bản gồm: tỉ lệ mất dữ liệu `missing_ratio (%)`, giá trị nhỏ nhất `min`, các điểm phân vị: `lower quartile` và `upper quartile`, giá trị trung bình `median`, giá trị lớn nhất `max`.

In [23]:
numeric_cols = ['transaction_qty', 'unit_price']
numeric_data = data[numeric_cols]

idx = ['missing_ratio', 'min', 'lower_quartile', 'median', 'upper_quartile', 'max']
col_info_dict = {key: [
                        round(np.sum(np.isnan(numeric_data[key].values))/numeric_data.shape[0] * 100, 1), 
                        round(numeric_data[key].min(), 1),
                        round(numeric_data[key].quantile(0.25), 1),
                        round(numeric_data[key].median(), 1),
                        round(numeric_data[key].quantile(0.75), 1),
                        round(numeric_data[key].max(), 1)
                    ] for key in numeric_cols}
num_col_info_df = pd.DataFrame(col_info_dict, index=idx)
num_col_info_df

Unnamed: 0,transaction_qty,unit_price
missing_ratio,0.0,0.0
min,1.0,0.8
lower_quartile,1.0,2.5
median,1.0,3.0
upper_quartile,2.0,3.8
max,8.0,45.0


Tiếp theo, xử lý dữ liệu trống trong các cột dữ liệu số

In [25]:
dict(num_col_info_df.iloc[0])

{'transaction_qty': 0.0, 'unit_price': 0.0}

*Ta có thể thấy không tồn tại ô dữ liệu trống trong các cột dữ liệu số của tập dataset!*

**Đối với dữ liệu dạng phân loại**

Tính toán tần suất xuất hiện của các cột và in ra *n* giá trị có tần suất xuất hiện nhiều nhất của mỗi cột

In [28]:
categorical_cols = ['transaction_id', 'transaction_datetime', 'store_id', 'store_location', 'product_id', 'product_category', 'product_type', 'product_detail']

def display_top_categories(df, column, top_n=10):
    top_values = df[column].value_counts()
    
    check = top_n
    top_n = min(top_n, top_values.shape[0])
    
    first_n_values = top_values.head(top_n)
    
    total_count = df.shape[0]
    
    percentages = (top_values / total_count * 100).round(5)
    first_n_percentages = percentages.head(top_n)

    print(f"Tỉ lệ phần trăm các ô trống trong cột '{column}' (missing_ratio): {df[column].isna().sum()}%")
    print(f"Các giá trị trong cột '{column}' với tần xuất và tỉ lệ phần trăm:")

    for value, count, pct in zip(first_n_values.index, first_n_values.values, percentages):
        print(f"{value}: {count} ({pct}%)")

    if check == top_n:
        print("...")
    print("\n" + "-"*40 + "\n")

for col in categorical_cols:
    display_top_categories(data, col)


Tỉ lệ phần trăm các ô trống trong cột 'transaction_id' (missing_ratio): 0%
Các giá trị trong cột 'transaction_id' với tần xuất và tỉ lệ phần trăm:
1: 1 (0.00067%)
99641: 1 (0.00067%)
99661: 1 (0.00067%)
99662: 1 (0.00067%)
99663: 1 (0.00067%)
99664: 1 (0.00067%)
99665: 1 (0.00067%)
99666: 1 (0.00067%)
99667: 1 (0.00067%)
99668: 1 (0.00067%)
...

----------------------------------------

Tỉ lệ phần trăm các ô trống trong cột 'transaction_datetime' (missing_ratio): 0%
Các giá trị trong cột 'transaction_datetime' với tần xuất và tỉ lệ phần trăm:
2023-05-09 07:11:25: 10 (0.00671%)
2023-06-09 07:11:25: 7 (0.00469%)
2023-04-09 08:15:41: 6 (0.00402%)
2023-03-30 08:15:41: 6 (0.00402%)
2023-06-09 08:15:41: 6 (0.00402%)
2023-06-30 08:15:41: 6 (0.00402%)
2023-01-09 08:15:41: 6 (0.00402%)
2023-04-09 10:21:56: 5 (0.00335%)
2023-03-09 09:04:31: 5 (0.00335%)
2023-05-31 10:20:15: 5 (0.00335%)
...

----------------------------------------

Tỉ lệ phần trăm các ô trống trong cột 'store_id' (missing_ratio

*Ta có thể thấy sự phân bố dữ liệu rõ ràng và không tồn tại bất kỳ ô trống nào trong các cột dữ liệu kiểu phân loại của dataset này!*

#### **- Ghi ra file tập dữ liệu đã qua tiền xử lý**

In [31]:
data.to_csv("./data/processed_data.csv", index = False)