### Summary for Presentation Slides

Here’s a condensed version of the report for inclusion in slides:

---

#### **Title Slide**
- **Project Title:** Session-Based Recommender System for Retail Products  
- **Course:** Web Mining - Fall 2024  
- **Instructor:** Ph.D. Nguyen Kiem Hieu  
- **Group Members:**  
  - Đoàn Ngọc Cường - 20210141  
  - Võ Đình Đạt - 20214890  
  - Lê Trung Kiên - 20214907  
  - Phạm Quang Trung - 20214935  
  - Đoàn Thế Vinh - 20210940  

---

#### **Slide 1: Problem Overview**
- **Background:** E-commerce platforms generate vast data on user interactions (clicks, carts, orders).  
- **Challenge:** Predicting user actions in anonymous sessions using only session-based data.  
- **Relevance:** Improves personalization and sales strategies for retailers.  

---

#### **Slide 2: Dataset Overview**
- **Source:** OTTO e-commerce dataset (12M sessions, 220M events).  
- **Event Types:**
  - Clicks (89.8% of interactions).  
  - Add-to-cart (7.8%).  
  - Orders (2.4%).  
- **Challenges:**
  - High sparsity (only 0.0005% possible interactions observed).  
  - Large scale: ~1.8M unique products.

---

#### **Slide 3: Methodology Overview**
- **Approach:** Three methods explored.  
  1. **Method 1:**  
     - Candidate generation (heuristics, Word2Vec, co-visitation).  
     - Ranking with LightGBM.  
  2. **Method 2:**  
     - Collaborative filtering (Item CF, User CF).  
     - Ranking with LightGBM and CatBoost.  
  3. **Method 3:**  
     - Graph Neural Network (GNN) for link prediction on heterogeneous graphs.  

---

#### **Slide 4: Feature Engineering**
- **Session Features:** Interaction counts, time-based metrics.  
- **Item Features:** Co-occurrence stats, Word2Vec similarity.  
- **Contextual Features:** Popularity rank within session clusters.  

---

#### **Slide 5: Evaluation Metrics**
- **Metric:** Recall@20 (weighted by click, cart, and order importance).  
- **Score Calculation:**  
  - \( \text{Score} = 0.10 * R_\text{clicks} + 0.30 * R_\text{carts} + 0.60 * R_\text{orders} \)  

---

#### **Slide 6: Results**
- **Performance Comparison:**  
  - Best Recall@20 for clicks, carts, and orders achieved with GNN approach.  
  - Classical methods also showed competitive results with optimized feature engineering.  

---

#### **Slide 7: Discussion & Challenges**
- **Challenges:**  
  - Handling data sparsity and scalability.  
  - Balancing diverse interaction types in predictions.  
- **Learnings:**  
  - Importance of advanced embedding techniques (Word2Vec, GNN).  
  - Trade-offs between heuristic methods and deep learning.  

---

#### **Slide 8: Conclusion & Future Work**
- **Conclusion:** SBRS effectively predicts session-based actions, enhancing personalization in e-commerce.  
- **Future Work:**  
  - Incorporate Transformer-based embeddings.  
  - Address cold-start problem with auxiliary data.  
  - Perform hyperparameter tuning for ranking models.  

---

This structure provides a clear, engaging, and concise representation of the project.

Dưới đây là bảng tóm tắt chi tiết từng phương pháp trong báo cáo:

| **Phương pháp**            | **Chi tiết**                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | **Ưu điểm**                                                                                                                                                                                                                                                                                                    | **Hạn chế**                                                                                                                                                                                                                                             |
|-----------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Phương pháp 1**          | **Pipeline:** Retrieve (Candidate Generation) → Re-rank → Top 20<br>- **Candidate Generation:**<br>  + Sử dụng ma trận đồng thăm (co-visitation matrix) để tìm các sản phẩm thường được tương tác cùng nhau.<br>  + Tích hợp Word2Vec để thêm các sản phẩm tương tự theo không gian embedding.<br>  + Tận dụng các mục phổ biến trong cụm session (KMeans clustering).<br>- **Re-rank:** Dùng mô hình LightGBM (LambdaRank) để xếp hạng các sản phẩm dựa trên 100 đặc trưng từ lịch sử tương tác và thông tin ngữ cảnh.                                                                                              | - Đơn giản và dễ triển khai.<br>- Kết hợp nhiều nguồn thông tin để tạo tập ứng viên đa dạng.<br>- LightGBM cho phép tối ưu hóa hiệu suất thông qua tính năng xếp hạng.                                                                                                     | - Phụ thuộc nhiều vào các ma trận đồng thăm và embedding thủ công.<br>- Không linh hoạt nếu có dữ liệu mới hoặc thay đổi mạnh mẽ trong hành vi người dùng.                                                                                             |
| **Phương pháp 2**          | **Pipeline:** Tương tự Phương pháp 1<br>- **Candidate Generation:**<br>  + Tận dụng thêm Word2Vec, ma trận đồng thăm (co-visitation matrix), và ma trận phân tích nhân tố (Matrix Factorization).<br>  + Tích hợp các mô hình cộng tác lọc (Collaborative Filtering) dựa trên mục (Item CF) và session (User CF).<br>- **Feature Engineering:**<br>  + Tạo ~200 đặc trưng, bao gồm các thống kê thời gian, mức độ phổ biến và tương tự Word2Vec.<br>- **Re-rank:** Dùng CatBoost Ranker (YetiRank) và LightGBM để tối ưu xếp hạng.                                                                                          | - Tăng độ chính xác nhờ thêm các nguồn dữ liệu như MF và CF.<br>- CatBoost Ranker có khả năng xử lý các vấn đề xếp hạng phức tạp.<br>- Tích hợp nhiều đặc trưng chi tiết.                                                                                              | - Cần thời gian và tài nguyên tính toán cao hơn do sử dụng nhiều kỹ thuật bổ sung.<br>- Dễ bị ảnh hưởng bởi dữ liệu không cân bằng (ví dụ, các sản phẩm ít phổ biến).                                                                                  |
| **Phương pháp 3 (GNN)**     | **Cách tiếp cận:**<br>- Biểu diễn bài toán dưới dạng dự đoán liên kết (link prediction) trên đồ thị không đồng nhất (heterogeneous graph).<br>- **Cấu trúc đồ thị:**<br>  + Node: Gồm 2 loại node (session và sản phẩm).<br>  + Edge: Các quan hệ tương tác giữa node (click, cart, order).<br>- **Quy trình:**<br>  + Preprocess: Biến dữ liệu thành node và edge.<br>  + Node Encoder: Biểu diễn node bằng embedding.<br>  + Edge Encoder: Biểu diễn thông tin quan hệ bằng embedding.<br>  + Training: Tối ưu hóa loss bằng Weighted Mean Squared Error (WMSE).                                                                                  | - Hiện đại, phù hợp với dữ liệu phức tạp.<br>- Khả năng biểu diễn tốt các quan hệ không đồng nhất giữa session và sản phẩm.<br>- Mô hình hóa toàn diện hành vi người dùng trong session.<br>- Đa mục tiêu (multi-objective).                                                    | - Yêu cầu tài nguyên tính toán rất lớn.<br>- Cần xử lý đồ thị phức tạp, dễ gặp vấn đề về bộ nhớ trên tập dữ liệu lớn.<br>- Đòi hỏi chuyên môn cao để thiết kế và tối ưu hóa mô hình.                                                                      |

### **Tóm tắt:**
1. **Phương pháp 1:** Truyền thống, tập trung vào các kỹ thuật thủ công (ma trận đồng thăm, Word2Vec).  
2. **Phương pháp 2:** Nâng cao, thêm các kỹ thuật cộng tác lọc và CatBoost để cải thiện hiệu suất.  
3. **Phương pháp 3:** Hiện đại, tận dụng GNN để khai thác toàn bộ dữ liệu trong cấu trúc đồ thị phức tạp.  

Bạn có thể sử dụng bảng này làm slide tóm tắt nội dung từng phương pháp chi tiết.

# viết TRANSCRIPTION PRESENATION của đoạn METHOD+METRIC NÀY 



3. METHOD DETAILS
3.1. Method 1
The method follows the classical Retrieve (Candidate Generation), Rerank and get the top 20 items for click, add to cart or buy for the session. Approximately 56 candidates are retrieved per session using a combination of session-based heuristics, co-visitation statistics, and Word2Vec embeddings, followed by ranking and selecting the top 20 items for clicks, carts, and orders.
3.1.1. Candidate generation
The retrieval process incorporates multiple sources to maximize diversity and relevance:
Re-visitation matrix: Add all previous items from the session to the pool of candidates.
Co-visitation matrix: Add items frequently visited together. Then we add the 20 most frequent items per each previous item. We utilized several interactions between items listed below to create the co-visitation matrix.
Click-to-click: items are clicked together in the span of 12 hours.
Click-to-cart-or-buy: one item is clicked and then the other is added to cart or ordered in the span of 24 hours.
Cart-to-cart: items are added to cart together in 24 hours.
Cart-to-buy: one is added to cart and then the other is ordered in 24 hours.
Buy-to-buy: items are bought together in a 24-hour interval.
Similar item matrix: Add similar items in terms of Word2Vec embeddings.We add at most 20 similar items per each previous item. Embeddings of items are created based on Word2Vec embeddings from the sequence of all items in the session and from sequence of only cart & buy items in the session.
Popular items in the same cluster of sessions: Compute sessions embeddings based on Word2Vec embeddings of items in the session (a weighted average by type and time). Find clusters of sessions using KMeans clustering (~50 clusters found). The top 20 most popular items are added from the same cluster.
The maximum recall@20 possible for top K retrieved candidates if ranked ideally is shown below.

type 
recall@20-top20
recall@20-top100
recall@20-top200
recall@20-topall
clicks
 0.196203
0.5307
0.560093
0.569288
carts 
 0.152458
0.424199
0.467714 
0.50739
orders 
0.16003
0.481797
0.584761
0.713684
total 
0.161375
0.469408 
0.54718
0.637356


3.1.2. Feature Engineering
To enhance ranking, feature engineering is conducted. Approximately 100 features are generated for each candidate, focusing on both interaction history and contextual information. 
Session specific features:
Interaction counts by type (click, cart, order) and their ranks.
Time-based features, such as time since the last interaction of a specific type.
Relative position and rank of items within the session.
Co-occurrence and Similarity Features:
Co-occurrence counts and ranks (e.g., frequency of items being clicked or carted together).
Word2Vec similarity metrics (Euclidean distance and ranks).
Similarity between session embeddings and item embeddings (cosine similarity, Euclidean distance).
Popularity Features: Item popularity rank within the same session cluster.
3.1.3. Re-ranker Model Training 
The ranking phase utilized LightGBM with a LambdaRank objective to predict item relevance for clicks, carts, and orders. Separate models were trained for each target type using the following strategy:
Target: a retrieved item is marked with 1 if item was clicked, carted, ordered; and 0 if not.
Removed sessions without positive samples. This decreased the volume of rows to ~13% of the original dataset for clicks, ~3.5% for carts, and ~2.5% for orders.
A maximum of 100 negative samples per session were included, maintaining a positive-to-negative ratio of 1:40.
The datasets had the following:

Type
Avg positive / session
Avg negative / session
Total rows
Sessions
Clicks
1
41
40M
1M
Carts
1.3
50
11M
220K
Orders
1.7
57
7.5M
130K


We train 3 LightGBM models for each target with the same parameters as below:
PARAMS_LGBM = {
  'objective': 'lambdarank',
  'boosting_type': 'gbdt',
  'metric': 'ndcg',
  'n_estimators': 150,
  'learning_rate': 0.25,
  'max_depth': 4,
  'num_leaves': 15,
  'colsample_bytree': 0.25,
  'subsample': 0.50,
  'min_child_samples': 20,
  'importance_type': 'gain',
  'seed': 42,
}

No hyperparameter tuning was performed due to time constraints, and parameters were adjusted based on initial experiments.
3.2. Method 2
The classical pipeline is still applied in this method. The summary of this method can be seen in the image below

Figure 3.1: Illustration of the second methods workflow
3.2.1. Candidate generation
As in the image, the candidates are generated from:
Recently interacted items
Word2Vec based: A Word2Vec model was trained on item sequences (aids) to learn dense embeddings for each item. These embeddings capture semantic relationships between items based on their co-occurrence patterns. Top-K candidates were retrieved by finding the nearest neighbors in the embedding space, accelerated using FAISS-GPU for efficient similarity search.
Co-Visitation Matrix: A co-visitation matrix, inspired by Chris’s methodology, was used to identify candidates based on items frequently appearing together in user sessions. This approach leverages historical interaction data to surface co-related items.
Item Matrix Factorization (Item MF): An Item Matrix Factorization model was implemented with item embeddings learned using BPR loss. This encourages items co-occurring in sessions to have similar embeddings. To address biases, the loss was scaled inversely by item popularity (item_size) and temporal difference (ts_diff), ensuring embeddings prioritize temporally proximate co-occurrences while reducing the impact of popular items dominating the representation.
User Matrix Factorization (User MF): A User Matrix Factorization model was built, learning session embeddings and item embeddings jointly through BPR loss. This model ensures session-specific preferences are captured effectively. Similar to Item MF, the loss was adjusted inversely by item_size and ts_diff, encouraging embeddings to focus on temporal proximity and mitigate popularity bias.
Item-Based Collaborative Filtering (Item CF): Item-based collaborative filtering was implemented using Polars to compute similarity weights between item pairs. Candidate items were generated based on the most similar items, determined by aggregating weights using sum, min, max, or mean. Adjustments to weights included scaling inversely by item_size, inversely by ts_diff, and multiplying by a trend coefficient that emphasizes more recent interactions.
User-Based Collaborative Filtering (User CF): User-based collaborative filtering was similarly implemented, focusing on session-level interactions to identify candidates. Adjustments similar to Item CF were applied to mitigate biases and emphasize temporal relevance.
3.2.2. Feature Engineering
We created approximately 200 features to capture diverse session, item, and interaction-level characteristics. 
Session-Level Features:
Features were aggregated over sessions to capture temporal and behavioral patterns, including:
Timestamp Statistics: Aggregated metrics such as mean, min, max, and standard deviation of interaction timestamps.
Interaction Frequency: Count and rank of candidate selection events within sessions.
Item-Level Features:
Features describing individual item interactions and properties, such as:
Candidate Characteristics: Metrics like candidate score, rank, and whether the item was selected.
Interaction Time Distribution: Mean hour of interactions (e.g., clicks, carts, orders) aggregated over items.
Interaction Statistics:
Aggregated counts of interaction types (e.g., clicks, carts, orders) over various time windows.
Multi-action probabilities for each aid, capturing the likelihood of specific actions .
Temporal Dynamics:
Temporal features ensured the model could account for recency effects and patterns over different periods.
3.2.3. Ranker training
For the rankers, we experimented with 3 models
LightGBM Ranker (LambdaRank):
This model was used to directly optimize a ranking objective. LambdaRank adapts gradient boosting for ranking tasks by incorporating pairwise comparisons and position-based weighting, making it well-suited for improving metrics like NDCG and Recall.
CatBoost Classifier (Logloss):
A classification approach was applied using CatBoost, optimizing for log-loss. This model predicts the likelihood of an item being interacted with based on the feature set. The predictions were then used to rank items by their probabilities.
CatBoost Ranker (YetiRank):
The YetiRank algorithm in CatBoost was used for direct ranking optimization. YetiRank incorporates pairwise and listwise ranking methods, considering user preferences and engagement levels to produce highly relevant rankings.

3.3. Method 3
Another way of approaching the session based recommendation system problem beside the classical architecture is using Graph Neural Network, that is we formulate the problem into a link prediction problem. Heterogeneous graph (also called a heterogeneous information network) is a type of graph where nodes belong to different types and edges represent different relationships. This is particularly useful for our problem as sessions (or users) can click, add to cart or order an item that can be of many types (different aid).  The objective is to build a multi-objective link prediction on a large-scale e-commerce heterogeneous graph. An illustration of this method is shown below.

Figure 3.2: An illustration of the heterogeneous graph (left) which consists of multiple node and edge types and multi-objective recommendations (right) which takes prediction on multiple event types and items.


First, we will preprocess the data into nodes and edges. For the nodes, we will have 2 types of nodes: the first represents the users (sessions) and the other represents the items. The latter will also encapsulate its embeddings (randomly initialized) along with its id. We connect these 2 nodes with the ‘event’ edge. The edges will contain their source and destination id along with its label (click, cart or order). The edges are undirected. We build a model that contains a node encoder and edge encoder and train it with weighted mean squared error. The overall workflow can be seen below:

Figure 3.3: An illustration of the overall workflow of the third method.







4. EVALUATION METRICS
For the evaluation metrics, we will use Recall@20 provided by the competition on each action type. The three recall values are weight-averaged:
score = 0.10 * Rclicks+0.30 * Rcarts + 0.60 * Rorders
where R is defined as
Rtype=iN | {predicted aids}i, type  {ground truth aids}i,type |iN min(20, | {ground truth aids}i, type |)
and N is the total number of sessions in the test set, and predicted aids are the predictions for each session-type (e.g., each row in the submission file) truncated after the first 20 predictions.
For each session in the test data, the task is to predict the aid values for each type that occur after the last timestamp is the test session. In other words, the test data contains sessions truncated by timestamp, and weare to predict what occurs after the point of truncation.
For clicks there is only a single ground truth value for each session, which is the next aid clicked during the session. The ground truth for carts and orders contains all aid values that were added to a cart and ordered respectively during the session.


--------
viết TRANSCRIPTION PRESENATION của đoạn METHOD+METRIC NÀY 

### **Phương pháp chi tiết: Giải thích dễ hiểu**

#### **3.1. Phương pháp 1: Pipeline truyền thống**
Phương pháp này sử dụng 3 bước chính: 
1. **Tạo danh sách ứng viên (Candidate Generation)**: Chọn ra khoảng 100 sản phẩm tiềm năng cho mỗi phiên giao dịch.
2. **Trích xuất đặc trưng (Feature Engineering)**: Tạo khoảng 200 đặc trưng từ dữ liệu.
3. **Xếp hạng (Ranking)**: Xếp hạng các sản phẩm ứng viên và chọn ra 20 sản phẩm tốt nhất.

---

#### **3.1.1. Tạo danh sách ứng viên**
- **Ma trận đồng xuất hiện (Co-visitation Matrix)**: Xác định các sản phẩm thường xuyên được tương tác cùng nhau. Ví dụ:  
  - **Click-to-click**: Hai sản phẩm được nhấp chuột trong vòng 12 giờ.  
  - **Click-to-cart-or-buy**: Một sản phẩm được nhấp, sau đó sản phẩm khác được thêm vào giỏ hàng hoặc mua trong 24 giờ.  
  - **Cart-to-buy**: Một sản phẩm được thêm vào giỏ hàng, sau đó sản phẩm khác được mua trong 24 giờ.  

- **Ma trận đồng xuất hiện có trọng số (Weighted Co-visitation Matrix)**: Thêm các trọng số để ưu tiên các tương tác gần đây hơn hoặc các hành động quan trọng hơn (ví dụ: mua hàng quan trọng hơn nhấp chuột).  

=> Kết quả: Tạo danh sách khoảng 100 ứng viên cho mỗi phiên giao dịch.

---

#### **3.1.2. Trích xuất đặc trưng (Feature Engineering)**
- **Đặc trưng ma trận đồng xuất hiện**: Dùng dữ liệu từ ma trận đồng xuất hiện để tạo các trọng số và đặc trưng.  
- **Đặc trưng nhúng (Embedding Features)**:  
  - **Word2Vec**: Mô hình Word2Vec được huấn luyện trên mã sản phẩm để tạo đặc trưng nhúng.  
  - **Matrix Factorization**: Phân rã ma trận để tạo ra các đặc trưng tương tự Word2Vec.  
- **Đặc trưng cấp độ phiên (Session-Level Features)**: Ví dụ: Thời gian tương tác trung bình, số lần nhấp chuột trong phiên.  
- **Đặc trưng cấp độ sản phẩm (Item-Level Features)**: Ví dụ: Độ phổ biến của sản phẩm, thời gian sản phẩm được tương tác nhiều nhất.  
- **Đặc trưng động theo thời gian (Temporal Features)**: Phân tích tần suất và thời gian tương tác gần đây.  

=> Kết quả: Tạo được một tập hợp đặc trưng đa dạng để cải thiện độ chính xác của mô hình.

---

#### **3.1.3. Xếp hạng (Ranking)**
- **Gán nhãn**:  
  - **1**: Nếu sản phẩm được nhấp chuột, thêm giỏ hàng, hoặc mua.  
  - **0**: Nếu không có hành động nào xảy ra.  
- **Huấn luyện mô hình**: Sử dụng XGBoost để xếp hạng các ứng viên theo xác suất xảy ra hành động.  
- **Bộ dữ liệu**:  
  - Giữ lại ~13% dữ liệu cho nhấp chuột, ~3.5% cho thêm giỏ hàng, và ~2.5% cho mua hàng (do dữ liệu mất cân bằng).  

---

#### **3.1.4. Dự đoán**
- **Quy trình dự đoán**:  
  - Tạo danh sách ứng viên từ dữ liệu kiểm tra.  
  - Dùng mô hình đã huấn luyện để xếp hạng các sản phẩm cho từng hành động: nhấp chuột, thêm giỏ hàng, mua hàng.  
  - Tạo danh sách 20 sản phẩm gợi ý cuối cùng, ưu tiên những sản phẩm có khả năng cao nhất.

---

#### **3.2. Phương pháp 2: Mạng đồ thị (Graph Neural Network - GNN)**
- **Ý tưởng chính**:  
  - Biểu diễn dữ liệu dưới dạng đồ thị không đồng nhất (**heterogeneous graph**).  
  - Các nút gồm:
    - **Phiên giao dịch (Session)**: Tương ứng với người dùng.  
    - **Sản phẩm (Item)**: Tương ứng với mã sản phẩm (article ID).  
  - Các cạnh (edges): Đại diện cho các hành động (nhấp chuột, thêm giỏ hàng, mua hàng).  

- **Mục tiêu**:  
  - Dự đoán liên kết (link prediction) giữa nút "phiên giao dịch" và nút "sản phẩm" dựa trên hành động.

- **Quy trình**:  
  1. **Tiền xử lý**: Chuyển dữ liệu thành đồ thị với nút và cạnh tương ứng.  
  2. **Huấn luyện**:  
     - Dùng bộ mã hóa nút (**node encoder**) và cạnh (**edge encoder**).  
     - Tối ưu với hàm lỗi bình phương có trọng số (**weighted mean squared error**).  

=> Kết quả: Mạng đồ thị giúp mô hình hóa các mối quan hệ phức tạp giữa người dùng và sản phẩm trong phiên giao dịch.  

---

### **Kết luận**
Hai phương pháp (Pipeline truyền thống và GNN) đều có những ưu điểm riêng:  
- **Pipeline truyền thống**: Hiệu quả, dễ triển khai.  
- **GNN**: Xử lý tốt dữ liệu thưa và quan hệ phức tạp.  
Cả hai phương pháp đều mang lại giải pháp gợi ý hiệu quả cho bài toán hệ thống gợi ý dựa trên phiên giao dịch.

# Parquet

Parquet is a columnar storage file format that is specifically optimized for big data and analytical workloads. It is widely used in systems like Apache Spark, Apache Hive, and Hadoop due to its efficiency in both storage and processing.

### Key Features of Parquet
1. **Columnar Storage**:
   - Data is stored column by column instead of row by row. This makes it faster to access specific columns, which is particularly useful for analytical queries that often need only a subset of columns.

2. **Efficient Compression**:
   - Parquet applies compression techniques at the column level. Since data in a column is usually of the same type, it achieves higher compression ratios compared to row-based formats like CSV or JSON.

3. **Schema Support**:
   - Parquet includes metadata about the structure of the data, making it self-describing. This allows tools to understand the data's schema without additional configuration.

4. **Improved Performance**:
   - Because it reads only the necessary columns, Parquet reduces I/O operations and speeds up data processing tasks.

5. **Compatibility**:
   - It is supported by most big data processing frameworks, including Apache Spark, Pandas, and Presto, making it versatile and widely used.

### Benefits of Using Parquet
- **Faster Query Performance**: Columnar storage aligns with the access patterns of analytical queries.
- **Smaller Storage Footprint**: Efficient compression reduces disk space usage.
- **Scalability**: It can handle large datasets efficiently without consuming excessive memory or computational resources.

### Use Case in Your Script
In your context, converting JSONL to Parquet involves:
- Breaking down events into a structured tabular format.
- Mapping event types to integers and converting timestamps to seconds for better performance.
- Storing the processed data in Parquet format to facilitate faster loading and querying.

This transformation is ideal for optimizing performance when dealing with large-scale data analytics.