In [1]:
# Ngày 4: PAIR RDD

### 1. Pair RDDs

a. Khái niệm:
- Khái niệm: Pair RDDs là các RDD chứa các cặp dữ liệu dạng (key, value), giúp dễ dàng thực hiện các phép toán dựa trên khóa.
- Ví dụ: Từ một danh sách các giao dịch bán hàng, tạo Pair RDD với mã sản phẩm là "key" và số lượng bán là "value". ('MaSP', soluong)
- Ở các bài tập các buổi trước, việc đếm word count hay tính tổng doanh thu dựa theo Category các bạn đều đã tạo qua Pair RDDS để làm bài.

b. Cách tạo Pair RDDS:
- <p style = "color: green">Tạo từ Map và FlatMap: </p>
```python
        rdd = sc.textFile("path")
        # Dem word count trong van ban
        word_count = rdd.flatMap(lambda x: x.split()) \
                        .map(lambda word : (word,1)) \
                        .reduceByKey(lambda x, y: x+y)
```

- <p style = "color: green">Tạo từ một một danh sách các cặp (key, value)</p>
```python
        sales_data = [("ProductA", 30), ("ProductB", 20), ("ProductA", 15)]
        pair_rdd = sc.parallelize(sales_data)
        # Output: [('ProductA', 30), ('ProductB', 20), ('ProductA', 15)]
```

- <p style = "color: green">Sử dụng hàm KeyBy </p>
```python
        products_rdd = sc.parallelize([("ProductA", 100, "CategoryX"),
                                         ("ProductB", 200, "CategoryY")])
                                         
        pair_rdd = products_rdd.keyBy(lambda x: x[0])  # Khóa là tên sản phẩm
        # Output: [('ProductA', ('ProductA', 100, 'CategoryX')), 
        #               ('ProductB', ('ProductB', 200, 'CategoryY'))]

```

### 2. Các phép toán trên Pair RDDs



**a. ReduceByKey**: Gộp các giá trị dựa trên khóa bằng một hàm tổng hợp (như cộng, trừ)\


**b. groupByKey**: Gom các giá trị cùng khóa vào một danh sách
```python
        # Ví dụ: Gom tất cả các giao dịch vào một danh sách
        sales_rdd = sc.parallelize([("ProductA", 30), ("ProductB", 20), ("ProductA", 15)])
        grouped_sales = sales_rdd.groupByKey().mapValues(list)
        # Output: [('ProductA', [30, 15]), ('ProductB', [20])]

```

**c. sortByKey**: Sắp xếp Pair RDDs dựa trên khóa
```python
        products_rdd = sc.parallelize([("ProductB", 200), ("ProductA", 100), ("ProductC", 150)])
        sorted_products = products_rdd.sortByKey()
        # Output: [('ProductA', 100), ('ProductB', 200), ('ProductC', 150)]


```


**d. join**: Ghép hai Pair RDDs dựa trên khóa chung
```python
        sales_rdd = sc.parallelize([("ProductA", 30), ("ProductB", 20), ("ProductA", 15)])

        product_info_rdd = sc.parallelize([("ProductA", "Description of A"), 
                                        ("ProductB", "Description of B")])

        joined_rdd = sales_rdd.join(product_info_rdd)
        # Output: [('ProductA', (30, 'Description of A')), 
        # ('ProductA', (15, 'Description of A')), ('ProductB', (20, 'Description of B'))]

```