<a href="https://colab.research.google.com/github/AzzahraFebia/Big-Data/blob/main/Hands_On_Pertemuan_5_2420506023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 1. Pengenalan MapReduce
MapReduce adalah model pemrograman yang digunakan untuk pemrosesan data besar secara paralel di beberapa node dalam kluster Hadoop.
- **Map**: Fase pertama di mana data dipecah menjadi unit-unit kecil (key-value pairs).
- **Reduce**: Fase kedua di mana hasil dari fase Map dikombinasikan untuk menghasilkan output yang lebih kecil.

- **Tugas 1**: Pelajari bagaimana MapReduce bekerja dengan dataset sederhana dan coba implementasikan konsep key-value pair.

In [None]:
# Daftar belanja
keranjang_belanja = ["apel", "pisang", "apel", "jeruk", "pisang", "jeruk", "apel"]

# --- Tahap Mapping ---
# Pasangan (item,1) untuk setiap item
mapped_items = [(item, 1) for item in keranjang_belanja]

print("Mapped, Pasangan Item :")
print(mapped_items)
print("-" * 30)

# Kelompokkan nilai (1) untuk setiap item
grouped_items = {}
for item, count in mapped_items:
    if item not in grouped_items:
        grouped_items[item] = []
    grouped_items[item].append(count)

print("Pengelompokan Item :")
print(grouped_items)
print("-" * 30)

# --- Tahap Reduce ---
# Jumlahkan nilai (1) di setiap kelompok untuk mendapatkan total
reduced_results = {}
for item, counts in grouped_items.items():
    total_count = sum(counts)
    reduced_results[item] = total_count

print("Reduced, Jumlah Total Item Belanja :")
print(reduced_results)

Mapped, Pasangan Item :
[('apel', 1), ('pisang', 1), ('apel', 1), ('jeruk', 1), ('pisang', 1), ('jeruk', 1), ('apel', 1)]
------------------------------
Pengelompokan Item :
{'apel': [1, 1, 1], 'pisang': [1, 1], 'jeruk': [1, 1]}
------------------------------
Reduced, Jumlah Total Item Belanja :
{'apel': 3, 'pisang': 2, 'jeruk': 2}


### 2. Implementasi Sederhana: Word Count
Algoritma Word Count adalah salah satu contoh sederhana dari MapReduce. Dalam tugas ini, kita akan menghitung jumlah kata dalam dataset.

1. **Map Function**: Fungsi yang memecah teks menjadi kata-kata individual.
   ```python
   def map_function(text):
       for word in text.split():
           yield (word, 1)
   ```
2. **Reduce Function**: Fungsi yang menggabungkan hasil dari fase Map untuk menghitung frekuensi kata.
   ```python
   from collections import defaultdict

   def reduce_function(pairs):
       result = defaultdict(int)
       for word, count in pairs:
           result[word] += count
       return result
   ```
- **Tugas 2**: Implementasikan fungsi `map_function` dan `reduce_function` pada dataset teks sederhana, lalu hitung jumlah kata.

In [None]:
# Map Function : memecah teks jadi kata-kata lalu memberi nilai 1
def map_function(text):
    for word in text.split():
        yield (word, 1)

# Reduce Function : menjumlahkan nilai untuk kata yang sama
from collections import defaultdict

def reduce_function(pairs):
    result = defaultdict(int)
    for word, count in pairs:
        result[word] += count
    return result

# Dataset sederhana
text_data = """
Aku suka banget kucing
Kucing itu lucu dan menggemaskan
Aku suka bermain dengan kucing
Suatu saat aku ingin memelihara kucing
"""

# Tahap Mapping
mapped = list(map_function(text_data))

# Tahap Reduce
reduced = reduce_function(mapped)

# Tampilkan hasil
print("Hasil Word Count:\n")
for word, count in reduced.items():
    print(f"{word}: {count}")


Hasil Word Count:

Aku: 2
suka: 2
banget: 1
kucing: 3
Kucing: 1
itu: 1
lucu: 1
dan: 1
menggemaskan: 1
bermain: 1
dengan: 1
Suatu: 1
saat: 1
aku: 1
ingin: 1
memelihara: 1


### 5. Tugas Tambahan: Custom MapReduce Algorithm
- Buat algoritma MapReduce lainnya, seperti menghitung rata-rata nilai, atau menghitung frekuensi kemunculan elemen tertentu di dalam dataset.

In [4]:
# === Dataset ===
data = [
    "nasi goreng, ayam bakar, es teh",
    "nasi goreng, es jeruk",
    "ayam bakar, es teh",
    "sate ayam, nasi goreng",
    "nasi goreng, ayam bakar",
]

# --- Tahap Map ---
# Pecah setiap baris jadi item dan buat pasangan (item, 1)
mapped = [(item.strip(), 1)
          for line in data
          for item in line.split(",")]

# --- Tahap Group ---
# Gabungkan nilai dengan kunci yang sama
grouped = {}
for item, count in mapped:
    grouped.setdefault(item, []).append(count)

# --- Tahap Reduce ---
# Hitung jumlah kemunculan tiap item
results = {item: sum(counts) for item, counts in grouped.items()}

# --- Output ---
for item, total in results.items():
    print(f"{item}: {total} kali")


nasi goreng: 4 kali
ayam bakar: 3 kali
es teh: 2 kali
es jeruk: 1 kali
sate ayam: 1 kali
