# Hands-On Pertemuan 3: Implementasi MapReduce Sederhana

## Tujuan:
- Memahami konsep MapReduce dalam distribusi data besar.
- Mengimplementasikan algoritma sederhana menggunakan MapReduce pada Hadoop.
- Melakukan analisis hasil MapReduce pada dataset.

### 1. Pengenalan MapReduce
MapReduce adalah model pemrograman yang digunakan untuk pemrosesan data besar secara paralel di beberapa node dalam kluster Hadoop.
- **Map**: Fase pertama di mana data dipecah menjadi unit-unit kecil (key-value pairs).
- **Reduce**: Fase kedua di mana hasil dari fase Map dikombinasikan untuk menghasilkan output yang lebih kecil.

- **Tugas 1**: Pelajari bagaimana MapReduce bekerja dengan dataset sederhana dan coba implementasikan konsep key-value pair.

### 2. Implementasi Sederhana: Word Count
Algoritma Word Count adalah salah satu contoh sederhana dari MapReduce. Dalam tugas ini, kita akan menghitung jumlah kata dalam dataset.

1. **Map Function**: Fungsi yang memecah teks menjadi kata-kata individual.
   ```python
   def map_function(text):
       for word in text.split():
           yield (word, 1)
   ```
2. **Reduce Function**: Fungsi yang menggabungkan hasil dari fase Map untuk menghitung frekuensi kata.
   ```python
   from collections import defaultdict

   def reduce_function(pairs):
       result = defaultdict(int)
       for word, count in pairs:
           result[word] += count
       return result
   ```
- **Tugas 2**: Implementasikan fungsi `map_function` dan `reduce_function` pada dataset teks sederhana, lalu hitung jumlah kata.

### 3. Menjalankan Word Count di Hadoop
1. Siapkan file teks yang ingin dihitung jumlah katanya.
   ```bash
   hdfs dfs -put input.txt /user/student/input/
   ```
2. Jalankan perintah MapReduce pada file tersebut:
   ```bash
   hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/student/input/ /user/student/output/
   ```
3. Tampilkan hasilnya:
   ```bash
   hdfs dfs -cat /user/student/output/part-r-00000
   ```
- **Tugas 3**: Upload file teks ke HDFS, jalankan perintah MapReduce Word Count, dan tampilkan hasilnya.

### 4. Menganalisis Dataset Besar
Untuk memperdalam pemahaman, kita akan menjalankan algoritma MapReduce pada dataset yang lebih besar.
- Pilih dataset besar yang dapat diunduh dari [Kaggle](https://www.kaggle.com/) atau sumber lain.
- Jalankan Word Count pada dataset besar tersebut dan analisis hasilnya.

- **Tugas 4**: Cari dataset besar, jalankan MapReduce untuk menghitung kata, dan buat laporan analisis hasil.

### 5. Tugas Tambahan: Custom MapReduce Algorithm
- Buat algoritma MapReduce lainnya, seperti menghitung rata-rata nilai, atau menghitung frekuensi kemunculan elemen tertentu di dalam dataset.