# Hands-On Pertemuan 3: Implementasi MapReduce Sederhana

## Tujuan:
- Memahami konsep MapReduce dalam distribusi data besar.
- Mengimplementasikan algoritma sederhana menggunakan MapReduce pada Hadoop.
- Melakukan analisis hasil MapReduce pada dataset.

### 1. Pengenalan MapReduce
MapReduce adalah model pemrograman yang digunakan untuk pemrosesan data besar secara paralel di beberapa node dalam kluster Hadoop.
- **Map**: Fase pertama di mana data dipecah menjadi unit-unit kecil (key-value pairs).
- **Reduce**: Fase kedua di mana hasil dari fase Map dikombinasikan untuk menghasilkan output yang lebih kecil.

- **Tugas 1**: Pelajari bagaimana MapReduce bekerja dengan dataset sederhana dan coba implementasikan konsep key-value pair.

### 2. Implementasi Sederhana: Word Count
Algoritma Word Count adalah salah satu contoh sederhana dari MapReduce. Dalam tugas ini, kita akan menghitung jumlah kata dalam dataset.

1. **Map Function**: Fungsi yang memecah teks menjadi kata-kata individual.
   ```python
   def map_function(text):
       for word in text.split():
           yield (word, 1)
   ```
2. **Reduce Function**: Fungsi yang menggabungkan hasil dari fase Map untuk menghitung frekuensi kata.
   ```python
   from collections import defaultdict

   def reduce_function(pairs):
       result = defaultdict(int)
       for word, count in pairs:
           result[word] += count
       return result
   ```
- **Tugas 2**: Implementasikan fungsi `map_function` dan `reduce_function` pada dataset teks sederhana, lalu hitung jumlah kata.

In [1]:
from collections import defaultdict


def map_function(text):
      for word in text.split():
            yield (word,1)
def reduce_function(pairs):
       result = defaultdict(int)
       for word, count in pairs:
           result[word] += count
       return result
data = "D:\hadoop\mg3.txt"
with open(data, 'r') as file:
      text = file.read()

mapped_pairs = map_function(text)

reduce_result = reduce_function(mapped_pairs)

for word, count in reduce_result.items():
      print(f'{word}: {count}')

A.: 1
Menetapkan: 1
tujuan: 3
:: 5
menetapkan: 2
berarti: 1
kita: 8
harus: 1
dulu: 1
penggunaan: 2
data: 10
yang: 14
ingin: 2
proses: 1
untuk: 1
apa,: 1
apakah: 1
penjualan,: 1
atau: 1
analisis: 5
di: 1
masa: 1
depan.: 1
B.: 1
Mengumpulkan: 1
relevan: 3
selanjutnya: 3
adalah: 4
mengumpulan: 1
dengan: 3
capai.: 1
Dengan: 2
akan: 1
lebih: 1
optimal: 1
dan: 2
peluang: 1
menghasilkan: 1
akurasi: 1
tinggi.: 1
C.: 1
Menganalisis: 1
setelah: 2
mengumpulkan: 1
relevan,: 1
langkah: 2
menganalisis: 1
sudah: 3
kumpulkan: 1
sebelumnya.: 1
Kita: 1
dapat: 2
menggunakan: 1
alat: 1
analitik: 1
ada.: 1
D.: 1
Mengambil: 1
tindakan: 1
mengetahui: 1
hasil: 3
dari: 4
kita,: 1
mengambil: 2
tindakan.: 1
gambaran: 1
ada: 1
sebelumnya,: 1
bisa: 1
kepetusan: 1
terbaik.: 1
E.: 1
Mengoptimalkan: 1
meningkatkan: 1
terakhir: 1
mengoptimalkan: 2
didapat,: 1
big: 1
terupdate.: 1


### 3. Menjalankan Word Count di Hadoop
1. Siapkan file teks yang ingin dihitung jumlah katanya.
   ```bash
   hdfs dfs -put input.txt /user/student/input/
   ```
2. Jalankan perintah MapReduce pada file tersebut:
   ```bash
   hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/student/input/ /user/student/output/
   ```
3. Tampilkan hasilnya:
   ```bash
   hdfs dfs -cat /user/student/output/part-r-00000
   ```
- **Tugas 3**: Upload file teks ke HDFS, jalankan perintah MapReduce Word Count, dan tampilkan hasilnya.

### 4. Menganalisis Dataset Besar
Untuk memperdalam pemahaman, kita akan menjalankan algoritma MapReduce pada dataset yang lebih besar.
- Pilih dataset besar yang dapat diunduh dari [Kaggle](https://www.kaggle.com/) atau sumber lain.
- Jalankan Word Count pada dataset besar tersebut dan analisis hasilnya.

- **Tugas 4**: Cari dataset besar, jalankan MapReduce untuk menghitung kata, dan buat laporan analisis hasil.

### 5. Tugas Tambahan: Custom MapReduce Algorithm
- Buat algoritma MapReduce lainnya, seperti menghitung rata-rata nilai, atau menghitung frekuensi kemunculan elemen tertentu di dalam dataset.

In [2]:
def map_function(key, value):

    elements = value.split()
    for element in elements:
        yield (element, 1)
def reduce_function(key, values):
    
    yield sum(values)

def code_jalan(input_data):
    
    mapped_data = []
    for line in input_data:
        mapped_data.extend(map_function(None, line))
    
    
    grouped_data = {}
    for key, value in mapped_data:
        if key not in grouped_data:
            grouped_data[key] = []
        grouped_data[key].append(value)

    reduced_data = {}
    for key, values in grouped_data.items():
        reduced_data[key] = list(reduce_function(key, values))
    
    return reduced_data

# Contoh penggunaan
with open("C:/Users/ASUS/Documents/dataset_sederhana.txt", "r") as file:
    data = file.readlines()
print(code_jalan(data))


{'kucing,': [8], 'harimau,': [6], 'kambing,': [8], 'singa,': [5], 'jerapah,': [3], 'gajah,': [6], 'kambing,singa,': [1], 'buaya,': [2], 'burung,': [2], 'onta,': [2], 'kanguru,': [1], 'badak,': [2], 'onta': [1]}
