### 1. Pengenalan MapReduce
MapReduce adalah model pemrograman yang digunakan untuk pemrosesan data besar secara paralel di beberapa node dalam kluster Hadoop.
- **Map**: Fase pertama di mana data dipecah menjadi unit-unit kecil (key-value pairs).
- **Reduce**: Fase kedua di mana hasil dari fase Map dikombinasikan untuk menghasilkan output yang lebih kecil.

- **Tugas 1**: Pelajari bagaimana MapReduce bekerja dengan dataset sederhana dan coba implementasikan konsep key-value pair.

In [43]:
# Membuat sebuah fungsi yang menerima nilai text lalu mengubahnya menjadi tupple
def map_function(text):
    # Memecah tulisan setiap kata lalu mengambil setiap kata tersebut
    for word in text.split():
        # Fungsi dari yield hampir sama dengan return hanya saja yield itu bertahap. Akan mengembalikan nilai setiap ia dipanggil
        # nilai yang dikembalikan adalah tupple dengan (kata yang dikembalikan, dan jumlah kata yaitu 1)
        yield (word, 1)

# Menggunakan library collections lalu mengimport defaultdict untuk membuat dictioanary yang memiliki beberapa fitur tambahan
from collections import defaultdict

# Membuat sebuah fungsi yang menerima list yang didalamnya terdapat kumpulan tuple
def reduce_function(pairs):
    # Membuat sebuah dictionary yang nilai dari defaultnya adalah integer
    result = defaultdict(int)
    # Mengambil kata perkata tersebut dan jumlahnya untuk dihitung
    for word, count in pairs:
        # Dalam pengelompokannya kata dijadikan sebuah key setiap dictionary dan count sebagai nilai dari jumlah kata tersebut
        result[word] += count
        # Mengembalikan hasil dari apa yang dijumlahkan
    return result


text = "saya suka python suka"

# Jalankan map_function
mapped = list(map_function(text))  # ubah generator jadi list
print(mapped)
# [('saya', 1), ('suka', 1), ('python', 1), ('suka', 1)]

# Jalankan reduce_function
reduced = reduce_function(mapped)
print(reduced)
# defaultdict(<class 'int'>, {'saya': 1, 'suka': 2, 'python': 1})


[('saya', 1), ('suka', 1), ('python', 1), ('suka', 1)]
defaultdict(<class 'int'>, {'saya': 1, 'suka': 2, 'python': 1})


### 2. Implementasi Sederhana: Word Count
Algoritma Word Count adalah salah satu contoh sederhana dari MapReduce. Dalam tugas ini, kita akan menghitung jumlah kata dalam dataset.

1. **Map Function**: Fungsi yang memecah teks menjadi kata-kata individual.
   ```python
   def map_function(text):
       for word in text.split():
           yield (word, 1)
   ```
2. **Reduce Function**: Fungsi yang menggabungkan hasil dari fase Map untuk menghitung frekuensi kata.
   ```python
   from collections import defaultdict

   def reduce_function(pairs):
       result = defaultdict(int)
       for word, count in pairs:
           result[word] += count
       return result
   ```
- **Tugas 2**: Implementasikan fungsi `map_function` dan `reduce_function` pada dataset teks sederhana, lalu hitung jumlah kata.

In [44]:
# menggunakan pandas agar tampilan mudah dilihat
import pandas as pd

# Alamat dari file yang nantinya akan dihitung jumlah katanya
alamat_file = 'heloWorld.txt'
stringFile = ""
# Mencoba untuk membuka sebuah file
try:
    with open(alamat_file, 'r', encoding='utf-8') as file:
        stringFile = file.read()
# Apabila file tidak ada maka laporkan lokasinya salah     
except FileNotFoundError:
    print(f"Error: file anda '{alamat_file}' tidak ditemukan.")

# Setelah file helloWolrd anda sudah terbaca dan dapat diubah ke string. Sekarang yang tersisa adalah mengelompokan kata tersebut.
# Memisahkan datanya dulu lalu mengelompokannya satu kata - satu kata untuk menghitung jumlahnya
hasilMap = list(map_function(stringFile))

# Menampilkan hasilnya
print(hasilMap)
print("=" * 300)

# Kemudian setelah kita berhasil mengelompokan satu kata - satu kata tersebut langkah terakhir tinggal menghitungnya.
# Memanggil fungsi reduce yang tadi dibuat untuk menghitung jumlahnya
hasilPenghitungan = reduce_function(hasilMap)

# Convert ke DataFrame
df = pd.DataFrame(list(hasilPenghitungan.items()), columns=["Kata", "Frekuensi"])

# Sort biar rapi (opsional, berdasarkan frekuensi)
df = df.sort_values(by="Frekuensi", ascending=False).reset_index(drop=True)

print(df)



[('Lorem', 1), ('ipsum', 1), ('dolor', 1), ('sit', 1), ('amet,', 1), ('consectetur', 1), ('adipiscing', 1), ('elit,', 1), ('sed', 1), ('do', 1), ('eiusmod', 1), ('tempor', 1), ('incididunt', 1), ('ut', 1), ('labore', 1), ('et', 1), ('dolore', 1), ('magna', 1), ('aliqua.', 1), ('Ut', 1), ('enim', 1), ('ad', 1), ('minim', 1), ('veniam,', 1), ('quis', 1), ('nostrud', 1), ('exercitation', 1), ('ullamco', 1), ('laboris', 1), ('nisi', 1), ('ut', 1), ('aliquip', 1), ('ex', 1), ('ea', 1), ('commodo', 1), ('consequat.', 1), ('Duis', 1), ('aute', 1), ('irure', 1), ('dolor', 1), ('in', 1), ('reprehenderit', 1), ('in', 1), ('voluptate', 1), ('velit', 1), ('esse', 1), ('cillum', 1), ('dolore', 1), ('eu', 1), ('fugiat', 1), ('nulla', 1), ('pariatur.', 1), ('Excepteur', 1), ('sint', 1), ('occaecat', 1), ('cupidatat', 1), ('non', 1), ('proident,', 1), ('sunt', 1), ('in', 1), ('culpa', 1), ('qui', 1), ('officia', 1), ('deserunt', 1), ('mollit', 1), ('anim', 1), ('id', 1), ('est', 1), ('laborum.', 1)]
 

## Tugas 4: Cari dataset besar, jalankan MapReduce untuk menghitung kata, dan buat laporan analisis hasil.

In [45]:
# Membaca data csv
df = pd.read_csv("spam.csv", encoding="latin-1")
# Hanya menggunakan field v2
messages = df['v2']
# Mengubah dataset menjadi teks panjang
teks = " ".join(messages)

# Setelah file spam.csv anda sudah terbaca dan dapat diubah ke string. Sekarang yang tersisa adalah mengelompokan kata tersebut.
# Memisahkan datanya dulu lalu mengelompokannya satu kata - satu kata untuk menghitung jumlahnya
hasilMap = list(map_function(teks))


# Kemudian setelah kita berhasil mengelompokan satu kata - satu kata tersebut langkah terakhir tinggal menghitungnya.
# Memanggil fungsi reduce yang tadi dibuat untuk menghitung jumlahnya
hasilPenghitungan = reduce_function(hasilMap)

# Convert ke DataFrame
df = pd.DataFrame(list(hasilPenghitungan.items()), columns=["Kata", "Frekuensi"])

# Sort biar rapi (opsional, berdasarkan frekuensi)
df = df.sort_values(by="Frekuensi", ascending=False).reset_index(drop=True)

# MEnampilkan hanya beberapa bagian
df.head()


Unnamed: 0,Kata,Frekuensi
0,to,2134
1,you,1622
2,I,1466
3,a,1327
4,the,1197


# Tugas Tambahan: Custom MapReduce Algorithm
Buat algoritma MapReduce lainnya, seperti menghitung rata-rata nilai, atau menghitung frekuensi kemunculan elemen tertentu di dalam dataset.

In [46]:
# Membaca file csv
nilaiAnak = pd.read_csv("NilaiAnak.csv")
# Menghapus field SUbject untuk sementara dianggap sama terlebih dahulu
nilaiAnak.drop(columns=["Subject"], inplace=True)
nilaiAnak




Unnamed: 0,Name,Score
0,Alice,80
1,Alice,70
2,Alice,90
3,Bob,60
4,Bob,85
5,Bob,75
6,Charlie,100
7,Charlie,95
8,Charlie,85


In [52]:
from collections import defaultdict

# Ubah terlebih dahulu file csvnya menjadi sebuah array
nilaiAnakArray = nilaiAnak.values

# Membuat pengelompokan dengan mengubah kumpulan array tersebut menjad tuple
def map_function(arr) :
    # Variabel kosng untuk menyimpan array yang berisi tuple
    a = []
    
    # Melakukan sebuah looping untuk menelusuri array tersebut
    for i in nilaiAnakArray :
        # Variabel kosong untuk menyimpan tupple
        t = ()
        # Melakukan looping ulang untuk mendapatkan nama dan nilai dan mengubahnya dalam tuple
        for j in i:
            # Tambahkan setiap nilai yang di loop keadalam tuple
            t += (j, )
        # Kemudian tambahkan tuple tersebut kedalam array a
        a.append(t)
    return a

# Maka hasilnya akan menjadi seperti dibawah ini
# ('Alice', 80), ('Alice', 70), ('Alice', 90), ('Bob', 60), ('Bob', 85), ('Bob', 75), ('Charlie', 100), ('Charlie', 95), ('Charlie', 85)]        
mapped = map_function(nilaiAnakArray)

# Membuat sebuah fungsi yang menerima list yang didalamnya terdapat kumpulan tuple
def reduce_function(pairs):
    # Membuat sebuah dictionary yang nilai dari defaultnya adalah float
    total = defaultdict(int)
    jumlah = defaultdict(float)
    # Mengambil nilai pernilai tersebut dan jumlahnya untuk dihitung
    for nama, nilai in pairs:
        # Dalam pengelompokannya nama dijadikan sebuah key setiap dictionary dan nilai sebagai nilai dari nilai - nilai tersebut
        total[nama] += nilai
        jumlah[nama] += 1
        # Mengembalikan hasil dari apa yang dijumlahkan

    # Setelah itu tinggal mengembelaikan nilai dalam bentuk rata - rata
    return {nama : total[nama] / jumlah[nama] for nama in total }

# Kemudian setelah kita berhasil mengelompokan satu nilai - nilai tersebut langkah terakhir tinggal menghitungnya.
# Memanggil fungsi reduce yang tadi dibuat untuk menghitung jumlah rata -ratanya
hasilPenghitungan = reduce_function(mapped)

# Convert ke DataFrame
df = pd.DataFrame(list(hasilPenghitungan.items()), columns=["Nama", "Rata - rata nilai"])

# Sort biar rapi (opsional, berdasarkan frekuensi)
df = df.sort_values(by="Rata - rata nilai", ascending=False).reset_index(drop=True)

print(df)

      Nama  Rata - rata nilai
0  Charlie          93.333333
1    Alice          80.000000
2      Bob          73.333333
