<a href="https://colab.research.google.com/github/zahrahani/big-data/blob/main/Implementasi_MapReduce_Sederhana.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Implementasi MapReduce Sederhana

`By: Zahra Nibras Hanilatifa / 2420506024 / Rombel 02`

### 1. Pengenalan MapReduce
MapReduce adalah model pemrograman yang digunakan untuk pemrosesan data besar secara paralel di beberapa node dalam kluster Hadoop.
- **Map**: Fase pertama di mana data dipecah menjadi unit-unit kecil (*key-value pairs*).
- **Reduce**: Fase kedua di mana hasil dari fase Map dikombinasikan untuk menghasilkan output yang lebih kecil.

**Tugas 1**: Pelajari bagaimana MapReduce bekerja dengan dataset sederhana dan coba implementasikan konsep *key-value pair*




### 2. Implementasi Sederhana: Word Count
Mengimplemantasikan fungsi `map_function` dan `reduce function` pada dataset teks sederhana, kemudian menghitung jumlah katanya.

In [None]:
from google.colab import files

upload_txt = files.upload()

Saving fav_drink.txt to fav_drink.txt


In [None]:
from collections import defaultdict

def map_function(text):
    for word in text.split():
        yield (word.lower().strip(",.!"), 1)

def reduce_function(pairs):
    result = defaultdict(int)
    for word, count in pairs:
        result[word] += count
    return result

with open('fav_drink.txt', 'r') as filetxt:
    text = filetxt.read()

mapped = list(map_function(text))
print("\033[1mMapped Result\033[0m")
for word, count in mapped:
    print(f"  {word}: {count}")

reduced = reduce_function(mapped)
print("\n\033[1mReduced Result\033[0m")
for word, count in reduced.items():
    print(f"  {word}: {count}")

[1mMapped Result[0m
  aku: 1
  suka: 1
  susu: 1
  apalagi: 1
  kalau: 1
  jadi: 1
  milk: 1
  tea: 1
  aku: 1
  juga: 1
  suka: 1
  kopi: 1
  dan: 1
  matcha: 1
  dingin: 1
  atau: 1
  panas: 1
  aku: 1
  suka: 1
  semua: 1
  minuman: 1
  ini: 1

[1mReduced Result[0m
  aku: 3
  suka: 3
  susu: 1
  apalagi: 1
  kalau: 1
  jadi: 1
  milk: 1
  tea: 1
  juga: 1
  kopi: 1
  dan: 1
  matcha: 1
  dingin: 1
  atau: 1
  panas: 1
  semua: 1
  minuman: 1
  ini: 1


In [None]:
from collections import defaultdict

def map_function(text):
    for word in text.split():
        yield (word.lower().strip("."), 1)

def reduce_function(pairs):
    result = defaultdict(int)
    for word, count in pairs:
        result[word] += count
    return result

text = "Aku suka susu. Aku juga suka kopi. Aku paling suka kopi susu."

mapped = list(map_function(text))
print("\033[1mMapped Result\033[0m")
for word, count in mapped:
    print(f"  {word}: {count}")

reduced = reduce_function(mapped)
print("\n\033[1mReduced Result\033[0m")
for word, count in reduced.items():
    print(f"  {word}: {count}")

[1mMapped Result[0m
  aku: 1
  suka: 1
  susu: 1
  aku: 1
  juga: 1
  suka: 1
  kopi: 1
  aku: 1
  paling: 1
  suka: 1
  kopi: 1
  susu: 1

[1mReduced Result[0m
  aku: 3
  suka: 3
  susu: 2
  juga: 1
  kopi: 2
  paling: 1


### 5. Custom MapReduce Algorithm
Membuat algoritma MapReduce lainnnya, seperti:


*   Menghitung rata-rata nilai, atau
*   Menghitung frekuensi kemunculan elemen tertentu di dalam dataset



In [1]:
from google.colab import files
from collections import defaultdict
import pandas as pd

# Function untuk upload file .csv
def upload_csv():
    uploaded = files.upload()
    filename = list(uploaded.keys())[0]
    return filename

# Function untuk membaca file .csv
def read_csv(filename):
    df = pd.read_csv(filename)
    display(df)
    return df

# Function untuk menghitung nilai rata-rata per mata kuliah
def map_nilai_avg(df):
    for index, row in df.iterrows():
        yield (row['Mata_Kuliah'], (row['Nilai'], 1))

# Function untuk menghitung rata-rata nilai
def reduce_nilai_avg(mapped_data):
    result = defaultdict(lambda: [0, 0])
    for mata_kuliah, (nilai, count) in mapped_data:
        result[mata_kuliah][0] += nilai
        result[mata_kuliah][1] += count

    for mata_kuliah, (total, jumlah) in result.items():
        result[mata_kuliah] = total / jumlah

    return result

# Function untuk menghitung frekuensi kemunculan elemen
def map_freq(df, column):
    for index, row in df.iterrows():
        yield (row[column], 1)

# Function untuk menghitung frekuensi kemunculan elemen
def reduce_freq(mapped_data):
    result = defaultdict(int)
    for elemen, count in mapped_data:
        result[elemen] += count
    return result

# ===== Implementasi ===== #
# Upload file .csv
filename = upload_csv()
print()

# Menampilkan isi file .csv
df = read_csv(filename)

# Menghitung rata-rata nilai per mata kuliah
mapped_avg = list(map_nilai_avg(df))
avg_per_mk = reduce_nilai_avg(mapped_avg)
print("\nRata-rata Nilai per Mata Kuliah:")
for mata_kuliah, avg in avg_per_mk.items():
    print(f" - {mata_kuliah}: {avg}")

# Menghitung frekuensi kemunculan elemen 'Nama'
mapped_freq_nama = list(map_freq(df, 'Nama'))
freq_nama = reduce_freq(mapped_freq_nama)
print("\nFrekuensi Kemunculan Nama:")
for nama, freq in freq_nama.items():
    print(f" - {nama}: {freq} kali")

# Menghitung frekuensi kemunculan elemen 'Nilai'
mapped_freq_nilai = list(map_freq(df, 'Nilai'))
freq_nilai = reduce_freq(mapped_freq_nilai)
print("\nFrekuensi Kemunculan Nilai:")
for nilai, freq in freq_nilai.items():
    print(f" - Nilai {nilai}: {freq} kali")

# Menghitung frekuensi kemunculan elemen 'Mata_Kuliah'
mapped_freq_mk = list(map_freq(df, 'Mata_Kuliah'))
freq_mk = reduce_freq(mapped_freq_mk)
print("\nFrekuensi Kemunculan Mata Kuliah:")
for mata_kuliah, freq in freq_mk.items():
    print(f" - {mata_kuliah}: {freq} kali")

Saving nilaimhs.csv to nilaimhs (23).csv



Unnamed: 0,Nama,Nilai,Mata_Kuliah
0,Rani,80,Kalkulus
1,Seno,90,Biologi
2,Tedy,80,Biologi
3,Iqbal,90,Kimia
4,Yuni,75,Kalkulus
5,Tedy,80,Kimia
6,Jenny,95,Kalkulus
7,Seno,80,Kimia
8,Iqbal,85,Biologi
9,Seno,75,Kalkulus



Rata-rata Nilai per Mata Kuliah:
 - Kalkulus: 81.25
 - Biologi: 85.0
 - Kimia: 83.33333333333333

Frekuensi Kemunculan Nama:
 - Rani: 1 kali
 - Seno: 3 kali
 - Tedy: 2 kali
 - Iqbal: 2 kali
 - Yuni: 1 kali
 - Jenny: 1 kali

Frekuensi Kemunculan Nilai:
 - Nilai 80: 4 kali
 - Nilai 90: 2 kali
 - Nilai 75: 2 kali
 - Nilai 95: 1 kali
 - Nilai 85: 1 kali

Frekuensi Kemunculan Mata Kuliah:
 - Kalkulus: 4 kali
 - Biologi: 3 kali
 - Kimia: 3 kali
