# Praktik pertemuan 1: Pengenalan Big Data dan Overview Teknologi

## Tujuan
Pada akhir praktikum ini, mahasiswa diharapkan mampu:
1. Memahami konsep dasar Big Data.
2. Menjelaskan karakteristik dan tantangan Big Data (Volume, Variety, Velocity, dan Veracity).
3. Mengenal teknologi yang digunakan dalam ekosistem Big Data.
4. Menginstal dan mengonfigurasi Anaconda untuk bekerja dengan alat Big Data seperti Hadoop dan Spark.
5. Memulai praktik sederhana terkait pengolahan data menggunakan PySpark dan Pandas.

## Peralatan yang Dibutuhkan
1. Anaconda (untuk manajemen lingkungan)
2. Jupyter Notebook (bawaan dari Anaconda)
3. PySpark (untuk pemrosesan data skala besar)
4. Pandas (untuk data analysis)
5. Python (bawaan dari Anaconda)
6. matplotlib (Untuk visualisasi data)
7. OpenJDK (untuk runtime)

### 1. Instalasi Anaconda dan Membuat environment
- **Langkah 1: Unduh dan Instal Anaconda**
  Anaconda adalah platform distribusi Python yang menyertakan berbagai alat pengembangan, termasuk Jupyter Notebook. Ikuti langkah-langkah instalasi sesuai sistem operasi:
  - Unduh Anaconda: [Download Anaconda](https://www.anaconda.com/products/individual)
  - Instal sesuai instruksi yang ada di situs web tersebut (Windows/Mac/Linux).

- **Langkah 2: Buat environment Python baru**
  Pergi ke menu pada bagian kiri dan tekan environment

  ![alt text](images/image-4.png)

  kemudian klik tombol create dan tambahkan nama, pilih versi python dan klik tombol create

  ![alt text](images/image-5.png)
  
- **Langkah 3: Menginstal PySpark di Environment Baru**
  Setelah Anaconda terinstal, tambahkan PySpark dengan cara menekan tombol play dan buka melalui terminal 

  ![alt text](images/image-6.png)
  
  berikut adalah command nya:
  ```bash
  pip install pyspark==3.4.1
  ```
  ![alt text](images/image-7.png)

- **Langkah 4: Menginstal Pandas**
  Untuk memudahkan data analysis, install Pandas:
  ```bash
  pip install pandas
  ```
  ![alt text](images/image-8.png)

- **Langkah 5: Menginstal Findspark**
  ```bash
  pip install findspark
  ```
  ![alt text](images/image-9.png)

- **Langkah 6: Menginstal Matplotlib**
  ```bash
  pip install matplotlib
  ```
  ![alt text](images/image-10.png)

- **Langkah 7: Menginstal OpenJDK**
  anda dapat pergi ke menu environment pada anaconda dan memasang OpenJDK dari kolom pencarian.

  ![alt text](images/image-1.png)
  
  anda dapat apply setelah memilih package nya

  ![alt text](images/image-2.png)

- **Langkah 8: Mengubah environment pada IDE pilihan**
  anda dapat menekan menu kernel pada kanan atas, dan ubah menjadi python environment > env yang sudah dibuat

  ![alt text](images/image-3.png)


### 2. Pengenalan dan Praktik Dasar PySpark dan Pandas

- **Tugas 1**: Jalankan kode di bawah dan buat modifikasi dengan menambahkan data lain berupa kolom pekerjaan, hobi dan gender.

In [None]:
import findspark
findspark.init()

from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame sederhana
data = [("Ali", 34, "Petinju", "Menonton TV", "Laki-Laki"), 
        ("Budi", 23, "Peternak Pokemon", "Berduel", "Laki-Laki"),
        ("Citra", 29, "Streamer", "Makan", "Perempuan"), 
        ("Dina", 45, "Koki", "Berburu Ubur-Ubur", "Perempuan")]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()

<h5>Penjelasan Kode</h5>

- ``` bash from pyspark.sql import SparkSession ```
    - Mengimpor modul SparkSession dari library pyspark.sql.
- ``` bash spark = SparkSession.builder.appName("BigDataPractice").getOrCreate() ```
    - Memulai sesi Spark dengan nama aplikasi “BigDataPractice”. Jika sesi Spark sudah ada, maka akan menggunakan sesi yang sudah ada tersebut.
- ``` bash data = [("Ali", ...] ```
    - Membuat daftar data yang berisi beberapa tuple. Setiap tuple mewakili satu baris data dengan informasi nama, usia, pekerjaan, hobi, dan gender.
- ``` bash columns = ["Nama", ...] ```
    - Mendefinisikan daftar nama kolom untuk DataFrame.
- ``` bash df = spark.createDataFrame(data, columns)```
    - Membuat DataFrame Spark dari data yang telah didefinisikan sebelumnya dengan nama kolom yang sesuai.
- ``` bash df.show()```
    - Menampilkan isi DataFrame ke konsol.

### 3. Praktik PySpark Lanjutan
- **Tugas 2**: Lakukan filter, penghitungan rata-rata, dan pengurutan data menggunakan PySpark.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import avg

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame sederhana
data = [("Ali", 34), ("Budi", 23), ("Citra", 29), ("Dina", 45)]
columns = ["Nama", "Usia"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
print("DataFrame:")
df.show()

# Filtering data
df_filtered = df.filter(df['Usia'] > 30)
print("Filtered (Usia > 30):")
df_filtered.show()

# Menghitung rata-rata usia
df_avg = df.groupBy().agg(avg("Usia"))
print("Rata-Rata Usia:")
df_avg.show()

# Mengurutkan data berdasarkan usia
df_sorted = df.orderBy("Usia", ascending=False)
print("Sorted by Usia (descending):")
df_sorted.show()


<h5>Penjelasan Kode</h5>

- ``` bash from pyspark.sql import SparkSession ```
    - Mengimpor modul SparkSession dari library pyspark.sql.
- ``` bash from pyspark.sql.functions import avg ```
    - Mengimpor fungsi avg dari library pyspark.sql.functions untuk menghitung rata-rata.
- ``` bash spark = SparkSession.builder.appName("BigDataPractice").getOrCreate() ```
    - Memulai sesi Spark dengan nama aplikasi “BigDataPractice”. Jika sesi Spark sudah ada, maka akan menggunakan sesi yang sudah ada tersebut.
- ``` bash data = [("Ali", 34), ("Budi", 23), ("Citra", 29), ("Dina", 45)] ```
    - Membuat daftar data yang berisi beberapa tuple. Setiap tuple mewakili satu baris data dengan informasi nama dan usia.
- ``` bash columns = ["Nama", "Usia"] ```
    - Mendefinisikan daftar nama kolom untuk DataFrame.
- ``` bash df = spark.createDataFrame(data, columns) ```
    - Membuat DataFrame Spark dari data yang telah didefinisikan sebelumnya dengan nama kolom yang sesuai.
- ``` bash print("DataFrame:") ```
    - Mencetak teks "DataFrame:" ke konsol.
- ``` bash df.show() ```
    - Menampilkan isi DataFrame ke konsol.
- ``` bash df_filtered = df.filter(df['Usia'] > 30) ```
    - Memfilter DataFrame untuk hanya menyertakan baris di mana usia lebih dari 30.
- ``` bash print("Filtered (Usia > 30):") ```
    - Mencetak teks "Filtered (Usia > 30):" ke konsol.
- ``` bash df_filtered.show() ```
    - Menampilkan isi DataFrame yang telah difilter ke konsol.
- ``` bash df_avg = df.groupBy().agg(avg("Usia")) ```
    - Mengelompokkan data (dalam hal ini, tidak ada pengelompokan spesifik) dan menghitung rata-rata usia.
- ``` bash print("Rata-Rata Usia:") ```
    - Mencetak teks "Rata-Rata Usia:" ke konsol.
- ``` bash df_avg.show() ```
    - Menampilkan hasil rata-rata usia ke konsol.
- ``` bash df_sorted = df.orderBy("Usia", ascending=False) ```
    - Mengurutkan DataFrame berdasarkan usia dalam urutan menurun.
- ``` bash print("Sorted by Usia (descending):") ```
    - Mencetak teks "Sorted by Usia (descending):" ke konsol.
- ``` bash df_sorted.show() ```
    - Menampilkan DataFrame yang telah diurutkan ke konsol.

### 4. Praktik dengan Pandas
- **Tugas 3**: Modifikasi DataFrame Pandas dengan menambahkan kolom baru dan melakukan operasi seperti filtering data berdasarkan usia.


In [None]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Menambahkan kolom baru
gender = ["Laki-laki", "Laki-laki", "Perempuan", "Perempuan"]
df_pandas['Gender'] = gender

print("DataFrame:")
print(df_pandas)

# Filtering usia
filtered_df = df_pandas[df_pandas['Usia'] > 30]

print("\nUsia > 30:")
print(filtered_df)


<h5>Penjelasan Kode</h5>

- ``` bash import pandas as pd ```
    - Mengimpor pustaka pandas dan memberi alias pd.
- ``` bash data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]} ```
    - Membuat kamus data dengan dua kunci: "Nama" dan "Usia". Setiap kunci memiliki daftar nilai yang sesuai.
- ``` bash df_pandas = pd.DataFrame(data_pandas) ```
    - Membuat DataFrame pandas dari kamus data yang telah didefinisikan sebelumnya.
- ``` bash gender = ["Laki-laki", "Laki-laki", "Perempuan", "Perempuan"] ```
    - Membuat daftar gender yang berisi jenis kelamin untuk setiap individu.
- ``` bash df_pandas['Gender'] = gender ```
    - Menambahkan kolom baru ke DataFrame df_pandas dengan nama "Gender" dan mengisinya dengan daftar gender.
- ``` bash print("DataFrame:") ```
    - Mencetak teks "DataFrame:" ke konsol.
- ``` bash print(df_pandas) ```
    - Menampilkan isi DataFrame df_pandas ke konsol.
- ``` bash filtered_df = df_pandas[df_pandas['Usia'] > 30] ```
    - Memfilter DataFrame df_pandas untuk hanya menyertakan baris di mana usia lebih dari 30.
- ``` bash print("\nUsia > 30:") ```
    - Mencetak teks "Usia > 30:" ke konsol.
- ``` bash print(filtered_df) ```
    - Menampilkan isi DataFrame yang telah difilter ke konsol.

### 5. Praktik Pandas Lanjutan
- **Tugas 4**: Lakukan penggabungan DataFrame dan visualisasikan data dengan Pandas.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import catppuccin

# Mengubah tema matplotlib
plt.style.use(catppuccin.PALETTE.mocha.identifier)

# DataFrame Pandas pertama
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# DataFrame Pandas kedua
data_pandas_2 = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Pekerjaan": ["Dokter", "Guru", "Insinyur", "Perawat"]}
df_pandas_2 = pd.DataFrame(data_pandas_2)

# Menggabungkan dua DataFrame dengan Nama
df_joined = pd.merge(df_pandas, df_pandas_2, on="Nama")
print("DataFrame Gabungan:")
print(df_joined)

# statistik deskriptif
print("\nStatistik Deskriptif:")
print(df_pandas.describe())

# Visualisasi Data Usia
df_pandas['Usia'].plot(kind='bar')
plt.xlabel('Nama')
plt.ylabel('Usia')
plt.title('Usia per Nama')
plt.xticks(ticks=range(len(df_pandas['Nama'])), labels=df_pandas['Nama'], rotation=0)
plt.show()


<h5>Penjelasan Kode</h5>

- ``` bash import pandas as pd ```
    - Mengimpor pustaka pandas dan memberi alias pd.
- ``` bash import matplotlib.pyplot as plt ```
    - Mengimpor pustaka matplotlib.pyplot dan memberi alias plt untuk visualisasi data.
- ``` bash import catppuccin ```
    - Mengimpor pustaka catppuccin untuk mengubah tema matplotlib.
- ``` bash plt.style.use(catppuccin.PALETTE.mocha.identifier) ```
    - Mengubah tema matplotlib menggunakan tema dari pustaka catppuccin.
- ``` bash data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]} ```
    - Membuat kamus data pertama dengan dua kunci: "Nama" dan "Usia". Setiap kunci memiliki daftar nilai yang sesuai.
- ``` bash df_pandas = pd.DataFrame(data_pandas) ```
    - Membuat DataFrame pandas dari kamus data pertama yang telah didefinisikan sebelumnya.
- ``` bash data_pandas_2 = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Pekerjaan": ["Dokter", "Guru", "Insinyur", "Perawat"]} ```
    - Membuat kamus data kedua dengan dua kunci: "Nama" dan "Pekerjaan". Setiap kunci memiliki daftar nilai yang sesuai.
- ``` bash df_pandas_2 = pd.DataFrame(data_pandas_2) ```
    - Membuat DataFrame pandas dari kamus data kedua yang telah didefinisikan sebelumnya.
- ``` bash df_joined = pd.merge(df_pandas, df_pandas_2, on="Nama") ```
    - Menggabungkan dua DataFrame berdasarkan kolom "Nama".
- ``` bash print("DataFrame Gabungan:") ```
    - Mencetak teks "DataFrame Gabungan:" ke konsol.
- ``` bash print(df_joined) ```
    - Menampilkan isi DataFrame gabungan ke konsol.
- ``` bash print("\nStatistik Deskriptif:") ```
    - Mencetak teks "Statistik Deskriptif:" ke konsol.
- ``` bash print(df_pandas.describe()) ```
    - Menampilkan statistik deskriptif dari DataFrame pertama ke konsol.
- ``` bash df_pandas['Usia'].plot(kind='bar') ```
    - Membuat plot batang dari kolom "Usia" pada DataFrame pertama.
- ``` bash plt.xlabel('Nama') ```
    - Menambahkan label "Nama" pada sumbu x.
- ``` bash plt.ylabel('Usia') ```
    - Menambahkan label "Usia" pada sumbu y.
- ``` bash plt.title('Usia per Nama') ```
    - Menambahkan judul "Usia per Nama" pada plot.
- ``` bash plt.xticks(ticks=range(len(df_pandas['Nama'])), labels=df_pandas['Nama'], rotation=0) ```
    - Menyesuaikan label pada sumbu x dengan nama-nama dari DataFrame pertama dan mengatur rotasi label menjadi 0 derajat.
- ``` bash plt.show() ```
    - Menampilkan plot ke layar.

### 5. Menggabungkan PySpark dan Pandas
- **Tugas 5**: Gunakan metode ini untuk menggabungkan data yang Anda buat di PySpark dengan data dari Pandas, kemudian lakukan analisis sederhana seperti menghitung rata-rata usia.

In [None]:
# Mengonversi DataFrame dari PySpark ke Pandas
df_pandas_from_spark = df.toPandas()

# Mengonversi DataFrame dari Pandas ke PySpark
df_spark_from_pandas = spark.createDataFrame(df_pandas)

# Menampilkan DataFrame hasil konversi
print("DataFrame Pandas dari PySpark:")
print(df_pandas_from_spark)

print("\nDataFrame PySpark dari Pandas:")
df_spark_from_pandas.show()

# Menggabungkan kedua DataFrame Pandas
df_combined_pandas = pd.concat([df_pandas_from_spark, df_pandas])

# Mengonversi DataFrame gabungan kembali ke PySpark
df_combined_spark = spark.createDataFrame(df_combined_pandas)

# Menghitung rata-rata kolom 'Usia' di DataFrame gabungan PySpark
avg_usia_combined = df_combined_spark.agg({'Usia': 'avg'}).collect()[0][0]
print("\nRata-rata Usia di DataFrame gabungan:")
print(avg_usia_combined)

<h5>Penjelasan Kode</h5>

- ``` bash df_pandas_from_spark = df.toPandas() ```
    - Mengonversi DataFrame dari PySpark ke Pandas.
- ``` bash df_spark_from_pandas = spark.createDataFrame(df_pandas) ```
    - Mengonversi DataFrame dari Pandas ke PySpark.
- ``` bash print("DataFrame Pandas dari PySpark:") ```
    - Mencetak teks "DataFrame Pandas dari PySpark:" ke konsol.
- ``` bash print(df_pandas_from_spark) ```
    - Menampilkan DataFrame hasil konversi dari PySpark ke Pandas ke konsol.
- ``` bash print("\nDataFrame PySpark dari Pandas:") ```
    - Mencetak teks "DataFrame PySpark dari Pandas:" ke konsol.
- ``` bash df_spark_from_pandas.show() ```
    - Menampilkan DataFrame hasil konversi dari Pandas ke PySpark ke konsol.
- ``` bash df_combined_pandas = pd.concat([df_pandas_from_spark, df_pandas]) ```
    - Menggabungkan kedua DataFrame Pandas.
- ``` bash df_combined_spark = spark.createDataFrame(df_combined_pandas) ```
    - Mengonversi DataFrame gabungan kembali ke PySpark.
- ``` bash avg_usia_combined = df_combined_spark.agg({'Usia': 'avg'}).collect()[0][0] ```
    - Menghitung rata-rata kolom 'Usia' di DataFrame gabungan PySpark.
- ``` bash print("\nRata-rata Usia di DataFrame gabungan:") ```
    - Mencetak teks "Rata-rata Usia di DataFrame gabungan:" ke konsol.
- ``` bash print(avg_usia_combined) ```
    - Menampilkan hasil rata-rata usia di DataFrame gabungan ke konsol.

### 6. Konversi Data antara PySpark dan Pandas
- **Tugas 6**: Gabungkan data dari PySpark dan Pandas, lalu lakukan operasi statistik seperti menghitung nilai maksimum usia.

In [None]:
# Mengkonversi DataFrame PySpark ke Pandas
df_spark_pandas = df_spark_from_pandas.toPandas()

# Menggabungkan kedua DataFrame Pandas
df_combined = pd.concat([df_pandas_from_spark, df_spark_pandas], ignore_index=True)

# Menghitung nilai maksimum usia
max_age = df_combined['Usia'].max()
print("Nilai maksimum usia:", max_age)

<h5>Penjelasan Kode</h5>

- ``` bash df_spark_pandas = df_spark_from_pandas.toPandas() ```
    - Mengonversi DataFrame PySpark ke Pandas.
- ``` bash df_combined = pd.concat([df_pandas_from_spark, df_spark_pandas], ignore_index=True) ```
    - Menggabungkan kedua DataFrame Pandas dan mengabaikan indeks asli.
- ``` bash max_age = df_combined['Usia'].max() ```
    - Menghitung nilai maksimum dari kolom 'Usia' di DataFrame gabungan.
- ``` bash print("Nilai maksimum usia:", max_age) ```
    - Mencetak teks "Nilai maksimum usia:" dan nilai maksimum usia ke konsol.