# Hands-On Pertemuan 1: Pengenalan Big Data dan Overview Teknologi

## Tujuan
Pada akhir praktikum ini, mahasiswa diharapkan mampu:
1. Memahami konsep dasar Big Data.
2. Menjelaskan karakteristik dan tantangan Big Data (Volume, Variety, Velocity, dan Veracity).
3. Mengenal teknologi yang digunakan dalam ekosistem Big Data.
4. Menginstal dan mengonfigurasi Anaconda untuk bekerja dengan alat Big Data seperti Hadoop dan Spark.
5. Memulai praktik sederhana terkait pengolahan data menggunakan PySpark dan Pandas.

## Peralatan yang Dibutuhkan
1. Anaconda (untuk manajemen lingkungan)
2. Jupyter Notebook (bawaan dari Anaconda)
3. PySpark (untuk pemrosesan data skala besar)
4. Pandas (untuk data analysis)
5. Python (bawaan dari Anaconda)

In [None]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame dengan kolom tambahan
data = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()


## Langkah-Langkah Hands-On

### 1. Instalasi Anaconda
- **Langkah 1: Unduh dan Instal Anaconda**
  Anaconda adalah platform distribusi Python yang menyertakan berbagai alat pengembangan, termasuk Jupyter Notebook. Ikuti langkah-langkah instalasi sesuai sistem operasi:
  - Unduh Anaconda: [Download Anaconda](https://www.anaconda.com/products/individual)
  - Instal sesuai instruksi yang ada di situs web tersebut (Windows/Mac/Linux).

- **Langkah 2: Menginstal PySpark di Anaconda**
  Setelah Anaconda terinstal, tambahkan PySpark:
  ```bash
  pip install pyspark==3.4.1
  ```

- **Langkah 3: Menginstal Pandas**
  Untuk memudahkan data analysis, install Pandas:
  ```bash
  pip install pandas
  ```

- **Langkah 4: Menginstal Findspark**
  ```bash
  pip install findspark
  ```

### 2. Pengenalan dan Praktik Dasar PySpark dan Pandas
- **Langkah 1: Membuka Jupyter Notebook**
  Setelah instalasi selesai, buka Jupyter Notebook melalui Anaconda Navigator atau melalui terminal dengan perintah:
  ```bash
  jupyter notebook
  ```

- **Langkah 2: Membuat Project Notebook Baru**
  Di Jupyter Notebook, buat notebook baru untuk praktikum ini.

- **Langkah 3: Praktik dengan PySpark**
  Buat program sederhana untuk memulai dengan PySpark. Gunakan PySpark untuk membuat DataFrame dan memanipulasi data sederhana:

In [1]:
import findspark
findspark.init()

In [2]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame dengan kolom tambahan
data = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()


+-----+----+---------+---------+---------+
| Nama|Usia|Pekerjaan|     Hobi|   Gender|
+-----+----+---------+---------+---------+
|  Ali|  34| Engineer|Bersepeda|Laki-laki|
| Budi|  23|   Dokter|  Memasak|Laki-laki|
|Citra|  29|     Guru|  Membaca|Perempuan|
| Dina|  45|Pengacara| Berkebun|Perempuan|
+-----+----+---------+---------+---------+



- **Tugas 1**: Jalankan kode di atas dan buat modifikasi dengan menambahkan data lain berupa kolom pekerjaan, hobi dan gender.

In [None]:
#Tugas1
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame dengan kolom tambahan
data = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()


### 3. Praktik PySpark Lanjutan
- **Latihan 1**: Memanipulasi Data dengan PySpark.

In [7]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame dengan kolom tambahan
data = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()
# Filtering data
df_filtered = df.filter(df['Usia'] > 30)
df_filtered.show()

# Menghitung rata-rata usia
from pyspark.sql.functions import avg
df.groupBy().agg(avg("Usia")).show()

# Mengurutkan data berdasarkan usia
df_sorted = df.orderBy("Usia", ascending=False)
df_sorted.show()
#Memfilter data berdasarkan jenis kelaminnya
df_filtered = df.filter(df["Gender"] == "Perempuan")
df_filtered.show()
df_filtered = df.filter(df["Gender"] == "Laki-laki")
df_filtered.show()

+-----+----+---------+---------+---------+
| Nama|Usia|Pekerjaan|     Hobi|   Gender|
+-----+----+---------+---------+---------+
|  Ali|  34| Engineer|Bersepeda|Laki-laki|
| Budi|  23|   Dokter|  Memasak|Laki-laki|
|Citra|  29|     Guru|  Membaca|Perempuan|
| Dina|  45|Pengacara| Berkebun|Perempuan|
+-----+----+---------+---------+---------+

+----+----+---------+---------+---------+
|Nama|Usia|Pekerjaan|     Hobi|   Gender|
+----+----+---------+---------+---------+
| Ali|  34| Engineer|Bersepeda|Laki-laki|
|Dina|  45|Pengacara| Berkebun|Perempuan|
+----+----+---------+---------+---------+

+---------+
|avg(Usia)|
+---------+
|    32.75|
+---------+

+-----+----+---------+---------+---------+
| Nama|Usia|Pekerjaan|     Hobi|   Gender|
+-----+----+---------+---------+---------+
| Dina|  45|Pengacara| Berkebun|Perempuan|
|  Ali|  34| Engineer|Bersepeda|Laki-laki|
|Citra|  29|     Guru|  Membaca|Perempuan|
| Budi|  23|   Dokter|  Memasak|Laki-laki|
+-----+----+---------+---------+--------

- **Tugas 2**: Lakukan filter, penghitungan rata-rata, dan pengurutan data menggunakan PySpark.

In [None]:
#Tugas2
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame dengan kolom tambahan
data = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()
# Filtering data
df_filtered = df.filter(df['Usia'] > 30)
df_filtered.show()

# Menghitung rata-rata usia
from pyspark.sql.functions import avg
df.groupBy().agg(avg("Usia")).show()

# Mengurutkan data berdasarkan usia
df_sorted = df.orderBy("Usia", ascending=False)
df_sorted.show()
#Memfilter data berdasarkan jenis kelaminnya
df_filtered = df.filter(df["Gender"] == "Perempuan")
df_filtered.show()
df_filtered = df.filter(df["Gender"] == "Laki-laki")
df_filtered.show()

### 4. Praktik dengan Pandas
- **Latihan 2**:  Buat DataFrame menggunakan Pandas:

In [8]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Menampilkan DataFrame Pandas
df_pandas

# Menambahkan kolom Pekerjaan
df_pandas["Pekerjaan"] = ["Engineer", "Dokter", "Guru", "Pengacara"]

# Filtering data dengan Usia di atas 30 tahun
df_filtered_pandas = df_pandas[df_pandas["Usia"] > 30]

# Menampilkan DataFrame yang dimodifikasi
print("DataFrame Pandas yang Dimodifikasi:")
print(df_pandas)
print("\nDataFrame Pandas Setelah Filtering:")
print(df_filtered_pandas)


DataFrame Pandas yang Dimodifikasi:
    Nama  Usia  Pekerjaan
0    Ali    34   Engineer
1   Budi    23     Dokter
2  Citra    29       Guru
3   Dina    45  Pengacara

DataFrame Pandas Setelah Filtering:
   Nama  Usia  Pekerjaan
0   Ali    34   Engineer
3  Dina    45  Pengacara


- **Tugas 3**: Modifikasi DataFrame Pandas dengan menambahkan kolom baru dan melakukan operasi seperti filtering data berdasarkan usia.

In [None]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Menampilkan DataFrame Pandas
df_pandas

# Menambahkan kolom Pekerjaan
df_pandas["Pekerjaan"] = ["Engineer", "Dokter", "Guru", "Pengacara"]

# Filtering data dengan Usia di atas 30 tahun
df_filtered_pandas = df_pandas[df_pandas["Usia"] > 30]

# Menampilkan DataFrame yang dimodifikasi
print("DataFrame Pandas yang Dimodifikasi:")
print(df_pandas)
print("\nDataFrame Pandas Setelah Filtering:")
print(df_filtered_pandas)


### 5. Praktik Pandas Lanjutan
- **Latihan 3**: Penggunaan Pandas untuk operasi lebih kompleks.

In [None]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Membuat DataFrame kedua
data_pandas_2 = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Pekerjaan": ["Dokter", "Guru", "Insinyur", "Perawat"]}
df_pandas_2 = pd.DataFrame(data_pandas_2)

# Join antara dua DataFrame
df_joined = pd.merge(df_pandas, df_pandas_2, on="Nama")
print(df_joined)

# Menghitung statistik deskriptif
print(df_pandas.describe())

# Plotting Data
import matplotlib.pyplot as plt
df_pandas['Usia'].plot(kind='bar')
plt.show()



- **Tugas 4**: Lakukan penggabungan DataFrame dan visualisasikan data dengan Pandas.

In [None]:
#Tugas 4
from pyspark.sql import SparkSession
import pandas as pd

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame PySpark
data_spark = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df_spark = spark.createDataFrame(data_spark, columns)

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)
df_pandas["Pekerjaan"] = ["Engineer", "Dokter", "Guru", "Pengacara"]
# Mengonversi DataFrame PySpark ke Pandas
df_pandas_from_spark = df_spark.toPandas()

# Menggabungkan DataFrame Pandas dari PySpark dan DataFrame Pandas asli
df_combined_pandas = pd.concat([df_pandas_from_spark, df_pandas], ignore_index=True)

# Menampilkan DataFrame gabungan
print("DataFrame Gabungan Pandas:")
print(df_combined_pandas)


### 5. Menggabungkan PySpark dan Pandas
- **Latihan 4: Mengonversi DataFrame antara PySpark dan Pandas**
  Praktik untuk convert DataFrame dari PySpark ke Pandas dan sebaliknya:


In [None]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame dengan kolom tambahan
data = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df_spark = spark.createDataFrame(data, columns)

# Menampilkan DataFrame PySpark
df_spark.show()
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Menambahkan kolom Pekerjaan
df_pandas["Pekerjaan"] = ["Engineer", "Dokter", "Guru", "Pengacara"]

# Filtering data dengan Usia di atas 30 tahun
df_filtered_pandas = df_pandas[df_pandas["Usia"] > 30]

# Menampilkan DataFrame Pandas yang dimodifikasi
print("DataFrame Pandas yang Dimodifikasi:")
print(df_pandas)
print("\nDataFrame Pandas Setelah Filtering:")
print(df_filtered_pandas)



- **Tugas 5**: Gunakan metode ini untuk menggabungkan data yang Anda buat di PySpark dengan data dari Pandas, kemudian lakukan analisis sederhana seperti menghitung rata-rata usia.

In [None]:
from pyspark.sql import SparkSession
import pandas as pd

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame PySpark
data_spark = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df_spark = spark.createDataFrame(data_spark, columns)

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)
df_pandas["Pekerjaan"] = ["Engineer", "Dokter", "Guru", "Pengacara"]

# Mengonversi DataFrame PySpark ke Pandas
df_pandas_from_spark = df_spark.toPandas()

# Menggabungkan DataFrame Pandas dari PySpark dengan DataFrame Pandas
df_combined_pandas = pd.concat([df_pandas_from_spark, df_pandas], ignore_index=True)

# Menampilkan DataFrame gabungan
print("DataFrame Gabungan Pandas:")
print(df_combined_pandas)

# Analisis sederhana: Menghitung rata-rata usia
average_age = df_combined_pandas['Usia'].mean()
print(f"\nRata-rata Usia: {average_age}")


### 6. Konversi Data antara PySpark dan Pandas

In [None]:
# Mengonversi DataFrame dari PySpark ke Pandas
df_pandas_from_spark = df.toPandas()

# Mengonversi DataFrame dari Pandas ke PySpark
df_spark_from_pandas = spark.createDataFrame(df_pandas)

# Menampilkan DataFrame hasil konversi
df_pandas_from_spark, df_spark_from_pandas.show()


- **Tugas 6**: Gabungkan data dari PySpark dan Pandas, lalu lakukan operasi statistik seperti menghitung nilai maksimum usia.

In [None]:
from pyspark.sql import SparkSession
import pandas as pd

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame PySpark
data_spark = [
    ("Ali", 34, "Engineer", "Bersepeda", "Laki-laki"),
    ("Budi", 23, "Dokter", "Memasak", "Laki-laki"),
    ("Citra", 29, "Guru", "Membaca", "Perempuan"),
    ("Dina", 45, "Pengacara", "Berkebun", "Perempuan")
]
columns = ["Nama", "Usia", "Pekerjaan", "Hobi", "Gender"]
df_spark = spark.createDataFrame(data_spark, columns)

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)
df_pandas["Pekerjaan"] = ["Engineer", "Dokter", "Guru", "Pengacara"]

# Mengonversi DataFrame PySpark ke Pandas
df_pandas_from_spark = df_spark.toPandas()

# Menggabungkan DataFrame Pandas dari PySpark dengan DataFrame Pandas
df_combined_pandas = pd.concat([df_pandas_from_spark, df_pandas], ignore_index=True)

# Menampilkan DataFrame gabungan
print("DataFrame Gabungan Pandas:")
print(df_combined_pandas)

# Operasi Statistik: Menghitung nilai maksimum usia
max_age = df_combined_pandas['Usia'].max()
print(f"\nNilai Maksimum Usia: {max_age}")
