# Hands-On Pertemuan 1: Pengenalan Big Data dan Overview Teknologi

## Langkah-Langkah Hands-On

### 1. Instalasi Anaconda
- **Langkah 1: Unduh dan Instal Anaconda**
  Anaconda adalah platform distribusi Python yang menyertakan berbagai alat pengembangan, termasuk Jupyter Notebook. Ikuti langkah-langkah instalasi sesuai sistem operasi:
  - Unduh Anaconda: [Download Anaconda](https://www.anaconda.com/products/individual)
  - Instal sesuai instruksi yang ada di situs web tersebut (Windows/Mac/Linux).

- **Langkah 2: Menginstal PySpark di Anaconda**
  Setelah Anaconda terinstal, tambahkan PySpark:
  ```bash
  pip install pyspark==3.4.1
  ```

- **Langkah 3: Menginstal Pandas**
  Untuk memudahkan data analysis, install Pandas:
  ```bash
  pip install pandas
  ```

- **Langkah 4: Menginstal Findspark**
  ```bash
  pip install findspark
  ```

### 2. Pengenalan dan Praktik Dasar PySpark dan Pandas
- **Langkah 1: Membuka Jupyter Notebook**
  Setelah instalasi selesai, buka Jupyter Notebook melalui Anaconda Navigator atau melalui terminal dengan perintah:
  ```bash
  jupyter notebook
  ```

- **Langkah 2: Membuat Project Notebook Baru**
  Di Jupyter Notebook, buat notebook baru untuk praktikum ini.

- **Langkah 3: Praktik dengan PySpark**
  Buat program sederhana untuk memulai dengan PySpark. Gunakan PySpark untuk membuat DataFrame dan memanipulasi data sederhana:

In [None]:
import findspark
findspark.init()

In [None]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame sederhana
data = [("Ali", 34), ("Budi", 23), ("Citra", 29), ("Dina", 45)]
columns = ["Nama", "Usia"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()


- **Tugas 1**: Jalankan kode di atas dan buat modifikasi dengan menambahkan data lain berupa kolom pekerjaan, hobi dan gender.

In [None]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame sederhana
data = [("Ali", 34, "Guru", "Futsal", "Pria"), ("Budi", 23, "Mahasiswa", "Bermain Game", "Pria"), ("Citra", 29, "Akuntan", "Membaca", "Wanita"), ("Dina", 45, "Guru", "jogging", "Wanita")]
columns = ["Nama", "Usia", "Pekerjaan", "hobi", "gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()


### 3. Praktik PySpark Lanjutan
- **Latihan 1**: Memanipulasi Data dengan PySpark.

In [None]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame sederhana
data = [("Ali", 34), ("Budi", 23), ("Citra", 29), ("Dina", 45)]
columns = ["Nama", "Usia"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()

# Filtering data
df_filtered = df.filter(df['Usia'] > 30)
df_filtered.show()

# Menghitung rata-rata usia
from pyspark.sql.functions import avg
df.groupBy().agg(avg("Usia")).show()

# Mengurutkan data berdasarkan usia
df_sorted = df.orderBy("Usia", ascending=False)
df_sorted.show()


- **Tugas 2**: Lakukan filter, penghitungan rata-rata, dan pengurutan data menggunakan PySpark.

In [None]:
from pyspark.sql import SparkSession

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame sederhana
data = [("Ali", 34, "Guru", "Futsal", "Pria"), ("Budi", 23, "Mahasiswa", "Bermain Game", "Pria"), ("Citra", 29, "Akuntan", "Membaca", "Wanita"), ("Dina", 45, "Guru", "jogging", "Wanita")]
columns = ["Nama", "Usia", "Pekerjaan", "hobi", "gender"]
df = spark.createDataFrame(data, columns)

# Menampilkan DataFrame
df.show()

# Filtering data dengan usia diatas 30
df_filtered = df.filter(df['Usia'] > 30)
df_filtered.show()

# Filterinf data dengan gender "Pria"
df_filtered = df.filter(df['gender'] == "Pria")
df_filtered.show()

# Menghitung rata-rata usia
from pyspark.sql.functions import avg
df.groupBy().agg(avg("Usia")).show()

# Menghitung rata-rata usia dengan gender "Pria"
df_filtered = df.filter(df['gender'] == "Pria")
df_filtered.groupBy().agg(avg("Usia")).show()

# Mengurutkan data berdasarkan Nama dari huruf terakhir - pertama
df_sorted = df.orderBy("Nama", ascending=False)
df_sorted.show()

### 4. Praktik dengan Pandas
- **Latihan 2**:  Buat DataFrame menggunakan Pandas:

In [None]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Menampilkan DataFrame Pandas
df_pandas

- **Tugas 3**: Modifikasi DataFrame Pandas dengan menambahkan kolom baru dan melakukan operasi seperti filtering data berdasarkan usia.

In [None]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45], "Gender": ["Pria", "Pria", "Wanita", "Wanita"]}
df_pandas = pd.DataFrame(data_pandas)

# menapilkan DataFrame Pandas Berdasarkan Usia
rslt_df = df_pandas[df_pandas["Usia"] < 30]
rslt_df

### 5. Praktik Pandas Lanjutan
- **Latihan 3**: Penggunaan Pandas untuk operasi lebih kompleks.

In [None]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Membuat DataFrame kedua
data_pandas_2 = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Pekerjaan": ["Dokter", "Guru", "Insinyur", "Perawat"]}
df_pandas_2 = pd.DataFrame(data_pandas_2)

# Join antara dua DataFrame
df_joined = pd.merge(df_pandas, df_pandas_2, on="Nama")
print(df_joined)

# Menghitung statistik deskriptif
print(df_pandas.describe())

# Plotting Data
import matplotlib.pyplot as plt
df_pandas['Usia'].plot(kind='bar')
plt.show()


- **Tugas 4**: Lakukan penggabungan DataFrame dan visualisasikan data dengan Pandas.

In [None]:
import pandas as pd

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Usia": [34, 23, 29, 45]}
df_pandas = pd.DataFrame(data_pandas)

# Membuat DataFrame kedua
data_pandas_2 = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Pekerjaan": ["Dokter", "Guru", "Insinyur", "Perawat"]}
df_pandas_2 = pd.DataFrame(data_pandas_2)

# Membuat DataFrame ketiga
data_pandas_3 = {"Nama": ["Ali", "Budi", "Citra", "Dina"], "Gender": ["Pria", "Pria", "Wanita", "Wanita"]}
df_pandas_3 = pd.DataFrame(data_pandas_3)

# Join antara DataFrame pertama dan kedua
df_joined = pd.merge(df_pandas, df_pandas_2, on="Nama")

# Join antara gabungan DataFrame pertama dan kedua dengan dataframe ketiga
df_joined_1 = pd.merge(df_joined, df_pandas_3, on="Nama")

# Menampilkan dataframe gabungan
print(df_joined_1)

# Menghitung statistik deskriptif
print(df_pandas.describe())

# Plotting Data
import matplotlib.pyplot as plt
df_pandas['Usia'].plot(kind='bar')
plt.show()

### 5. Menggabungkan PySpark dan Pandas
- **Latihan 4: Mengonversi DataFrame antara PySpark dan Pandas**
  Praktik untuk convert DataFrame dari PySpark ke Pandas dan sebaliknya:


In [None]:
# Mengonversi DataFrame dari PySpark ke Pandas
df_pandas_from_spark = df.toPandas()

# Mengonversi DataFrame dari Pandas ke PySpark
df_spark_from_pandas = spark.createDataFrame(df_pandas)

# Menampilkan DataFrame hasil konversi
df_pandas_from_spark, df_spark_from_pandas.show()

- **Tugas 5**: Gunakan metode ini untuk menggabungkan data yang Anda buat di PySpark dengan data dari Pandas, kemudian lakukan analisis sederhana seperti menghitung rata-rata usia.

In [None]:
from pyspark.sql import SparkSession
import pandas as pd

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame PySpark
data = [("Ali", 34, "Pria"), ("Budi", 23, "Pria"), ("Citra", 29, "Wanita"), ("Dina", 45, "Wanita")]
columns = ["Nama", "Usia", "Gender"]
df = spark.createDataFrame(data, columns)

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Angga", "Bayu", "Carmila", "Dinda"], "Usia": [22, 45, 35, 40], "Gender": ["Pria", "Pria", "Wanita", "Wanita"]}
df_pandas = pd.DataFrame(data_pandas)

# Mengonversi DataFrame dari PySpark ke Pandas
df_pandas_from_spark = df.toPandas()

# Join antara DataFrame
Dframes = [df_pandas_from_spark, df_pandas]
df_joined = pd.concat(Dframes)
print(df_joined)

# Menghitung statistik deskriptif
print(df_joined.describe())

### 6. Konversi Data antara PySpark dan Pandas

In [None]:
# Mengonversi DataFrame dari PySpark ke Pandas
df_pandas_from_spark = df.toPandas()

# Mengonversi DataFrame dari Pandas ke PySpark
df_spark_from_pandas = spark.createDataFrame(df_pandas)

# Menampilkan DataFrame hasil konversi
df_pandas_from_spark, df_spark_from_pandas.show()


- **Tugas 6**: Gabungkan data dari PySpark dan Pandas, lalu lakukan operasi statistik seperti menghitung nilai maksimum usia.

In [None]:
from pyspark.sql import SparkSession
import pandas as pd

# Memulai Spark session
spark = SparkSession.builder.appName("BigDataPractice").getOrCreate()

# Membuat DataFrame PySpark
data = [("Ali", 34, "Pria"), ("Budi", 23, "Pria"), ("Citra", 29, "Wanita"), ("Dina", 45, "Wanita")]
columns = ["Nama", "Usia", "Gender"]
df = spark.createDataFrame(data, columns)

# Membuat DataFrame Pandas
data_pandas = {"Nama": ["Angga", "Bayu", "Carmila", "Dinda"], "Usia": [22, 45, 35, 40], "Gender": ["Pria", "Pria", "Wanita", "Wanita"]}
df_pandas = pd.DataFrame(data_pandas)

# Mengonversi DataFrame dari PySpark ke Pandas
df_pandas_from_spark = df.toPandas()

# Join antara DataFrame
Dframes = [df_pandas_from_spark, df_pandas]
df_joined = pd.concat(Dframes)

# Menghitung nilai maksimum usia
max_usia = df_joined['Usia'].max()
print("Nilai maksimum Usia:", max_usia)

# Menghitung nilai total usia
total_usia = df_joined['Usia'].sum()
print("Nilai total Usia:", total_usia)