# **Modul 4: Pengolahan Data Terstruktur Menggunakan `pandas`**

Isikan identitas Anda di baris berikut untuk pengumpulan modul ini.

* Nama  : `Nama Anda`
* NIM   : `NIM Anda`
* Kelas : `Kelas Anda`

------------------------------------------------

## **4.1 Pendahuluan**

Dalam Python, pengolahan data terstruktur dilakukan dengan *library* atau paket bernama `pandas`. Paket ini adalah paket yang khusus dibuat untuk mengelola data mentah yang prosesnya disebut *data wrangling* (dibaca 'rengling')

Dalam modul ini, capaian pembelajaran kita antara lain:

1. Mengenal data terstruktur dan pengoperasiannya dalam Python, khususnya dengan paket `pandas`
2. Mengelola data terstruktur seperti menetapkan indeks, mengakses indeks, mengurutkan *(sorting)* dan menyaring *(filtering)* data
3. Menghasilkan statistik deskriptif sederhana untuk data terstruktur

## **4.2 Konsep Data Terstruktur**

Data terstruktur adalah data yang memiliki definisi yang jelas dan pola yang telah ditentukan sebelum dikumpulkan.

Definisi yang jelas di sini diperlihatkan dengan bentuk  berupa **tabel**. Dengan bentuk tabel, data memiliki format yang terdefinisi, lebih jelas isinya, dan dapat dikenali polanya sehingga lebih mudah untuk dianalisis.

Tabel, seperti yang kita ketahui, terdiri atas 3 elemen penting: (1) baris, (2) kolom, dan (3) sel. Dalam data terstruktur, ketiga elemen tersebut mempunyai makna penting:

1. baris sebagai **objek**
2. kolom sebagai **variabel**
3. sel sebagai **nilai**


Berikut adalah ilustrasi dari sebuah data terstruktur.

indeks   |variabel_1 | variabel_2 | variabel_3
---------|-----------|------------|-----------
1        |  1_var1   |  1_var2    |  1_var3
2        |  2_var1   |  2_var2    |  2_var3
3        |  3_var1   |  3_var2    |  3_var3

**Indeks** adalah variabel khusus yang menandakan setiap baris sebagai objek yang unik satu sama lain.

## **4.3 Praktik Pengelolaan Data Terstruktur**

Kita akan mempelajari penggunaan `pandas` ini menggunakan kasus-kasus yang sesuai dengan tahap setiap materi.

### **4.3.1 Instalasi Paket `pandas`**

Jika kita menggunakan IDE *(integrated development environment)* luring, seperti Visual Studio Code atau PyCharm, `pandas` perlu di-*install* dengan perintah:

```python
# Menginstal paket 'pandas'
!pip install pandas
```

Tanda seru (`!`) menandakan perintah dijalankan di sistem operasi alih-alih dalam sel notebook (ipynb) kita

In [None]:
# Coba di sini!




### **4.3.2 Memuat Paket**

Paket yang telah ter-*install* perlu kita muat dengan perintah `import`

```python
# Memuat paket 'pandas'
import pandas as pd
```

Perintah '`as pd`' adalah praktik umum dalam pengolahan data dengan `pandas` untuk menyingkat penulisan fungsi yang aslinya ditulis '`pandas`' menjadi '`pd`' saja.

In [None]:
# Coba di sini!


### **4.3.3 Membaca Data Terstruktur dari Dictionary**

Data terstruktur dalam `pandas` disebut **DataFrame**.

Kita dapat membuat DataFrame dari gabungan penggunaan dictionary dan list seperti berikut.

```python
# Dictionary data kualitas udara
data_kualitas_udara = {
    'PM2.5': [35, 40, 28, 50, 45],
    'NO2': [20, 25, 18, 30, 22],
    'Status': ['Baik', 'Sedang', 'Baik', 'Tidak Sehat', 'Sedang']
}
```

Berdasarkan dictionary tersebut, kita dapat mengetahui jumlah variabel dan observasi kita:
* Dari jumlah item dictionary kita, kita memiliki **3 variabel**: `PM2.5`, `NO2`, dan `Status`. `PM2.5` adalah tingkat *particulate matter* 2.5 dalam udara, `NO2` menyatakan jumlah nitrogen dioksida, dan `Status` adalah status udara secara kualitatif.
* Kemudian, kita memiliki **5 observasi**, dilihat dari jumlah elemen dalam list-nya.

In [None]:
# Coba di sini!


> **Pengayaan**
>
> Kita bisa juga menghasilkan dataset  dari library yang disusun secara acak menggunakan paket `numpy` sehingga jumlah objeknya ada 100.
>
> ```python
> import random
>
> # Menghasilkan list berisi 100 angka acak untuk variabel PM2.5
> # dengan terlebih dahulu menghasilkan list angka acak sebanyak 100 buah
> numbers = [random.random() for i in range(100)]
> PM25v = [int(x*100) for x in numbers]
>
> # Menghasilkan list berisi 100 angka acak untuk variabel NO2
> # dengan terlebih dahulu menghasilkan list angka acak sebanyak 100 buah
> numbers = [random.random() for i in range(100)]
> NO2v = [int(x*100) for x in numbers]
>
> # Menghasilkan list berisi 100 elemen yang diambil acak dari list daftar nilai
> # unik
> Status = ['Baik', 'Sedang', 'Tidak Sehat']
> Statusv = random.choices(Status, k=100)
>
> # Membuat Library-nya
> data_kualitas_udara_100 = {
>     'PM2.5': PM25v, # [35, 40, 28, 50, 45],
>     'NO2': NO2v, #[20, 25, 18, 30, 22],
>     'Status': Statusv# ['Baik', 'Sedang', 'Baik', 'Tidak Sehat', 'Sedang']
> }
>
> # Melihat hasilnya
> print(data_kualitas_udara_100)
> ```

In [3]:
# Coba pengayaan di sini!


Dengan demikian, kita akan memiliki DataFrame dengan bentuk kurang lebih seperti ini

PM2.5  |   NO2    |   Status
-------|----------|-------------
35     |    20    |    Baik
40     |    25    |   Sedang    
28     |    18    |    Baik
50     |    30    |  Tidak Sehat
45     |    22    |   Sedang

Pembuatan DataFrame kita lakukan dengan perintah seperti berikut

```python
# Membuat DataFrame dari dictionary data_kualitas_udara
df_kualitas_udara = pd.DataFrame(data_kualitas_udara)
```

Untuk mengecek hasilnya, kita dapat menggunakan metode `.head()` setelah nama variabel yang kita masukkan. Metode ini digunakan untuk menampilkan 5 baris pertama dari DataFrame kita.

```python
# Menampilkan cuplikan dataframe
df_kualitas_udara.head()
```

In [None]:
# Coba di sini!


Buka jendela "Variable" sekarang dan perhatikan apa yang tertulis pada bagian Type variabel `df_kualitas_udara` yang baru kita buat.

### **4.3.4 Menambah Indeks**

Kita sudah memiliki DataFrame yang berisi 3 variabel kualitas udara di lima objek. Namun demikian, kita belum mengetahui apa yang menjadi objek dari DataFrame kita.

Untuk memberi konteks objek dalam DataFrame kita, kita dapat menggunakan **indeks**. Indeks adalah penanda dari setiap objek yang ada dalam DataFrame kita sehingga masing-masing objeknya dapat diidentifikasi secara unik.

Misalnya, jika objek kita adalah penduduk, maka bisa jadi indeks kita adalah Nomor Induk Kependudukannya. Jika objek kita berupa wilayah administratif, kita bisa menggunakan Kode Kemendagri sebagai indeksnya.

Untuk membuat indeks, kita membuat list berisi nama-nama indeks tersebut yang menjadi identitas tiap baris dalam DataFrame kita terlebih dahulu.

```python
# list indeks data
kelurahan = ['Kelurahan A', 'Kelurahan B', 'Kelurahan C', 'Kelurahan D', 'Kelurahan E']
```

Dalam kode di atas, kita menggunakan **nama kelurahan** sebagai satuan observasi kita yang kita simpan dalam variabel bernama `kelurahan`.

Kemudian, kita mengatur agar list `kelurahan` ini menjadi indeks dalam DataFrame yang sudah kita buat dengan menambahkan atribut `index=`

```python
# Mengatur indeks
df_kualitas_udara = pd.DataFrame(data_kualitas_udara, index=kelurahan)

# Menampilkan cuplikan DataFrame kita
df_kualitas_udara.head()
```

* Kode tersebut memerintahkan Python menambahkan `kelurahan` sebagai indeks untuk DataFrame `df_kualitas_udara` yang sudah ada sebelumnya.
* Kemudian, seperti biasa, kita bisa mengecek hasil pembuatan indeks kita dengan `df_kualitas_udara.head()`

In [None]:
# Coba di sini!


Perhatikan kolom di paling kiri DataFrame. Yang semula berupa angka dari 0‒4, indeksnya sekarang berubah menjadi nama-nama kelurahan.

### **4.3.5 Mengakses Data dengan Indeks**

Setelah kita menetapkan nama-nama kelurahan sebagai indeks dalam DataFrame, kita dapat mengakses informasi variabel-variabel kualitas udara untuk baris yang kita inginkan. Caranya adalah dengan menggunakan fungsi `print()` dan menambahkan metode bernama `.loc()` yang diisi dengan nama indeks barisnya, yakni nama kelurahan.

```python
# Mengakses baris DataFrame dengan indeks menggunakan .loc()
print(df_kualitas_udara.loc('Kelurahan A'))
```

Baris tersebut memerintahkan Python untuk menampilkan variabel-variabel untuk baris Kelurahan A.

In [None]:
# Coba di sini!


Selain dengan indeks dari data kita, kita dapat menggunakan urutan dari `0` hingga `jumlah baris-1` menggunakan metode `.iloc()`.

```python
# Mengakses baris DataFrame kedua
print(df_kualitas_udara.iloc(1))
```

### **4.3.6 Mengorganisasi DataFrame: Mengurutkan Data *(Sorting)***

Pengurutan data berdasarkan suatu kolom/variabel menggunakan metode `.sort_values(by=)` dan mengisikan nama variabelnya dalam atribut `by=` tersebut.

```python
# Mengurutkan data berdasarkan kolom 'PM2.5'
df_kualitas_udara.sort_values(by='PM2.5')
```

Jika kita ingin menyimpan hasil pengurutan tersebut, kita tinggal menyimpannya sebagai variabel baru.

```python
# Menyimpan hasil pengurutan menjadi DataFrame baru
df_kualitasUdara_sortPM = df_kualitas_udara.sort_values(by='PM2.5')
```

In [None]:
# Coba di sini!

### **4.3.7 Mengorganisasi DataFrame: Menyaring Data *(Filtering)***

Penyaringan DataFrame secara umum dilakukan dengan menggunakan kurung siku `[]` setelah nama DataFrame dan membuat pernyataan penyaringan menggunakan operator logika seperti `>`, `<`, `>=`, `<=`, `==`, atau `!=`.

**Pelajari contoh-contoh baris kode berikut untuk memahami penggunaan sintaks masing-masing kondisi**

1. Baris kode berikut menyaring DataFrame `df_kualitas_udara` yang memiliki nilai `PM2.5` lebih dari 40

    ```python
    # Menyaring kelurahan yang memiliki PM2.5 di atas 20
    df_kualitas_udara[df_kualitas_udara['PM2.5'] > 40]
    ```

2. Baris kode berikut menyaring DataFrame `df_kualitas_udara` yang nilai `Status` kualitas udaranya "Baik"

    ```python
    # Menyaring DataFrame yang berstatus "Baik"
    df_kualitas_udara[df_kualitas_udara['Status'] == "Baik"]
    ```

3. Baris kode berikut menyaring DataFrame `df_kualitas_udara` yang nilai `Status` kualitas udaranya bukan "Baik"

    ```python
    # Menyaring DataFrame yang berstatus "Baik"
    df_kualitas_udara[df_kualitas_udara['Status'] != "Baik"]
    ```

4. Baris kode berikut menyaring DataFrame dengan **dua kondisi**. Untuk menggabungkan dua kondisi tersebut, kita menggunakan operator logika lain yakni AND dan OR, yang disimbolkan dengan `&` dan `|`.

    Operator `&` menghasilkan saringan yang **kedua pernyataan bernilai benar**, sedangkan `|` menghasilkan saringan **yang salah satunya saja** bernilai benar.

    **Perhatikan perbedaan kedua baris berikut**

    ```python
    # Penggunaan operator &
    df_kualitas_udara[(df_kualitas_udara['PM2.5'] >= 30) & (df_kualitas_udara['PM2.5'] <= 50)]

    # Penggunaan operator |
    df_kualitas_udara[(df_kualitas_udara['PM2.5'] >= 30) | (df_kualitas_udara['PM2.5'] <= 50)]
    ```

In [None]:
# Coba di sini!


# a. Terkait dengan operator & dan |, apa yang berbeda jika kita mengganti & dengan | pada baris kode kedua?
# b. Mengapa perbedaan itu bisa terjadi?
# Jawab pertanyaan-pertanyaan tersebut di bawah ini dengan fungsi print().


### **4.3.8 Analisis Statistik Deskriptif**

 Untuk melakukan analisis statistik deskriptif dari DataFrame, kita bisa menggunakan paket `numpy`

```python
# Memuat paket numpy
import numpy as np
```

In [None]:
# Coba di sini!


Kita akan menggunakan DataFrame fiktif yang berisi data kecamatan di sebuah kota, dengan variabel kuantitatif seperti **populasi**, **jumlah_fasilitas_umum**, dan **jumlah_taman**, serta variabel kategorikal **tingkat_kepadatan**.

```python
# Menyusun data fiktif
data_kecamatan = {
    'kecamatan': ['Sukarame', 'Kedaton', 'Panjang', 'Tanjung Senang', 'Teluk Betung'],
    'populasi': [55000, 48000, 62000, 35000, 78000],
    'jumlah_fasilitas_umum': [15, 12, 18, 10, 25],
    'jumlah_taman': [3, 2, 4, 1, 5],
    'tingkat_kepadatan': ['Sedang', 'Sedang', 'Padat', 'Rendah', 'Sangat Padat']
}

df_kecamatan = pd.DataFrame(data_kecamatan)
```

In [None]:
# Coba di sini!


#### **4.3.8.1 Menggunakan Metode `.describe()`**

Metode `.describe()` adalah cara termudah dan tercepat untuk mendapatkan statistik deskriptif dasar untuk semua kolom numerik.

```python
print("\nStatistik Deskriptif dari Kolom Numerik:")
print(df_kecamatan.describe())
```

In [None]:
# Coba di sini!


#### **4.3.8.2 Menghitung Secara Terpisah**

Metode `.describe()` hanya sebatas menampilkan statistik deskriptif saja. Apabila kita ingin mengolahnya, kita perlu menghitung secara terpisah. Di sinilah paket `numpy` berperan.

* **Menghitung Rata-rata**

    ```python
    rata_rata_fasum = df_kecamatan['jumlah_fasilitas_umum'].mean()
    print(f"\nRata-rata Jumlah Fasilitas Umum: {rata_rata_fasum:.2f}")
    ```

    Penghitungan rata-rata dilakukan dengan metode `.mean()` dari kolom '`jumlah_fasilitas_umum`' yang diakses dengan `df_kecamatan['jumlah_fasilitas_umum']`.

    Penggunaan "`f`" dalam fungsi `print` berguna untuk menyatukan hasil pengolahan variabel dalam string. Sedangkan `:.2f` setelah nama variabel `rata_rata_fasum` dalam string tersebut berfungsi mengatur jumlah desimal yang ditampilkan.

* **Menghitung Median**

    ```python
    median_populasi = df_kecamatan['populasi'].median()
    print(f"\nMedian Jumlah Penduduk: {median_populasi:.0f}")
    ```

* **Menghitung Simpangan Baku**

    ```python
    std_populasi = df['populasi'].std()
    print(f"Standar Deviasi Populasi: {std_populasi:.2f}")
    ```

In [None]:
# Coba di sini!


#### **4.3.8.3 Mengolah Statistik Deskriptif Variabel Kategoris**

Untuk data kategorikal, kita bisa menghitung persentase atau proporsi dari setiap kategori. Gunakan `.value_counts()` dengan parameter `normalize=True` untuk mendapatkan proporsi, lalu kalikan dengan 100.

```python
# Menghitung proporsi dan persentase dari 'tingkat_kepadatan'
proporsi_kepadatan = df['tingkat_kepadatan'].value_counts(normalize=True)
persentase_kepadatan = proporsi_kepadatan * 100

print("\nProporsi Tingkat Kepadatan:")
print(proporsi_kepadatan)
print("\nPersentase Tingkat Kepadatan:")
print(persentase_kepadatan)
```

In [None]:
# Coba di sini!


### **4.4 Praktik Umum: Membaca Data dari File Spreadsheet**

Umumnya, data yang kita gunakan dalam analisis disimpan dalam file spreadsheet, seperti file CSV atau Excel. Pandas menyediakan fungsi yang sangat mudah digunakan untuk membaca file-file tersebut dan mengubahnya menjadi DataFrame.

1. Gunakan fungsi `pd.read_csv()` untuk membaca file CSV yang berisi data kualitas udara. Untuk mengatur delimiter yang digunakan dalam file CSV, gunakan parameter `delimiter`. Misalnya, jika file CSV menggunakan titik koma (`;`) sebagai delimiter, Anda dapat menambahkan `delimiter=';'` dalam fungsi `pd.read_csv()`.
2. Gunakan fungsi `pd.read_excel()` untuk membaca file Excel yang berisi data kualitas udara.

```python
# Membaca data csv
data_anggaran = pd.read_csv("data/contoh_file_csv.csv", delim=";")

# Menampilkan 5 data teratas
data_anggaran.head()
```

Anda harus memastikan bahwa file CSV atau Excel yang ingin Anda baca berada di direktori yang sama dengan notebook Jupyter Anda, atau Anda dapat memberikan path lengkap ke file tersebut.

```python
# Memuat data csv dari folder lain
data_anggaran = pd.read_csv('C:/Users/UserAnda/Downloads/contoh_file_csv.csv', delimiter=';')
```

In [None]:
# Coba di sini!
# Membaca data csv
data_anggaran = pd.read_csv("data/contoh_file_csv.csv", delim=";")

# Menampilkan 5 data teratas
data_anggaran.head()


NameError: name 'pd' is not defined

----------------------


# **Selesai. Anda hebat!**