# **Modul 4: Pengolahan Data Terstruktur Menggunakan `pandas`**

Dalam Python, pengolahan data terstruktur dilakukan dengan *library* atau paket bernama `pandas`. Paket ini adalah paket yang khusus dibuat untuk mengelola data mentah yang prosesnya disebut *data wrangling* (dibaca 'rengling')

Dalam modul ini, capaian pembelajaran kita antara lain:

1. Mengenal data terstruktur dan pengoperasiannya dalam Python, khususnya dengan paket `pandas`
2. Mengelola data terstruktur seperti menetapkan indeks, mengakses indeks, mengurutkan *(sorting)* dan menyaring *(filtering)* data
3. Menghasilkan statistik deskriptif sederhana untuk data terstruktur

## **Pengertian Data Terstruktur**

Data terstruktur adalah data yang memiliki definisi yang jelas dan pola yang telah ditentukan sebelum dikumpulkan.

Definisi yang jelas di sini diperlihatkan dengan bentuk  berupa **tabel**. Dengan bentuk tabel, data memiliki format yang terdefinisi, lebih jelas isinya, dan dapat dikenali polanya sehingga lebih mudah untuk dianalisis.

Tabel, seperti yang kita ketahui, terdiri atas 3 elemen penting: (1) baris, (2) kolom, dan (3) sel. Dalam data terstruktur, ketiga elemen tersebut mempunyai makna penting:

1. baris sebagai **objek**
2. kolom sebagai **variabel**
3. sel sebagai **nilai**


Berikut adalah ilustrasi dari sebuah data terstruktur.

indeks   |variabel_1 | variabel_2 | variabel_3
---------|-----------|------------|-----------
1        |  A1       |    B1      |    C1
2        |  A2       |    B2      |    C2
3        |  A3       |    B3      |    C3

**Indeks** adalah variabel khusus yang menandakan setiap baris sebagai objek yang unik satu sama lain.

## **Praktik Pengelolaan Data Terstruktur Sesuai Kasus**

Kita akan mempelajari penggunaan `pandas` ini menggunakan kasus-kasus yang sesuai dengan tahap setiap materi.

### **Instalasi Paket `pandas`**

Jika kita menggunakan IDE *(integrated development environment)* luring, seperti Visual Studio Code atau PyCharm, `pandas` perlu di-*install* dengan perintah:

```python
!pip install pandas
```

Tanda seru (`!`) menandakan perintah dijalankan di sistem operasi alih-alih dalam sel notebook (ipynb) kita

In [None]:
# Coba di sini!

### **Memuat Paket**

Paket yang telah ter-*install* perlu kita muat dengan perintah `import`

```python
import pandas as pd
```

Perintah '`as pd`' adalah praktik umum dalam pengolahan data dengan `pandas` untuk menyingkat penulisan fungsi yang aslinya ditulis '`pandas`' menjadi '`pd`' saja.

In [34]:
# Coba di sini!

### **Membaca Data Terstruktur dari Dictionary**

Data terstruktur dalam `pandas` disebut **DataFrame**.

Kita dapat membuat DataFrame dari dictionary seperti berikut

```python
# Data kualitas udara 
data_kualitas_udara = {
    'PM2.5': [35, 40, 28, 50, 45],
    'NO2': [20, 25, 18, 30, 22],
    'Status': ['Baik', 'Sedang', 'Baik', 'Tidak Sehat', 'Sedang']
```

Berdasarkan dictionary tersebut, kita dapat mengetahui jumlah variabel dan observasi kita.

Dari jumlah item dictionary kita, kita memiliki **3 variabel**: `PM2.5`, `NO2`, dan `Status`. `k` adalah tingkat *particulate matter* 2.5 dalam udara, `NO2` menyatakan jumlah nitrogen dioksida, dan `Status` adalah status udara secara kualitatif. Kemudian, kita memiliki **5 observasi**, dilihat dari jumlah elemen dalam list-nya.

Dengan demikian, kita akan memiliki DataFrame dengan bentuk seperti ini

PM2.5  |   NO2    |   Status
-------|----------|-------------
35     |    20    |    Baik
40     |    25    |   Sedang    
28     |    18    |    Baik
50     |    30    |  Tidak Sehat
45     |    22    |   Sedang

Pembuatan DataFrame kita lakukan dengan perintah seperti berikut

```python

```

In [36]:
indeks_distrik = ['Distrik A', 'Distrik B', 'Distrik C', 'Distrik D', 'Distrik E']

data_kualitas_udara

{'PM2.5': [35, 40, 28, 50, 45],
 'NO2': [20, 25, 18, 30, 22],
 'Status': ['Baik', 'Sedang', 'Baik', 'Tidak Sehat', 'Sedang']}

In [33]:
df_kualitas_udara = pd.DataFrame(data_kualitas_udara, index=indeks_distrik)

df_kualitas_udara

Unnamed: 0,PM2.5,NO2,Status
Distrik A,35,20,Baik
Distrik B,40,25,Sedang
Distrik C,28,18,Baik
Distrik D,50,30,Tidak Sehat
Distrik E,45,22,Sedang


In [32]:
data_kita = pd.read_csv('../data/Data_Itera.csv', delimiter=';', index_col=0)

data_kita.head()

Unnamed: 0,Nomor.urut,Jenis.Kelamin,Umur,Fakultas,Prodi,Tingkat.Semester,Uang.Saku,kepemilikan.mobil,kepemilikan.motor,kepemilikan.sepeda,...,alasan.pemilihan.lokasi.tempat.tinggal,jarak,biaya.perjalanan.per.pekan,Jumlah.perjalanan.Senin,Jumlah.perjalanan.Selasa,Jumlah.perjalanan.Rabu,Jumlah.perjalanan.Kamis,Jumlah.perjalanan.Jumat,Jumlah.perjalanan.Sabtu,Jumlah.perjalanan.Ahad
1,1,Perempuan,21,FTIK,Perencanaan Wilayah dan Kota,Tahun ke-4,< 1 jt,2,1,0,...,Dekat dengan kampus,669,10000.0,3,3,2,3,3,2,0
2,2,Laki-laki,22,FTIK,Perencanaan Wilayah dan Kota,Tahun ke-4,1 jt – 2 jt,1,0,0,...,Tempat tinggal murah,282,21000.0,2,3,2,2,3,3,2
3,3,Perempuan,20,FTIK,Perencanaan Wilayah dan Kota,Tahun ke-3,1 jt – 2 jt,1,0,0,...,dekat dengan kampus,517,40000.0,4,4,5,4,2,2,2
4,4,Perempuan,21,FTIK,Perencanaan Wilayah dan Kota,Tahun ke-4,< 1 jt,1,0,0,...,tempat tinggal murah,695,30000.0,2,3,3,0,2,0,2
5,5,Laki-laki,21,FTIK,Perencanaan Wilayah dan Kota,Tahun ke-4,1 jt – 2 jt,1,0,0,...,biaya tempat tinggal murah,557,25000.0,0,3,0,2,3,2,0
