## Tujuan Pembelajaran:

* Memperoleh pengantar tentang struktur data **DataFrame** dan **Series** dari *library* pandas
* Mengakses dan memanipulasi data di dalam **DataFrame** dan **Series**
* Mengimpor data CSV ke dalam pandas **DataFrame**
* Melakukan *reindex* pada **DataFrame** untuk mengacak data

pandas adalah API analisis data berorientasi kolom. Ini adalah alat yang hebat untuk menangani dan menganalisis data masukan, dan banyak *framework* ML mendukung struktur data pandas sebagai masukan. Meskipun pengenalan komprehensif terhadap API pandas akan memakan banyak halaman, konsep-konsep intinya cukup mudah, dan akan kami sajikan di bawah. Untuk referensi yang lebih lengkap, situs [dokumen pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) berisi dokumentasi ekstensif dan banyak tutorial.

# Konsep Dasar

Baris berikut mengimpor API pandas dan mencetak versi API:

In [None]:
from __future__ import print_function

import pandas as pd
pd.__version__

Struktur data utama dalam pandas diimplementasikan sebagai dua kelas:

* **DataFrame**, yang dapat Anda bayangkan sebagai tabel data relasional, dengan baris dan kolom bernama.
* **Series**, yang merupakan kolom tunggal. Sebuah **DataFrame** berisi satu atau lebih **Series** dan nama untuk setiap **Series**.

DataFrame adalah abstraksi yang umum digunakan untuk manipulasi data. Implementasi serupa ada di Spark dan R.

Salah satu cara untuk membuat **Series** adalah dengan membuat objek **Series**. Contohnya:

In [None]:
pd.Series(['San Francisco', 'San Jose', 'Sacramento'])

Objek **DataFrame** dapat dibuat dengan meneruskan *dict* yang memetakan nama kolom *string* ke **Series** masing-masing. Jika panjang **Series** tidak cocok, nilai yang hilang diisi dengan nilai khusus NA/NaN. Contoh:

In [None]:
city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

pd.DataFrame({ 'City name': city_names, 'Population': population })

Namun sebagian besar waktu, Anda memuat seluruh *file* ke dalam **DataFrame**. Contoh berikut memuat *file* dengan data perumahan California. Jalankan sel berikut untuk memuat data dan membuat definisi *fitur*:

In [None]:
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

Contoh di atas menggunakan `DataFrame.describe` untuk menunjukkan statistik menarik tentang **DataFrame**. Fungsi lainnya adalah `DataFrame.head`, yang menampilkan beberapa catatan pertama dari **DataFrame**:

In [None]:
california_housing_dataframe.head()

Fitur kuat lain dari pandas adalah pembuatan grafik. Misalnya, `DataFrame.hist` memungkinkan Anda mempelajari distribusi nilai dalam kolom dengan cepat:

In [None]:
california_housing_dataframe.hist('housing_median_age')

# Mengakses Data

Anda dapat mengakses data **DataFrame** menggunakan operasi *dict/list* Python yang sudah dikenal:

In [None]:
cities = pd.DataFrame({ 'City name': city_names, 'Population': population })

print(type(cities['City name']))
cities['City name']

In [None]:
print(type(cities['City name'][1]))
cities['City name'][1]

In [None]:
print(type(cities[0:2]))
cities[0:2]

Selain itu, pandas menyediakan API yang sangat kaya untuk pengindeksan dan pemilihan lanjutan yang terlalu luas untuk dibahas di sini.

# Memanipulasi Data

Anda dapat menerapkan operasi aritmatika dasar Python ke **Series**. Contohnya:

In [None]:
population / 1000.

NumPy adalah *toolkit* populer untuk komputasi ilmiah. pandas **Series** dapat digunakan sebagai argumen untuk sebagian besar fungsi NumPy:

In [None]:
import numpy as np
np.log(population)

Untuk transformasi kolom tunggal yang lebih kompleks, Anda dapat menggunakan `Series.apply`. Seperti fungsi *map* Python, `Series.apply` menerima fungsi *lambda* sebagai argumen, yang diterapkan pada setiap nilai.

Contoh di bawah ini membuat **Series** baru yang menunjukkan apakah populasi di atas satu juta:

In [None]:
population.apply(lambda val: val > 1000000)

Memodifikasi **DataFrame** juga mudah. Misalnya, kode berikut menambahkan dua **Series** ke **DataFrame** yang sudah ada:

In [None]:
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']
cities

# Mari kita mulai

In [None]:
# NIM Anda di sini
nim = ''
print(f'NIM: {nim}')

In [None]:
# Nama Anda di sini
nama = ''
print(f'Nama: {nama}')

# Latihan #1

Modifikasi tabel kota dengan menambahkan kolom boolean baru, yang bernilai **True** jika dan hanya jika kedua hal berikut ini Benar:

1. Nama kota diawali oleh suku kata `San` (*saint*).
2. Kota tersebut memiliki luas lebih dari 50 mil persegi.

**Catatan**: Boolean **Series** digabungkan menggunakan operator ***bitwise***, bukan operator boolean tradisional. Misalnya, saat melakukan *logical and*, gunakan `&` alih-alih `and`.

In [None]:
# Kode Anda di sini
cities['Is wide and has saint name'] = (
    # lengkapi di sini
)

cities

# Indeks

Baik objek **Series** maupun **DataFrame** juga mendefinisikan properti *index* yang menetapkan nilai pengenal untuk setiap item **Series** atau baris **DataFrame**.

Secara *default*, saat konstruksi, pandas menetapkan nilai indeks yang mencerminkan urutan data sumber. Setelah dibuat, nilai indeks bersifat stabil; artinya, nilai tersebut tidak berubah ketika data diurutkan ulang.

In [None]:
city_names.index

In [None]:
cities.index

Panggil `DataFrame.reindex` untuk mengurutkan ulang baris secara manual. Misalnya, baris berikut memiliki efek yang sama dengan mengurutkan berdasarkan nama kota:

In [None]:
cities.reindex([2, 0, 1])

*Reindexing* adalah cara yang bagus untuk mengacak (*shuffle*/me-randomisasi) **DataFrame**. Dalam contoh di bawah, kita mengambil indeks, yang menyerupai *array*, dan meneruskannya ke fungsi NumPy `random.permutation`, yang mengacak nilainya di tempat. Memanggil *reindex* dengan *array* yang diacak ini menyebabkan baris **DataFrame** diacak dengan cara yang sama. Coba jalankan sel berikut beberapa kali!

In [None]:
cities.reindex(np.random.permutation(cities.index))

Untuk informasi lebih lanjut, lihat [dokumentasi Index](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing).

# Latihan #2

Metode `reindex` memungkinkan untuk menambahkan indeks baru ke **DataFrame** asli. Coba dan lihat apa yang terjadi jika Anda menggunakan nilai tersebut! Menurut Anda mengapa ini diizinkan?

In [None]:
# Kode Anda di sini
indeks_baru = [0, 4, 5, 2]

# panggil fungsi reindex dengan argumen index_baru
cities = cities.reindex([0, 4, 5, 2])

# print baris data dengan nilai kolom yang semuanya NaN
print(
    # lengkapi di sini
)

# print jumlah baris kolom yang semuanya NaN
print(
    # lengkapi di sini
)

# TIPS: gunakan fungsi isna()