<a href="https://colab.research.google.com/github/ruang-belajar/python/blob/master/notebook/02-intro-pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Sumber:
https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb

# Konsep Dasar Pandas



#### Import modul pandas

Untuk bisa menggunakan modul pandas, terlebih dahulu Anda harus memanggil modul ini dengan perintah `import`.

In [None]:
import pandas as pd

#### Buat DataFrame sederhana

Panduan lengkap membuat _DataFrame_ Anda bisa akses di https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html.

Berikut beberapa cara sederhana untuk membuat _DataFrame_ dari _list_ atau _dictionary_

In [None]:
# CARA 1
data = {'name':['Bob','Jen','Tim'],
        'age':[20,30,40],
        'pet':['cat', 'dog', 'bird']}
df = pd.DataFrame(data)

df

In [None]:
# CARA 2
data = [['Bob',20,'cat'],['Jen',30,'dog'],['Tim',40,'bird']]
df = pd.DataFrame(data, columns=['name','age','pet'])

df

#### Melihat nama kolom

Indeks adalah salah satu konsep terpenting dalam panda.

Setiap _DataFrame_ hanya memiliki satu indeks yang selalu tersedia sebagai `df.index` dan jika Anda tidak menyediakannya (seperti yang tidak kami lakukan untuk kerangka data ini), yang baru akan dibuat secara otomatis.

Indeks menentukan cara mengakses baris kerangka data.

Indeks paling sederhana adalah indeks rentang tetapi ada yang lebih kompleks seperti indeks interval, indeks waktu dan indeks multi.

Kami akan mengeksplorasi indeks lebih mendalam selama kuliah ini.

In [None]:
df.columns


In [None]:
df.index

#### Pilih kolom berdasarkan nama dengan 2 cara berbeda

Kedua cara ini setara dan hampir selalu dapat digunakan secara bergantian.

Pengecualian utama adalah ketika nama kolom berisi spasi. Jika misalnya kita memiliki kolom bernama "sales weekly", kita harus menggunakan `df['sales weekly']` karena `df.sales weekly` adalah kesalahan sintaksis.

In [None]:
print(df['name'])

In [None]:
print(df.name)

#### Pilih beberapa kolom

Untuk memilih banyak kolom, kami menggunakan `df[columns_to_select]` di mana `columns_to_select` adalah kolom yang ingin kami berikan sebagai daftar python sederhana. Hasilnya kita akan mendapatkan data frame yang lain.

Ini setara dengan mencantumkan nama kolom di bagian `SELECT` dari kueri sql.

In [None]:
df[['name','pet']]

#### Pilih baris berdasarkan indeks

Pemilihan baris secara teratur dilakukan melalui indeksnya. Saat menggunakan indeks rentang, kami dapat mengakses baris menggunakan indeks bilangan bulat tetapi ini tidak akan berfungsi saat menggunakan indeks datetime misalnya.

Kami selalu dapat mengakses setiap baris dalam kerangka data menggunakan `.iloc[i]` untuk beberapa bilangan bulat i.

Hasilnya adalah objek seri dari mana kita dapat mengakses nilai dengan menggunakan pengindeksan kolom.

In [None]:
df.iloc[0]

### Sort Function

- pandas.pydata.org
- https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html

#### Urutkan data berdasarkan `pet`

Ada dua cara untuk mengurutkan.
- Berdasarkan indeks
- Berdasarkan nilai

Dengan nilai berarti menyortir menurut nilai dalam kolom.

Dalam contoh ini kita mengurutkan data pada _DataFrame_ berdasarkan nilai di kolom `pet`.

Parameter `ascending = True` berarti kita ingin baris diurutkan dalam urutan menaik. Ini sama dengan sql 'ASC'. Untuk mendapatkan urutan menurun gunakan `ascending = False`.

`inplace` sangat penting dan Anda harus selalu mengingatnya. Ketika `inplace=True` kerangka data dimodifikasi di tempat yang berarti tidak ada salinan yang dibuat dan data Anda sebelumnya yang disimpan dalam kerangka data hilang. Secara default inplace selalu False. Ketika salah, salinan dibuat dari data Anda dan salinan itu diurutkan dan dikembalikan sebagai keluaran.

Output dari `sort_values` selalu merupakan kerangka data yang dikembalikan tetapi perilakunya sangat bergantung pada parameter `inplace`.

In [None]:
df.sort_values('pet',inplace=True, ascending=True)

### Indexing with DataFrames

Everything we discussed about indexing in numpy arrays applies to dataframes as well.

DataFrames are very similar to 2d-arrays with the main exception being that in DataFrames you can index using strings (column names).

#### View the index after the sort

In [None]:
df

#### Perbedaan antara `loc` dan `iloc`

- `.loc` memilih data berdasarkan nilai index.
- `.iloc` memilih berdasarkan nomor posisi.

In [None]:
df.loc[0] #index based

In [None]:
df.iloc[0] #relative position based indexing

#### Gunakan `iloc` untuk memilih semua baris pada kolom

Berikut contoh perintah memilih seluruh baris pada kolom ke-2.

Ingat `:` = `::1`

Pada konteks _DataFrame_, angka pertama selalu baris dan yang kedua adalah kolom.

In [None]:
df.iloc[:,2]

#### Gunakan `iloc` untuk memilih baris terakhir

In [None]:
df.iloc[-1,:]

### Konsep Dasar Pandas: Latihan

In [None]:
sales = [100,130,119,92,35]
customer_account = ['B100','J101','X102','P103','R104']
city = ['BOS','LA','NYC','SF','CHI']

#### Buat _DataFrame_ dengan data di atas

#### Cetak nama dari kolom pertama

#### Urutkan _DataFrame_ berdasarkan `city` secara _ascending_

#### Cetak data konsumen terakhir di _DataFrame_

#### Reorder the columns with customer in the first column

# Fungsi Standard Pandas

Mengenal fungsi yang disediakan Pandas, mari kita coba contoh data yang lebih banyak dari file CSV

#### Load data dari file CSV

File CSV adalah format file data sederhana. Isinya hanyalah data yang masing-masing _record_ nya terdiri dari 1 baris dan masing-masing _field_/_column_ nya dipisah tanda koma.

_Google Colab_ menyediakan beberapa contoh data yang diletakan pada folder _sample_data_.

In [None]:
import pandas as pd

df = pd.read_csv("sample_data/california_housing_test.csv")
df

Beberapa website di internet menyediakan data _real_ yang bisa di download. Berikut beberapa situs yang menyediakan data CSV:
- https://data.jakarta.go.id/dataset/
- https://data.world/datasets/census


Untuk bahan pembelajaran, kita akan download data [Data Jumlah Kepala Keluarga Menurut Pekerjaan Jenis Kelamin dan Wilayah](https://data.jakarta.go.id/dataset/b0eb219e26e8e1fe7c521d8b78f9c89f/resource/e9a6fef809483b5cdd6ff545ee694494/download/Data-Jumlah-Kepala-Keluarga-Menurut-Pekerjaan-Jenis-Kelamin-dan-Wilayah-Tahun-2020.csv).
Execute script pada 2 cell berikut:



In [None]:
# download data contoh
!wget https://data.jakarta.go.id/dataset/b0eb219e26e8e1fe7c521d8b78f9c89f/resource/e9a6fef809483b5cdd6ff545ee694494/download/Data-Jumlah-Kepala-Keluarga-Menurut-Pekerjaan-Jenis-Kelamin-dan-Wilayah-Tahun-2020.csv -O 2022-jakarta-kk.csv



In [None]:
# load csv ke DataFrame
df = pd.read_csv("2022-jakarta-kk.csv")
df

#### Membaca beberapa baris data pertama

Fungsi `head` secara default mencetak 5 baris pertama dari DataFrame Anda.

Jika Anda memberikan parameter `n`, ia akan mencetak baris `n` pertama.

Dokumen ada [di sini](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html)

In [None]:
df.head()

#### Membaca 10 baris terakhir



In [None]:
df.tail(10)

#### Membaca tipe data di DataFrame

Fungsi ini akan memberi tahu Anda jenis kolom.

Jenis secara otomatis disimpulkan oleh panda dan biasanya Anda tidak perlu mengkhawatirkannya.

[dokumen](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html)

In [None]:
df.info()

#### Statistik ringkasan dari DataFrame

Untuk mempelajari lebih lanjut tentang mendeskripsikan, kunjungi [tautan ini](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html)

In [None]:
df.describe()

In [None]:
df.describe().T

### Filter DataFrame

Anda dapat memfilter data berdasarkan kolom dan nilai dalam kerangka data

Berikut adalah contoh penggunaan filter pada DataFrame

In [None]:
# mengambil data yang jenis kelamin LAKI-LAKI dan menyimpannya sebagai object df1
df1 = df[df.jenis_kelamin=='LAKI-LAKI']

In [None]:
# dari data yang jenis kelamin LAKI-LAKI, filter data pekerjaan yang Pensiunan
df2 = df1[df1.pekerjaan=='Pensiunan']
df2

#### Combine (&) dan Join (|)

Anda juga bisa menggabungkan 2 kondisi dalam 1 query

In [None]:
# query data yang adalah LAKI-LAKI DAN Pensiunan
df3 = df[(df.jenis_kelamin=='LAKI-LAKI')&(df.pekerjaan=='Pensiunan')]
df3

In [None]:
# query data yang adalah LAKI-LAKI ATAU Pegawai Negeri Sipil
df3 = df[(df.pekerjaan=='Pensiunan')|(df.pekerjaan=='Pegawai Negeri Sipil')]
df3

### Menambahkan fungsi pada filter

Kita bisa menambahkan fungsi pada hasil filter. Berikut beberapa fungsi dasar yang kita bisa gunakan.

#### fungsi `sum()`

Fungsi `sum()` digunakan untuk menghitung total dari penjumlahan angka pada kolom terpilih

In [None]:
df.jumlah[df.jenis_kelamin=='LAKI-LAKI'].sum()

In [None]:
df1.jumlah.sum()

#### fungsi `mean()`

Fungsi `mean()` digunakan untuk menghitung nilai rata-rata dari kolom terpilih

In [None]:
df.jumlah[df.jenis_kelamin=='LAKI-LAKI'].mean()

In [None]:
df2.jumlah.mean()

#### fungsi `count()`

Fungsi `count()` digunakan untuk menghitung jumlah data. Untuk perhitungan sederhana, bisa memilih sembarang kolom untuk dikenakan fungsi `count()`

In [None]:
df.jumlah.count()

In [None]:
df.pekerjaan.count()

In [None]:
df.shape[0]

Fungsi `shape[0]` dan `count()` memiliki kegunaan yang sama. Anda bisa menggunakannya sesuai kondisi.

### Pengelompokan data dengan `groupby`

Metode `groupby` adalah salah satu fungsi terpenting yang akan Anda gunakan dalam pekerjaan sehari-hari.

Parameter input utamanya adalah string yang menunjukkan nama kolom atau daftar string yang menunjukkan daftar nama kolom.

Outputnya adalah objek GroupBy yang sangat mirip dengan _DataFrame_.

Pengoperasian groupby sama dengan SQL GROUPBY atau _Pivot Table_ pada _MS Excel_

Untuk info selengkapnya, lihat [dokumen](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html).

In [None]:
# contoh menghitung jumlah penduduk per masing-masing kecamatan
df.groupby('kecamatan').jumlah.sum()

Anda juga bisa menggunakan 2 kriteria _groupby_. Jika Anda menggunakan lebih dari satu kriteria, daftar kriteria ditulis dalam bentuk _list_.

In [None]:
df4 = df.groupby(['kecamatan','jenis_kelamin']).jumlah.sum()
df4

### Latihan

#### Berapa jumlah penduduk wanita?

#### Berapa jumlah penduduk LAKI-LAKI di kecamatan CIPAYUNG?

#### Berapa jumlah penduduk PEREMPUAN yang adalah Pegawai Negeri Sipil?

#### Berapa jumlah penduduk PEREMPUAN yang adalah Pegawai Negeri Sipil dan tinggal di JAKARTA TIMUR

#### Berapa rata-rata jumlah PEREMPUAN per masing-masing kecamatan