<a href="https://colab.research.google.com/github/ruang-belajar/notebook-1-kaylaa3/blob/main/notebook/02-intro-pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Sumber:
https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb

# Konsep Dasar Pandas



#### Import modul pandas

Untuk bisa menggunakan modul pandas, terlebih dahulu Anda harus memanggil modul ini dengan perintah `import`.

In [None]:
import pandas as pd

#### Buat DataFrame sederhana

Panduan lengkap membuat _DataFrame_ Anda bisa akses di https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html.

Berikut beberapa cara sederhana untuk membuat _DataFrame_ dari _list_ atau _dictionary_

In [None]:
# CARA 1
data = {'name':['Bob','Jen','Tim'],
        'age':[20,30,40],
        'pet':['cat', 'dog', 'bird']}
df = pd.DataFrame(data)

df

In [None]:
# CARA 2
data = [['Bob',20,'cat'],['Jen',30,'dog'],['Tim',40,'bird']]
df = pd.DataFrame(data, columns=['name','age','pet'])

df

#### Melihat nama kolom

Indeks adalah salah satu konsep terpenting dalam panda.

Setiap _DataFrame_ hanya memiliki satu indeks yang selalu tersedia sebagai `df.index` dan jika Anda tidak menyediakannya (seperti yang tidak kami lakukan untuk kerangka data ini), yang baru akan dibuat secara otomatis.

Indeks menentukan cara mengakses baris kerangka data.

Indeks paling sederhana adalah indeks rentang tetapi ada yang lebih kompleks seperti indeks interval, indeks waktu dan indeks multi.

Kami akan mengeksplorasi indeks lebih mendalam selama kuliah ini.

In [None]:
df.columns


In [None]:
df.index

#### Pilih kolom berdasarkan nama dengan 2 cara berbeda

Kedua cara ini setara dan hampir selalu dapat digunakan secara bergantian.

Pengecualian utama adalah ketika nama kolom berisi spasi. Jika misalnya kita memiliki kolom bernama "sales weekly", kita harus menggunakan `df['sales weekly']` karena `df.sales weekly` adalah kesalahan sintaksis.

In [None]:
print(df['name'])

In [None]:
print(df.name)

#### Pilih beberapa kolom

Untuk memilih banyak kolom, kami menggunakan `df[columns_to_select]` di mana `columns_to_select` adalah kolom yang ingin kami berikan sebagai daftar python sederhana. Hasilnya kita akan mendapatkan data frame yang lain.

Ini setara dengan mencantumkan nama kolom di bagian `SELECT` dari kueri sql.

In [None]:
df[['name','pet']]

#### Pilih baris berdasarkan indeks

Pemilihan baris secara teratur dilakukan melalui indeksnya. Saat menggunakan indeks rentang, kami dapat mengakses baris menggunakan indeks bilangan bulat tetapi ini tidak akan berfungsi saat menggunakan indeks datetime misalnya.

Kami selalu dapat mengakses setiap baris dalam kerangka data menggunakan `.iloc[i]` untuk beberapa bilangan bulat i.

Hasilnya adalah objek seri dari mana kita dapat mengakses nilai dengan menggunakan pengindeksan kolom.

In [None]:
df.iloc[0]

### Sort Function

- pandas.pydata.org
- https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html

#### Urutkan data berdasarkan `pet`

Ada dua cara untuk mengurutkan.
- Berdasarkan indeks
- Berdasarkan nilai

Dengan nilai berarti menyortir menurut nilai dalam kolom.

Dalam contoh ini kita mengurutkan data pada _DataFrame_ berdasarkan nilai di kolom `pet`.

Parameter `ascending = True` berarti kita ingin baris diurutkan dalam urutan menaik. Ini sama dengan sql 'ASC'. Untuk mendapatkan urutan menurun gunakan `ascending = False`.

`inplace` sangat penting dan Anda harus selalu mengingatnya. Ketika `inplace=True` kerangka data dimodifikasi di tempat yang berarti tidak ada salinan yang dibuat dan data Anda sebelumnya yang disimpan dalam kerangka data hilang. Secara default inplace selalu False. Ketika salah, salinan dibuat dari data Anda dan salinan itu diurutkan dan dikembalikan sebagai keluaran.

Output dari `sort_values` selalu merupakan kerangka data yang dikembalikan tetapi perilakunya sangat bergantung pada parameter `inplace`.

In [None]:
df.sort_values('pet',inplace=True, ascending=True)

### Indexing with DataFrames

Everything we discussed about indexing in numpy arrays applies to dataframes as well.

DataFrames are very similar to 2d-arrays with the main exception being that in DataFrames you can index using strings (column names).

#### View the index after the sort

In [None]:
df

#### Perbedaan antara `loc` dan `iloc`

- `.loc` memilih data berdasarkan nilai index.
- `.iloc` memilih berdasarkan nomor posisi.

In [None]:
df.loc[0] #index based

In [None]:
df.iloc[0] #relative position based indexing

#### Gunakan `iloc` untuk memilih semua baris pada kolom

Berikut contoh perintah memilih seluruh baris pada kolom ke-2.

Ingat `:` = `::1`

Pada konteks _DataFrame_, angka pertama selalu baris dan yang kedua adalah kolom.

In [None]:
df.iloc[:,2]

#### Gunakan `iloc` untuk memilih baris terakhir

In [None]:
df.iloc[-1,:]

### Konsep Dasar Pandas: Latihan

In [None]:
sales = [100,130,119,92,35]
customer_account = ['B100','J101','X102','P103','R104']
city = ['BOS','LA','NYC','SF','CHI']

#### Buat _DataFrame_ dengan data di atas

#### Cetak nama dari kolom pertama

#### Urutkan _DataFrame_ berdasarkan `city` secara _ascending_

#### Cetak data konsumen terakhir di _DataFrame_

#### Reorder the columns with customer in the first column

# Fungsi Standard Pandas

Mengenal fungsi yang disediakan Pandas, mari kita coba contoh data yang lebih banyak dari file CSV

#### Load data dari file CSV

File CSV adalah format file data sederhana. Isinya hanyalah data yang masing-masing _record_ nya terdiri dari 1 baris dan masing-masing _field_/_column_ nya dipisah tanda koma.

_Google Colab_ menyediakan beberapa contoh data yang diletakan pada folder _sample_data_.

In [1]:
import pandas as pd

df = pd.read_csv("sample_data/california_housing_test.csv")
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


Beberapa website di internet menyediakan data _real_ yang bisa di download. Berikut beberapa situs yang menyediakan data CSV:
- https://data.jakarta.go.id/dataset/
- https://data.world/datasets/census


Untuk bahan pembelajaran, kita akan download data [Data Jumlah Kepala Keluarga Menurut Pekerjaan Jenis Kelamin dan Wilayah](https://data.jakarta.go.id/dataset/b0eb219e26e8e1fe7c521d8b78f9c89f/resource/e9a6fef809483b5cdd6ff545ee694494/download/Data-Jumlah-Kepala-Keluarga-Menurut-Pekerjaan-Jenis-Kelamin-dan-Wilayah-Tahun-2020.csv).
Execute script pada 2 cell berikut:



In [2]:
# download data contoh
!wget https://data.jakarta.go.id/dataset/b0eb219e26e8e1fe7c521d8b78f9c89f/resource/e9a6fef809483b5cdd6ff545ee694494/download/Data-Jumlah-Kepala-Keluarga-Menurut-Pekerjaan-Jenis-Kelamin-dan-Wilayah-Tahun-2020.csv -O 2022-jakarta-kk.csv



--2024-01-06 04:14:58--  https://data.jakarta.go.id/dataset/b0eb219e26e8e1fe7c521d8b78f9c89f/resource/e9a6fef809483b5cdd6ff545ee694494/download/Data-Jumlah-Kepala-Keluarga-Menurut-Pekerjaan-Jenis-Kelamin-dan-Wilayah-Tahun-2020.csv
Resolving data.jakarta.go.id (data.jakarta.go.id)... 103.209.7.64
Connecting to data.jakarta.go.id (data.jakarta.go.id)|103.209.7.64|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/x-comma-separated-values]
Saving to: ‘2022-jakarta-kk.csv’

2022-jakarta-kk.csv     [          <=>       ]   1.65M   515KB/s    in 3.3s    

2024-01-06 04:15:03 (515 KB/s) - ‘2022-jakarta-kk.csv’ saved [1735304]



In [3]:
# load csv ke DataFrame
df = pd.read_csv("2022-jakarta-kk.csv")
df

Unnamed: 0,tahun,provinsi,kabupaten_kota,kecamatan,kelurahan,jenis_kelamin,pekerjaan,jumlah
0,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Belum/Tidak Bekerja,5
1,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Mengurus Rumah Tangga,1
2,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pelajar/Mahasiswa,4
3,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pensiunan,19
4,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pegawai Negeri Sipil,194
...,...,...,...,...,...,...,...,...
21527,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Pelaut,0
21528,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Sopir,0
21529,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Pedagang,7
21530,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Wiraswasta,104


#### Membaca beberapa baris data pertama

Fungsi `head` secara default mencetak 5 baris pertama dari DataFrame Anda.

Jika Anda memberikan parameter `n`, ia akan mencetak baris `n` pertama.

Dokumen ada [di sini](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html)

In [4]:
df.head()

Unnamed: 0,tahun,provinsi,kabupaten_kota,kecamatan,kelurahan,jenis_kelamin,pekerjaan,jumlah
0,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Belum/Tidak Bekerja,5
1,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Mengurus Rumah Tangga,1
2,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pelajar/Mahasiswa,4
3,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pensiunan,19
4,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pegawai Negeri Sipil,194


#### Membaca 10 baris terakhir



In [5]:
df.tail(10)

Unnamed: 0,tahun,provinsi,kabupaten_kota,kecamatan,kelurahan,jenis_kelamin,pekerjaan,jumlah
21522,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Arsitek,0
21523,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Konsultan,0
21524,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Dokter,4
21525,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Bidan,2
21526,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Perawat,4
21527,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Pelaut,0
21528,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Sopir,0
21529,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Pedagang,7
21530,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Wiraswasta,104
21531,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Lainnya,6


#### Membaca tipe data di DataFrame

Fungsi ini akan memberi tahu Anda jenis kolom.

Jenis secara otomatis disimpulkan oleh panda dan biasanya Anda tidak perlu mengkhawatirkannya.

[dokumen](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21532 entries, 0 to 21531
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   tahun           21532 non-null  int64 
 1   provinsi        21532 non-null  object
 2   kabupaten_kota  21532 non-null  object
 3   kecamatan       21532 non-null  object
 4   kelurahan       21532 non-null  object
 5   jenis_kelamin   21532 non-null  object
 6   pekerjaan       21532 non-null  object
 7   jumlah          21532 non-null  int64 
dtypes: int64(2), object(6)
memory usage: 1.3+ MB


#### Statistik ringkasan dari DataFrame

Untuk mempelajari lebih lanjut tentang mendeskripsikan, kunjungi [tautan ini](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html)

In [7]:
df.describe()

Unnamed: 0,tahun,jumlah
count,21532.0,21532.0
mean,2020.0,167.888956
std,0.0,906.183645
min,2020.0,0.0
25%,2020.0,1.0
50%,2020.0,3.0
75%,2020.0,23.0
max,2020.0,36235.0


In [8]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
tahun,21532.0,2020.0,0.0,2020.0,2020.0,2020.0,2020.0,2020.0
jumlah,21532.0,167.888956,906.183645,0.0,1.0,3.0,23.0,36235.0


### Filter DataFrame

Anda dapat memfilter data berdasarkan kolom dan nilai dalam kerangka data

Berikut adalah contoh penggunaan filter pada DataFrame

In [9]:
# mengambil data yang jenis kelamin LAKI-LAKI dan menyimpannya sebagai object df1
df1 = df[df.jenis_kelamin=='LAKI-LAKI']

In [10]:
# dari data yang jenis kelamin LAKI-LAKI, filter data pekerjaan yang Pensiunan
df2 = df1[df1.pekerjaan=='Pensiunan']
df2

Unnamed: 0,tahun,provinsi,kabupaten_kota,kecamatan,kelurahan,jenis_kelamin,pekerjaan,jumlah
3,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pensiunan,19
30,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU KELAPA,LAKI-LAKI,Pensiunan,7
54,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU HARAPAN,LAKI-LAKI,Pensiunan,2
72,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU SELATAN,PULAU UNTUNG JAWA,LAKI-LAKI,Pensiunan,11
89,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU SELATAN,PULAU TIDUNG,LAKI-LAKI,Pensiunan,14
...,...,...,...,...,...,...,...,...
10561,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,MUNJUL,LAKI-LAKI,Pensiunan,280
10601,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,SETU,LAKI-LAKI,Pensiunan,176
10646,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,BAMBU APUS,LAKI-LAKI,Pensiunan,226
10688,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,LUBANG BUAYA,LAKI-LAKI,Pensiunan,588


#### Combine (&) dan Join (|)

Anda juga bisa menggabungkan 2 kondisi dalam 1 query

In [11]:
# query data yang adalah LAKI-LAKI DAN Pensiunan
df3 = df[(df.jenis_kelamin=='LAKI-LAKI')&(df.pekerjaan=='Pensiunan')]
df3

Unnamed: 0,tahun,provinsi,kabupaten_kota,kecamatan,kelurahan,jenis_kelamin,pekerjaan,jumlah
3,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pensiunan,19
30,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU KELAPA,LAKI-LAKI,Pensiunan,7
54,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU HARAPAN,LAKI-LAKI,Pensiunan,2
72,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU SELATAN,PULAU UNTUNG JAWA,LAKI-LAKI,Pensiunan,11
89,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU SELATAN,PULAU TIDUNG,LAKI-LAKI,Pensiunan,14
...,...,...,...,...,...,...,...,...
10561,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,MUNJUL,LAKI-LAKI,Pensiunan,280
10601,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,SETU,LAKI-LAKI,Pensiunan,176
10646,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,BAMBU APUS,LAKI-LAKI,Pensiunan,226
10688,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,LUBANG BUAYA,LAKI-LAKI,Pensiunan,588


In [12]:
# query data yang adalah LAKI-LAKI ATAU Pegawai Negeri Sipil
df3 = df[(df.pekerjaan=='Pensiunan')|(df.pekerjaan=='Pegawai Negeri Sipil')]
df3

Unnamed: 0,tahun,provinsi,kabupaten_kota,kecamatan,kelurahan,jenis_kelamin,pekerjaan,jumlah
3,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pensiunan,19
4,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU PANGGANG,LAKI-LAKI,Pegawai Negeri Sipil,194
30,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU KELAPA,LAKI-LAKI,Pensiunan,7
31,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU KELAPA,LAKI-LAKI,Pegawai Negeri Sipil,50
54,2020,DKI JAKARTA,ADM. KEPULAUAN SERIBU,KEPULAUAN SERIBU UTARA,PULAU HARAPAN,LAKI-LAKI,Pensiunan,2
...,...,...,...,...,...,...,...,...
21413,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,BAMBU APUS,PEREMPUAN,Pegawai Negeri Sipil,68
21454,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,LUBANG BUAYA,PEREMPUAN,Pensiunan,71
21455,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,LUBANG BUAYA,PEREMPUAN,Pegawai Negeri Sipil,93
21499,2020,DKI JAKARTA,JAKARTA TIMUR,CIPAYUNG,CEGER,PEREMPUAN,Pensiunan,22


### Menambahkan fungsi pada filter

Kita bisa menambahkan fungsi pada hasil filter. Berikut beberapa fungsi dasar yang kita bisa gunakan.

#### fungsi `sum()`

Fungsi `sum()` digunakan untuk menghitung total dari penjumlahan angka pada kolom terpilih

In [22]:
df1=df[df.jenis_kelamin=='LAKI-LAKI']
df1.jumlah.sum()

2867045

In [23]:
df.jumlah[df.jenis_kelamin=='LAKI-LAKI'].sum()

2867045

In [24]:
df1.jumlah.sum()

2867045

#### fungsi `mean()`

Fungsi `mean()` digunakan untuk menghitung nilai rata-rata dari kolom terpilih

In [15]:
df.jumlah[df.jenis_kelamin=='LAKI-LAKI'].mean()

266.3054987924949

In [16]:
df2.jumlah.mean()

257.7790262172285

#### fungsi `count()`

Fungsi `count()` digunakan untuk menghitung jumlah data. Untuk perhitungan sederhana, bisa memilih sembarang kolom untuk dikenakan fungsi `count()`

In [17]:
df.jumlah.count()

21532

In [19]:
df.pekerjaan.count()

21532

In [18]:
df.shape[0]

21532

Fungsi `shape[0]` dan `count()` memiliki kegunaan yang sama. Anda bisa menggunakannya sesuai kondisi.

### Pengelompokan data dengan `groupby`

Metode `groupby` adalah salah satu fungsi terpenting yang akan Anda gunakan dalam pekerjaan sehari-hari.

Parameter input utamanya adalah string yang menunjukkan nama kolom atau daftar string yang menunjukkan daftar nama kolom.

Outputnya adalah objek GroupBy yang sangat mirip dengan _DataFrame_.

Pengoperasian groupby sama dengan SQL GROUPBY atau _Pivot Table_ pada _MS Excel_

Untuk info selengkapnya, lihat [dokumen](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html).

In [26]:
# contoh menghitung jumlah penduduk per masing-masing kecamatan
df4 = df.groupby(['kecamatan','jenis_kelamin']).jumlah.sum()
df4

kecamatan      jenis_kelamin
CAKUNG         LAKI-LAKI        149282
               PEREMPUAN         32900
CEMPAKA PUTIH  LAKI-LAKI         26692
               PEREMPUAN          7977
CENGKARENG     LAKI-LAKI        148330
                                 ...  
TANAH ABANG    PEREMPUAN         15230
TANJUNG PRIOK  LAKI-LAKI        108272
               PEREMPUAN         28861
TEBET          LAKI-LAKI         61042
               PEREMPUAN         18805
Name: jumlah, Length: 88, dtype: int64

Anda juga bisa menggunakan 2 kriteria _groupby_. Jika Anda menggunakan lebih dari satu kriteria, daftar kriteria ditulis dalam bentuk _list_.

In [20]:
df4 = df.groupby(['kecamatan','jenis_kelamin']).jumlah.sum()
df4

kecamatan      jenis_kelamin
CAKUNG         LAKI-LAKI        149282
               PEREMPUAN         32900
CEMPAKA PUTIH  LAKI-LAKI         26692
               PEREMPUAN          7977
CENGKARENG     LAKI-LAKI        148330
                                 ...  
TANAH ABANG    PEREMPUAN         15230
TANJUNG PRIOK  LAKI-LAKI        108272
               PEREMPUAN         28861
TEBET          LAKI-LAKI         61042
               PEREMPUAN         18805
Name: jumlah, Length: 88, dtype: int64

### Latihan

#### Berapa jumlah penduduk wanita?

In [38]:
df5 = df[df['jenis_kelamin'] == 'PEREMPUAN']
df5.jumlah.sum()

747940

#### Berapa jumlah penduduk LAKI-LAKI di kecamatan CIPAYUNG?

In [39]:
df6 = df[(df.jenis_kelamin=='LAKI-LAKI') & (df.kecamatan=='CIPAYUNG')]
df.jumlah.sum()

3614985

#### Berapa jumlah penduduk PEREMPUAN yang adalah Pegawai Negeri Sipil?

In [42]:
df3 = df[(df['jenis_kelamin'] == 'PEREMPUAN')
      & (df['pekerjaan'] == 'Pegawai Negeri Sipil')]
df3.jumlah.sum()

9153

#### Berapa jumlah penduduk PEREMPUAN yang adalah Pegawai Negeri Sipil dan tinggal di JAKARTA TIMUR

In [41]:
df2 = df[
    (df.jenis_kelamin=='PEREMPUAN')
    & (df.pekerjaan=='Pegawai Negeri Sipil')
    & (df.kabupaten_kota=='JAKARTA TIMUR')]
df2.jumlah.sum()

3680

#### Berapa rata-rata jumlah PEREMPUAN per masing-masing kecamatan

In [40]:
df5 = df[df['jenis_kelamin'] == 'PEREMPUAN'].groupby('kecamatan')['jumlah'].mean()
df5

kecamatan
CAKUNG                      109.666667
CEMPAKA PUTIH                56.574468
CENGKARENG                  130.428571
CILANDAK                     62.782427
CILINCING                   103.444444
CIPAYUNG                     46.898773
CIRACAS                      93.656716
DUREN SAWIT                  90.897351
GAMBIR                       41.300926
GROGOL PETAMBURAN            64.066202
JAGAKARSA                    76.955556
JATINEGARA                   72.924925
JOHAR BARU                   62.200000
KALI DERES                  110.168889
KEBAYORAN BARU               30.685864
KEBAYORAN LAMA               82.511450
KEBON JERUK                  69.256410
KELAPA GADING                77.522727
KEMAYORAN                    64.525000
KEMBANGAN                    63.375000
KEPULAUAN SERIBU SELATAN      8.045455
KEPULAUAN SERIBU UTARA       10.681159
KOJA                         98.189300
KRAMATJATI                   72.880137
MAKASAR                      68.452128
MAMPANG PRAPATA

Berapa jumlah penduduk yang belum bekerja atau masih mahasiswa per kabupaten

In [1]:
df_pengangguran =df[(df)['pekerjaan'].isin(['Belum/Tidak Bekerja','Mahasiswa'])]
result = df_pengangguran.groupby('kabupaten_kota')['jumlah'].sum()
result

NameError: name 'df' is not defined