# *Data Preparation with Python* - Bagian 3
Pertanyaan, koreksi, maupun saran dapat disampaikan ke galuh.tunggadewi[at]gmail.com atau disampaikan dengan cara membuka [isu baru di GitHub](https://github.com/galuhsahid/data-preparation-with-python). Lisensi dapat dilihat [di sini](https://creativecommons.org/licenses/by-nc-sa/4.0/).

In [2]:
import pandas as pd

# Mengubah bentuk data

In [96]:
df_gdp = pd.read_csv("data/world_gdp.tsv", sep="\t")

Terkadang, kita mendapatkan data yang memiliki banyak kolom seperti data berikut:

In [97]:
df_gdp.head()

Unnamed: 0,Country Name,Country Code,Continent,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,Unnamed: 64
0,Aruba,ABW,North America,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,,,,,,...,-3.68503,3.446055,-1.369863,4.198232,0.848228,-0.450586,-0.211225,1.330511,,
1,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,,,,,,...,14.362441,0.426355,12.752287,5.600745,2.724543,1.451315,2.260314,2.665292,1.03066,
2,Angola,AGO,Africa,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,,,,,,...,4.85922,3.471981,8.542147,4.95459,4.822626,0.943576,-2.580097,-0.147207,-2.133493,
3,Albania,ALB,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,,,,,,...,3.706881,2.545405,1.417526,1.001988,1.77,2.23,3.35,3.83662,4.004413,
4,Andorra,AND,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,,,,,,...,-5.358826,-4.646543,-1.615218,0.351645,2.277683,0.842204,1.889124,1.724022,1.629345,


Pada contoh data di atas, untuk setiap tahunnya, terdapat kolom yang berisi GDP *growth* di tahun tersebut. Seringkali, kita ingin mengubah bentuk data tersebut, misalnya kita bisa memiliki kolom tahun sendiri dan kolom GDP *growth* yang berisi GDP *growth* di masing-masing negara dan tahun:


| Country Name | Country Code | ... | Year | GDP *growth* (%)

| Aruba | ABW | ... | 2011 | 3.446055

| Aruba | ABW | ... | 2012 | -1.369863

...

| Afghanistan | AFG | ... | 2011 | 3446055

## melt

📖  Dokumentasi `pandas.melt`: [tautan](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html)

- `id_vars`: *List* berisi nama-nama kolom yang kita tetapkan sebagai **variabel**. Kolom-kolom ini tidak akan berubah, tetap seperti semula.
- `value_vars` (opsional): *List* berisi nama-nama kolom yang ingin kita *unpivot*. Apabila tidak diisi, maka akan dianggap bahwa semua kolom yang tidak ditulis di `id_vars` akan di-*unpivot*.

Pada kode di bawah, kita tidak akan merubah kolom-kolom Country Name, Country Code, Continent, Indicator Name, dan Indicator Name. Kita akan meng-*unpivot* kolom-kolom lainnya, yang merupakan kolom-kolom tahun dari 1960 sampai seterusnya.

In [98]:
df_gdp_melt = pd.melt(df_gdp, id_vars=["Country Name", "Country Code", "Continent", "Indicator Name", "Indicator Code"])

In [99]:
df_gdp_melt.head()

Unnamed: 0,Country Name,Country Code,Continent,Indicator Name,Indicator Code,variable,value
0,Aruba,ABW,North America,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
1,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
2,Angola,AGO,Africa,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
3,Albania,ALB,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
4,Andorra,AND,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,


Kita dapat menggunakan `sort_values()` untuk mengurutkan baris sesuai dengan negara terlebih dahulu, kemudian tahun, untuk mengecek apakah semua kolom tahun sudah di-*unpivot*.

In [100]:
df_gdp_melt = df_gdp_melt.sort_values(by=["Country Name", "variable"])

In [101]:
df_gdp_melt.head(200)

Unnamed: 0,Country Name,Country Code,Continent,Indicator Name,Indicator Code,variable,value
1,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
265,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1961,
529,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1962,
793,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1963,
1057,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1964,
1321,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1965,
1585,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1966,
1849,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1967,
2113,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1968,
2377,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1969,


Pada tabel di atas, kolom tahun kita bernama "variable" dan kolom GDP *growth* kita bernama "value". Nama-nama kolom ini dapat diubah dengan cara mendefinisikan `var_name` dan `value_name`.

In [102]:
df_gdp_melt = pd.melt(df_gdp, 
                      id_vars=["Country Name", "Country Code", "Continent", "Indicator Name", "Indicator Code"],
                      var_name='Year',
                      value_name='GDP growth (annual %)')

In [103]:
df_gdp_melt.head()

Unnamed: 0,Country Name,Country Code,Continent,Indicator Name,Indicator Code,Year,GDP growth (annual %)
0,Aruba,ABW,North America,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
1,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
2,Angola,AGO,Africa,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
3,Albania,ALB,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,
4,Andorra,AND,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,


### Latihan
Baca *file* berjudul "world_population.csv". Simpan di variabel bernama `df_pop`. Kemudian, buatlah tabel yang serupa dengan tabel `df_gdp_melt`. Simpan tabel di variabel `df_pop_melt`.

#### Solusi

In [104]:
df_pop = pd.read_csv("data/world_population.csv")

In [105]:
df_pop.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,Unnamed: 63
0,Aruba,ABW,"Population, total",SP.POP.TOTL,54211.0,55438.0,56225.0,56695.0,57032.0,57360.0,...,101669.0,102046.0,102560.0,103159.0,103774.0,104341.0,104872.0,105366.0,105845.0,
1,Afghanistan,AFG,"Population, total",SP.POP.TOTL,8996973.0,9169410.0,9351441.0,9543205.0,9744781.0,9956320.0,...,29185507.0,30117413.0,31161376.0,32269589.0,33370794.0,34413603.0,35383128.0,36296400.0,37172386.0,
2,Angola,AGO,"Population, total",SP.POP.TOTL,5454933.0,5531472.0,5608539.0,5679458.0,5735044.0,5770570.0,...,23356246.0,24220661.0,25107931.0,26015780.0,26941779.0,27884381.0,28842484.0,29816748.0,30809762.0,
3,Albania,ALB,"Population, total",SP.POP.TOTL,1608800.0,1659800.0,1711319.0,1762621.0,1814135.0,1864791.0,...,2913021.0,2905195.0,2900401.0,2895092.0,2889104.0,2880703.0,2876101.0,2873457.0,2866376.0,
4,Andorra,AND,"Population, total",SP.POP.TOTL,13411.0,14375.0,15370.0,16412.0,17469.0,18549.0,...,84449.0,83747.0,82427.0,80774.0,79213.0,78011.0,77297.0,77001.0,77006.0,


In [106]:
df_pop_melt = pd.melt(df_pop, 
                      id_vars=["Country Name", "Country Code", "Indicator Name", "Indicator Code"],
                      var_name='Year',
                      value_name='Population')

In [107]:
df_pop_melt.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Population
0,Aruba,ABW,"Population, total",SP.POP.TOTL,1960,54211.0
1,Afghanistan,AFG,"Population, total",SP.POP.TOTL,1960,8996973.0
2,Angola,AGO,"Population, total",SP.POP.TOTL,1960,5454933.0
3,Albania,ALB,"Population, total",SP.POP.TOTL,1960,1608800.0
4,Andorra,AND,"Population, total",SP.POP.TOTL,1960,13411.0


# Menggabungkan dua sumber data berbeda

## Sekilas mengenai operasi `join`

![alt text](https://placeisimportant.files.wordpress.com/2013/02/sql-joins-vis-rep-1.png)

[Sumber](https://placeisimportant.wordpress.com)

## Menggabungkan dua tabel dengan `pandas.DataFrame.merge`

📖  Dokumentasi `pandas.DataFrame.merge`: [tautan](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

Apabila Anda sudah cukup familiar dengan SQL, konsep `merge` di pandas mirip dengan konsep `join` di SQL.

- `on`: sebuah kolom atau sebuah *list* berisi nama-nama kolom yang akan digunakan sebagai acuan untuk menggabungkan tabel.
- `how="inner"` (*default*): menghasilkan baris-baris yang kuncinya ada pada kedua tabel. Serupa dengan *inner join* pada SQL.
- `how="left"`: menghasilkan baris-baris yang kuncinya ada pada tabel di sebelah kiri. Apabila kunci di tabel sebelah kiri tidak dapat ditemukan di tabel sebelah kanan, maka nilai untuk kolom-kolom dari tabel di sebelah kanan untuk kunci tersebut akan bernilai *null*. Serupa dengan *left outer join* pada SQL.
- `how="right"`: menghasilkan baris-baris yang kuncinya ada pada tabel di sebelah kanan. Apabila kunci di tabel sebelah kanan tidak dapat ditemukan di tabel sebelah kanan, maka nilai untuk kolom-kolom dari tabel di sebelah kiri untuk kunci tersebut akan bernilai *null*. Serupa dengan *right outer join* pada SQL.
- `how="outer"`: menghasilkan seluruh baris dengan kunci yang ada di kedua tabel. Serupa dengan *full outer join* di SQL.

Menggabungkan dua tabel secara *inner join* pada kolom "Country Name" dan "Year":

In [108]:
df_gdp_pop = df_gdp_melt.merge(df_pop_melt, how="inner", on=["Country Name", "Year"])

In [109]:
df_gdp_pop.head()

Unnamed: 0,Country Name,Country Code_x,Continent,Indicator Name_x,Indicator Code_x,Year,GDP growth (annual %),Country Code_y,Indicator Name_y,Indicator Code_y,Population
0,Aruba,ABW,North America,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,,ABW,"Population, total",SP.POP.TOTL,54211.0
1,Afghanistan,AFG,Asia,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,,AFG,"Population, total",SP.POP.TOTL,8996973.0
2,Angola,AGO,Africa,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,,AGO,"Population, total",SP.POP.TOTL,5454933.0
3,Albania,ALB,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,,ALB,"Population, total",SP.POP.TOTL,1608800.0
4,Andorra,AND,Europe,GDP growth (annual %),NY.GDP.MKTP.KD.ZG,1960,,AND,"Population, total",SP.POP.TOTL,13411.0


Kode di atas tidak akan mengembalikan negara-negara dan tahun yang tidak muncul di tabel populasi maupun tabel GDP.

In [110]:
df_gdp_pop = df_gdp_pop[["Country Name", "Continent", "Year", "GDP growth (annual %)", "Population"]]

Tabel `df_gdp_pop` merupakan gabungan kedua tabel, di mana baik GDP maupun populasi dari masing-masing negara dan tahun sudah terdapat pada satu tabel.

In [111]:
df_gdp_pop.head()

Unnamed: 0,Country Name,Continent,Year,GDP growth (annual %),Population
0,Aruba,North America,1960,,54211.0
1,Afghanistan,Asia,1960,,8996973.0
2,Angola,Africa,1960,,5454933.0
3,Albania,Europe,1960,,1608800.0
4,Andorra,Europe,1960,,13411.0


# Meringkas data

Terkadang kita ingin meringkas data, misalnya membuat tabel yang hanya berisi rata-rata GDP *growth* dari masing-masing negara dari tahun 1960. Kita dapat menggunakan `groupby()` untuk melakukan hal tersebut.

 ## `pandas.DataFrame.groupby`

📖  Dokumentasi `pandas.DataFrame.groupby`: [tautan](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

Pada contoh di bawah, kita akan menghitung rata-rata GDP *growth* di masing-masing negara:

In [113]:
df_gdp_pop.groupby(['Country Name'])["GDP growth (annual %)"].mean().head()

Country Name
Afghanistan       6.828081
Albania           2.969914
Algeria           3.765577
American Samoa   -1.354800
Andorra           2.621715
Name: GDP growth (annual %), dtype: float64

In [114]:
df_gdp_pop.groupby(['Country Name'])[["GDP growth (annual %)"]].mean()

Unnamed: 0_level_0,GDP growth (annual %)
Country Name,Unnamed: 1_level_1
Afghanistan,6.828081
Albania,2.969914
Algeria,3.765577
American Samoa,-1.354800
Andorra,2.621715
Angola,3.800455
Antigua and Barbuda,3.847617
Arab World,3.786073
Argentina,2.495562
Armenia,3.342892


Total GDP di masing-masing kontinen:

In [115]:
df_gdp_pop.groupby(['Continent'])[["GDP growth (annual %)"]].sum().head()

Unnamed: 0_level_0,GDP growth (annual %)
Continent,Unnamed: 1_level_1
Africa,9343.615899
Asia,8859.35398
Europe,5501.990083
North America,4211.81082
Oceania,1540.98739


### Latihan
1. Berapakah rata-rata GDP untuk setiap kontinen per tahun?

Misal:
- Asia | 1998 | 98492
- Asia | 1999 | 28374
- Eropa | 1998 | 290384


2. Tampilkan rata-rata populasi per tahun untuk negara-negara yang ada di benua Asia dan Eropa

#### Solusi 1

In [116]:
df_gdp_pop.groupby(['Continent', 'Year'])[["GDP growth (annual %)"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,GDP growth (annual %)
Continent,Year,Unnamed: 2_level_1
Africa,1960,
Africa,1961,2.314596
Africa,1962,3.791991
Africa,1963,4.951806
Africa,1964,5.159206
Africa,1965,4.959958
Africa,1966,3.336221
Africa,1967,3.678482
Africa,1968,4.194378
Africa,1969,5.231270


In [117]:
df_gdp_pop.groupby(['Continent', 'Year'], as_index=False)[["GDP growth (annual %)"]].mean()

Unnamed: 0,Continent,Year,GDP growth (annual %)
0,Africa,1960,
1,Africa,1961,2.314596
2,Africa,1962,3.791991
3,Africa,1963,4.951806
4,Africa,1964,5.159206
5,Africa,1965,4.959958
6,Africa,1966,3.336221
7,Africa,1967,3.678482
8,Africa,1968,4.194378
9,Africa,1969,5.231270


#### Solusi 2

In [118]:
df_gdp_pop[df_gdp_pop["Continent"].isin(["Europe", "Asia"])].groupby(['Country Name', 'Year'])[["Population"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Population
Country Name,Year,Unnamed: 2_level_1
Afghanistan,1960,8996973.0
Afghanistan,1961,9169410.0
Afghanistan,1962,9351441.0
Afghanistan,1963,9543205.0
Afghanistan,1964,9744781.0
Afghanistan,1965,9956320.0
Afghanistan,1966,10174836.0
Afghanistan,1967,10399926.0
Afghanistan,1968,10637063.0
Afghanistan,1969,10893776.0


## Agregasi

Kita juga dapat menggunakan `agg()` apabila kita ingin menampilkan lebih dari satu jenis perhitungan di tabel yang sama (misalnya, total jumlah populasi dan rata-rata GDP per tahun untuk masing-masing negara).

In [120]:
df_gdp_pop.groupby(['Continent', 'Year']).agg(
{
    'Population': sum,
    'GDP growth (annual %)': "mean"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,GDP growth (annual %)
Continent,Year,Unnamed: 2_level_1,Unnamed: 3_level_1
Africa,1960,265176766.0,
Africa,1961,271580213.0,2.314596
Africa,1962,278219665.0,3.791991
Africa,1963,285089394.0,4.951806
Africa,1964,292179388.0,5.159206
Africa,1965,299485430.0,4.959958
Africa,1966,307011761.0,3.336221
Africa,1967,314772260.0,3.678482
Africa,1968,322785168.0,4.194378
Africa,1969,331073710.0,5.231270


### Latihan
Untuk masing-masing pasang benua dan tahun, tampilkan data:
- Min, max, dan mean populasi
- Rata-rata GDP *growth*
- Jumlah negara di benua tersebut

#### Solusi

In [123]:
df_gdp_pop.groupby(['Continent', 'Year']).agg(
{
    'Population': ["min", "max", "mean"],
    'GDP growth (annual %)': "mean",
    'Country Name': "count"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,Population,Population,GDP growth (annual %),Country Name
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean,mean,count
Continent,Year,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Africa,1960,41700.0,45138458.0,5.524516e+06,,48
Africa,1961,42889.0,46063563.0,5.657921e+06,2.314596,48
Africa,1962,44042.0,47029822.0,5.796243e+06,3.791991,48
Africa,1963,45176.0,48032934.0,5.939362e+06,4.951806,48
Africa,1964,46322.0,49066760.0,6.087071e+06,5.159206,48
Africa,1965,47500.0,50127921.0,6.239280e+06,4.959958,48
Africa,1966,48699.0,51217973.0,6.396078e+06,3.336221,48
Africa,1967,49911.0,52342233.0,6.557755e+06,3.678482,48
Africa,1968,51134.0,53506196.0,6.724691e+06,4.194378,48
Africa,1969,52365.0,54717039.0,6.897369e+06,5.231270,48


## Mengaplikasikan fungsi

In [124]:
df_aps = pd.read_csv("data/angka_partisipasi_sekolah.csv")

In [125]:
df_aps.head()

Unnamed: 0,_id,idx,vervar,var,turvar,tahun,nilai
0,1,0,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2010,96.34
1,2,1,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2011,94.17
2,3,2,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2012,95.45
3,4,3,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2013,
4,5,4,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2014,98.22


Kita dapat mengaplikasikan fungsi yang telah kita buat sendiri untuk menghasilkan nilai/kolom baru pada DataFrame kita. Sebagai contoh, kita ingin menghilangkan kata "Kabupaten" di kolom `vervar` apabila nilai di kolom tersebut diawali dengan kata "Kabupaten". Pertama-tama, buatlah fungsinya terlebih dahulu:

In [126]:
def get_kabupaten_name(value):
  if value.startswith("Kabupaten "): # apabila input diawali dengan kata "Kabupaten "
    return " ".join(value.split(" ")[1:]) # buat string menjadi list berisi kata-kata di string tersebut,
                                          # ambil elemen ke-1 sampai elemen terakhir, dan gabungkan lagi
                                          # list tersebut menjadi sebuah string.
  return value

Cek apakah fungsi sudah berjalan dengan baik atau belum:

In [127]:
get_kabupaten_name("Kabupaten Polewali Mandar")

'Polewali Mandar'

Setelah dipastikan bahwa fungsi sudah berjalan dengan baik, gunakan `apply()` untuk mengaplikasikan fungsi tersebut secara otomatis ke kolom `vervar`.

In [128]:
df_aps["vervar"] = df_aps["vervar"].apply(get_kabupaten_name)

In [129]:
df_aps.head()

Unnamed: 0,_id,idx,vervar,var,turvar,tahun,nilai
0,1,0,Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2010,96.34
1,2,1,Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2011,94.17
2,3,2,Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2012,95.45
3,4,3,Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2013,
4,5,4,Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2014,98.22


Apabila kita ingin menempatkan hasil dari fungsi tersebut di kolom yang baru, kita bisa langsung mendefinisikan kolom baru tersebut:

In [130]:
df_aps = pd.read_csv("data/angka_partisipasi_sekolah.csv")

In [131]:
df_aps.head()

Unnamed: 0,_id,idx,vervar,var,turvar,tahun,nilai
0,1,0,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2010,96.34
1,2,1,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2011,94.17
2,3,2,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2012,95.45
3,4,3,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2013,
4,5,4,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2014,98.22


In [132]:
df_aps["vervar_new"] = df_aps["vervar"].apply(get_kabupaten_name)

In [133]:
df_aps.head()

Unnamed: 0,_id,idx,vervar,var,turvar,tahun,nilai,vervar_new
0,1,0,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2010,96.34,Polewali Mandar
1,2,1,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2011,94.17,Polewali Mandar
2,3,2,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2012,95.45,Polewali Mandar
3,4,3,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2013,,Polewali Mandar
4,5,4,Kabupaten Polewali Mandar,Angka Partisipasi Sekolah (APS),Sekolah Dasar,2014,98.22,Polewali Mandar


Bagaimana apabila kita membutuhkan lebih dari satu kolom untuk menghasilkan nilai baru? Misalnya, kita ingin menghitung luas dari masing-masing segi empat yang ada di tabel di bawah ini:

In [134]:
rectangles = [
    { 'height': 30, 'width': 4 },
    { 'height': 52, 'width': 6 },
    { 'height': 14, 'width': 3 }
]

rectangles_df = pd.DataFrame(rectangles)
rectangles_df

Unnamed: 0,height,width
0,30,4
1,52,6
2,14,3


Buat fungsi untuk menghitung luas, dengan input berupa baris dari tabel tersebut:

In [135]:
def calculate_area(row):
    # sesuaikan dengan nama kolom, yaitu height dan width
    return row['height'] * row['width']

In [136]:
rectangles_df['area'] = rectangles_df.apply(calculate_area, axis=1)
rectangles_df

Unnamed: 0,height,width,area
0,30,4,120
1,52,6,312
2,14,3,42


# *Checkpoint*
- Mengubah bentuk data
- Menggabungkan dua sumber data berbeda
- Meringkas data (groupby, agregasi)
- Mengaplikasikan fungsi yang dibuat sendiri ke tabel

![alt text](https://media2.giphy.com/media/d31w24psGYeekCZy/giphy.gif?cid=790b76115d4488ac643443597371b625&rid=giphy.gif)