<a href="https://colab.research.google.com/github/cassiejc/24-8-2023/blob/master/Copy_of_Modul_1_Praktikum_Machine_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Analysis with NumPy, Matplotlib and Pandas**

# **Tujuan**
* Praktikan mampu memahami penggunaan library NumPy, Pandas, dan Matplotlib untuk melakukan pengolahan data
*  Praktikan mampu melakukan proses cleaning data sebelum melakukan analisis data
*   Praktikan mampu memahami penggunaan library NumPy, Pandas, dan Matplotlib untuk melakukan visualisasi data
* Praktikan mampu membuat berbagai macam chart



# **Dataset**

Pada modul ini, dataset yang digunakan adalah dataset mengenai kemiskinan nasional. Dataset tersebut dapat di-download melalui link berikut

[Data Kemiskinan 2018-2022.xlsx](https://docs.google.com/spreadsheets/d/16GE0UWS_W0EuS85QLIArm-PzFnVmxY37/edit?usp=sharing&ouid=115607745042758487879&rtpof=true&sd=true)

File `Data Kemiskinan 2018-2022.xlsx` yang sudah di-download dapat di-upload langsung ke workspace Google Colab atau bisa di-upload ke google drive

# **Import library**

Terdapat 3 library yang akan digunakan untuk melakukan analisis data, yaitu

- **NumPy**: Numerical computing
- **Pandas**: Data manipulation
- **Matplotlib**: Data visualization



In [1]:
#Import library
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# **Membaca Data**

Selanjutnya, dataset dapat dibaca menggunakan `pd.read_<file type>()` yang terdapat di Pandas. Sebagai contoh, untuk membaca file `excel`, kita dapat menggunakan `pd.read_excel("nama file.xlsx")`. Apabila `sheet_name` tidak diisi, secara default sheet yang terbaca adalah sheet pertama

In [3]:
#Import dataset
data = pd.read_excel("Data Kemiskinan 2018-2022.xlsx")
data

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
0,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,PAPUA,%,27.740000
1,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,PAPUA BARAT,%,23.010000
2,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,NUSA TENGGARA TIMUR,%,21.350000
3,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,MALUKU,%,18.120001
4,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,GORONTALO,%,16.809999
...,...,...,...,...,...
878,2022-01-01 00:00:00,Gini Ratio Provinsi,MALUKU,%,0.301000
879,2022-01-01 00:00:00,Gini Ratio Provinsi,SUMATERA BARAT,%,0.300000
880,2022-01-01 00:00:00,Gini Ratio Provinsi,MALUKU UTARA,%,0.279000
881,2022-01-01 00:00:00,Gini Ratio Provinsi,KALIMANTAN UTARA,%,0.272000


# **Melihat Data**

Berikut adalah beberapa cara dasar untuk melihat data di Pandas:
- `head(n)` : Berfungsi untuk melihat data sebanyak n pada baris awal (jika tidak diisi, secara default n = 5)
- `tail(n)`: Berfungsi untuk melihat data sebanyak n pada baris akhir (jika tidak diisi, secara default n = 5)
- `columns` : Berfungsi untuk melihat nama-nama kolom pada dataset
- `shape` : Melihat jumlah baris dan kolom
- `info()` : Menampilkan nomor index beserta tipe datanya

In [4]:
#Menggunakan head
data.head()

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
0,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,PAPUA,%,27.74
1,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,PAPUA BARAT,%,23.01
2,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,NUSA TENGGARA TIMUR,%,21.35
3,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,MALUKU,%,18.120001
4,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,GORONTALO,%,16.809999


In [5]:
#Menggunakan tail
data.tail(3)

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
880,2022-01-01 00:00:00,Gini Ratio Provinsi,MALUKU UTARA,%,0.279
881,2022-01-01 00:00:00,Gini Ratio Provinsi,KALIMANTAN UTARA,%,0.272
882,2022-01-01 00:00:00,Gini Ratio Provinsi,KEPULAUAN BANGKA BELITUNG,%,0.236


In [6]:
#Menggunakan shape
data.shape

(883, 5)

In [7]:
#Menggunakan info
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 883 entries, 0 to 882
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Tahun      883 non-null    object 
 1   Indikator  883 non-null    object 
 2   Provinsi   877 non-null    object 
 3   Unit       877 non-null    object 
 4   Nilai      877 non-null    float64
dtypes: float64(1), object(4)
memory usage: 34.6+ KB


#**Data Cleaning**

Pembersihan data (data cleaning) adalah suatu proses yang melibatkan identifikasi dan koreksi, atau penghapusan data yang tidak benar dari sebuah dataset. Data yang perlu dibersihkan dapat meliputi:
1. Data yang tidak lengkap atau mengandung missing value
2. Data dengan format tipe data yang tidak sesuai
3. Data yang duplikat

Proses ini dilakukan untuk memastikan bahwa data dalam dataset bersih, akurat, dan sesuai sehingga dapat digunakan untuk analisis lebih lanjut

## **Menghilangkan baris yang memiliki missing value**

Untuk menghilangkan baris yang memiliki missing value, kita bisa menggunakan  `dropna()`. Untuk mengetahui apakah data frame memiliki missing value, kita dapat menggunakan `isna()` seperti berikut

In [8]:
data[data.Provinsi.isna()]

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
18,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,,,
19,2018-01-01 00:00:00,Persentase Penduduk Miskin Provinsi,,,
167,2018-01-01 00:00:00,Gini Ratio Provinsi,,,
621,2021-01-01 00:00:00,Indeks Kedalaman Kemiskinan P1 Provinsi,,,
629,2021-01-01 00:00:00,Indeks Kedalaman Kemiskinan P1 Provinsi,,,
630,2021-01-01 00:00:00,Indeks Kedalaman Kemiskinan P1 Provinsi,,,


Untuk menghilangkan beberapa baris tersebut kita akan menggunakan `dropna()`. Secara default, `dropna()` akan memberikan sebuah data frame baru dan tidak akan merubah data frame awal. Jika ingin mengubah data frame awal, kita harus menggunakan argumen `inplace = True`

In [9]:
data.dropna(inplace=True)

Setelah menjalankan kode di atas, maka missing value pada dataframe awal sudah dihilangkan

In [10]:
data[data.Provinsi.isna()]

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai


## **Memperbaiki data dengan tipe data yang tidak sesuai**

Dengan menggunakan `data.info()` dapat dilihat bahwa kolom Tahun memiliki tipe data object, yang mana seharusnya tipe data kolom Tahun adalah `datetime` untuk memudahkan kita melakukan analisis dan visualisasi data. Oleh karena itu, kita harus mengubah tipe data pada kolom Tahun menjadi tipe data datetime dengan memanfaatkan `to_datetime()` pada pandas

In [11]:
data.Tahun = pd.to_datetime(data.Tahun)

Setelah menjalankan kode di atas, maka tipe data kolom Tahun memiliki tipe data datetime

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 877 entries, 0 to 882
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Tahun      877 non-null    datetime64[ns]
 1   Indikator  877 non-null    object        
 2   Provinsi   877 non-null    object        
 3   Unit       877 non-null    object        
 4   Nilai      877 non-null    float64       
dtypes: datetime64[ns](1), float64(1), object(3)
memory usage: 41.1+ KB


##**Menghilangkan data duplikat**

Untuk mengecek apakah ada data duplikat pada dataframe, kita bisa menggunakan  `duplicated()` yang akan mengembalikan nilai True untuk setiap baris yang memiliki duplikat dan False untuk yang tidak. Sehingga, kita bisa melihat apakah terdapat baris yang memiliki duplikat dengan kode berikut

In [13]:
data[data.duplicated()==True]

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
80,2018-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,SULAWESI TENGAH,indeks,2.64
172,2018-01-01,Gini Ratio Provinsi,LAMPUNG,%,0.33


Dapat dilihat bahwa terdapat 2 baris yang memiliki duplikat. Kita dapat menghilangkan data duplikat tersebut dengan `drop_duplicates()`. Jangan lupa menambahkan argumen `inplace = True` agar data duplikat di data frame awal juga hilang

In [14]:
data.drop_duplicates(inplace = True)

Setelah menjalankan kode di atas, data duplikat sudah dihilangkan

In [15]:
data[data.duplicated()==True]

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai


#**Memfilter Data**

Data bisa di-filter atau diseleksi berdasarkan kondisi yang diinginkan. Contohnya jika kita ingin melihat kondisi sebuah provinsi, maka kita bisa melakukan filer untuk menampilkan data mengenai provinsi itu saja.

In [16]:
#Contoh memfilter data
kondisi = data.Provinsi == "PAPUA"
data[kondisi]

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
0,2018-01-01,Persentase Penduduk Miskin Provinsi,PAPUA,%,27.74
39,2018-01-01,Pertumbuhan Ekonomi Provinsi,PAPUA,%,7.32
72,2018-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,PAPUA,indeks,6.73
109,2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,PAPUA,indeks,2.28
153,2018-01-01,Gini Ratio Provinsi,PAPUA,%,0.384
180,2019-01-01,Persentase Penduduk Miskin Provinsi,PAPUA,%,27.530001
249,2019-01-01,Pertumbuhan Ekonomi Provinsi,PAPUA,%,-15.74
250,2019-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,PAPUA,indeks,7.17
285,2019-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,PAPUA,indeks,2.6
325,2019-01-01,Gini Ratio Provinsi,PAPUA,%,0.394


Memfilter data dengan lebih dari satu kondisi, dapat dilakukan dengan logika AND dan OR:
- Simbol `&` untuk `dan`
- Simbol `|` untuk `atau`

In [17]:
#Menggunakan & untuk melihat data mengenai persenatse penduduk miskin di provinsi Aceh
kondisi1 = data.Provinsi == "ACEH"
kondisi2 = data.Indikator == "Persentase Penduduk Miskin Provinsi"
data[kondisi1 & kondisi2]

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
5,2018-01-01,Persentase Penduduk Miskin Provinsi,ACEH,%,15.97
185,2019-01-01,Persentase Penduduk Miskin Provinsi,ACEH,%,15.32
361,2020-01-01,Persentase Penduduk Miskin Provinsi,ACEH,%,14.99
536,2021-01-01,Persentase Penduduk Miskin Provinsi,ACEH,%,15.33
713,2022-01-01,Persentase Penduduk Miskin Provinsi,ACEH,%,14.64


 `isin` dapat digunakan untuk memilih data yang nilainya terdapat dalam sebuah list.

In [18]:
#Menggunakan & dan isin untuk menampilkan data pertumbuhan ekonomi provinsi di Jawa Timur, Jawa Barat, dan Jawa Tengah
data[(data.Provinsi.isin(["JAWA TIMUR", "JAWA BARAT", "JAWA TENGAH"])) & (data.Indikator == "Pertumbuhan Ekonomi Provinsi")]

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
52,2018-01-01,Pertumbuhan Ekonomi Provinsi,JAWA BARAT,%,5.65
54,2018-01-01,Pertumbuhan Ekonomi Provinsi,JAWA TIMUR,%,5.47
56,2018-01-01,Pertumbuhan Ekonomi Provinsi,JAWA TENGAH,%,5.3
228,2019-01-01,Pertumbuhan Ekonomi Provinsi,JAWA TIMUR,%,5.53
230,2019-01-01,Pertumbuhan Ekonomi Provinsi,JAWA TENGAH,%,5.36
237,2019-01-01,Pertumbuhan Ekonomi Provinsi,JAWA BARAT,%,5.02
450,2020-01-01,Pertumbuhan Ekonomi Provinsi,JAWA TIMUR,%,-2.33
453,2020-01-01,Pertumbuhan Ekonomi Provinsi,JAWA BARAT,%,-2.52
454,2020-01-01,Pertumbuhan Ekonomi Provinsi,JAWA TENGAH,%,-2.65
576,2021-01-01,Pertumbuhan Ekonomi Provinsi,JAWA BARAT,%,3.74


#**Sorting dan Grouping Data**

Sorting data dapat dilakukan dengan menggunakan `sort_values()` pada Pandas. Secara default, data akan diurutkan dari nilai yang rendah ke tinggi (secara ascending). Akan tetapi, data dapat diurutkan dari tinggi ke rendah (descending) dengan cara menambahkan argumen `ascending = False`

###Sorting

In [19]:
#Sort value berdasarkan data yang memenuhi kondisi
kondisi3 = data.Tahun.dt.year == 2021 #dt.year digunakan untuk mendapatkan tahun pada tipe data datetime
kondisi4 = data.Indikator == "Pertumbuhan Ekonomi Provinsi"
data[kondisi3 & kondisi4].sort_values(by="Nilai")

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
599,2021-01-01,Pertumbuhan Ekonomi Provinsi,BALI,%,-2.46
598,2021-01-01,Pertumbuhan Ekonomi Provinsi,PAPUA BARAT,%,-0.51
597,2021-01-01,Pertumbuhan Ekonomi Provinsi,NUSA TENGGARA BARAT,%,2.3
596,2021-01-01,Pertumbuhan Ekonomi Provinsi,GORONTALO,%,2.41
595,2021-01-01,Pertumbuhan Ekonomi Provinsi,NUSA TENGGARA TIMUR,%,2.52
594,2021-01-01,Pertumbuhan Ekonomi Provinsi,KALIMANTAN TIMUR,%,2.55
593,2021-01-01,Pertumbuhan Ekonomi Provinsi,SULAWESI BARAT,%,2.57
592,2021-01-01,Pertumbuhan Ekonomi Provinsi,SUMATERA UTARA,%,2.61
591,2021-01-01,Pertumbuhan Ekonomi Provinsi,LAMPUNG,%,2.77
590,2021-01-01,Pertumbuhan Ekonomi Provinsi,ACEH,%,2.79


In [20]:
#Sort values tapi descending
data[kondisi3 & kondisi4].sort_values(by="Nilai", ascending = False)

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
565,2021-01-01,Pertumbuhan Ekonomi Provinsi,MALUKU UTARA,%,16.790001
566,2021-01-01,Pertumbuhan Ekonomi Provinsi,PAPUA,%,15.16
567,2021-01-01,Pertumbuhan Ekonomi Provinsi,SULAWESI TENGAH,%,11.7
568,2021-01-01,Pertumbuhan Ekonomi Provinsi,DI YOGYAKARTA,%,5.58
569,2021-01-01,Pertumbuhan Ekonomi Provinsi,KEPULAUAN BANGKA BELITUNG,%,5.05
570,2021-01-01,Pertumbuhan Ekonomi Provinsi,KALIMANTAN BARAT,%,4.8
571,2021-01-01,Pertumbuhan Ekonomi Provinsi,SULAWESI SELATAN,%,4.64
572,2021-01-01,Pertumbuhan Ekonomi Provinsi,BANTEN,%,4.49
573,2021-01-01,Pertumbuhan Ekonomi Provinsi,SULAWESI UTARA,%,4.16
574,2021-01-01,Pertumbuhan Ekonomi Provinsi,SULAWESI TENGGARA,%,4.1


In [21]:
# Menggunakan sort_values dengan beberapa kolom
data.sort_values(by=["Tahun", "Nilai"], ascending = False)

Unnamed: 0,Tahun,Indikator,Provinsi,Unit,Nilai
708,2022-01-01,Persentase Penduduk Miskin Provinsi,PAPUA,%,26.559999
743,2022-01-01,Pertumbuhan Ekonomi Provinsi,MALUKU UTARA,%,22.940001
709,2022-01-01,Persentase Penduduk Miskin Provinsi,PAPUA BARAT,%,21.330000
710,2022-01-01,Persentase Penduduk Miskin Provinsi,NUSA TENGGARA TIMUR,%,20.049999
711,2022-01-01,Persentase Penduduk Miskin Provinsi,MALUKU,%,15.970000
...,...,...,...,...,...
140,2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,KEPULAUAN BANGKA BELITUNG,indeks,0.140000
141,2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,DKI JAKARTA,indeks,0.110000
142,2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,KEPULAUAN RIAU,indeks,0.110000
179,2018-01-01,Gini Ratio Provinsi,MALUKU UTARA,%,0.000000


###Grouping

Di Pandas, pengelompokan data dapat dilakukan berdasarkan kolom tertentu menggunakan `groupby()`. Setelah melakukan grouping, kita akan mendapatkan `DataFrameGroupBy object` yang dapat digunakan untuk melakukan berbagai analisis dan perhitungan statistik.

In [22]:
data_tahun_indikator = data.groupby(["Tahun","Indikator"])
# Menghitung rata-rata pada masing-masing kategori
data_tahun_indikator.Nilai.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nilai
Tahun,Indikator,Unnamed: 2_level_1
2018-01-01,Gini Ratio Provinsi,0.350057
2018-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,1.940486
2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,0.528857
2018-01-01,Persentase Penduduk Miskin Provinsi,10.877714
2018-01-01,Pertumbuhan Ekonomi Provinsi,5.645143
2019-01-01,Gini Ratio Provinsi,0.34222
2019-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,1.8282
2019-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,0.477714
2019-01-01,Persentase Penduduk Miskin Provinsi,10.405714
2019-01-01,Pertumbuhan Ekonomi Provinsi,4.692571


In [23]:
#Menghitung nilai maksimum/minimum dengan max() atau min()
data_tahun_indikator.Nilai.max()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nilai
Tahun,Indikator,Unnamed: 2_level_1
2018-01-01,Gini Ratio Provinsi,0.441
2018-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,6.73
2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,2.38
2018-01-01,Persentase Penduduk Miskin Provinsi,27.74
2018-01-01,Pertumbuhan Ekonomi Provinsi,20.6
2019-01-01,Gini Ratio Provinsi,0.423
2019-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,7.17
2019-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,2.6
2019-01-01,Persentase Penduduk Miskin Provinsi,27.530001
2019-01-01,Pertumbuhan Ekonomi Provinsi,8.83


Melakukan banyak perhitungan sekaligus menggunakan `agg()`

In [24]:
#Menggunakan agg untuk melihat nilai min, max, dan rata-rata
data_tahun_indikator.Nilai.agg(["min", "max", "mean"])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max,mean
Tahun,Indikator,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-01-01,Gini Ratio Provinsi,0.0,0.441,0.350057
2018-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,0.5,6.73,1.940486
2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,0.11,2.38,0.528857
2018-01-01,Persentase Penduduk Miskin Provinsi,3.57,27.74,10.877714
2018-01-01,Pertumbuhan Ekonomi Provinsi,-4.5,20.6,5.645143
2019-01-01,Gini Ratio Provinsi,0.0,0.423,0.34222
2019-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,0.4,7.17,1.8282
2019-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,0.07,2.6,0.477714
2019-01-01,Persentase Penduduk Miskin Provinsi,3.47,27.530001,10.405714
2019-01-01,Pertumbuhan Ekonomi Provinsi,-15.74,8.83,4.692571


`describe()` untuk menunjukkan rangkuman statistik seperti rata-rata, median, dll pada kolom

In [25]:
#Menggunakan describe
data_tahun_indikator.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Nilai,Nilai,Nilai,Nilai,Nilai,Nilai,Nilai,Nilai
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
Tahun,Indikator,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
2018-01-01,Gini Ratio Provinsi,35.0,0.350057,0.070087,0.0,0.3325,0.355,0.387,0.441
2018-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,35.0,1.940486,1.433389,0.5,0.965,1.56,2.46,6.73
2018-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,35.0,0.528857,0.508595,0.11,0.225,0.41,0.605,2.38
2018-01-01,Persentase Penduduk Miskin Provinsi,35.0,10.877714,5.695497,3.57,6.645,9.82,13.575,27.74
2018-01-01,Pertumbuhan Ekonomi Provinsi,35.0,5.645143,3.284288,-4.5,5.075,5.47,6.225,20.6
2019-01-01,Gini Ratio Provinsi,35.0,0.34222,0.069486,0.0,0.3295,0.341,0.3805,0.423
2019-01-01,Indeks Kedalaman Kemiskinan P1 Provinsi,35.0,1.8282,1.422615,0.4,0.925,1.44,2.2785,7.17
2019-01-01,Indeks Keparahan Kemiskinan P2 Provinsi,35.0,0.477714,0.511089,0.07,0.21,0.31,0.545,2.6
2019-01-01,Persentase Penduduk Miskin Provinsi,35.0,10.405714,5.587855,3.47,6.525,8.83,13.095,27.530001
2019-01-01,Pertumbuhan Ekonomi Provinsi,35.0,4.692571,3.748642,-15.74,4.765,5.26,5.755,8.83


#**Pivot Data**

Pivot merupakan sebuah yang disediakan oleh Pandas untuk melakukan reshaping data dengan mengubah baris menjadi kolom. Pivoting data dapat dilakukan dengan menggunakan `data.pivot(index, columns, values)`, di mana:

1. index: Label untuk membentuk indeks pada dataframe baru.
2. columns: Label untuk membentuk kolom pada dataframe baru.
3. values: Nilai yang akan diisi pada dataframe yang baru.

Dengan menggunakan pivot, kita dapat mengatur ulang struktur data sehingga memudahkan analisis sesuai dengan kebutuhan.


Berikut merupakan contoh penggunaan pivot dimana kita ingin melihat berbagai maca nilai indikator di provinsi Jawa Timur dari tahun 2018 hingga 2022.




In [26]:
#contoh penggunaan pivot
data_jatim = data[data.Provinsi == "JAWA TIMUR"]
data_jatim_pivot = data_jatim.pivot(index='Tahun', columns='Indikator', values='Nilai')
data_jatim_pivot

Indikator,Gini Ratio Provinsi,Indeks Kedalaman Kemiskinan P1 Provinsi,Indeks Keparahan Kemiskinan P2 Provinsi,Persentase Penduduk Miskin Provinsi,Pertumbuhan Ekonomi Provinsi
Tahun,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-01,0.379,1.94,0.5,10.98,5.47
2019-01-01,0.37,1.8,0.45,10.37,5.53
2020-01-01,0.366,1.82,0.43,11.09,-2.33
2021-01-01,0.374,1.84,0.43,11.4,3.56
2022-01-01,0.371,0.77,0.38,10.38,5.34


##**Soal 1**

Buatlah pivot table dari `data` untuk menampilkan rata-rata nilai selama 5 tahun berdasarkan provinsi sebagai index dan indikator sebagai kolom. Untuk mencari rata-rata, gunakan parameter `aggfunc = 'mean'`

In [None]:
#jawab soal 1


#**Visualisasi Data**

Untuk membuat chart pada matplotlib, yang digunakan adalah `plt.nama_plot()`.

Selain menggunakan matplotlib, visualisasi data dapat dilakukan di Pandas yang didukung oleh library Matplotlib

Dengan `plot`, berbagai jenis visualisasi data dapat dihasilkan melalui argumen `kind`.

Contoh chart yang bisa dihasilkan oleh matplolib dan pandas
- "bar" untuk bar chart
- "pie" untuk pie chart
- "hist" untuk histogram
- "boxplot" pada matplotlib dan "box" pada pandas untuk box plot
- "scatter" untuk scatter plot


##**Bar chart matplotlib dan pandas**

**Membuat bar chart pertumbuhan ekonomi pada setiap provinsi di tahun 2018**

Untuk membuat chart tersebut, pertama kita filter terlebih dahulu sesuai data yang dibutuhkan, yaitu data tahun 2018 dengan indikator persentase penduduk miskin provinsi

In [None]:
data_2018_penduduk_miskin = data[(data.Tahun.dt.year == 2018) & (data.Indikator == 'Persentase Penduduk Miskin Provinsi')]
data_2018_penduduk_miskin

Setelah mendapat data yang dibutuhkan, kita akan membuat bar chart dengan matplotlib atau pandas

In [None]:
#bar chart dengan matplotlib
plt.figure(figsize=(15,6))
plt.bar(data_2018_penduduk_miskin.Provinsi, data_2018_penduduk_miskin.Nilai)
plt.xticks(rotation=90)
plt.title('Persentase Penduduk Miskin per Provinsi (Tahun 2018)')
plt.xlabel('Provinsi')
plt.ylabel('Persentase Penduduk Miskin (%)')
plt.show()

In [None]:
#bar chart dengan pandas
data_2018_penduduk_miskin.plot(kind='bar',
                          x='Provinsi',
                          y='Nilai',
                          figsize=(15, 6),
                          legend=False,
                          title = 'Persentase Penduduk Miskin per Provinsi (Tahun 2018)',
                          xlabel = 'Provinsi',
                          ylabel = 'Persentase Penduduk Miskin (%)')
plt.show()

### **Soal 2**

**Buatlah bar chart untuk menampilkan rata-rata Gini Ratio dari tahun 2018 hingga 2022**

In [None]:
#Jawab soal 2


##**Line chart matplotlib dan pandas**

**Membuat line chart persentase penduduk miskin pada provinsi Jawa Timur tahun 2018-2022**

Untuk membuat chart tersebut, pertama kita filter terlebih dahulu sesuai data yang dibutuhkan, yaitu data provinsi Jawa Timur dengan indikator persentase penduduk miskin provinsi

In [None]:
data_miskin_jatim = data[(data.Provinsi == 'JAWA TIMUR') & (data.Indikator == 'Persentase Penduduk Miskin Provinsi')]
data_miskin_jatim

Setelah mendapat data yang dibutuhkan, kita akan membuat line chart dengan matplotlib atau pandas

In [None]:
#line chart dengan matplotlib
plt.figure(figsize=(15,6))
plt.plot(data_miskin_jatim.Tahun.dt.year, data_miskin_jatim.Nilai)
plt.title('Persentase Penduduk Miskin Jawa Timur Tahun 2018-2022')
plt.xlabel('Tahun')
plt.ylabel('Persentase Penduduk Miskin (%)')
plt.xticks(data_miskin_jatim.Tahun.dt.year.astype(int)) #agar x axisnya berupa integer sehingga tidak ada komanya
plt.show()

In [None]:
#line chart dengan pandas
data_miskin_jatim.plot( x='Tahun',
                        y='Nilai',
                        figsize=(15, 6),
                        legend=False,
                        title = 'Persentase Penduduk Miskin Jawa Timur Tahun 2018-2022',
                        xlabel = 'Tahun',
                        ylabel = 'Persentase Penduduk Miskin (%)')
plt.show()

### **Soal 3**

**Buatlah line chart mengenai pertumbuhan ekonomi Indonesia dari tahun 2018 hingga 2022**

In [None]:
#jawab soal 3


##**Scatter plot matplotlib dan pandas**

**Analisis korelasi antara Indeks Kedalaman Kemiskinan (P1) dengan Indeks Keparahan Kemiskinan (P2) di setiap provinsi pada tahun 2018.**

Untuk membuat chart tersebut, pertama kita filter terlebih dahulu sesuai data yang dibutuhkan, yang pertama, yaitu data tahun 2018 dengan indikator indeks kedalaman kemiskinan p1 provinsi

In [None]:
data_2018_p1 = data[(data.Tahun.dt.year == 2018) & (data.Indikator == 'Indeks Kedalaman Kemiskinan P1 Provinsi')]
data_2018_p1

Setelah itu, kita filter terlebih dahulu data kedua yang dibutuhkan, yaitu data tahun 2018 dengan indikator indeks kedalaman kemiskinan p2 provinsi

In [None]:
data_2018_p2 = data[(data.Tahun.dt.year == 2018) & (data.Indikator == 'Indeks Keparahan Kemiskinan P2 Provinsi')]
data_2018_p2

Setelah melakukan filtering, kita akan mendapatkan 2 data frame baru. Untuk mempermudah pembuatan chart, kita bisa menggabungkan kedua data frame tersebut menggunakan `merge(data, on='column')`. Dimana data merupakan nama data frame yang akan digabungkan dan parameter on diisi dengan nama kolom yang akan digabungkan

In [None]:
data_2018_merged = data_2018_p1.merge(data_2018_p2, on='Provinsi')
data_2018_merged

Setelah mendapat data yang dibutuhkan, kita akan membuat scatter plot dengan matplotlib atau pandas

In [None]:
#scatter plot dengan matplotlib
plt.figure(figsize=(15,6))
plt.scatter(data_2018_merged.Nilai_x, data_2018_merged.Nilai_y)
plt.title('Korelasi Antara Indeks Kedalaman Kemiskinan (P1) dengan Indeks Keparahan Kemiskinan (P2) Di Setiap Provinsi Pada Tahun 2018')
plt.xlabel('Indeks Kedalaman Kemiskinan P1 Provinsi (%)')
plt.ylabel('Indeks Keparahan Kemiskinan P2 Provinsi (indeks)')
plt.show()

In [None]:
#scatter plot dengan pandas
data_2018_merged.plot(kind='scatter',
                      x='Nilai_x',
                      y='Nilai_y',
                      figsize=(15, 6),
                      legend=False,
                      title = 'Korelasi Antara Indeks Kedalaman Kemiskinan (P1) dengan Indeks Keparahan Kemiskinan (P2) Di Setiap Provinsi Pada Tahun 2018',
                      xlabel = 'Indeks Kedalaman Kemiskinan P1 Provinsi (%)',
                      ylabel = 'Indeks Keparahan Kemiskinan P2 Provinsi (indeks)')
plt.show()

### **Soal 4**

**Buatlah scatter plot yang menunjukkan korelasi antara persentase penduduk miskin dengan pertumbuhan ekonomi pada tahun 2022**

In [None]:
#jawab soal 4


##**Grouped bar chart**

**Membuat grouped bar chart dengan indikator pertumbuhan ekonomi per provinsi dan persentase penduduk miskin di tahun 2018**

Untuk membuat chart tersebut, pertama kita filter terlebih dahulu sesuai data yang dibutuhkan, yaitu data tahun 2018 dengan indikator pertumbuhan ekonomi provinsi

In [None]:
data_2018_pertum_ekonomi = data[(data.Tahun.dt.year == 2018) & (data.Indikator == 'Pertumbuhan Ekonomi Provinsi')]
data_2018_pertum_ekonomi.sort_values(by='Provinsi', inplace=True)
data_2018_pertum_ekonomi

In [None]:
#grouped bar chart dengan matplotlib
data_2018_penduduk_miskin.sort_values(by='Provinsi', inplace=True)

plt.figure(figsize=(20,6))
bar_width = 0.35
r1 = range(len(data_2018_penduduk_miskin))
r2 = [x + bar_width for x in r1]
plt.bar(r1, data_2018_penduduk_miskin.Nilai, color='b', width=bar_width, edgecolor='grey', label='Persentase Penduduk Miskin')
plt.bar(r2, data_2018_pertum_ekonomi.Nilai, color='g', width=bar_width, edgecolor='grey', label='Pertumbuhan Ekonomi')
plt.xticks([r + bar_width / 2 for r in range(len(data_2018_penduduk_miskin))], data_2018_penduduk_miskin.Provinsi, rotation=90)
plt.xlabel('Provinsi')
plt.ylabel('Nilai')
plt.title('Persentase Penduduk Miskin dan Pertumbuhan Ekonomi Berdasarkan Provinsi')
plt.legend()

plt.show()


##**Line chart dan bar chart**

Pada section ini, kita akan menggabungkan bar chart dan line chart dalam satu figure. Data yang digunakan adalah sheet `Persentase Kemiskinan` dari file excel `Data Kemiskinan 2018-2022.xlsx`. Sehingga kita perlu melakukan import sheet excel tersebut

In [None]:
kemiskinan_prov = pd.read_excel('Data Kemiskinan 2018-2022.xlsx', sheet_name='Persentase Kemiskinan')
kemiskinan_prov

Selanjutnya, data akan difilter menjadi 2 data frame baru yaitu data frame dengan unit % dan data frame dengan unit ribu jiwa

In [None]:
df_persen = kemiskinan_prov[kemiskinan_prov.Unit == '%']
df_persen

In [None]:
df_ribu_jiwa = kemiskinan_prov[kemiskinan_prov.Unit == 'ribu jiwa']
df_ribu_jiwa

Setelah itu, kita bisa membuat figure dengan gabungan line chart dan bar chart menggunakan kedua data di atas

In [None]:
fig, ax = plt.subplots(figsize=(15, 6))

line = ax.plot(df_ribu_jiwa.Tahun.dt.year, df_persen.Nilai, 'ro-', label='Persentase Penduduk Miskin (%)', linewidth=2)
ax.set_xlabel('Tahun')
ax.set_ylabel('Nilai')
ax.set_title('Jumlah Penduduk Miskin dan Persentase Kemiskinan')
ax.set_xticks(df_ribu_jiwa.Tahun.dt.year.astype(int))

ax2 = ax.twinx() #untuk membuat y-axis kedua buat bar chart
bars = ax2.bar(df_ribu_jiwa.Tahun.dt.year, df_ribu_jiwa.Nilai, alpha = 0.5, color='y', label='Jumlah Penduduk Miskin (ribu jiwa)', width = 0.6)


ax.legend(loc='upper left')
ax2.legend(loc='upper right')

ax2.bar_label(ax2.containers[0]) #memberi nilai pada bar chart

plt.show()

### **Soal 5**

Buatlah figure yang berisi gabungan line chart dan bar chart seperti di atas. Gunakan data dari sheet `Persentase Kemiskinan Jakarta` pada file excel `Data Kemiskinan 2018-2022.xlsx`. Sebelum membuat chart, lakukanlah data cleaning yang meliputi:
1. Menghilangkan baris yang memiliki missing value
2. Memperbaiki data dengan tipe data yang tidak sesuai
3. Menghilangkan data duplikat

In [None]:
#jawab soal 5


##**Subplot**

Pembuatan subplot dilakukan dengan `plt.subplots(jumlah_baris, jumlah_kolom, figsize=ukuran_figure)`. Dimana `fig` adalah objek gambar, dan `axs` adalah array dari subplot axes.




In [None]:
fig, axs = plt.subplots(2, 1, figsize=(15, 10))

axs[0].scatter(data_2018_merged.Nilai_x, data_2018_merged.Nilai_y)
axs[0].set_title('Korelasi Antara Indeks Kedalaman Kemiskinan (P1) dengan Indeks Keparahan Kemiskinan (P2) Di Setiap Provinsi Pada Tahun 2018')
axs[0].set_xlabel('Indeks Kedalaman Kemiskinan P1 Provinsi (%)')
axs[0].set_ylabel('Indeks Keparahan Kemiskinan P2 Provinsi (indeks)')

axs[1].bar(data_2018_penduduk_miskin.Provinsi, data_2018_penduduk_miskin.Nilai)
axs[1].tick_params(rotation=90)
axs[1].set_title('Persentase Penduduk Miskin per Provinsi (Tahun 2018)')
axs[1].set_xlabel('Provinsi')
axs[1].set_ylabel('Persentase Penduduk Miskin (%)')

plt.show()

Cara lainnya jika melakukakn plotting dengan pandas, yaitu dengan menambahkan parameter `ax=axs[baris_ke, kolom_ke]`. Karena subplot pada contoh di bawah hanya 1 dimensi maka menjadi `ax=axs[baris_ke]`

In [None]:
fig, axs = plt.subplots(2, 1, figsize=(15, 10))

data_2018_merged.plot(kind='scatter',
                      x='Nilai_x',
                      y='Nilai_y',
                      figsize=(15, 6),
                      legend=False,
                      title = 'Korelasi Antara Indeks Kedalaman Kemiskinan (P1) dengan Indeks Keparahan Kemiskinan (P2) Di Setiap Provinsi Pada Tahun 2018',
                      xlabel = 'Indeks Kedalaman Kemiskinan P1 Provinsi (%)',
                      ylabel = 'Indeks Keparahan Kemiskinan P2 Provinsi (indeks)',
                      ax=axs[0])

data_2018_penduduk_miskin.plot(kind='bar',
                          x='Provinsi',
                          y='Nilai',
                          figsize=(15, 6),
                          legend=False,
                          title = 'Persentase Penduduk Miskin per Provinsi (Tahun 2018)',
                          xlabel = 'Provinsi',
                          ylabel = 'Persentase Penduduk Miskin (%)',
                          ax=axs[1])

plt.show()

#**Tugas**

Buatlah 1 figure yang berisi 4 subplot dari data pada sheet `Indikator Kemiskinan` di file `Data Kemiskinan 2018-2022.xlsx`. Ketentuan 4 subplot tersebut adalah sebagai berikut.
- Subplot pertama : **grouped bar chart** untuk menampilkan persentase `Akses Terhadap Layanan Kesehatan` dengan sub indikator `BPJS kesehatan, Tidak Punya, Perusahaan/Kantor, Asuransi Swasta, Jamkesda` pada tahun 2017-2022
- Subplot kedua : **grouped bar chart** untuk menampilkan persentase `Persentase Pengeluaran Perkapita untuk Makanan Menurut Kabupaten/Kota dan Status Miskin Provinsi` dengan sub indikator `miskin, miskin dan tidak miskin, tidak miskin` pada tahun 2017-2022
- Subplot ketiga : **line chart** mengenai `Kebijakan Publik` untuk menampilkan `Jumlah Bantuan Beras Provinsi` pada tahun 2017-2022
- Subplot keempat : **line chart** mengenai `Pendidikan` untuk menampilkan `Rata-rata Lama Sekolah (Metode Baru) Provinsi` pada tahun 2017-2022

Contoh hasil:
![download.png](https://drive.google.com/uc?export=view&id=1sKon210OW9zLMpR6M40-WtSaSTtaMvyV)


In [None]:
#jawab tugas