# Import library dan dataset

In [48]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as mlt
pendidikan = pd.read_csv('dataset_pengangguran_pendidikan.csv')
pendidikan.head()

Unnamed: 0,nama_variabel,nama_variabel_turunan,nama_tahun,nama_turunan_tahun,data_content,nama_item_vertical_variabel
0,Pengangguran Terbuka Menurut Pendidikan Tertin...,Tidak Ada,2022,Februari,24852,Tidak/belum pernah sekolah
1,Pengangguran Terbuka Menurut Pendidikan Tertin...,Tidak Ada,2022,Februari,437819,Tidak/belum tamat SD
2,Pengangguran Terbuka Menurut Pendidikan Tertin...,Tidak Ada,2022,Februari,1230914,SD
3,Pengangguran Terbuka Menurut Pendidikan Tertin...,Tidak Ada,2022,Februari,1460221,SLTP
4,Pengangguran Terbuka Menurut Pendidikan Tertin...,Tidak Ada,2022,Februari,2251558,SLTA Umum/SMU


In [49]:
pendidikan.columns

Index(['nama_variabel', 'nama_variabel_turunan', 'nama_tahun',
       'nama_turunan_tahun', 'data_content', 'nama_item_vertical_variabel'],
      dtype='object')

In [50]:
pendidikan.shape

(72, 6)

# Data Cleaning

## Delete Column

In [51]:
pendidikan.drop(['nama_variabel', 'nama_variabel_turunan', 'nama_turunan_tahun'], axis = 1, inplace = True)
pendidikan.head()

Unnamed: 0,nama_tahun,data_content,nama_item_vertical_variabel
0,2022,24852,Tidak/belum pernah sekolah
1,2022,437819,Tidak/belum tamat SD
2,2022,1230914,SD
3,2022,1460221,SLTP
4,2022,2251558,SLTA Umum/SMU


## Rename Column

In [52]:
new_columns = {
    'nama_tahun' : 'tahun',
    'data_content' : 'jumlah_pengangguran',
    'nama_item_vertical_variabel' : 'kelompok_pendidikan'
}
pendidikan = pendidikan.rename(columns = new_columns)
pendidikan.head()

Unnamed: 0,tahun,jumlah_pengangguran,kelompok_pendidikan
0,2022,24852,Tidak/belum pernah sekolah
1,2022,437819,Tidak/belum tamat SD
2,2022,1230914,SD
3,2022,1460221,SLTP
4,2022,2251558,SLTA Umum/SMU


## Type Casting

In [53]:
pendidikan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72 entries, 0 to 71
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   tahun                72 non-null     int64 
 1   jumlah_pengangguran  72 non-null     int64 
 2   kelompok_pendidikan  72 non-null     object
dtypes: int64(2), object(1)
memory usage: 1.8+ KB


In [54]:
pendidikan['tahun'] = pendidikan['tahun'].astype(str)
pendidikan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72 entries, 0 to 71
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   tahun                72 non-null     object
 1   jumlah_pengangguran  72 non-null     int64 
 2   kelompok_pendidikan  72 non-null     object
dtypes: int64(1), object(2)
memory usage: 1.8+ KB


## Check Missing Value

In [55]:
pendidikan.isnull().sum()

tahun                  0
jumlah_pengangguran    0
kelompok_pendidikan    0
dtype: int64

## Statistic Descriptive

In [56]:
pendidikan.describe()

Unnamed: 0,jumlah_pengangguran
count,72.0
mean,924544.0
std,624018.6
min,20461.0
25%,333236.5
50%,925205.0
75%,1386587.0
max,2305093.0


## Data Aggregation with Group by

In [57]:
pendidikan.groupby('tahun').sum()

Unnamed: 0_level_0,jumlah_pengangguran
tahun,Unnamed: 1_level_1
2014,7147069
2015,7454767
2016,7024172
2017,7005262
2018,6963457
2019,6898796
2020,6925486
2021,8746008
2022,8402153


In [58]:
pendidikan.groupby('kelompok_pendidikan').sum()

Unnamed: 0_level_0,jumlah_pengangguran
kelompok_pendidikan,Unnamed: 1_level_1
Akademi/Diploma,2285157
SD,10604856
SLTA Kejuruan/SMK,13005021
SLTA Umum/SMU,16424126
SLTP,12665927
Tidak/belum pernah sekolah,606203
Tidak/belum tamat SD,4341235
Universitas,6634645


## Pivot table

In [59]:
pendidikan.pivot_table(
    index = 'kelompok_pendidikan',
    columns = 'tahun',
    aggfunc = 'sum'
)

Unnamed: 0_level_0,jumlah_pengangguran,jumlah_pengangguran,jumlah_pengangguran,jumlah_pengangguran,jumlah_pengangguran,jumlah_pengangguran,jumlah_pengangguran,jumlah_pengangguran,jumlah_pengangguran
tahun,2014,2015,2016,2017,2018,2019,2020,2021,2022
kelompok_pendidikan,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Akademi/Diploma,195258,254312,249362,249705,304744,274377,267583,254457,235359
SD,1374822,1320392,1218954,1292234,975661,965641,1006744,1219494,1230914
SLTA Kejuruan/SMK,847365,1174366,1348327,1383022,1445340,1397281,1443522,2089137,1876661
SLTA Umum/SMU,1893509,1762411,1546699,1552894,1672601,1690527,1748834,2305093,2251558
SLTP,1693203,1650387,1313815,1281240,1265421,1235199,1251352,1515089,1460221
Tidak/belum pernah sekolah,134040,124303,94293,92331,43740,36422,35761,20461,24852
Tidak/belum tamat SD,610574,603194,557418,546897,452326,443495,346778,342734,437819
Universitas,398298,565402,695304,606939,803624,855854,824912,999543,884769


In [60]:
pendidikan.to_csv('cleaned_pendidikan.csv')