# Analisis Korelasi antara Akses Komputer, Akses Internet, Tingkat Pendidikan, dan Jenis Kelamin dengan Kualitas Pendidikan 

In [98]:
import pandas as pd
import matplotlib.pyplot as plt

## Load & Read Dataset

### Deskripsi dataset:
1. SE_ACS_CMPTR: Persentase sekolah berdasarkan jenjang pendidikan (dasar, menengah pertama, dan menengah atas) yang memiliki akses ke fasilitas komputer.
2. SE_ACS_INTNT: Persentase sekolah yang memiliki akses ke fasilitas internet
3. SE_TOT_PRFL: Proporsi / persentase anak-anak dan remaja yang mencapai tingkat kemahiran minimum dalam membaca dan matematika
4. HDI: Human Development Index (HDI) adalah ukuran ringkasan pencapaian rata-rata dalam dimensi-dimensi utama pembangunan manusia, yaitu umur panjang dan sehat, berpengetahuan luas, dan memiliki standar hidup yang layak. IPM adalah rata-rata geometris indeks yang dinormalisasi untuk masing-masing dari tiga dimensi.


In [99]:
SHEET_NAME = 'Table format'

se_acs_cmptr_original = pd.read_excel('Dataset/SE_ACS_CMPTR.xlsx', sheet_name=SHEET_NAME)
se_acs_intnt_original = pd.read_excel('Dataset/SE_ACS_INTNT.xlsx', sheet_name=SHEET_NAME)
se_tot_prfl_original = pd.read_excel('Dataset/SE_TOT_PRFL.xlsx', sheet_name=SHEET_NAME)

In [100]:
se_acs_cmptr_original.head()

Unnamed: 0,Goal,Target,Indicator,SeriesCode,SeriesDescription,GeoAreaCode,GeoAreaName,Education level,Reporting Type,Units,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,4,4.a,4.a.1,SE_ACS_CMPTR,Proportion of schools with access to computers...,4,Afghanistan,LOWSEC,G,PERCENT,...,,,,,,10.30588,,,,
1,4,4.a,4.a.1,SE_ACS_CMPTR,Proportion of schools with access to computers...,4,Afghanistan,PRIMAR,G,PERCENT,...,,,,,,8.9587,,,,
2,4,4.a,4.a.1,SE_ACS_CMPTR,Proportion of schools with access to computers...,4,Afghanistan,SECOND,G,PERCENT,...,,,,,,17.82398,,,,
3,4,4.a,4.a.1,SE_ACS_CMPTR,Proportion of schools with access to computers...,4,Afghanistan,UPPSEC,G,PERCENT,...,,,,,,23.47119,,,,
4,4,4.a,4.a.1,SE_ACS_CMPTR,Proportion of schools with access to computers...,8,Albania,LOWSEC,G,PERCENT,...,,,,,71.30112,82.82112,100.0,83.02048,,


In [101]:
se_acs_intnt_original.head()

Unnamed: 0,Goal,Target,Indicator,SeriesCode,SeriesDescription,GeoAreaCode,GeoAreaName,Education level,Reporting Type,Units,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,4,4.a,4.a.1,SE_ACS_INTNT,Proportion of schools with access to the inter...,8,Albania,LOWSEC,G,PERCENT,...,,,,,68.32714,83.92435,100.0,72.26962,,
1,4,4.a,4.a.1,SE_ACS_INTNT,Proportion of schools with access to the inter...,8,Albania,PRIMAR,G,PERCENT,...,,,,,46.76692,50.70873,56.81391,72.26962,,
2,4,4.a,4.a.1,SE_ACS_INTNT,Proportion of schools with access to the inter...,8,Albania,SECOND,G,PERCENT,...,,,,,74.40217,85.90034,100.0,70.77844,62.05444,
3,4,4.a,4.a.1,SE_ACS_INTNT,Proportion of schools with access to the inter...,8,Albania,UPPSEC,G,PERCENT,...,,,,76.19048,90.90909,90.94567,100.0,67.26908,,
4,4,4.a,4.a.1,SE_ACS_INTNT,Proportion of schools with access to the inter...,12,Algeria,LOWSEC,G,PERCENT,...,,,,,,,59.89676,,,93.21817


In [102]:
se_tot_prfl_original.head()

Unnamed: 0,Goal,Target,Indicator,SeriesCode,SeriesDescription,GeoAreaCode,GeoAreaName,Education level,Reporting Type,Sex,...,2013,2014,2015,2016,2017,2018,2019,2021,2022,2023
0,4,4.1,4.1.1,SE_TOT_PRFL,Proportion of children and young people achiev...,8,Albania,LOWSEC,G,BOTHSEX,...,,,46.71703,,,57.62715,,,26.05,
1,4,4.1,4.1.1,SE_TOT_PRFL,Proportion of children and young people achiev...,8,Albania,LOWSEC,G,BOTHSEX,...,,,49.72273,,,47.76432,,,26.29,
2,4,4.1,4.1.1,SE_TOT_PRFL,Proportion of children and young people achiev...,8,Albania,LOWSEC,G,FEMALE,...,,,48.80595,,,59.42498,,,29.33,
3,4,4.1,4.1.1,SE_TOT_PRFL,Proportion of children and young people achiev...,8,Albania,LOWSEC,G,FEMALE,...,,,,,,58.04195,,,34.8,
4,4,4.1,4.1.1,SE_TOT_PRFL,Proportion of children and young people achiev...,8,Albania,LOWSEC,G,MALE,...,,,44.61966,,,55.90192,,,23.03,


## Data Wrangling (Preprocessing dan Tranformasi Data)

Pada tahap ini, dilakukan perubahan nama kolom dan penghapusan kolom yang tidak relevan dengan proses analisis. Selain itu, pada tahap ini dilakukan penanganan missing values. Penanganan missing values dilakukan dengan metode fill forward (ffill). Cara kerja dari metode ini adalah dengan mengisi nilai kosong dengan nilai terakhir yang tersedia sebelum nilai kosong tersebut. Langkah- langkah ini dilakukan untuk mempermudah proses analisis.

### SE_ACS_CMPTR

In [103]:
# Menghapus kolom yang tidak relevan
se_acs_cmptr = se_acs_cmptr_original.copy()

In [104]:
# Mengganti nama kolom
se_acs_cmptr.rename(columns={'GeoAreaName': 'negara', '2023':'akses_komputer', 'Education level': 'tingkat_pendidikan'}, inplace=True)
se_acs_cmptr.columns = se_acs_cmptr.columns.str.lower()

In [105]:
# Mengisi nilai kosong
se_acs_cmptr = se_acs_cmptr.fillna(method='ffill',axis=1)

In [106]:
# Menghapus kolom yang tidak relevan
se_acs_cmptr = se_acs_cmptr[['negara', 'tingkat_pendidikan', 'akses_komputer']]

In [107]:
se_acs_cmptr.head()

Unnamed: 0,negara,tingkat_pendidikan,akses_komputer
0,Afghanistan,LOWSEC,10.30588
1,Afghanistan,PRIMAR,8.9587
2,Afghanistan,SECOND,17.82398
3,Afghanistan,UPPSEC,23.47119
4,Albania,LOWSEC,83.02048


### SE_ACS_INTNT

In [108]:
se_acs_intnt = se_acs_intnt_original.copy()

In [109]:
# Mengganti nama kolom
se_acs_intnt.rename(columns={'GeoAreaName': 'negara', '2023': 'akses_internet', 'Education level': 'tingkat_pendidikan'}, inplace=True)
se_acs_intnt.columns = se_acs_intnt.columns.str.lower()

In [110]:
# Menghapus nilai kosong
se_acs_intnt = se_acs_intnt.fillna(method='ffill',axis=1)

In [111]:
# Menghapus kolom yang tidak relevan
se_acs_intnt = se_acs_intnt[['negara', 'tingkat_pendidikan', 'akses_internet']]

In [112]:
se_acs_intnt.head()

Unnamed: 0,negara,tingkat_pendidikan,akses_internet
0,Albania,LOWSEC,72.26962
1,Albania,PRIMAR,72.26962
2,Albania,SECOND,62.05444
3,Albania,UPPSEC,67.26908
4,Algeria,LOWSEC,93.21817


### SE_TOT_PRFL

In [113]:
se_tot_prfl =  se_tot_prfl_original.copy()

In [114]:
# Mengganti nama kolom
se_tot_prfl.rename(columns={'GeoAreaName': 'negara', '2023': 'prop_penduduk_mahir', 'Education level': 'tingkat_pendidikan'}, inplace=True)
se_tot_prfl.columns = se_tot_prfl.columns.str.lower()

In [115]:
# Menghapus nilai kosong
se_tot_prfl = se_tot_prfl.fillna(method='ffill',axis=1)

In [116]:
# Menghapus kolom yang tidak relevan
se_tot_prfl = se_tot_prfl[['negara', 'tingkat_pendidikan','sex', 'type of skill', 'prop_penduduk_mahir']]

Pada tahap ini, dilakukan penggantian nilai "GRAD23" pada kolom tingkat_pendidikan di dalam dataset SE_TOT_PRFL menjadi "PRIMAR", karena nilai "GRAD23" adalah tingkat pendidikan kelas 2 - 3 pada jenjang "PRIMAR" (primary). Dengan kata lain, "GRAD23" merupakan bagian dari kelompok "PRIMAR". Sehingga pada analisis ini data dengan tingkat pendidikan "GRAD23" akan digabungkan dengan kelompok tingkat pendidikan "PRIMAR"

In [117]:
# Mengganti tingkat_pendidikan GRAD23 menjadi PRIMAR
se_tot_prfl['tingkat_pendidikan'] = se_tot_prfl['tingkat_pendidikan'].astype(str).apply(lambda x: x.replace('GRAD23', 'PRIMAR'))
se_tot_prfl = se_tot_prfl.groupby(['negara', 'tingkat_pendidikan', 'sex', 'type of skill'],as_index=False).agg(func='mean')

In [118]:
se_tot_prfl.head()

Unnamed: 0,negara,tingkat_pendidikan,sex,type of skill,prop_penduduk_mahir
0,Albania,LOWSEC,BOTHSEX,SKILL_MATH,26.05
1,Albania,LOWSEC,BOTHSEX,SKILL_READ,26.29
2,Albania,LOWSEC,FEMALE,SKILL_MATH,29.33
3,Albania,LOWSEC,FEMALE,SKILL_READ,34.8
4,Albania,LOWSEC,MALE,SKILL_MATH,23.03


## Integrasi Data
Pada tahap ini, dilakukan penggabungan pada ketiga dataset di atas menjadi satu dataset utama yang akan dianalisis.

In [119]:
df = pd.merge(se_acs_cmptr, se_acs_intnt, how='inner', on=['negara', 'tingkat_pendidikan'])

In [120]:
df = pd.merge(df,se_tot_prfl,how='inner',on=['negara','tingkat_pendidikan'])
df = df.reindex(['negara', 'tingkat_pendidikan', 'sex', 'type of skill', 'akses_komputer', 'akses_internet', 'prop_penduduk_mahir'], axis=1)

In [121]:
df

Unnamed: 0,negara,tingkat_pendidikan,sex,type of skill,akses_komputer,akses_internet,prop_penduduk_mahir
0,Albania,LOWSEC,BOTHSEX,SKILL_MATH,83.02048,72.26962,26.05
1,Albania,LOWSEC,BOTHSEX,SKILL_READ,83.02048,72.26962,26.29
2,Albania,LOWSEC,FEMALE,SKILL_MATH,83.02048,72.26962,29.33
3,Albania,LOWSEC,FEMALE,SKILL_READ,83.02048,72.26962,34.8
4,Albania,LOWSEC,MALE,SKILL_MATH,83.02048,72.26962,23.03
...,...,...,...,...,...,...,...
918,Zimbabwe,PRIMAR,BOTHSEX,SKILL_READ,35.649,22.55075,45.4
919,Zimbabwe,PRIMAR,FEMALE,SKILL_MATH,35.649,22.55075,24.3
920,Zimbabwe,PRIMAR,FEMALE,SKILL_READ,35.649,22.55075,50.0
921,Zimbabwe,PRIMAR,MALE,SKILL_MATH,35.649,22.55075,22.5


## Analisis Korelasi