# DATA CLEANSING [POPULI CENTER'S SURVEY]



*   Project ini merupakan project data cleansing yang memanfaatkan dataset (.xlsx) hasil survei dari lembaga Populi Center.
*   Dataset yang digunakan berasal dari Survei Nasional periode Juni 2023.
*   Project ini menampilkan proses data cleansing untuk berbagai tahapan cleaning yang akan dijelaskan dalam setiap sub bahasan.
*   Blok kode yang digunakan dalam beberapa sub bahasan (Poin E-G) hanya akan mencontohkan satu proses cleansing



# TAHAP 1: MENGIMPOR LIBRARY DAN MEMBACA DATABASE

In [1]:
# IMPORT NEEDED LIBRARY
import pandas as pd

In [2]:
#LOADING DATA
df_surnas = pd.read_excel("/content/drive/MyDrive/surnas juni 2023.xlsx")

#TRANSFORMING TO DATAFRAME
df_surnas = pd.DataFrame(df_surnas)

#COPYING DATAFRAME
df_surnas_copied = df_surnas.copy()

#CHECKING DATA
df_surnas_copied.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1303 entries, 0 to 1302
Columns: 252 entries, NO to P105
dtypes: int64(183), object(69)
memory usage: 2.5+ MB


# TAHAP 2: DATA CLEANING

Berdasarkan pengecakan informasi terhadap dataframe. Dataframe ini memiliki:
*   1303 entries/rekord, dan
*   252 kolom dengan 183 kolom bertipe integer dan 69 kolom bertipe objek





# A. Kesesuaian nomor kuesioner dengan jenis kelamin

Tahapan ini melakukan pengecekan terhadap kesesuaian data antara No Kuesioner dengan Jenis Kelamin. No Kuesioner ganjil diharuskan memiliki jenis kelamin laki-laki, dan sebaliknya.

In [3]:
#Mengecek (GANJIL)(LAKI-LAKI)

#Mengecek apakah ada nomor kuesioner ganjil yang berjenis kelamin perempuan
gender_1 = df_surnas_copied[(df_surnas_copied['NO KUISIONER'] % 2 != 0) & (df_surnas_copied['JENIS KELAMIN'] == 'Perempuan')]

#Preview data yang tidak sesuai
gender_1.loc[:, ['NO KUISIONER', 'JENIS KELAMIN']]

Unnamed: 0,NO KUISIONER,JENIS KELAMIN
100,107,Perempuan
102,109,Perempuan
1010,1047,Perempuan
1126,1169,Perempuan


In [4]:
#MENGUBAH jenis kelaminnya menjadi laki-laki

#Buat daftar index dari sel yang ingin diubah
ix_gender_1 = gender_1.index[gender_1['JENIS KELAMIN'] == 'Perempuan'].tolist()

#Buat iterasi untuk menampung range panjang dari jumlah index
#Dimana tiap nilai dari range akan diconvert menjadi 'Laki-laki'
nv_g1 = [] #nv_g1 singkatan untuk new value for gender 1
for i in range(len(ix_gender_1)):
  i = 'Laki-laki'
  nv_g1.append(i)

#Mengupdate nilai cell dari index yang sudah di-listing
df_surnas_copied.loc[ix_gender_1, 'JENIS KELAMIN'] = nv_g1

#Menampilkan perubahan (preview)
df_surnas_copied.loc[ix_gender_1, ['NO KUISIONER', 'JENIS KELAMIN']]

Unnamed: 0,NO KUISIONER,JENIS KELAMIN
100,107,Laki-laki
102,109,Laki-laki
1010,1047,Laki-laki
1126,1169,Laki-laki


In [5]:
#Mengecek (GENAP)(PEREMPUAN)

#Mengecek apakah ada nomor kuesioner genap yang berjenis kelamin laki-laki
gender_2 = df_surnas_copied[(df_surnas_copied['NO KUISIONER'] % 2 == 0) & (df_surnas_copied['JENIS KELAMIN'] == 'Laki-laki')]

#PReview data
gender_2.loc[:, ['NO KUISIONER', 'JENIS KELAMIN']]

Unnamed: 0,NO KUISIONER,JENIS KELAMIN
1288,71052,Laki-laki


In [6]:
#Jika ingin MENGUBAH jenis kelaminnya menjadi perempuan

#Membuat daftar index dari sel yang ingin diubah
ix_gender_2 = gender_2.index[gender_2['JENIS KELAMIN'] == 'Laki-laki'].tolist()

#Membuat iterasi untuk menampung range panjang dari jumlah index
#Dimana tiap nilai dari range akan diconvert menjadi 'Perempuan'
nv_g2 = [] #nv_g1 singkatan untuk new value for gender 2
for j in range(len(ix_gender_2)):
  j = 'Perempuan'
  nv_g2.append(j)

#Mengupdate nilai cell dari index yang sudah di-listing
df_surnas_copied.loc[ix_gender_2, 'JENIS KELAMIN'] = nv_g2

#Menampilkan perubahan (preview)
df_surnas_copied.loc[ix_gender_2, ['NO KUISIONER', 'JENIS KELAMIN']]

Unnamed: 0,NO KUISIONER,JENIS KELAMIN
1288,71052,Perempuan


# B. Outlier Umur dan Coding Umur

Tahapan ini melakukan pengecekan terhadap nilai dari kolom umur yang mungkin memperlihatkan outlier karena kesalahan penulisan, Misal umur 350 dimaksudkan sebagai umur 35

In [7]:
#Mencari Outlier umur, yakni umur yang berusia lebih dari 100 tahun
age = df_surnas_copied[df_surnas_copied['UMUR'] > 100]

#Menampilkan outlier umur
age.loc[:, ['NAMA RESPONDEN', 'UMUR']]


Unnamed: 0,NAMA RESPONDEN,UMUR
662,ALI ANSHORI,821
1046,NERRY,470


In [8]:
#Mengubah outlier umur dengan ketentuan
    #Umur 821 menjadi 82, Umur 470 menjadi 47
ix_age = age.index[age['UMUR'] > 100].tolist() #Melisting index outlier umur

nv_outlier_age = [82, 47] #Menginput nilai baru untuk outlier

#Mengupdate nilai cell dari index yang sudah di-listing
df_surnas_copied.loc[ix_age, 'UMUR'] = nv_outlier_age

#Menampilkan perubahan (preview)
df_surnas_copied.loc[ix_age, ['NAMA RESPONDEN', 'UMUR']]

Unnamed: 0,NAMA RESPONDEN,UMUR
662,ALI ANSHORI,82
1046,NERRY,47


Coding Milenial

Pada tahapan ini, kita akan menambahkan kolom baru yang melakukan koding terhadap kolom UMUR untuk menampilkan kategori umur milenial

In [10]:
#Menambahkan kolom Coding Milenial dengan ketentuan:
  # Nilai 1 untuk <= 35, dan 2 unutk > 35
Coding_Milenial = df_surnas_copied['UMUR'].apply(lambda x: 1 if x <= 35 else 2)

#Dirun sekali untuk menghindari eror duplikasi
  #insert(index, nama, list of value)
# df_surnas_copied.insert(27, "Coding_Milenial", Coding_Milenial, allow_duplicates=False)

#Preview kolom Coding_Milenial
df_surnas_copied.iloc[:, 20:30].sample(10)

Unnamed: 0,URBAN RURAL,LATITUDE,LONGITUDE,STATUS RESPONDEN,CODING PROVINSI,UMUR,CODING USIA,Coding_Milenial,CREATED AT,P1
201,1,-5.4206907,105.2624747,ASLI,8,58,6,2,08-06-2023 10:58:05,4
1114,1,-4.098593,138.9438242,ASLI,37,18,1,1,10-06-2023 03:19:57,4
973,2,-3.3336771,114.6101817,PENGGANTI,22,48,5,2,08-06-2023 06:40:43,5
267,1,-6.2057572,106.8316246,ASLI,11,68,6,2,06-06-2023 14:08:26,3
1134,1,-0.8834196,131.2839918,PENGGANTI,35,39,4,2,08-06-2023 12:49:59,4
451,2,.,.,ASLI,22,40,4,2,08-06-2023 20:19:03,4
977,2,-1.3319137,116.6960479,ASLI,23,64,6,2,07-06-2023 20:41:17,2
1251,2,-3.4401968,102.5638056,PENGGANTI,7,80,6,2,10-06-2023 11:13:27,3
1129,1,-0.8889143,131.300148,ASLI,35,31,3,1,07-06-2023 11:10:48,4
489,1,-7.6950238,110.5878305,PENGGANTI,13,32,3,1,06-06-2023 21:22:13,1


# C. Coding Pulau

Pada tahapan ini, kita akan menambahkan kolom yang mengkoding data di kolom Provinsi sebagai kolom Koding Pulau

In [12]:
#Menambahkan kolom Coding Pulau dengan ketentuan:
  #Mendefinisikan ketentuan area
area_1 = ['ACEH', 'SUMATERA BARAT', 'RIAU', 'JAMBI',
       'KEPULAUAN BANGKA BELITUNG', 'KEPULAUAN RIAU', 'SUMATERA UTARA',
       'SUMATERA SELATAN', 'BENGKULU', 'LAMPUNG']
area_2 = ['DKI JAKARTA', 'JAWA BARAT', 'BANTEN']
area_3 = ['DI YOGYAKARTA', 'JAWA TIMUR', 'JAWA TENGAH']

  #Membuat fungsi coding area
def area_coding (x):
  if x in area_1:
    return 1
  elif x in  area_2:
    return 2
  elif x in area_3:
    return 3
  else:
    return 4

#Melisting applied value untuk kolom Coding_Pulau
Coding_Pulau = df_surnas_copied['PROVINSI'].apply(lambda x: area_coding(x))

#Dirun sekali untuk menghindari duplikasi
  #insert(index, nama kolom, value)
# df_surnas_copied.insert(13, "Coding_Pulau", Coding_Pulau, allow_duplicates=False)

#Preview kolom Coding_Pulau
df_surnas_copied.iloc[:, 10:15].sample(10)

Unnamed: 0,KECAMATAN,KABUPATEN KOTA,PROVINSI,Coding_Pulau,JUMLAH RT DALAM KELURAHAN
74,PUDING BESAR,BANGKA,KEPULAUAN BANGKA BELITUNG,1,12
96,PANTAI LABU,DELI SERDANG,SUMATERA UTARA,1,7
1250,SELUPU REJANG,REJANG LEBONG,BENGKULU,1,2
172,AIR KUMBANG,BANYU ASIN,SUMATERA SELATAN,1,24
366,PEBAYURAN,KABUPATEN BEKASI,JAWA BARAT,2,12
1292,LIBURENG,BONE,SULAWESI SELATAN,4,16
919,SANO NGGOANG,MANGGARAI BARAT,NUSA TENGGARA TIMUR,4,6
1294,TERNATE SELATAN,TERNATE,MALUKU UTARA,4,12
512,JAKEN,PATI,JAWA TENGAH,3,29
460,.,.,KALIMANTAN SELATAN,4,64


# D. MENGUBAH NILAI (.)

Pada output hasil survei yang dikeluarkan oleh aplikasi Populi Center, terdapat nilai yang tidak diharapkan, yakni pengisian nilai (.) untuk setiap nilai Null. Maka perlu untuk menghilangkan nilai (.)

In [13]:
#Melisting seluruh kolom
list_col = list(df_surnas_copied.columns)

#Mmebuat iterasi untuk mengubah semua nilai di kolom x yang bernilai '.' menjadi ''
for col in list_col:
  df_surnas_copied[col].replace('.', '', inplace =True)

In [14]:
#Preview perubahan nilai (.)
df_surnas_copied.loc[:, ['P5X', 'P6X', 'P13X', 'P14X', 'P18.2.2']].sample(5)

Unnamed: 0,P5X,P6X,P13X,P14X,P18.2.2
913,,,,,
1044,,,,,
367,,,,,6.0
740,,,,,
503,,,,,


# E. CLEANING JAWABAN LAINNYA

Dalam pertanyaan survei, terdapat pertanyaan semi terbuka sehingga menyenbabkan terdapat inputan data lainnya. Inputan ini sangat beragam dan perlu dilakukan koding untuk kategori yang sama.

Salah satu contoh pertanyaan dengan jawaban lainnya adalah pertanyaan ke 3 dengan kolom 'P3X'.

In [15]:
#Mengopi dataframe:
df_surnas_cleaned1 = df_surnas_copied.copy(deep=True)

In [16]:
#membuat list yang menampung array dari kolom P3X
list_p3x = list(df_surnas_cleaned1['P3X'].unique())

# Preview
# list_p3x

#Menghitung nilai unik
# len(list_p3x)
#Output: 68

In [17]:
#Membuat listing untuk kategori yang sama:
pendidikan = ['BIAYA SEKOLAH', 'BIAYA SEKOLAH ,LISTRIK', 'BIAYA SEKOLAH ANAK','BIAYA ANAK SEKOLAH', 'BIYAYA PENDIDIKAN',
              'BIAYA KULIAH ANAK', 'SEKOLAH', 'PENDIDIKAN', 'PENDIDIKAN SEKOLAH ANAK', 'BIAYA PENDIDIKAN', 'PENDIDIKAN ANAK',
              'UANG SAKU ANAN', 'JAJAN ANAK','BIAYA PENDIDIKAN ANAK', 'KULIAH ANAK',  'KEPERLUAN SEKOLAH']

cicilan_beban_produktif = ['CICILAN MOTOR', 'CICILAN BANK','CICILAN UNTUK USAHA KEBUN DI BANK','CICILAN HUTANG',
                           'PENGEMBANGAN BISNIS', 'CICILAN KE BANK AGRO', 'CICILAN BANK EMOK', 'ANGSURAN BANK',
                           'PUPUK', 'BANGUN RUMAH', 'ANGSURAN', 'CICILAN BANK KREDIT', 'CICILAN PINJAMAN UANG',
                           'PUPUK KOMPOS BAHAN TANI',  'CICILAN SEPEDA MOTOR', 'CICILAN',  'PUPUK , OBAT', 'PUPUK TANI',
                            'ANGSURAN MOTOR', 'CICILAN MOBIL', 'CICILAN KENDARAAN', 'BAYAR CICILAN TANAH','PUPUK DAN OBAT2AN TANAMAN' ]

rekreasi_arisan = ['ARISAN','KEGIATAN KELUARGA BESAR (REWANG ATAU GOTONG ROYONG PESTA TETANGGA)','SKINCARE', 'ROKOK', 'ROKOK SAMA MAKAN',
                   'KONDANGAN', 'KONDNGAN', 'ARISAN DAN UTANG', 'GAYA HIDUP', 'BAYAR ARISAN','UNDANGAN HAJATAN (DITANGGUNG ANAK KEBANYAKAN)',
                   'KONDANGAN, DLL']

air = ['AIR PAM', 'BAYAR AIR', 'AIR', 'KEBUTUHAN AIR','AIR PDAM' ]

kesehatan = ['PENGOBATAN']

transportasi_1 = ['BBM DAN KUOTA INTERNET']

bahan_pokok_3 = ['BELANJA','KEBUTUHAN HARIAN DAN ANAK SEKOLAH']

lainnya = ['TIDAK ADA', 'PEMPES DAN SUSU ANAK','STABIL', 'SUSU', 'TIDAK ADA YANG BERAT', 'PENGELUARAN TAK TERDUGA (KONDANGAN, SELAMATAN, DLL)',
            'BAIK TIDAK ADA YG MEBEBANI', '']

#Menghitung jumlah input
n_lainnya = (len(pendidikan) + len(cicilan_beban_produktif) + len(rekreasi_arisan)
              + len(air) + len(kesehatan) + len(transportasi_1) + len(bahan_pokok_3) + len(lainnya))
#Output= 68 [Semua nilai array sudah terinput]

In [18]:
#Membuat mapping untuk kategori nilai baru yang menggantikan ragam jawaban unik
mapping = {}

for i in list_p3x:
  if i in pendidikan:
    map_1 = {i: "Pendidikan"}
    mapping.update(map_1)
  if i in cicilan_beban_produktif:
    map_2 = {i: "Cicilan/Beban Produktif"}
    mapping.update(map_2)
  if i in rekreasi_arisan:
    map_3 = {i : "Rekreasi/Arisan"}
    mapping.update(map_3)
  if i in air:
    map_4 = {i : "Air"}
    mapping.update(map_4)
  if i in kesehatan:
    map_5 = {i : "Kesehatan"}
    mapping.update(map_5)
  if i in transportasi_1:
    map_6 = {i : "Transportasi"}
    mapping.update(map_6)
  if i in bahan_pokok_3:
    map_7 = {i : "Bahan Pokok"}
    mapping.update(map_7)
  if i in lainnya:
    map_8 = {i : "Lainnya"}
    mapping.update(map_8)

In [19]:
#Melakukan mapping unutk mengganti nilai array pada kolom P3X menjadi nilai yang dikoding sesuai kategori
df_surnas_cleaned1['P3X'] = df_surnas_cleaned1['P3X'].map(lambda x: mapping.get(x, x))

In [20]:
#Preview nilai unik setelah kategorisasi nilai lainnya
df_surnas_cleaned1['P3X'].unique()

array(['Lainnya', 'Pendidikan', 'Rekreasi/Arisan', 'Transportasi', 'Air',
       'Cicilan/Beban Produktif', 'Bahan Pokok', 'Kesehatan'],
      dtype=object)

In [21]:
#Preview perubahan
df_surnas_cleaned1.loc[:, ['P3X','P4']].sample(5)

Unnamed: 0,P3X,P4
497,Lainnya,3
995,Lainnya,1
200,Lainnya,2
737,Cicilan/Beban Produktif,2
614,Lainnya,2


# F. JAWABAN TERBUKA

Terdapat pertanyaan terbuka yang membuat nilai jawaban sangat beragam sehingga diperlukan penyesuaian maupun kategorisasi unutk setiap jawaban.

Contoh pertanyan yang bersifat terbuka adalah pertanyaan ke-7 dengan nama kolom 'P7'.

In [26]:
# Membuat list nilai unik dari P7
list_p7 = list(df_surnas_cleaned1['P7'].unique())

#Mengurutkan nama
list_p7.sort()

#Preview contoh list isian jawaban P7
list_p7[0:10]

['-',
 '88',
 'AANIAANIESAANIAANIES BBASBBASWEBBASBBASWEDABBASBBASWEBBASBBASWEDAN',
 'AGUS HARIMURTI',
 'AGUS HARIMURTI YUDHOYONO',
 'AHOK',
 'AHOK(BASUKI CAHAYA PURNAMA)',
 'AIRLANGGA HARTANTO',
 'AIRLANGGA HARTARTO',
 'AMIN RAIS']

In [28]:
#Membuat list kategori yang mengelompokkan semua jawaban dari P7

anies_baswedan = ['AANIAANIESAANIAANIES BBASBBASWEBBASBBASWEDABBASBBASWEBBASBBASWEDAN', 'ANIS BASWESAN',
                  'ANIS BASWEDAH','ANIES BASWEDAN', 'ANIS BASWEDAN', 'ANIS','ANIES', 'ANIS RASYID BASWEDAN']
prabowo_subianto = ['PROBOWO', 'PEABOWO', 'PRABOWO S', 'PAK PRABOWO','PROBOWO SUBIANTO','PRABOWO','PRABOWO SUBIANTO','PRABOWO SUBIABTO']
ganjar_pranowo = ['PRANOWO', 'GANJAR PRANOMO', 'GANJAR P', 'GANJAR', 'GENJAR PRANOWO', 'GANJAR PRANOWO']
basuki_tp = ['AHOK', 'AHOK(BASUKI CAHAYA PURNAMA)',  'BASUKI TJAJHJA AHOK']
mahfud_md = ['MAHMUD', 'MAHFUD', 'MAHFUD MD']
jokowi_dodo = ['JOKI WIDODO','MASIH PAK JOKOWI', 'JOKO WIDODO', 'JOKOWI', 'JOKI WIDODO', 'JOKOWI DODO', 'JOKOWIDODO']
erick_thohir = ['ERICK THOHIR', 'ERIK THOHIR',  'ERIK TOHIR']
gibran = ['GIBRAN', 'GIBRAN RAKABUMING RAKA', 'GIBRAN RAKABUMING']
ahy = ['AGUS HARIMURTI YUDHOYONO' 'AGUS HARIMURTI YUDHOYONO', 'AGUS HARIMURTI YUDHOYONO']
andika_perkasa = ['ANDIKA', 'ANDIKA PERKASA']
puan_maharani = ['PUAN MAHARANI']
jusuf_kalla = ['JUSUF KALLA']
ari_tani =['ARI TANI']
sandi_uno = ['SANDIAGA UNO']
muhaimin = ['MUHAIMIN ISKANDAR']
hari_tanoe = ['HARI TANOE']
amin_rais = ['AMIN RAIS']
megawati = ['MEGAWATI', 'MEGAWATI']
airlangga = ['AIRLANGGA HARTARTO']
rizieq_shihab = ['RIZIK SIHAP']
ridwan = ['RIDWAN KAMIL']
suryaPaloh = ['SURYA PALOH']

In [31]:
#Melakukan mapping

mapping_p7 = {}
for i in list_p7:
  if i in anies_baswedan:
    anies = {i: "ANIES BASWEDAN"}
    mapping_p7.update(anies)
  elif i in prabowo_subianto:
    prabowo = {i :"PRABOWO SUBIANTO"}
    mapping_p7.update(prabowo)
  elif i in ganjar_pranowo:
    ganjar = {i :"GANJAR PRANOWO"}
    mapping_p7.update(ganjar)
  elif i in basuki_tp:
    basuki = {i : "BASUKI TJAHAYA"}
    mapping_p7.update(basuki)
  elif i in mahfud_md:
    mahfud = {i : "MAHFUD MD"}
    mapping_p7.update(mahfud)
  elif i in jokowi_dodo:
    jokowi = {i : "JOKOWI DODO"}
    mapping_p7.update(jokowi)
  elif i in erick_thohir:
    erick = {i : "ERICK THOHIR"}
    mapping_p7.update(erick)
  elif i in gibran:
    gibran_raka = {i : "GIBRAN RAKABUMING RAKA"}
    mapping_p7.update(gibran_raka)
  elif i in ahy:
    agus_hari = {i : "AGUS HARIMURTI YUDHOYONO"}
    mapping_p7.update(agus_hari)
  elif i in andika_perkasa:
    andika = {i : "ANDIKA PERKASA"}
    mapping_p7.update(andika)
  elif i in puan_maharani:
    puan = {i : "PUAN MAHARANI"}
    mapping_p7.update(puan)
  elif i in jusuf_kalla:
    jk = {i : "JUSUF KALLA"}
    mapping_p7.update(jk)
  elif i in ari_tani:
    ari = {i : "ARI TANI"}
    mapping_p7.update(ari)
  elif i in sandi_uno:
    sandi = {i : "SANDIAGA UNO"}
    mapping_p7.update(sandi)
  elif i in muhaimin:
    muhaimin = {i : "MUHAIMIN ISKANDAR"}
    mapping_p7.update(jk)
  elif i in hari_tanoe:
    hari = {i : "HARY TANOE"}
    mapping_p7.update(hari)
  elif i in amin_rais:
    amin = {i : "AMIN RAIS"}
    mapping_p7.update(amin)
  elif i in megawati:
    megawati = {i : "MEGAWATI"}
    mapping_p7.update(megawati)
  elif i in airlangga:
    airlangga = {i : "AIRLANGGA HARTARTO"}
    mapping_p7.update(airlangga)
  elif i in ridwan:
    ridwan = {i : "RIDWAN KAMIL"}
    mapping_p7.update(ridwan)
  elif i in rizieq_shihab:
    rizieq = {i : "RIZIEQ SHIHAB"}
    mapping_p7.update(rizieq)
  elif i in suryaPaloh:
    surya = {i : "SURYA PALOH"}
    mapping_p7.update(surya)
  else:
    lainnya = {i: "BELUM MEMUTUSKAN/TIDAK MENJAWAB"}
    mapping_p7.update(lainnya)

#Preview untuk mapping pertanyaan P7
# mapping_p7

In [32]:
#Melakukan mapping untuk mengganti nilai array pada kolom P7 menjadi nilai yang dikoding sesuai kategori
df_surnas_cleaned1['P7'] = df_surnas_cleaned1['P7'].map(lambda x: mapping_p7.get(x,x))

In [34]:
#Preview nilai unik pada nilai kolom P7
df_surnas_cleaned1['P7'].unique()

df_surnas_cleaned1.loc[:, 'P7']

0         ANIES BASWEDAN
1         ANIES BASWEDAN
2         ANIES BASWEDAN
3       PRABOWO SUBIANTO
4         ANIES BASWEDAN
              ...       
1298    PRABOWO SUBIANTO
1299      GANJAR PRANOWO
1300      GANJAR PRANOWO
1301      ANIES BASWEDAN
1302      GANJAR PRANOWO
Name: P7, Length: 1303, dtype: object

# G. PERTANYAAN BRANCHING

Terdapat pertanyaan branching berdasarkan kriteria tertentu, sehingga jawaban yang tidak memenuhi kriteria akan disesuaikan.

Contoh pertanyaan branching adalah 'P4' dan 'P5'. Jika jawaban di 'P4' adalah 1 atau 2, maka Jawaban di 'P5' seharusnya tidak bernilai 1, harus bernilai 11.

In [35]:
#Membuat kondisi dimana P4 bernilai kecil dari 2, memiliki jawaban P5 selain 2-11 atau bernilai = 1
branching_1 = df_surnas_cleaned1[(df_surnas_cleaned1['P4'] <=2) & (df_surnas_cleaned1['P5'] == 1)]

#Preview dataframe
branching_1.loc[:, ['P4', 'P5']]
#Ambil nilai index untuk melakukan cleaning di dataframe awal
#Nilai 1 pada jawaban kolom 5, akan diubah nilainya mnejadi 11 (Tidak Tahu/Tidak Jawab)

Unnamed: 0,P4,P5
26,2,1
27,2,1
28,2,1
156,1,1
530,2,1
533,2,1
805,2,1
1216,1,1


In [36]:
#Membuat daftar index dari sel yang ingin diubah
ix_branching_1 = branching_1.index[branching_1['P4'] <= 2].tolist()
#Membuat iterasi untuk menampung range panjang dari jumlah index
#Dimana tiap nilai dari range akan diconvert menjadi 11
nv_branching_1 = [] #nv_g1 singkatan untuk new value for branching 1
for b in range(len(ix_branching_1)):
  b = 11
  nv_branching_1.append(b)

#Mengupdate nilai cell dari index yang sudah di-listing
df_surnas_cleaned1.loc[ix_branching_1, 'P5'] = nv_branching_1

#Menampilkan perubahan (preview)
df_surnas_cleaned1.loc[ix_branching_1, ['P4', 'P5']]

Unnamed: 0,P4,P5
26,2,11
27,2,11
28,2,11
156,1,11
530,2,11
533,2,11
805,2,11
1216,1,11
