Setup Dataframe, Clean Dataframe, Export Cleaned Dataframe

1. Setup DataFrame

In [2]:
# Import pandas
import pandas as pd
from itables import show

In [4]:
df = pd.read_csv('kabataankonek_rawdata.csv')

df.head(1)

Unnamed: 0,barangay,kkid,enumerator,d1,d2,d3,d4,d5,d6,d7,...,d12,d13,d14,d15,d16,d17,d18,d19,d20,d21
0,Arkong Bato,KK001,"CAJIPE, PRINCESS DIVINE TRIVIÑO",13.0,7.0,17,13,18,2,6,...,1,0.0,6,8,0,1.0,10.0,4.0,10.0,8.0


2. Setup Dataframe

In [5]:
show(df)

0
Loading ITables v2.5.2 from the internet...  (need help?)


In [7]:
# Check if there's a null values
d_cols = [f'd{i}' for i in range(1, 22)]
df[d_cols].isnull().sum()

d1      1
d2      1
d3      0
d4      0
d5      0
d6      0
d7      0
d8      0
d9      0
d10     0
d11     0
d12     0
d13     1
d14     0
d15     0
d16     0
d17    15
d18    16
d19    11
d20    11
d21    11
dtype: int64

In [8]:
# Change all null values into 0
df.loc[:, 'd1':'d21'] = df.loc[:, 'd1':'d21'].fillna(0)

In [9]:
# Check if there's a null values
d_cols = [f'd{i}' for i in range(1, 22)]
df[d_cols].isnull().sum()

d1     0
d2     0
d3     0
d4     0
d5     0
d6     0
d7     0
d8     0
d9     0
d10    0
d11    0
d12    0
d13    0
d14    0
d15    0
d16    0
d17    0
d18    0
d19    0
d20    0
d21    0
dtype: int64

In [10]:
# Check datatypes
df.dtypes

barangay       object
kkid           object
enumerator     object
d1            float64
d2            float64
d3              int64
d4              int64
d5              int64
d6              int64
d7              int64
d8              int64
d9              int64
d10             int64
d11             int64
d12             int64
d13           float64
d14             int64
d15             int64
d16             int64
d17           float64
d18           float64
d19           float64
d20           float64
d21           float64
dtype: object

In [11]:
# Change all float into integer

d_cols = [f'd{i}' for i in range(1, 22)]
df[d_cols] = df[d_cols].astype(int)

In [None]:
# Check the datatypes again 
df.dtypes

barangay      object
kkid          object
enumerator    object
d1             int64
d2             int64
d3             int64
d4             int64
d5             int64
d6             int64
d7             int64
d8             int64
d9             int64
d10            int64
d11            int64
d12            int64
d13            int64
d14            int64
d15            int64
d16            int64
d17            int64
d18            int64
d19            int64
d20            int64
d21            int64
dtype: object

In [14]:
# Check barangay data
df['barangay'].unique()

array(['Arkong Bato', 'Balangkas', 'Dalandanan', 'Isla', 'Palasan',
       'Pariacillo Villa', 'Poblacion', 'Pulo', 'Wawang Pulo', 'Bisig',
       'Coloong', 'Malanday', 'Pasolo', 'Punturin', 'Lingunan', 'Malinta',
       'Veinte Reales', 'Bignay', 'Canumay East', 'Canumay West',
       'Lawang Bato', 'Bagbaguin', 'Mapulang Lupa', 'Maysan', 'Parada',
       'Paso De Blas', 'Ugong', 'Karuhatan', 'Marulas', 'Gen T. De Leon',
       'Rincon'], dtype=object)

In [None]:
# Make all data from barangay uppercase
df['barangay'] = df['barangay'].str.upper()

In [None]:
# Check barangay data again
df['barangay'].unique()

array(['ARKONG BATO', 'BALANGKAS', 'DALANDANAN', 'ISLA', 'PALASAN',
       'PARIACILLO VILLA', 'POBLACION', 'PULO', 'WAWANG PULO', 'BISIG',
       'COLOONG', 'MALANDAY', 'PASOLO', 'PUNTURIN', 'LINGUNAN', 'MALINTA',
       'VEINTE REALES', 'BIGNAY', 'CANUMAY EAST', 'CANUMAY WEST',
       'LAWANG BATO', 'BAGBAGUIN', 'MAPULANG LUPA', 'MAYSAN', 'PARADA',
       'PASO DE BLAS', 'UGONG', 'KARUHATAN', 'MARULAS', 'GEN T. DE LEON',
       'RINCON'], dtype=object)

In [None]:
# Check columns
df.columns

Index(['barangay', 'kkid', 'enumerator', 'd1', 'd2', 'd3', 'd4', 'd5', 'd6',
       'd7', 'd8', 'd9', 'd10', 'd11', 'd12', 'd13', 'd14', 'd15', 'd16',
       'd17', 'd18', 'd19', 'd20', 'd21'],
      dtype='object')

In [18]:
# raname some columns
rename = {
    'kkid': 'enumerator_id'
}

# Add d1 to d21 -> day_1 to day_21
for i in range(1, 22):
    rename[f'd{i}'] = f'day_{i}'

# Apply rename
df.rename(columns=rename, inplace=True)

In [None]:
# Check columns again
df.columns

Index(['barangay', 'enumerator_id', 'enumerator', 'day_1', 'day_2', 'day_3',
       'day_4', 'day_5', 'day_6', 'day_7', 'day_8', 'day_9', 'day_10',
       'day_11', 'day_12', 'day_13', 'day_14', 'day_15', 'day_16', 'day_17',
       'day_18', 'day_19', 'day_20', 'day_21'],
      dtype='object')

In [None]:
# Check the data again if all is cleared and ready to export
show(df)

0
Loading ITables v2.5.2 from the internet...  (need help?)


3. Export Data

In [22]:
try:
    df.to_csv('kabataankonek_cleaned_raw.csv', index=False)
    print("Extracting cleaned data to csv is done!")

except Exception as e:
    print(f"Error exporting data: {e}")

Extracting cleaned data to csv is done!
