# SimuBAQ – Data Cleaning Pipeline

This notebook cleans and prepares the SimuBAQ survey dataset for BI analysis.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('simubaq_encuesta_1000_respuestas.csv')
df.head()

Unnamed: 0,id_encuestado,fecha_respuesta,edad_rango,genero,ciudad,nivel_educativo,tipo_celular,dispositivo_principal,acceso_internet,nivel_manejo_celular,...,horarios_disponibles,frecuencia_posible_semana,duracion_preferida_clase,tiempo_desplazamiento,lugar_preferido_clases,tipo_clase_preferida,limitaciones,disposicion_pago,entidad_ideal,contacto_interes
0,1,2025-11-24,40-49,Femenino,Malambo,Bachillerato,Smartphone,Tablet,No tiene,1,...,"Tarde, Noche",2 veces,45 min,21-40,Barrio,Individual,Memoria,Si,Empresa privada,No
1,2,2025-11-25,60-69,Femenino,Galapa,Ninguno,Smartphone,Ninguno,WiFi,5,...,Noche,2 veces,45 min,11-20,Alcaldia,Indiferente,Motricidad,Solo si es gratis,Familia,Si
2,3,2025-11-23,60-69,Femenino,Soledad,Primaria,Celular basico,Ninguno,Datos moviles,1,...,"Manana, Noche",1 vez,45 min,11-20,Alcaldia,Individual,Memoria,No,Familia,No
3,4,2025-11-28,60-69,Prefiero no decirlo,Barranquilla,Primaria,No tiene,Computador,No tiene,3,...,"Manana, Noche",3 veces o mas,1 hora,11-20,Barrio,Grupo pequeno,Ninguna,Si,Alcaldia,No
4,5,2025-11-18,40-49,Prefiero no decirlo,Soledad,Bachillerato,No tiene,Ninguno,No tiene,2,...,Noche,2 veces,45 min,0-10,Barrio,Individual,Audicion,Si,Alcaldia,No


In [3]:
df.info()
df.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 31 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   id_encuestado                1000 non-null   int64 
 1   fecha_respuesta              1000 non-null   object
 2   edad_rango                   1000 non-null   object
 3   genero                       1000 non-null   object
 4   ciudad                       1000 non-null   object
 5   nivel_educativo              1000 non-null   object
 6   tipo_celular                 1000 non-null   object
 7   dispositivo_principal        1000 non-null   object
 8   acceso_internet              1000 non-null   object
 9   nivel_manejo_celular         1000 non-null   int64 
 10  comodidad_apps               1000 non-null   object
 11  frecuencia_uso_apps          1000 non-null   object
 12  apps_usadas                  1000 non-null   object
 13  uso_principal_celular        1000 

id_encuestado                  0
fecha_respuesta                0
edad_rango                     0
genero                         0
ciudad                         0
nivel_educativo                0
tipo_celular                   0
dispositivo_principal          0
acceso_internet                0
nivel_manejo_celular           0
comodidad_apps                 0
frecuencia_uso_apps            0
apps_usadas                    0
uso_principal_celular          0
dificultades                   0
miedos                         0
interes_clases_presenciales    0
interes_simuladores            0
apps_deseadas                  0
app_prioritaria                0
dias_disponibles               0
horarios_disponibles           0
frecuencia_posible_semana      0
duracion_preferida_clase       0
tiempo_desplazamiento          0
lugar_preferido_clases         0
tipo_clase_preferida           0
limitaciones                   0
disposicion_pago               0
entidad_ideal                  0
contacto_i

In [4]:

df.columns = (
    df.columns
      .str.strip()
      .str.lower()
      .str.replace(" ", "_")
      .str.replace("á", "a")
      .str.replace("é", "e")
      .str.replace("í", "i")
      .str.replace("ó", "o")
      .str.replace("ú", "u")
)
df.columns


Index(['id_encuestado', 'fecha_respuesta', 'edad_rango', 'genero', 'ciudad',
       'nivel_educativo', 'tipo_celular', 'dispositivo_principal',
       'acceso_internet', 'nivel_manejo_celular', 'comodidad_apps',
       'frecuencia_uso_apps', 'apps_usadas', 'uso_principal_celular',
       'dificultades', 'miedos', 'interes_clases_presenciales',
       'interes_simuladores', 'apps_deseadas', 'app_prioritaria',
       'dias_disponibles', 'horarios_disponibles', 'frecuencia_posible_semana',
       'duracion_preferida_clase', 'tiempo_desplazamiento',
       'lugar_preferido_clases', 'tipo_clase_preferida', 'limitaciones',
       'disposicion_pago', 'entidad_ideal', 'contacto_interes'],
      dtype='object')

In [5]:

text_columns = df.select_dtypes(include="object").columns
for col in text_columns:
    df[col] = (
        df[col]
        .astype(str)
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)
        .str.title()
    )
df[text_columns].head()


Unnamed: 0,fecha_respuesta,edad_rango,genero,ciudad,nivel_educativo,tipo_celular,dispositivo_principal,acceso_internet,comodidad_apps,frecuencia_uso_apps,...,horarios_disponibles,frecuencia_posible_semana,duracion_preferida_clase,tiempo_desplazamiento,lugar_preferido_clases,tipo_clase_preferida,limitaciones,disposicion_pago,entidad_ideal,contacto_interes
0,2025-11-24,40-49,Femenino,Malambo,Bachillerato,Smartphone,Tablet,No Tiene,Muy Comodo,Nunca,...,"Tarde, Noche",2 Veces,45 Min,21-40,Barrio,Individual,Memoria,Si,Empresa Privada,No
1,2025-11-25,60-69,Femenino,Galapa,Ninguno,Smartphone,Ninguno,Wifi,Neutral,A Veces,...,Noche,2 Veces,45 Min,11-20,Alcaldia,Indiferente,Motricidad,Solo Si Es Gratis,Familia,Si
2,2025-11-23,60-69,Femenino,Soledad,Primaria,Celular Basico,Ninguno,Datos Moviles,Incomodo,A Veces,...,"Manana, Noche",1 Vez,45 Min,11-20,Alcaldia,Individual,Memoria,No,Familia,No
3,2025-11-28,60-69,Prefiero No Decirlo,Barranquilla,Primaria,No Tiene,Computador,No Tiene,Muy Incomodo,A Veces,...,"Manana, Noche",3 Veces O Mas,1 Hora,11-20,Barrio,Grupo Pequeno,Ninguna,Si,Alcaldia,No
4,2025-11-18,40-49,Prefiero No Decirlo,Soledad,Bachillerato,No Tiene,Ninguno,No Tiene,Neutral,Todos Los Dias,...,Noche,2 Veces,45 Min,0-10,Barrio,Individual,Audicion,Si,Alcaldia,No


In [6]:

multi_columns = [
    "apps_usadas","apps_deseadas","dias_disponibles",
    "horarios_disponibles","dificultades",
    "uso_principal_celular","limitaciones"
]
for col in multi_columns:
    df[col] = (
        df[col]
        .str.replace(" ,", ",")
        .str.replace(", ", ",")
        .str.replace(";", ",")
    )
df[multi_columns].head()


Unnamed: 0,apps_usadas,apps_deseadas,dias_disponibles,horarios_disponibles,dificultades,uso_principal_celular,limitaciones
0,"Correo,Whatsapp,Banca","Compras,Banca,Salud","Lunes,Martes","Tarde,Noche",Ninguna,Mensajes,Memoria
1,"Youtube,Whatsapp,Banca","Redes Sociales,Banca","Martes,Miercoles",Noche,Miedo A Danar Celular,Videos,Motricidad
2,Ninguna,"Compras,Correo,Salud",Martes,"Manana,Noche",Olvida Contrasenas,"Mapas,No Lo Usa",Memoria
3,"Youtube,Correo","Salud,Banca,Google Maps","Viernes,Lunes,Miercoles","Manana,Noche","Ninguna,Miedo A Danar Celular",No Lo Usa,Ninguna
4,Banca,Salud,Miercoles,Noche,"No Sabe Descargar Apps,Olvida Contrasenas",No Lo Usa,Audicion


In [7]:

df["nivel_manejo_celular"] = pd.to_numeric(
    df["nivel_manejo_celular"], errors="coerce"
)
df = df[df["nivel_manejo_celular"].between(1, 5)]


In [8]:

df["fecha_respuesta"] = pd.to_datetime(
    df["fecha_respuesta"], errors="coerce"
)


In [9]:
df = df.drop_duplicates(subset=['id_encuestado'])

In [10]:
df.shape
df.isna().sum()

id_encuestado                  0
fecha_respuesta                0
edad_rango                     0
genero                         0
ciudad                         0
nivel_educativo                0
tipo_celular                   0
dispositivo_principal          0
acceso_internet                0
nivel_manejo_celular           0
comodidad_apps                 0
frecuencia_uso_apps            0
apps_usadas                    0
uso_principal_celular          0
dificultades                   0
miedos                         0
interes_clases_presenciales    0
interes_simuladores            0
apps_deseadas                  0
app_prioritaria                0
dias_disponibles               0
horarios_disponibles           0
frecuencia_posible_semana      0
duracion_preferida_clase       0
tiempo_desplazamiento          0
lugar_preferido_clases         0
tipo_clase_preferida           0
limitaciones                   0
disposicion_pago               0
entidad_ideal                  0
contacto_i

In [11]:

df.to_csv(
    'simubaq_survey_clean.csv',
    index=False,
    encoding='utf-8'
)
print('Clean CSV exported')


Clean CSV exported


## Dataset cleaned and ready for PostgreSQL and Power BI