# Análisis de datos de encuesta 


## Objetivos
### General
Determinar las funcionalidades prioritarias, caracterizar los perfiles de usuario (público objetivo) y establecer los requisitos de usabilidad para justificar el desarrollo de un Sistema de Alerta Temprana para la permanencia estudiantil.


### Específicos

 Segmentar al personal encuestado en grupos con características y necesidades distintas, basándose en la combinación de sus niveles de comodidad digital, experiencia, métodos de documentación actuales y preferencias de herramientas. 

 Detectar patrones de comportamiento o actitudes que correlacionen con el rol principal o los años de experiencia, para comprender cómo estos factores influyen en la percepción del problema y la disposición a la solución.

 Determinar qué variables (ej. rol, años de experiencia, número de estudiantes en riesgo detectados, comodidad digital) influyen significativamente en la percepción de dificultad para identificar estudiantes en riesgo. 

 Analizar las interacciones entre las preferencias de notificaciones y las preocupaciones expresadas

 Establecer si existen asociaciones fuertes entre los tipos de datos que el personal considera más importantes para identificar el riesgo y las acciones de registro o reportes que desean en el sistema. (Por ejemplo, ¿quienes valoran la "asistencia" también priorizan los "reportes de absentismo"?).


**Preparacion del entorno**

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import re 


def print_list(elements):
    """
    Imprime una lista de elementos con su índice.
    Útil para revisar nombres de columnas o categorías.
    """
    for i, element in enumerate(elements):
        print(f"{i}-{element}")


def extract_numeric_from_likert(text):
    """
    Extrae el valor numérico de cadenas que representan escalas Likert
    (e.g., "3 (Moderadamente difícil)"). 
    Retorna NaN si el texto es nulo, vacío o contiene "No aplica" (caso especial).
    """
    if pd.isna(text) or (isinstance(text, str) and "No aplica" in str(text)):
        return np.nan
    

    match = re.search(r'(\d)', str(text))
    if match:
        return int(match.group(1))
    return np.nan 


sns.set_style("whitegrid")

**Listamos los directorios en la carpeta**

In [6]:
import os 

directories = os.listdir()
for directory in directories:
    print(directory)
    

notebook_analisis.ipynb
encuestas
.venv
.git
.gitattributes


**Listar los archivos disponibles en la carpeta de encuestas**

In [7]:
folder  = "encuestas"
directories = os.listdir(os.path.join(folder))
for directory in directories:
    print(directory)

Encuesta 9no.csv


**Seleccionamos el archivo de interés**

In [8]:
file = directories[0]
path = os.path.join(folder, file)

In [9]:
import pandas as pd
respuestas = pd.read_csv(path)
respuestas.head()

Unnamed: 0,Marca temporal,¿Cuál es su rol principal en la institución?,¿A qué área o departamento pertenece principalmente?,¿Cuántos años de experiencia tiene trabajando en institutos académicos?,"Actualmente, ¿cómo identifica a los estudiantes que podrían estar en riesgo de no continuar sus estudios?","En una semana típica, ¿aproximadamente cuántos estudiantes presentan signos de rezago o problemas que ponen en riesgo su desempeño?",¿Qué tan difícil considera el proceso actual de identificar tempranamente a los estudiantes en riesgo?\n1 (Nada difícil)\n2 (Poco difícil)\n3 (Moderadamente difícil)\n4 (Algo difícil)\n5 (Muy difícil)\n,¿Qué tipos de datos sobre los estudiantes considera más importantes para identificar su riesgo?\n(Seleccione 3),¿Cómo se documenta actualmente las intervenciones o apoyos que brinda a un estudiante en riesgo?,¿Qué tan fácil es coordinar la información y las acciones sobre un estudiante en riesgo con sus compañeros de trabajo?\n1 (Muy fácil)\n2 (Fácil)\n3 (Neutro/Regular)\n4 (Difícil)\n5 (Muy difícil)\n,...,¿Qué acciones considera que son las más importantes de poder registrar en la aplicación para el seguimiento de estudiantes en riesgo? \n(Seleccione 3),¿Qué tipo de reportes generados por el sistema serían más valiosos para usted o su departamento?,¿Cuál de las siguientes considera MAS importante como herramienta para seguimiento el desempeño de un estudiante?\n,¿Qué tan probable sería que recomendará esta herramienta a un colega de otro instituto si estuviera disponible?,¿Qué métricas o indicadores considera USTED que serían más importantes para evaluar si esta herramienta está siendo útil en su trabajo o en el instituto?\n(Seleccione máximo 3),¿Qué aspectos relacionados con el uso de un sistema de alerta temprana para estudiantes en riesgo le generan más preocupación o dudas?\n(Seleccione máximo 3),"¿Con qué frecuencia utiliza herramientas (aplicaciones, software, plantillas, etc.) adicionales a los sistemas de gestión académica oficiales para hacer seguimiento de estudiantes o registrar información relevante?\n1 (Nunca)\n2 (Rara vez)\n3 (A veces)\n4 (Frecuentemente)\n5 (Muy frecuentemente)\n","Si utiliza herramientas adicionales (con la frecuencia que indicó en la pregunta anterior), ¿cuáles de las siguientes herramientas o tipos de herramientas utiliza principalmente para el seguimiento de estudiantes o para registrar información relevante?","Considerando las herramientas adicionales que utiliza (hojas de cálculo, documentos, chats, etc.), ¿qué tan convenientes o útiles son para el seguimiento regular (diario/semanal) de estudiantes y el registro de su información?\n(Si no usa herramientas adicionales, puede dejar esta pregunta en blanco).\n1 (Nada conveniente/útil para uso regular)\n2 (Poco conveniente/útil)\n3 (Neutro/Regular)\n4 (Bastante conveniente/útil)\n5 (Muy conveniente/útil para uso regular\n","En general, ¿qué tan satisfecho/a está con el rendimiento y las características de las herramientas adicionales que utiliza actualmente para estos fines? \n(Si no usa herramientas adicionales, puede dejar esta pregunta en blanco).\n1 (Muy Insatisfecho/a)\n2 (Insatisfecho/a)\n3 (Neutro/a)\n4 (Satisfecho/a)\n5 (Muy Satisfecho/a)\n"
0,2025/05/20 12:10:20 p. m. GMT-6,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,De 4 a 8 estudiantes,3,Asistencia y absentismo (falta no justificada)...,Registros manuales/cuadernos;Documentos digita...,3,...,Fecha y tipo de contacto con el estudiante/fam...,Lista de estudiantes por nivel de riesgo (Alto...,La explicación de por qué un estudiante está e...,9,Reducción del número de abandonos escolares.;M...,La privacidad y confidencialidad de los datos ...,3,"Hojas de cálculo (ej. Excel, Google Sheets);Do...",3.0,3
1,2025/05/20 12:26:06 p. m. GMT-6,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,De 1 a 3 estudiantes,2,Calificaciones académicas;Historial disciplina...,Registros manuales/cuadernos;Comunicación info...,3,...,Fecha y tipo de contacto con el estudiante/fam...,Lista de estudiantes por nivel de riesgo (Alto...,La explicación de por qué un estudiante está e...,9,Mejora en la asistencia de los estudiantes ide...,La privacidad y confidencialidad de los datos ...,2,"Documentos de texto (ej. Word, Google Docs);Pl...",3.0,3
2,2025/05/20 12:47:58 p. m. GMT-6,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,Más de 8 estudiantes,3,Asistencia y absentismo (falta no justificada)...,Registros manuales/cuadernos;Documentos digita...,3,...,Resumen de la conversación/situación;Acciones ...,Estudiantes con factores de riesgo específicos...,La explicación de por qué un estudiante está e...,4,Facilidad y rapidez en la identificación de es...,La fiabilidad o precisión de la identificación...,1,Ninguno,2.0,3
3,2025/05/20 5:38:39 p. m. GMT-6,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Conversaciones con el propio estudiante,De 4 a 8 estudiantes,3,Asistencia y absentismo (falta no justificada)...,Registros manuales/cuadernos,3,...,Acciones de apoyo implementadas (ej. tutoría e...,Lista de estudiantes por nivel de riesgo (Alto...,El nivel de riesgo (Alto/Medio/Bajo).,10,Reducción del número de abandonos escolares.;M...,"La resistencia por parte del personal, estudia...",3,"Documentos de texto (ej. Word, Google Docs)",4.0,4
4,2025/05/20 6:06:39 p. m. GMT-6,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,De 4 a 8 estudiantes,3,Historial disciplinario;Información de evaluac...,Registros manuales/cuadernos;Documentos digita...,4,...,Fecha y tipo de contacto con el estudiante/fam...,Lista de estudiantes por nivel de riesgo (Alto...,La explicación de por qué un estudiante está e...,7,Facilidad y rapidez en la identificación de es...,La integración con los sistemas de gestión aca...,4,Bases de datos personales o departamentales (e...,3.0,2


In [10]:
cols = respuestas.columns
for col in cols:
    print(col)

Marca temporal
¿Cuál es su rol principal en la institución?
¿A qué área o departamento pertenece principalmente? 
¿Cuántos años de experiencia tiene trabajando en institutos académicos? 
Actualmente, ¿cómo identifica a los estudiantes que podrían estar en riesgo de no continuar sus estudios?
En una semana típica, ¿aproximadamente cuántos estudiantes presentan signos de rezago o problemas que ponen en riesgo su desempeño? 
¿Qué tan difícil considera el proceso actual de identificar tempranamente a los estudiantes en riesgo?
1 (Nada difícil)
2 (Poco difícil)
3 (Moderadamente difícil)
4 (Algo difícil)
5 (Muy difícil)

¿Qué tipos de datos sobre los estudiantes considera más importantes para identificar su riesgo?
(Seleccione 3)
¿Cómo se documenta actualmente las intervenciones o apoyos que brinda a un estudiante en riesgo?
¿Qué tan fácil es coordinar la información y las acciones sobre un estudiante en riesgo con sus compañeros de trabajo?
1 (Muy fácil)
2 (Fácil)
3 (Neutro/Regular)
4 (Difí

In [11]:
mapeo = [
    "marca_temporal",
    "rol_principal",
    "area_departamento",
    "anios_experiencia",
    "metodo_identificacion_riesgo",
    "num_estudiantes_riesgo_semanal",
    "dificultad_identificacion_riesgo",
    "tipos_datos_importantes",
    "documentacion_intervenciones",
    "facilidad_coordinacion",
    "comodidad_herramientas_digitales",
    "dispositivos_principales",
    "experiencia_sistemas_seguimiento",
    "experiencia_con_sistemas",
    "preferencia_notificacion_alerta",
    "utilidad_sistema_automatico",
    "importancia_explicacion_riesgo",
    "frecuencia_actualizacion_sistema",
    "acciones_importantes_registro",
    "tipo_reportes_valiosos",
    "herramienta_mas_importante",
    "probabilidad_recomendar",
    "metricas_importantes",
    "preocupaciones_sistema_alerta",
    "frecuencia_uso_herramientas_adicionales",
    "tipos_herramientas_adicionales",
    "conveniencia_herramientas_adicionales",
    "satisfaccion_herramientas_adicionales"
]

respuestas.columns = mapeo
cols = respuestas.columns
for col in cols:
    print(col)

marca_temporal
rol_principal
area_departamento
anios_experiencia
metodo_identificacion_riesgo
num_estudiantes_riesgo_semanal
dificultad_identificacion_riesgo
tipos_datos_importantes
documentacion_intervenciones
facilidad_coordinacion
comodidad_herramientas_digitales
dispositivos_principales
experiencia_sistemas_seguimiento
experiencia_con_sistemas
preferencia_notificacion_alerta
utilidad_sistema_automatico
importancia_explicacion_riesgo
frecuencia_actualizacion_sistema
acciones_importantes_registro
tipo_reportes_valiosos
herramienta_mas_importante
probabilidad_recomendar
metricas_importantes
preocupaciones_sistema_alerta
frecuencia_uso_herramientas_adicionales
tipos_herramientas_adicionales
conveniencia_herramientas_adicionales
satisfaccion_herramientas_adicionales


In [12]:
features_list = list(cols)
features_list.remove("marca_temporal")
respuestas = respuestas[features_list]
n_respuestas, n_features = respuestas.shape
print(f"Hay {n_respuestas} respuestas para {n_features} preguntas sin considerar la marca temporal")

Hay 27 respuestas para 27 preguntas sin considerar la marca temporal


In [13]:
respuestas.head()

Unnamed: 0,rol_principal,area_departamento,anios_experiencia,metodo_identificacion_riesgo,num_estudiantes_riesgo_semanal,dificultad_identificacion_riesgo,tipos_datos_importantes,documentacion_intervenciones,facilidad_coordinacion,comodidad_herramientas_digitales,...,acciones_importantes_registro,tipo_reportes_valiosos,herramienta_mas_importante,probabilidad_recomendar,metricas_importantes,preocupaciones_sistema_alerta,frecuencia_uso_herramientas_adicionales,tipos_herramientas_adicionales,conveniencia_herramientas_adicionales,satisfaccion_herramientas_adicionales
0,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,De 4 a 8 estudiantes,3,Asistencia y absentismo (falta no justificada)...,Registros manuales/cuadernos;Documentos digita...,3,3,...,Fecha y tipo de contacto con el estudiante/fam...,Lista de estudiantes por nivel de riesgo (Alto...,La explicación de por qué un estudiante está e...,9,Reducción del número de abandonos escolares.;M...,La privacidad y confidencialidad de los datos ...,3,"Hojas de cálculo (ej. Excel, Google Sheets);Do...",3.0,3
1,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,De 1 a 3 estudiantes,2,Calificaciones académicas;Historial disciplina...,Registros manuales/cuadernos;Comunicación info...,3,4,...,Fecha y tipo de contacto con el estudiante/fam...,Lista de estudiantes por nivel de riesgo (Alto...,La explicación de por qué un estudiante está e...,9,Mejora en la asistencia de los estudiantes ide...,La privacidad y confidencialidad de los datos ...,2,"Documentos de texto (ej. Word, Google Docs);Pl...",3.0,3
2,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,Más de 8 estudiantes,3,Asistencia y absentismo (falta no justificada)...,Registros manuales/cuadernos;Documentos digita...,3,4,...,Resumen de la conversación/situación;Acciones ...,Estudiantes con factores de riesgo específicos...,La explicación de por qué un estudiante está e...,4,Facilidad y rapidez en la identificación de es...,La fiabilidad o precisión de la identificación...,1,Ninguno,2.0,3
3,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Conversaciones con el propio estudiante,De 4 a 8 estudiantes,3,Asistencia y absentismo (falta no justificada)...,Registros manuales/cuadernos,3,2,...,Acciones de apoyo implementadas (ej. tutoría e...,Lista de estudiantes por nivel de riesgo (Alto...,El nivel de riesgo (Alto/Medio/Bajo).,10,Reducción del número de abandonos escolares.;M...,"La resistencia por parte del personal, estudia...",3,"Documentos de texto (ej. Word, Google Docs)",4.0,4
4,Personal de Apoyo (Pedagógico/Administrativo),Docencia,Menos de 3 años,Observación directa en el aula/centro;Análisis...,De 4 a 8 estudiantes,3,Historial disciplinario;Información de evaluac...,Registros manuales/cuadernos;Documentos digita...,4,5,...,Fecha y tipo de contacto con el estudiante/fam...,Lista de estudiantes por nivel de riesgo (Alto...,La explicación de por qué un estudiante está e...,7,Facilidad y rapidez en la identificación de es...,La integración con los sistemas de gestión aca...,4,Bases de datos personales o departamentales (e...,3.0,2


In [14]:
respuestas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 27 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   rol_principal                            27 non-null     object 
 1   area_departamento                        27 non-null     object 
 2   anios_experiencia                        27 non-null     object 
 3   metodo_identificacion_riesgo             27 non-null     object 
 4   num_estudiantes_riesgo_semanal           27 non-null     object 
 5   dificultad_identificacion_riesgo         27 non-null     int64  
 6   tipos_datos_importantes                  27 non-null     object 
 7   documentacion_intervenciones             27 non-null     object 
 8   facilidad_coordinacion                   27 non-null     int64  
 9   comodidad_herramientas_digitales         27 non-null     int64  
 10  dispositivos_principales                 27 non-null

In [15]:
cols = respuestas.columns
escalas = {}

for col in cols:
    escalas[col] = respuestas[col].unique()
    print(escalas[col])
    

['Personal de Apoyo (Pedagógico/Administrativo)'
 'Profesor/a sin tutoría asignada' 'Tutor/a Academico' 'Profesor'
 'Padre de familia ' 'Personal de Apoyo (Administrativo)'
 'Director/a o Jefe/a de Estudios']
['Docencia' 'Dirección/Gestión']
['Menos de 3 años' 'Más de 10 años' 'De 3 a 10 años']
['Observación directa en el aula/centro;Análisis de calificaciones (historial o recientes);Análisis de asistencia/absentismo;Conversaciones con el propio estudiante;Resultados de pruebas diagnósticas o psicopedagógicas'
 'Observación directa en el aula/centro;Análisis de asistencia/absentismo;Conversaciones con el propio estudiante'
 'Observación directa en el aula/centro;Análisis de calificaciones (historial o recientes);Análisis de asistencia/absentismo;Conversaciones con el propio estudiante'
 'Conversaciones con el propio estudiante'
 'Observación directa en el aula/centro;Análisis de calificaciones (historial o recientes);Informes de otros profesores/tutores'
 'Análisis de asistencia/absent

**Tipos de Datos y Valores Faltantes**

In [None]:
if respuestas is not None:
    print("\n--- Información del dataset (tipos de datos y valores no nulos) ---")
    respuestas.info()


--- Información del dataset (tipos de datos y valores no nulos) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 27 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   rol_principal                            27 non-null     object 
 1   area_departamento                        27 non-null     object 
 2   anios_experiencia                        27 non-null     object 
 3   metodo_identificacion_riesgo             27 non-null     object 
 4   num_estudiantes_riesgo_semanal           27 non-null     object 
 5   dificultad_identificacion_riesgo         27 non-null     int64  
 6   tipos_datos_importantes                  27 non-null     object 
 7   documentacion_intervenciones             27 non-null     object 
 8   facilidad_coordinacion                   27 non-null     int64  
 9   comodidad_herramientas_digitales         27 non-null 

In [36]:
print("\n--- Conteo de valores nulos por columna ---")
print(respuestas.isnull().sum())


--- Conteo de valores nulos por columna ---
rol_principal                              0
area_departamento                          0
anios_experiencia                          0
metodo_identificacion_riesgo               0
num_estudiantes_riesgo_semanal             0
dificultad_identificacion_riesgo           0
tipos_datos_importantes                    0
documentacion_intervenciones               0
facilidad_coordinacion                     0
comodidad_herramientas_digitales           0
dispositivos_principales                   0
experiencia_sistemas_seguimiento           0
experiencia_con_sistemas                   3
preferencia_notificacion_alerta            0
utilidad_sistema_automatico                0
importancia_explicacion_riesgo             0
frecuencia_actualizacion_sistema           0
acciones_importantes_registro              0
tipo_reportes_valiosos                     0
herramienta_mas_importante                 0
probabilidad_recomendar                    0
metricas_i

In [None]:
if respuestas is not None:
    print("\n--- Estadísticas descriptivas para columnas numéricas ---")
    print(respuestas.describe())


--- Estadísticas descriptivas para columnas numéricas ---
       dificultad_identificacion_riesgo  facilidad_coordinacion  \
count                         27.000000               27.000000   
mean                           2.814815                3.037037   
std                            1.001423                0.706099   
min                            1.000000                1.000000   
25%                            2.000000                3.000000   
50%                            3.000000                3.000000   
75%                            3.000000                3.000000   
max                            5.000000                4.000000   

       comodidad_herramientas_digitales  experiencia_sistemas_seguimiento  \
count                         27.000000                         27.000000   
mean                           3.629630                          3.000000   
std                            1.213645                          1.208941   
min                          

In [None]:
if respuestas is not None:
   print("\n--- Estadísticas descriptivas para columnas categóricas ---")
   print(respuestas.describe(include='object'))


--- Estadísticas descriptivas para columnas categóricas ---
                                        rol_principal area_departamento  \
count                                              27                27   
unique                                              7                 2   
top     Personal de Apoyo (Pedagógico/Administrativo)          Docencia   
freq                                                8                25   

       anios_experiencia       metodo_identificacion_riesgo  \
count                 27                                 27   
unique                 3                                 22   
top      Menos de 3 años  Análisis de asistencia/absentismo   
freq                  11                                  3   

       num_estudiantes_riesgo_semanal  \
count                              27   
unique                              3   
top              De 1 a 3 estudiantes   
freq                               21   

                                  tipos_d