# Proyecto de Machine Learning basado en respuestas a diferentes test psicoloógicos.

## PASO 1. Análisis de datos inicales

In [1]:
# Importar librerías de análisis
import pandas as pd
import numpy as np

# Cargar el archivo original, debe estar en la misma carpeta del actual cuadernillo
try:
    df = pd.read_excel("v1.xlsx")
    print("Archivo leído");
except Exception as e:
    print(f"Ocurrió un error: {e}")

Archivo leído


### Funciones generales para análisis

Devuelve el número de filas y columnas del DataFrame. Es útil para conocer el tamaño del conjunto de datos.

In [2]:
df.shape

(8207, 92)

El dataset contiene 8,207 registros (respuestas individuales). Tiene 92 columnas, lo que indica una gran cantidad de variables (posiblemente muchas preguntas del cuestionario, junto con datos sociodemográficos y variables derivadas).

**Muestra las primeras 5 filas del DataFrame por defecto. Permite echar un vistazo rápido a los datos.**

In [3]:
df.head()

Unnamed: 0,ResponseID,¿Hacomprendidolosaspectosgeneralesdelproyectoydeseaparticiparen,Trabajo,Sexo,Religion,OtraEscríbalaReligion,Etnia,OtroEscríbalaEtnia,EstCivil,edad,...,mhc_pwb,hiaff,loaff,hifunc,lofunc,hiaffect,loaffect,hifunct,lofunct,mhc_dx
0,7341,2,3.0,3.0,1.0,,1.0,,1.0,22.0,...,0.0,0,3,0,11,0,1,0,1,0
1,7041,1,2.0,1.0,1.0,,1.0,,8.0,33.0,...,13.0,0,0,0,5,0,0,0,0,1
2,10116,1,0.0,1.0,1.0,,1.0,,1.0,19.0,...,20.0,0,0,3,3,0,0,0,0,1
3,9044,1,3.0,1.0,2.0,,1.0,,1.0,22.0,...,18.0,0,0,1,1,0,0,0,0,1
4,10078,1,3.0,1.0,1.0,,1.0,,1.0,19.0,...,20.0,3,0,4,3,1,0,0,0,1


Se muestra un numero elevado de variables, además se logra evindenciar la existencia de valores nulos

**Muestra información general del DataFrame**

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8207 entries, 0 to 8206
Data columns (total 92 columns):
 #   Column                                                           Non-Null Count  Dtype  
---  ------                                                           --------------  -----  
 0   ResponseID                                                       8207 non-null   int64  
 1   ¿Hacomprendidolosaspectosgeneralesdelproyectoydeseaparticiparen  8207 non-null   int64  
 2   Trabajo                                                          8206 non-null   float64
 3   Sexo                                                             8206 non-null   float64
 4   Religion                                                         8206 non-null   float64
 5   OtraEscríbalaReligion                                            55 non-null     object 
 6   Etnia                                                            8206 non-null   float64
 7   OtroEscríbalaEtnia                        

El dataset contiene 57 columnas de tipo float64, lo que sugiere que muchas variables son numéricas con decimales. 

Hay 25 columnas de tipo int64, posiblemente variables categóricas codificadas con números enteros.

Hay 10 columnas de tipo object, que generalmente representan:

    * Texto libre (como “Otra religión”, nombres de etnias u observaciones).

    * Categorías que aún no han sido convertidas a formato numérico.

    * Posibles errores de codificación (por ejemplo, números guardados como texto).

Uso de memoria: 5.8 MB es razonable; no presenta problemas para trabajar cómodamente en memoria en un entorno local.

**Genera estadísticas descriptivas para todas las columnas**

* Para variables numéricas: cuenta, media, desviación estándar, mínimo, percentiles y máximo.

* Para categóricas: cantidad de entradas, valores únicos, valor más frecuente (top) y su frecuencia.

In [5]:
df.describe(include='all')

Unnamed: 0,ResponseID,¿Hacomprendidolosaspectosgeneralesdelproyectoydeseaparticiparen,Trabajo,Sexo,Religion,OtraEscríbalaReligion,Etnia,OtroEscríbalaEtnia,EstCivil,edad,...,mhc_pwb,hiaff,loaff,hifunc,lofunc,hiaffect,loaffect,hifunct,lofunct,mhc_dx
count,8207.0,8207.0,8206.0,8206.0,8206.0,55,8206.0,15,8206.0,8206.0,...,8206.0,8207.0,8207.0,8207.0,8207.0,8207.0,8207.0,8207.0,8207.0,8207.0
unique,,,,,,46,,14,,,...,,,,,,,,,,
top,,,,,,Agnóstico,,Ladina,,,...,,,,,,,,,,
freq,,,,,,2,,2,,,...,,,,,,,,,,
mean,4984.520044,1.000122,1.629417,1.622959,2.378504,,1.358396,,2.783817,23.569583,...,13.523154,0.466918,0.772024,1.468381,4.567442,0.278421,0.40965,0.070062,0.370781,0.779822
std,2855.227298,0.011038,1.296226,0.491913,2.08393,,0.516511,,2.880147,5.649759,...,5.17825,0.856422,1.065744,2.182608,3.131227,0.448249,0.491799,0.255267,0.483043,0.546758
min,23.0,1.0,0.0,1.0,1.0,,1.0,,1.0,17.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2553.5,1.0,0.0,1.0,1.0,,1.0,,1.0,20.0,...,10.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0
50%,4910.0,1.0,2.0,2.0,2.0,,1.0,,1.0,22.0,...,13.0,0.0,0.0,0.0,4.0,0.0,0.0,0.0,0.0,1.0
75%,7358.5,1.0,3.0,2.0,2.0,,2.0,,3.0,25.0,...,18.0,1.0,1.0,2.0,7.0,1.0,1.0,0.0,1.0,1.0


Se observa que existen valores Nulos, por lo que se procede a la limpieza de datos para volver a analizar la estadística descriptiva.

In [6]:
#Busqueda de datos nulos
df.isnull().sum()[df.isnull().sum() > 0]
#Si el resultado es mayor a 0 es porque tenemos nulos

Trabajo                     1
Sexo                        1
Religion                    1
OtraEscríbalaReligion    8152
Etnia                       1
                         ... 
Total_MHC                   1
mhc_total                   1
mhc_ewb                     1
mhc_swb                     1
mhc_pwb                     1
Length: 67, dtype: int64

# **Se hará un análisis para cada columna y determinar si es relevante o no para el modelo.** 

La primera columna corresponde a ResponseID, esta solamente es un identificador
para cada respuesta y por lo tanto se considera de información no relevante.

In [7]:
df.drop(columns=['ResponseID'], inplace=True) #Eliminación de columna en el dataset cargado en la carpeta

De igual manera, la siguiente columna **¿Hacomprendidolosaspectosgeneralesdelproyectoydeseaparticiparen** solamente es una pregunta
sobre consentimiento, al observar el excel vemos que solo 1 persona dijo que no; sin embargo, contestó las preguntas. Por tanto la columna no aporta información valiosa para el análisis y se elimina.

In [8]:
df.drop(columns=['¿Hacomprendidolosaspectosgeneralesdelproyectoydeseaparticiparen'], inplace=True)

Las columnas de trabajo, sexo, y religión tienen nada más 1 dato faltante  y aportan información relevante en cuanto a presión de trabajo, sesgos o tratos diferentes según el sexo y la forma de ver la vida mediante la religión. Sin embargo, analizando **OtraEsríbalaReligion** se concluye lo siguiente:
> Se eliminó por baja cobertura (solo 55 respuestas, <1%).  
> Además, la columna `Religion` ya captura esta categoría con el valor 8 = "Otra".  
> Los valores ingresados son variados, no estructurados y difíciles de procesar de forma útil.  
> Decisión: no aporta valor predictivo ni mejora el análisis general.

In [9]:
df.drop(columns=['OtraEscríbalaReligion'], inplace=True)

De manera similar al caso anterior, tenemos que Etnia solamente tiene 1 valor nulo faltante. Por otro lado  **OtroEscríbalaEtnia**, solo tiene 15 respuestas, por tanto se concluye lo siguiente:
> Esta variable fue descartada por tener solo 15 respuestas no nulas (≈0.18%).  
> Los valores en su mayoría repetían opciones existentes o eran irrelevantes ("No sé", "Guatemalteco").  
> La variable `Etnia` ya contempla un valor 5 = "Otro", lo que hace redundante esta columna.  
> No se justifica su inclusión en el análisis cuantitativo.

In [10]:
df.drop(columns=['OtroEscríbalaEtnia'], inplace=True)

Variables: `EstCivil`, `edad`, `Terapia`, `TrataPsi`

Estas variables fueron **retenidas** por su alto valor explicativo y baja cantidad de datos nulos (solo 1 cada una).

- `EstCivil`: importante para evaluar apoyo social y contexto emocional.
- `edad`: esencial para segmentar análisis por rangos etarios.
- `Terapia`: indica exposición previa a procesos psicológicos.
- `TrataPsi`: muestra si actualmente recibe atención psicológica, y el grado de compromiso terapéutico.

**Variable: ¿Tiene hijos?**

Se conserva como binaria (`0 = No`, `1 = Sí`). Se considera suficiente para capturar el peso psicosocial de tener personas dependientes, sin necesidad de conocer la cantidad exacta.

Las variables que pedían número de hijos o hijas (`Hijo...`, `Hija...`) fueron descartadas debido a:
- Inconsistencias entre respuestas (ej. “Sí” pero cantidad 0).
- Alta cantidad de valores nulos.
- Presencia de outliers como `99`.
- Bajo número de registros útiles frente al total.

In [11]:
# Eliminar las columnas relacionadas con la cantidad de hijos
df.drop([
    'HijoEscribalacantidadennúmerosNúmerodehijosehijasquedependenec',
    'HijaEscribalacantidadennúmerosNúmerodehijosehijasquedependenec'
], axis=1, inplace=True)

Cobertura completa en **UnAca**: Todas las personas respondieron esta columna (8207 non-null), por lo tanto, no hay vacío que necesite ser complementado por la columna "otra".

Contenido redundante o erróneo: Lo que se escribió en **OtraEscríbalaUnAca** en la mayoría de casos corresponde a carreras específicas o malinterpretaciones que ya están abarcadas por las categorías existentes en UnAca.

Bajo volumen y posible ruido: Solo 234 respuestas no nulas (menos del 3%), y entre estas, muchas no aportan información realmente diferenciadora.

In [12]:
df.drop('OtraEscríbalaUnAca', axis=1, inplace=True)

**CEntroU1**:

    - Tiene 0 datos no nulos, es decir, completamente vacío.
    - Su etiqueta confunde (dice “Unidad Académica”, pero la variable se llama como si fuera centro universitario).
    - Información ya cubierta por UnAca.

**OtroEscríbalo¿Enquécentrouniversitarioestáinscrito**:

    - Solo tiene 7 respuestas (< 0.1% del total).
    - Las respuestas ya están incluidas en las categorías de CEntroU.
    - No aporta diferenciación ni mejora la clasificación.

Por tanto, se eliminan ambos columnas y solo se conserva **CentroU**

In [13]:
df.drop(['CEntroU1', 'OtroEscríbalo¿Enquécentrouniversitarioestáinscrito'], axis=1, inplace=True)

### Variables que deben conservarse:
**Grado**:	Diferentes niveles académicos (pregrado, grado, posgrado) implican distintas exigencias, presiones y contextos emocionales.

**Semestre**:	Etapas más avanzadas (como el último semestre) pueden implicar mayor carga académica o ansiedad por egresar.

**Jornada**:	La jornada en que estudian influye en rutinas, cargas de sueño, conciliación trabajo-estudio, etc. Por ejemplo, quienes estudian de noche pueden también estar trabajando de día.

### **Carrera**: Se conserva pero se debe normalizar a nombres estándar de manera posterior

### Eliminación de variables: `Maestríaenlaquerealizasuresidencia` y `Gradoderesidenciaquecursa`

Estas variables fueron eliminadas por las siguientes razones:

- **Maestríaenlaquerealizasuresidencia**: Tiene un número muy reducido de respuestas (solo 36 casos), lo cual representa una proporción mínima del total de registros (8207). Además, no se cuenta con una codificación clara de los valores, lo que dificulta su interpretación.
  
- **Gradoderesidenciaquecursa**: Similarmente, contiene únicamente 34 respuestas y no se dispone de una descripción o etiquetas que permitan comprender con claridad a qué se refieren los valores registrados.

Ambas variables parecen estar dirigidas a una población muy específica (personas en residencia o postgrado), por lo que no aportan valor significativo al análisis general. Debido a su baja cobertura y ambigüedad, se decidió eliminarlas del conjunto de datos.


In [14]:
df.drop(columns=['Maestríaenlaquerealizasuresidencia', 'Gradoderesidenciaquecursa'], inplace=True)

### Conservación de variables: PHQ, CD-RISC, MHC y GAD

Se decidió **conservar todas las columnas correspondientes a las escalas PHQ, CD-RISC, MHC y GAD** por las siguientes razones:

- **Importancia clínica y psicológica**: Estas variables representan respuestas a ítems pertenecientes a escalas psicológicas estandarizadas ampliamente utilizadas en la evaluación de salud mental:
  - **PHQ (Patient Health Questionnaire)**: Evalúa síntomas depresivos.
  - **CD-RISC (Connor-Davidson Resilience Scale)**: Mide la resiliencia psicológica.
  - **MHC (Mental Health Continuum)**: Evalúa el bienestar psicológico, emocional y social.
  - **GAD (Generalized Anxiety Disorder scale)**: Mide síntomas de ansiedad generalizada.

- **Relación directa con el objetivo del estudio**: Estas escalas ofrecen la información más directamente relacionada con el estado emocional, psicológico y de salud mental de los participantes, siendo esenciales para cualquier análisis posterior de perfiles emocionales o niveles de riesgo.

- **Falta de datos manejable**: Aunque algunas columnas presentan datos faltantes, el porcentaje de valores ausentes es bajo en comparación con el total de registros (8207). Por tanto:
  - Es posible imputar los valores faltantes con estrategias simples como la media o mediana del ítem correspondiente.
  - La imputación no comprometerá significativamente la calidad del análisis, dada la consistencia de la mayoría de las respuestas.

- **Estandarización**: Estas escalas siguen estructuras estandarizadas y validadas, por lo que no requieren reestructuración ni limpieza compleja, facilitando el procesamiento posterior.

En resumen, estas columnas contienen información **esencial, estructurada y relevante** para los objetivos del análisis y deben conservarse íntegramente.


### Sigue el análisis para las siguientes columnas:
**ConsumoSustancias**

* Tipo: Numérica (0 = No, 1 = Sí).

* No nulos: 7350 / 8207 (~89.5% completitud).

* Valor: Alta. Sirve como variable agregada que indica si la persona ha consumido alguna sustancia.

* Decisión: Conservar.

* Justificación: Tiene buena cobertura, binaria y directa, útil como punto de partida o para segmentar.

**Tabaco¿Quétipodesustanciaspsicoactivashaconsumidoenlosúltimos**

* Tipo: Texto (object).

* No nulos: 786 / 8207 (~9.6%).

* Valor: Moderado. Sirve como indicador de consumo específico de tabaco, pero podría estar redundado si ConsumoSustancias es “No”.

* Decisión: Conservar.

* Justificación: Aunque tiene muchos nulos, contiene información específica sobre tipo de sustancia. Se puede binarizar ("consumió tabaco" sí/no) para análisis posterior. Ayuda a diferenciar perfiles de consumo.

**Marihuana¿Quétipodesustanciaspsicoactivashaconsumidoenlosúlti**
* Tipo: Texto.

* No nulos: 261 / 8207 (~3.2%).

* Valor: Moderado a bajo.

* Decisión: Conservar.

* Justificación: Aunque escasa, permite análisis específico del consumo de marihuana. Igual que con tabaco, se puede transformar a binaria. Puede ser útil si se busca asociar tipo de sustancia con otras variables (ej. salud mental, riesgo, etc.).

**Cocaína¿Quétipodesustanciaspsicoactivashaconsumidoenlosúltim**
* Tipo: Texto.

* No nulos: 53 / 8207 (~0.6%).

* Valor: Bajo.

* Decisión: Eliminar.

* Justificación: El número de respuestas es demasiado bajo para análisis significativo o entrenamiento de modelos. Además, su utilidad ya está indirectamente contenida en ConsumoSustancias.

**Alcohol¿Quétipodesustanciaspsicoactivashaconsumidoenlosúltimo**
* Tipo: Texto.

* No nulos: 1721 / 8207 (~21%).

* Valor: Alto.

* Decisión: Conservar.

* Justificación: El alcohol es una de las sustancias más frecuentemente consumidas. La cobertura es considerable y puede relacionarse con muchos factores psicológicos o sociales.

**Otras¿Quétipodesustanciaspsicoactivashaconsumidoenlosúltimos1**
* Tipo: Texto.

* Contenido: Solo dice "Otras" o está vacío.

* Valor: Nulo.

* Decisión: Eliminar.

* Justificación: No aporta valor. No especifica qué sustancia fue consumida ni se puede codificar de forma útil. No tiene profundidad.

In [16]:
# Lista de columnas a eliminar definitivamente
columnas_a_eliminar = [
    "Cocaína¿Quétipodesustanciaspsicoactivashaconsumidoenlosúltim",
    "Otras¿Quétipodesustanciaspsicoactivashaconsumidoenlosúltimos1"
]

# Eliminarlas del DataFrame
df.drop(columns=columnas_a_eliminar, inplace=True)

### Las siguientes son las ultimas columnas a considerar:

**SUMPHQ:**	    Puntaje total del PHQ-9 (depresión), muy útil como variable continua.

**AGrupPHQ:**	Clasificación clínica de depresión (ordinal). Ideal para análisis de grupos.

**SUMCDrisc:**	Sumatoria de resiliencia, útil como indicador continuo.

**NivCDRisc:**	Niveles de resiliencia (ordinal).

**Total_MHC:**   Medida de bienestar mental general. Tal vez son duplicadas, habría que revisar.

**SumaGAD:**	    Puntaje total de ansiedad (GAD-7).

**NivelesGAD:**	Clasificación clínica de ansiedad.

**mhc_ewb, mhc_swb, mhc_pwb:** Subcomponentes del bienestar (emocional, social, psicológico). Útiles para análisis más finos.

**hiaffect, loaffect, hifunct, lofunct:**  Binarias que permiten identificar perfiles extremos. Muy útiles.

**mhc_dx:**   Diagnóstico categórico de bienestar mental. Fundamental para clasificación.

In [19]:
np.allclose(df["Total_MHC"], df["mhc_total"], equal_nan=True) # Para verificar si son idénticas


True

In [20]:
#Devuelve True, eso significa que ambas columnas contienen valores equivalentes, considerando también los NaN.
#Por lo tanto, se elimina con confianza la columna Total_MHC, ya que es redundante con mhc_total.
df.drop(columns=["Total_MHC"], inplace=True)

In [21]:
df.info() #Comprobamos que se haya eliminado

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8207 entries, 0 to 8206
Data columns (total 78 columns):
 #   Column                                                         Non-Null Count  Dtype  
---  ------                                                         --------------  -----  
 0   Trabajo                                                        8206 non-null   float64
 1   Sexo                                                           8206 non-null   float64
 2   Religion                                                       8206 non-null   float64
 3   Etnia                                                          8206 non-null   float64
 4   EstCivil                                                       8206 non-null   float64
 5   edad                                                           8206 non-null   float64
 6   Terapia                                                        8206 non-null   float64
 7   TrataPsi                                                    

In [22]:
df.to_csv("datasetColumnas.csv", index=False) #Guardar dataset con las columnas relevantes

**Esta listo para seguir con la Limpieza y Transformación de Datos**