# Selección de Algoritmos y Modelación

1. Especifique su variable respuesta y detalle el tipo de problema que quiere resolver

El objetivo es construir un modelo que permita predecir la causa probable de muerte de una persona, en función de sus características demográficas. Para ello, se definió como variable respuesta la columna causa, la cual indica el código ICD-10 correspondiente al motivo de defunción registrado oficialmente.

Con el fin de enfocar el problema y mejorar la calidad del modelo, se realizó un filtro sobre el conjunto original de datos para conservar únicamente las observaciones relacionadas con tres de las causas de muerte más frecuentes:

Infarto del miocardio

Neumonía no especificada

Fallecida, sin mención de complicación

Esto convierte el problema en una tarea de clasificación multiclase, ya que el modelo debe asignar una observación a una de estas tres categorías posibles de causa de muerte.

La predicción de la causa probable de muerte, basada en variables como edad, sexo, y año de registro, tiene una fuerte relevancia para el análisis poblacional y la planificación de políticas de salud pública, ya que permite identificar perfiles demográficos de riesgo frente a enfermedades críticas.

2. Discutan si vale la pena agregar otros algoritmos que no habían tomado en cuenta o si consideran
necesario quitar algunos otros que no traen buenos resultados o que, por alguna razón que pueda
justificar y probar, no le hagan sentido. Para esta discusión, se recomienda fuertemente que pueda
discutir a través de la experimentación práctica entrenando algunos modelos previos y evaluando
sus resultados y demás consideraciones.


A lo largo del proyecto se ha realizado una exploración y evaluación progresiva de distintos algoritmos de aprendizaje supervisado, con el fin de identificar cuáles se adaptan mejor a la naturaleza del problema y los datos disponibles.

Inicialmente, se investigaron e implementaron los siguientes algoritmos de clasificación:

* **Random Forest**
* **Naive Bayes**
* **Support Vector Machines (SVM)**
* **Regresión Logística**
* **Gradient Boosting**

Estos modelos fueron evaluados considerando métricas de clasificación como precisión, recall y F1-score, con énfasis en su capacidad para distinguir correctamente entre las tres clases definidas en la variable respuesta (`causa`).

En esta nueva fase del proyecto, se están profundizando las pruebas con un subconjunto representativo de estos algoritmos, priorizando aquellos que mostraron mayor robustez y eficiencia en etapas anteriores. Específicamente, se están utilizando:

* **Redes Neuronales Artificiales (RNA)**
* **Regresión Logística**
* **Naive Bayes**
* **K-Nearest Neighbors (KNN)**
* **Random Forest**

La decisión de continuar con estos modelos se basa en sus buenos resultados preliminares, así como en su capacidad para adaptarse a distintos tipos de datos y configuraciones. Cada uno representa un enfoque distinto (lineal, probabilístico, basado en vecinos, árboles y redes), lo cual permite una comparación robusta y complementaria de rendimiento.

Esta fase se enfoca no solo en comparar la precisión de cada modelo, sino también en identificar cómo afectan variables como el tamaño del conjunto de entrenamiento, el balance de clases, y el preprocesamiento de variables categóricas y numéricas.


3. Seleccione (de esta primera experimentación) un mínimo de dos algoritmos a utilizar para responder
la variable respuesta de su proyecto. No habrá un máximo de algoritmos por comparar.

Se eligieron Random Forest y Regresión Logística como los dos mejores modelos basándose en los resultados obtenidos durante la evaluación de los modelos en las particiones 70/30, 80/20 y 85/15. Random Forest se destacó por su capacidad para manejar interacciones complejas entre las características y su robustez ante el sobreajuste, lo que lo hizo ideal para las características del conjunto de datos. A pesar de su mayor complejidad, mostró un rendimiento consistente y alto en comparación con otros modelos. Por otro lado, Regresión Logística fue seleccionada debido a su simplicidad y eficacia en tareas de clasificación multiclase, además de ofrecer una buena interpretación de las probabilidades de las enfermedades. Ambos modelos presentaron un buen equilibrio entre precisión, recall y f1-score, lo que los hace adecuados para la comparación y análisis de las tres enfermedades más frecuentes en el conjunto de datos.

4. Explique el método que siguió para obtener los conjuntos de entrenamiento y prueba, el porcentaje
de datos que hay en cada uno y si se encuentran balanceados o no, en caso de que la variable
respuesta sea categórica. Sí es cuantitativa analice los atípicos.



Método de obtención de conjuntos de entrenamiento y prueba:
Para obtener los conjuntos de entrenamiento y prueba, se utilizó la función train_test_split de la biblioteca scikit-learn, que realiza una división aleatoria de los datos. Los datos fueron divididos en tres proporciones estándar: 70/30, 80/20 y 85/15, en donde el primer valor indica el porcentaje de datos utilizados para entrenamiento y el segundo para la prueba. Este enfoque garantiza que los modelos sean entrenados con una parte significativa de los datos, mientras que se valida su rendimiento con un conjunto independiente de datos de prueba.

Balanceo de clases con SMOTE:
En cuanto al balanceo de clases, se utilizó la técnica SMOTE (Synthetic Minority Over-sampling Technique) para abordar el desequilibrio en la distribución de las clases de la variable respuesta. SMOTE genera ejemplos sintéticos para las clases minoritarias, lo que ayuda a equilibrar la representación de cada clase en el conjunto de entrenamiento. Este paso es crucial cuando se detecta que la variable respuesta (enfermedades) tiene una distribución desproporcionada, ya que asegura que el modelo pueda aprender de una representación más equitativa de todas las clases.

Conversión de variables categóricas y tratamiento de valores atípicos:
Como la variable respuesta es categórica (enfermedades), se aplicó LabelEncoder para convertir las clases en números, permitiendo que los modelos de clasificación trabajen con datos numéricos. Además, se realizó un análisis de los valores atípicos en la variable "edad". En los casos donde se encontraron valores erróneos (por ejemplo, el valor 999), se reemplazaron por la mediana de la variable "edad" para evitar que estos valores afectaran negativamente el rendimiento del modelo.

5. Utilice los algoritmos que determinó que serían los más útiles para aplicar a sus datos. Explique las
transformaciones y/o el preprocesamiento que tuvo que hacer para aplicarlos correctamente.

6. Cree varios modelos, (al menos 3 con cada algoritmo) con los algoritmos seleccionados. Varíe los
parámetros buscando el mejor modelo sin caer en un modelo desajustado o sobreajustado.
Construya un modelo final con los mejores parámetros. Explique con datos como llegó a ellos.

7. Discuta los resultados de los algoritmos incluyendo la matriz de confusión obtenida, en caso de que
sea un problema de clasificación, o la métrica de error que considere mejor si el problema es de
regresión. Recuerde incluir textos y gráficas (de ser necesarias) para apoyar su explicación.