# Sprint 9 - Introducción al Aprendizaje Computacional (Sesiones)
**Versión para estudiantes**

En el siguiente caso de estudio vamos a introducir algunos conceptos básicos asociados a la preparación de los datos y a la construcción de algoritmos que permitan desarrollar modelos de aprendizaje computacional. En este sentido, es importante aclarar que el propósito de desarrollar este tipo de modelos radica en una de las opciones siguientes:

* Por una parte, la necesidad de pronosticar eventos específicos expresados en variables (usualmente llamadas objetivos) a través de otras variables explicativas (comúnmente llamadas atributos). A estos casos se les conoce como modelos **supervisados**.
* Por otra, la necesidad de descubrir y evidenciar patrones específicos a través de variables explicativas (atributos). A estos casos, se les conoce como modelos **no supervisados**.

En ambas circuntancias resulta evidente la necesidad de contar con datos, pues es en estos donde se guarda información asociada a variables, tanto de tipo objetivo como atributos. Por lo tanto, es aquí donde nos concentraremos específicamente, iniciando con los modelos **supervisados**.

Vale igualmente comentarte que existen otros modelos cuyos objetivos no dependen de la existencia de datos como tal, sino en la especificación de las llamadas "bases de conocimiento". Te recomiendo que en este ámbito investigues sobre los que son los modelos **por refuerzo** o los modelos de **razonamiento aproximado**, muy útiles para los desarrollos de inteligencias artificiales y robótica.

Volviendo a los modelos **supervisados**, existen dos tipologías distintas que dependen de la clase a la que corresponda la variable objetivo. Así, si la misma es numérica (entero o flotante) los modelos a utilizar se conocen como de **regresión**. Caso contrario, si el objetivo es no numérico (string o buleano) los modelos son de **clasificación**.

Empecemos entonces con el contexto del presente caso.

## Entendimiento del contexto

La detección temprana de enfermedades catastróficas ha sido desde hace mucho tiempo uno de los principales desafíos de la investigación científica y médica. En cuanto ha esto, en la actualidad aún no existen mecanismos que sean lo suficientemente confiables y robustos, por lo que los controles continuos de enfermedades como el cáncer son actividades casi obligatorias para todas las personas. 

A pesar de lo anterior, lamentablemente en el mundo las cifras derivadas de esta enfermedad son alarmantes. Para 2024 se estima que cerca de 20 millones de nuevos casos fueron detectados, y aproximadamente 10 millones de personas murieron por aspectos relacionados al cáncer. Además, gran parte de los diágnósticos de cáncer están asociados a mama, pulmón, colón y próstata, por lo que el impacto de la enfermedad va más allá de un tema sanitario, dejando secuelas en el ámbito social de las víctimas y sus familias y amigos.

Dado este antecedente, un centro de investigación médica para la lucha contra el cáncer se encuentra trabajando en herramientas tecnológicas que lo conviertan en el líder de su sector a la vez que aporten un valor social y sanitario en cuanto a la detección temprana de esta enfermedad. Es así que te ha contratado como científico de datos para que desarrolles un modelo predictivo capaz de detectar tumores malignos a partir de sus características físicas relevantes. Está por demás decir que un buen resultado de tu trabajo permitiría complementar el diagnóstico médico tradicional, permitiendo a la empresa dar un importante paso hacia el cumplimiento de su misión.

## Entendimiento de los datos

Importa las librerías y módulos con las que vas a trabajar, incluyendo lo siguiente desde **Scikit-Learn**:

* Las funciones `plot_tree` y `DecisiontreeClassifier` del grupo `tree`.
* La función `train_test_split` del grupo `model_selection`.
* Todas las funciones del grupo `metrics`.

Vale señalar que para un científico de datos **Scikit-Learn** es tan importante como **pandas**, ya que contiene una gran cantidad de herramientas enfocadas en el desarrollo de modelos de aprendizaje computacional de tipo supervisado y no supervisado.

Los datos con los que vas a trabajar se encuentran en la tabla **cancer**.

Este dataset contiene 569 registros de tumores detectados en pacientes que han sido atendidos por el centro de investigación, y para cada uno de ellos se incluye información relacionada a sus características físicas como tamaño, textura, rugosidad, densidad, concavidad y simetría, así como su tipología en cuanto a si el tumor es maligno (M) o benigno (B).

Carga el dataset y explora la información que contiene para que establezcas un plan de acción de procesamiento en caso de requerir.

**PLAN DE ACCION DE PROCESAMIENTO**

< Aquí tu respuesta >

Adicionalmente, establece un objetivo técnico en el cual especifiques concretamente qué buscas predecir y cómo planeas hacerlo. Puedes incorporar igualmente hipótesis que surjan en base a la exploración que realizaste.

**OBJETIVO TÉCNICO**

< Aquí tu respuesta >

Existen otros aspectos que deberías definir en este momento, pero como es tu primer modelo predictivo por ahora vamos a continuar con nuestro documento ejecutando las siguientes etapas:

* Ingeniería de datos
* Creación de modelo base
* Optimización del modelo

## Ingeniería de datos

La ingeniería de datos hace referencia a una serie de actividades que permiten "traducir" los datos a un lenguaje comprensible para los algoritmos por implementar en el modelo de aprendizaje. Considera en cuanto a esto la siguiente idea:

*Puedes imaginar que las computadoras son como niños aprendiendo a sumar. Deben hacer tareas y ejercicios en clase que sean comprensibles pero desafiantes. Luego deben confirmar su aprendizaje en un examen final sin ningún tipo de asistencia de compañeros o maestros. Si superan esta evaluación, se puede asegurar que han aprendido el concepto de suma.*

Por lo expuesto, el primer paso para crear un modelo de aprendizaje computacional consiste en dividir los datos en un subconjunto de **entrenamiento** y otro de **prueba** (o **validación**). Con el primero se busca que el algormitmo a implementar aprenda y se ajuste a las variables existentes. Por su parte, con el conjunto de prueba se pretende verificar que el modelo esté funcionando de forma adecuada ante datos que no ha observado durante su entrenamiento. Volviendo al simil del niño aprendiendo a sumar, el conjunto de entrenamiento consiste entonces en las tareas y ejercicios en clase, y el de prueba es el examen final.

Divide entonces el dataset en estas dos partes utilizando la función `train_test_split` de **Scikit-Learn**, tal que el conjunto de prueba represente el 30% de registros originales. Vale mencionarte que este proceso de ingeniería se conoce como **Particionamiento de datos**. 

En los siguientes casos que veamos iremos incorporando nuevos procesos de ingeniería de datos y los iremos justificando con nuestro simil. Pero por ahora podemos asegurar que nuestros atributos y objetivo están listos.

## Creación de modelo base

A continuación vamos a entrenar un algoritmo para que sea capaz de predecir asertivamente si un tumor es maligno o benigno en base a los datos existentes. Para esto, se va a utilizar uno de los algoritmos básicos para resolver problemas de **clasificación**: el árbol de decisión.

Este algoritmo funciona dividiendo los datos en ramas basadas en reglas de decisión que se derivan de las características observadas en los atributos, con el propósito de predecir el valor que tendrá la variable objetivo en alguna hoja del árbol. En este sentido, cada nodo de decisión interno representa una condición o **parámetro** sobre un atributo (i.e concavity > 0.1), cada rama representa una respuesta posible (i.e True / False), y cada hoja representa un valor de predicción. 

Una de las principales ventajas de este algoritmo es que es fácil de interpretar y visualizar. También entre sus bondades radica que no exige de muchas condiciones iniciales respecto a los atributos, por lo que simplifica enormemente la ingeniería de datos. Todo esto hace del árbol de decisión uno de los algoritmos más populares y de uso más extendido. 

Sin embargo, y si bien por ahora puede ser dificil de comprender, vale mencionar que una desventaja importante de este algoritmo es que requiere de mucho control en su entrenamiento y optimización, pues de no hacerlo es sensible a generar **sobreajuste**.

### Creación mediante algoritmo de árbol de decisión

Crea entonces un modelo basado en este algoritmo usando la función `DecisionTreeClassifier` de **Scikit-Learn**, y establece los argumentos *criterion* con el valor "gini" y *max_depth* en 5. no te preocupes, muy pronto vamos a explicar que quiere decir "gini".

Los argumentos *criterion* y *max_depth* hacen referencia al método numérico de creación de ramas y al tamaño máximo del árbol que queremos crear, respectivamente. En términos más técnicos de aprendizaje computacional a estos argumentos lo llamamos **hiperparámetros**, y a diferencia de un **parámetro** normal, estos pueden ser definidos y controlados *a-priori* por el científico de datos. Por consiguiente, son **OPTIMIZABLES**. 

### Entrenamiento del modelo

Como siguiente paso, has que el modelo base aprenda a pronosticar el tipo de tumor, utilizando el conjunto de entrenamiento y el método `fit`.

Como se indicó antes, el algoritmo de árbol de decisión es fácil de visualizar a interpretar. Utiliza la función `plot_tree` para mirar a nuestro modelo base.

Notemos algunas cosas interesantes de esta visualización:

* El modelo base dice que los atributos concave_points, area, y texture son los más relevantes a la hora de decidir si un tumor es maligno o benigno. Una primera confirmación parcial de nuestra hipótesis al menos en cuanto a las dos primeras variables.
* En cada nodo se evidencia el indice de Gini que hemos establecido como método de creación de ramas, y que mide el grado de igualdad entre las clases B y M de la variable objetivo en cada nodo. Un valor cercano a 0.5 indica que existe una mayor igualdad (hay una misma cantidad de un tipo que de otro), y uno cercano a 0 establece que existe desigualdad (hay más de un tipo que de otro). En consecuencia, es una buena noticia que el indice de Gini en gran parte de las hojas sean en su mayoría valores de aproximadamente 0.  

Confirma la importancia de las variables mencionadas visualizando el porcentaje de relevancia que cada atributo tendrá para el pronóstico del modelo.

### Evaluación del modelo

¿Qué tan bien predice nuestro modelo base? Para responder a esta pregunta vale enfocarse en dos aspectos importantes que determinan una buena capacidad predictiva:

* El grado de asertividad en el "examen final" debe ser suficientemente alto.
* El grado de asertividad en el "examen final" debe ser similar a aquel de los "ejercicios en clase". 

Veamos el primer aspecto. Construye una **matriz de confusión** que permita contrastar los valores reales de tumor_type con los que predice el algoritmo entrenado. Para esto utiliza el método `predict` con los datos de prueba y luego utiliza la función `crosstab` de **pandas**. 

En esta matriz de confusión se evidencia que 99 casos que en efecto eran tumores benignos fueron correctamente pronosticados por el modelo; así también 57 casos de tumores malignos. Es decir, 156 datos de 171 fueron predichos acertivamente, o lo que lo mismo, el modelo base tiene una **exactitud** del $91.23\%$. 

Concentrémonos también en el tipo de tumor más sensible: el maligno. Fijémonos que 61 casos fueron predichos por el modelo en esta clase, y de ellos 57 efectivamente son tumores malignos. Esto es, el modelo base tiene una **precisión** respecto al tipo de tumor maligno del $93.44\%$.

Veamos esto desde otra perspectiva pero aún considerando el caso de tumores malignos. En los datos de prueba 68 casos era de esta clase, y como ya se mencionó 57 fueron bien pronosticados. Entonces, el modelo base tiene una **sensibilidad (recall)**  respecto al tipo de tumor maligno del $83.82\%$

Visto esto, muestra un resumen de las métricas de evaluación del modelo utilizando la función `metrics.classification_report`.

En este reporte aparece el también la métrica **F1**, que consiste en un promedio armónico de la precisión y la sensibilidad

$$ F1 = \frac{2 \times precision \times recall}{precision + recall} $$

Ahora bien, notemos que para evaluar un modelo existen diversas métricas a considerar, y el seleccionar una u otra como referencia principal para concluir que un resultado es asertivo dependerá del contexto de cada caso. Dado lo anterior, puede ser conveniente enfocarnos tanto en la **precisión** como en la **sensibilidad** de la clase de tumores malignos, puesto que sería crítico que nuestro modelo no sea capaz de detectar estos tumores cuando de hecho los hay en un paciente (baja sensibilidad), pero igualmente sería contraproducente que el modelo pronostique que un paciente está enfermo, cuando de hecho no lo está (baja precisión). Por tanto, usar el **F1** al ser un promedio de ambas metricas puede resultar útil.

Guarda por tanto esta métrica en una variable utilizando la función `metrics.f1_score`.

Guarda también las otras métricas que hemos visto utilizando las funciones `metrics.accuracy_score`, `metrics.precision_score` y `metrics.recall_score`.

Cambiemos ahora nuestro enfoque al segundo aspecto mencionado al inicio de esta sección, viendo qué tan similar es el grado de asertividad en el conjunto de prueba con aquel que obtendríamos en el conjunto de entrenamiento. Calcula por tanto la métrica F1 para casos de tumores malignos en el conjunto de entrenamiento y mira la diferencia existente entre el valor obtenido antes.

A esta diferencia se la conoce como **sobreajuste** del modelo y mide que tan bien (o mal) el mismo el capaz de pronosticar cuando desconoce el resultado real. Se podría entender entonces como la confiabilidad del modelo cuando este ya se encuentre funcionando en un contexto real.

Es lógico que siempre exista un grado de sobreajuste en los modelos, pues si pensamos en nuestro simil del niño aprendiendo a sumar, diversos factores como el estrés, los nervios o el cansacio, tienden a incidir en que la calificación de su examen final sea levemente menor al de sus tareas y ejercicios en clase.

Por tanto, un nivel de sobreajuste de poco más del 10% en valores referenciales de 90 puntos porcentuales no resulta tan preocupante aunque podría mejorarse. En cualquier caso, a continuación te comparto dos artículos que detallan un poco más sobre este tema y ofrecen algunas alternativas para controlar el sobreajuste cuando este se presenta:

https://www.geeksforgeeks.org/machine-learning/how-to-avoid-overfitting-in-machine-learning/

https://medium.com/data-science/8-simple-techniques-to-prevent-overfitting-4d443da2ef7d

## Optimización del modelo

En esta etapa nuestro objetivo es maximizar los resultados alcanzados con el modelo base a través de técnicas que modifiquen el algoritmo utilizado. Vamos entonces a conocer e implementar la primera de estas técnicas: el **ajuste de hiperparámetros**. 

Como ya mencionamos, el algoritmo de árbol de decisión tiene como hiperparámetro al tamaño máximo del árbol representado por el argumento *max_depth*, y este puede ser controlado por nosotros. Entonces, desarrolla una función que permita probar distintos algoritmos en base al método numérico de creación de ramas y al tamaño de árbol, y que devuelva como resultado la métrica F1 para casos malignos en prueba y el sobreajuste.

Mediante un bucle `for`, comprueba distintas alternativas de los hiperparámetros a fin de seleccionar la opción que tenga un sobreajuste menor al 10% y a su vez maximice el F1 de casos malignos en prueba.

Con un tamaño de árbol de 2 y un método de creación de ramas "log_loss" hemos mejorado el sobreajuste, además de incrementar la métrica F1. Incluso, puede ser que tengamos mejores resultados en las otras métricas como un efecto positivo adicional.

Para tu conocimiento, el método de Pérdida Logística de Entropía ("log_loss"), al igual que el indice de Gini, mide el grado de similitud en cada nodo, tal que si su valor es cercano a 1 hay mayor igualdad en la cantidad de casos de tipo B y M, y si es cercano a 0 sucede lo contrario. 

Construye y entrena un modelo optimizado con este nuevo hiperparámetro definido.

Genera la matriz de confusión del modelo optimizado con los datos de prueba.

Muestra un reporte de las metricas alcanzadas con el modelo optimizado en el conjunto de prueba.

Compara estos resultados con los obtenidos en el modelo base. Para esto debes calcular primero estas métricas del modelo optimizado.

Todas las métricas mejoran con excepción de la precisión, sin embargo esta reducción queda absolutamente compensada con una mayor sensibilidad. En consecuencia, si bien podrían existir algunos "falsos positivos" en la detección de tumores malignos, existirían mucho menos "falsos negativos" pudiendo derivar en mejor control de la enfermedad.

Visualiza tu modelo optimizado para finalizar.

Nuestra hipótesis ha sido validada visto que las variables de concavidad y de área del tumor son suficientes para pronosticar la tipología del mismo. Parafraseando a Occam: *"lo simple a veces es mejor"*.

¡Listo! Has construido tu primer modelo con aprendizaje computacional con altos niveles de asertividad y con el menor sobreajuste posible. El centro de investigación que te contrató ya tiene una herramienta nueva para la detección anticipada del cáncer, y eso debe hacer que te sientas orgulloso.

Si quieres guardar tu modelo puedes hacerlo ejecutando el siguiente código que utiliza la librería **pickle**:

```py
import pickle

nombre_archivo = "mi_primer_modelo_ml.pkl"
with open(nombre_archivo, "wb") as file:
    pickle.dump(mod_optimo, file)
```

Y si quieres cargarlo en otro notebook, puedes ejecutar el siguiente codigo:

```py
import pickle

nombre_archivo = "mi_primer_modelo_ml.pkl"
with open(nombre_archivo, "rb") as file:
    mod_cargado = pickle.load(file)
```