# Práctica Guiada de Laboratorio 10 - Inteligencia Artificial G1 (EAPIS) 2022-1

# Implementación de técnicas de Machine Learning

### Prof. Rolando A. Maguiña Pérez

# Introducción

En la presente práctica, a realizarse el 15 de Agosto del 2022, se abordará el problema denominado “Predicción de cáncer de mama” mediante un par de técnicas  del área de la IA denominada  `Machine Learning`. Luego de la presentación del problema, se entrenarán sus respectivos algoritmos para "aprender a clasificar" si los datos corresponden a un cáncer de mama o no; luego, se evaluarán dichos algoritmos sobre un conjunto de datos de validación, y se elegirá el que ofrezca mejores métricas de precisión para elaborar nuestro modelo predictivo. 

En esa actividades se usará la biblioteca [scikit-learn](https://scikit-learn.org/stable/).

Las principales actividades a desarrollar en esta práctica son:
* Instalación de la biblioteca llamada scikit-learn y su aplicación para corroborar la construcción correcta de los ratios de acuerdo.
* Construcción de un par de algoritmos del área de la IA denominada  `Machine Learning`.
* Entrenamiento de las técnicas 
* Validación del modelo.
* Selección de la técnica.

Luego de realizar estas actividades  se plantearán algunas preguntas que los alumnos deberán resolver.

# Objetivos

Los objetivos de esta Práctica son:
- Conocer la herramienta llamada `scikit-learn`.
- Conocer la implementación de un par de técnicas de Machine Learning en el `scikit-learn`.
- Aprender las etapas del procesamiento de una data: entrenamiento/validación.
- Obtener el mejor modelo que resuelva el problema planteado.

# scikit-learn 

## Introducción al scikit-learn

[scikit-learn](https://scikit-learn.org/stable/) es una de las herramientas computacionales más populares y usadas en Machine Learning. Incluye algoritmos para abordar problemas de clasificación, regresión y clustering; asimismo, para otras tareas relacionadas, tales como, reducción de dimensionalidad, preprocesamiento del dataset, entre otras. 

Para esta PGL se deberá instalar previamente, para luego ser usada en la resolución de un ejercicio.

## Instalación del scikit-learn 

Instalar el scikit-learn siguiendo lo indicado en [Installing the latest release](https://scikit-learn.org/stable/install.html#install-official-release).

Se puede usar el sistema de gestión de paquetes llamado `pip` o el `conda`. Se recomienda usar el segundo de los nombrados.

# Predicción de cáncer de mama

## Introducción al problema

El cáncer es una de las principales causas de mortalidad en todo el mundo y la investigación en su diagnóstico y tratamiento se ha convertido en un tema de vital importancia para la comunidad científica. La prevención sigue siendo un reto, y la mejor manera de aumentar la supervivencia de los pacientes es a través de la detección temprana.

Si las células cancerosas son detectadas antes de su diseminación a otros órganos, la tasa de supervivencia es superior al 97%. Por esta razón, el uso y perfeccionamiento de clasificadores automáticos que den soporte al diagnóstico médico se ha incrementado notablemente en los últimos tiempos. Estos sistemas de clasificación tratan de minimizar los posibles errores producidos por los especialistas, aumentar el número de diagnosis que pueden realizar en un tiempo dado, y su porcentaje de éxito.

## Planteamiento del problema ejm

Se trata del problema de la predicción de cáncer de mama, o breast cancer, un problema bastante conocido en esta área. Consiste en que el sistema computacional "aprenda a clasificar" si los datos corresponden a un cáncer benigno o maligno; le debemos enseñar a efectuar esa tarea. Para ello, usaremos un dataset con ejms de personas que han tenido esa enfermedad (ejms positivos) y ejms de personas que no la han tenido  (ejmms negativos). El sistema estará basado en una técnica inteligente, una correspondiente al área de la IA llamada Machine Learning.

La base de datos del cáncer de mama de Wisconsin (WBCD) se tomará para la clasificación  de cáncer de mama. La WBCD consta de 699 muestras. Cada registro de la base de datos tiene nueve atributos. Los atributos son numéricos, y es preciso hacer cambios de escala o de unidades, y permite su aproximación como problema de clasificación.

Consta de 9 o atributos entradas basadas en características de las células:

1. Espesor Macizo
2. Uniformidad de tamaño de celula
3. La uniformidad de la forma de la célula
4. Adherencia Marginal 
5. Solo tamaño de células epiteliales
6. Núcleos desnudos
7. Bland Chromatin
8. Nucleolos normal
9. Mitosis

## Solución del problema ejm

Los pasos que vamos a dar para resolver este problema son los siguientes:  
1.	Carga de los datos y módulos/bibliotecas necesarias para este ejemplo.
2.	Exploración de los datos.
3.	Entrenamiento de los dos algoritmos seleccionados.
4.	Aplicación del modelo para hacer predicciones a partir de lo «aprendido» y evaluación para seleccionar el modelo más adecuado a este caso

### Carga de los módulos/bibliotecas y la data 

Hay una gran variedad de bibliotecas (librerías) que tenemos disponibles y en cada una de ellas, a su vez, hay módulos distintos.  Pero para poder utilizar, tanto las librerías como los módulos,  hay que importarlos explícitamente (salvo la librería estándar). Para el problema ejemplo importaremos unos módulos que necesitamos para este experimento en particular.

Primero se carga las librerías a usar. A continuación, se cargará la data. Se hará directamente desde el *sklearn*. 

In [1]:
from sklearn import datasets

In [2]:
dataset = datasets.load_breast_cancer()
print(dataset)

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
 

### Exploración de los datos

Es recomendable verificar la información contenida en el dataset. Para ello ejecutamos los sgtes comandos:

In [3]:
print("Información en el dataset:")
print(dataset.keys())
print()

Información en el dataset:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])



Verificamos las características del dataset. Usamos la clave `DESCR`, la cual proporciona una explicación de la estructura del conjunto de datos. Para leerlo, use la función print():

In [4]:
print("Características del dataset:")
print(dataset.DESCR)

Características del dataset:
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For i

Seleccionamos todas las columnas. Asimismo, definimos los datos correspondientes a las etiquetas (variable de salida).

In [5]:
X = dataset.data
y = dataset.target

### Selección de la técnica (algoritmo)

En esta subsección se van a crear un par de modelos a partir de los datos conocidos y estimar su precisión sobre datos nuevos. Para ello vamos a realizar los siguientes pasos:
- Crear un dataset de validación con una parte de los datos disponibles.
- Construir 2 modelos diferentes para predecir, a partir de los datos de entrada recogidos en el dataset, si se trata de un cáncer de mama o no.
- Seleccionar el mejor de los dos modelos.

#### Creación del conjunto de datos de validación

Sabemos que debemos entrenar las técnicas de modo que aprendan a clasificar si los datos de entrada corresponden a un cáncer de mama o no. Ello permitirá obtener los modelos respectivos. Allí surgirá una pregunta: ¿Cómo saber si nuestro modelo es bueno?. Para resolver esto vamos a usar las métricas vistas en una sesión anterior, relacionadas a la Matriz de Confusión.  Dichas métricas permiten evaluar la «calidad» de un modelo basado en Machine Learning. 

Con esa finalidad se separa la data en un conjunto de datos para el entrenamiento y en un segundo conjunto con datos para la validación, es decir, para probar los modelos; para ello, reservaremos un 20% de los datos del dataset original. Así, aplicándolo a este conjunto de validación, podremos comprobar cómo funciona el modelo, aquel que generamos entrenando el respectivo algoritmo con el 80% restante.

Para tal efecto, se importan desde *sklearn* los módulos necesarios. Asimismo, se escalarán todos los datos de modo que no haya diferencia en el orden de magnitud en las atributos de entrada.

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# Se escalan todos los datos
from sklearn.preprocessing import StandardScaler

escalar = StandardScaler()
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

### Construcción de los modelos

Como a priori no sabemos qué técnicas (algoritmos) pueden funcionar mejor para este problema, vamos a probar con 2 diferentes, ambos no lineales. Las gráficas iniciales ya indican que podemos ir por buen camino, porque se aprecia que algunas clase. Vamos a evaluar los siguientes algoritmos:

*	Regresión logística (LR)
*	K-Vecinos más cercanos (K-NN)

### Regresión Logística

Definimos la primera técnica a utilizar, en este caso la denominada Regresión Logística. Desde el *sklearn* importaremos los módulos que se requieren.

In [9]:
from sklearn.linear_model import LogisticRegression

algoritmo = LogisticRegression()

LogisticRegression()

#### Entrenamiento del modelo

Una vez implementada la técnica en el entorno del *sklearn*, se entrena el modelo con el algoritmo respectivo usando la data de entrenamiento (X_train, y_train).

In [14]:
algoritmo.fit(X_train, y_train)

KNeighborsClassifier()

#### Aplicación del modelo para hacer predicciones

Ha llegado el momento de poner a prueba el modelo creado a partir de los datos de entrenamiento. Con esa finalidad, debemos aplicarlo a esa parte del dataset original que separamos al principio como dataset de validación. Como se dispone de los valores correctos de clasificación, y no se han usado en el entrenamiento del modelo (tampoco se usaron los datos sobre los atributos de entrada), si comparamos los valores reales con los predichos por el modelo sabremos si el modelo está funcionando correctamente o  no; incluso se podrá cuantificar en qué medida lo está haciendo. 

A continuación, se realiza la predicción y se verifica, usando la matriz de confusión, el comportamiento del modelo mediante las métricas *exactitud* y *precisión* .

In [10]:
y_pred = algoritmo.predict(X_test)
from sklearn.metrics import confusion_matrix

matriz = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:")
print(matriz)
# Precisión del modelo
from sklearn.metrics import precision_score

precision = precision_score(y_test, y_pred)
print("Precisión del modelo:")
print(precision)
# Exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print("Exactitud del modelo:")
print(exactitud)

Matriz de Confusión:
[[39  4]
 [ 1 70]]
Precisión del modelo:
0.9459459459459459
Exactitud del modelo:
0.956140350877193


### k-NN

Implementaremos mediante las funciones necesarias la técnica llama K- Vecinos más cercanos. Enseguida, análogamente a lo realizado para la Regresión Logística, se entrenará el modelo y se verificará usando otra vez la matriz de confusión y la métrica *precisión* el desempeño del modelo.

#### Entrenamiento del modelo

In [12]:
from sklearn.neighbors import KNeighborsClassifier

algoritmo = KNeighborsClassifier(n_neighbors=5, metric="minkowski", p=2)
# Entreno el modelo
algoritmo.fit(X_train, y_train)

KNeighborsClassifier()

#### Aplicación del modelo para hacer predicciones

Ahora se realiza la predicción y la verificación del desempeño:
Para aplicar el  modelo basado en el algoritmo SVM, no tenemos más que ejecutar el siguiente código:

In [13]:
y_pred = algoritmo.predict(X_test)
# Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix

matriz = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:")
print(matriz)
# Precisión del modelo
from sklearn.metrics import precision_score

precision = precision_score(y_test, y_pred)
print("Precisión del modelo:")
print(precision)

Matriz de Confusión:
[[38  5]
 [ 2 69]]
Precisión del modelo:
0.9324324324324325


### Elección del mejor modelo 

Al ejecutar la celda, se observan los estimadores para cada modelo. De esta forma, es posible compararlos y elegir el modelo que funciona mejor. A partir de  los resultados obtenidos, observamos que el modelo que da un mayor valor de exactitud es la Regresión Logística (94%).

## Ejercicios

### Ejercicio 1

- Hemos basado el modelo en las técnicas llamadas Regresión Logística y K-NN SVM, obteniéndose   buenos resultados tanto en exactitud como en precisión para la primera;  los valores de precisión para K-NN, según se pudo observar, también son buenos. Aplique ahora las  técnicas denominadas SVM y Árboles de Decisión y compáre los resultados obtenidos con los obtenidos con las dos primeras técnicas.

### Ejercicio 2

- Aplique los ratios denominados Accuracy (Exactitud), Precision (Precisión), Sensibilidad (Recall) y F-measure (F1), que implementó en una Práctica anterior mediante funciones de Python, al problema. Analice sus resultados.

### Instrucciones para el envío de la solución

La solución de la "Práctica Guiada de Laboratorio 10 - IA 2022-1 G1 EPIS" podrá enviarse como respuesta a la tarea del mismo nombre publicada en la clase de Classroom, hasta las 23:59 h del Viernes 19 de Agosto del 2022, en un archivo con extensión .ipynb.

El documento deberá tener las sgtes características:

Nombre del archivo: solPGL10_IA_G1_nombre-apellidos.ipynb.

Todas las preguntas de la Práctica deben responderse en este mismo cuaderno computacional; la solución a cada pregunta debe registrarse en una celda debajo del planteamiento de la misma, mencionando explícitamente como subtítulo: "Solución del ejercicio n", donde "n" corresponde al número del ejercicio.