# Aprendizaje supervisado con redes neuronales

Dentro del mundo del machine learning, existe un tipo de tarea llamado **aprendizaje supervisado**  en el cual se cuenta con ejemplos etiquetados previamente.

Dentro del aprendizaje supervisado, por su parte, tenemos tareas de regresión y clasificación.

  - **Regresión** Se tiene en la salida un número real con infinitos valores posibles en un rango determinado. Algunas aplicaciones de la regresión que podemos encontrar son por ejemplo, la predicción del precio de una casa.
  - **Clasificación** Se tiene en la salida un conjunto finito de valores posibles. En el caso de la clasificación predecimos categorias. Un ejemplo de un algoritmo de clasificación podría ser la predicción una caries dados ciertos datos de un paciente.

En este notebook veremos 2 ejemplos de cada uno de estos algoritmos.

In [None]:
import numpy as np
import tensorflow as tf 
from sklearn.datasets import load_diabetes, load_breast_cancer


## Regresión: Predicción de la prevalencia de diabetes en distintas etapas

Desarrollaremos un modelo de predicción para un dataset que contiene información de 442 pacientes y una medida de la progresión de la enfermedad un año luego de la medición.

Los campos del dataset son los siguientes:
  
  - edad en años
  - sexo
  - índice de masa corporal
  - presión arterial promedio
  - conteo de células T
  - lipoproteinas de baja densidad
  - lipoproteinas de alta densidad
  - hormona estimulante de la tiroides
  - lamotrigina
  - nivel de azucar en la sangre

La variable objetivo es una medida cuantitativa de progresión de la enfermedad un año después de la línea base.

Nota: los 10 campos han sido previamente normalizados.

Más información acerca del [dataset](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html)


## Obtención del dataset

Usaremos la función load_diabetes de scikit learn para importar el dataset en la memoria


In [None]:
X, y = load_diabetes(return_X_y=True)
print(f'X: {X.shape}, y: {y.shape}')

## Definición del modelo


In [None]:
model = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, input_shape=[10], activation='relu'),
        tf.keras.layers.Dense(1)
    ]
)


## Compilación del modelo


In [None]:
model.compile(optimizer='sgd', loss='mean_squared_error')

## Entrenamiento de la red

In [None]:
history = model.fit(X, y, epochs=20)

In [None]:
import matplotlib.pyplot as plt
plt.plot(history.history['loss'])
plt.show()

Como se pudo observar, el flujo de trabajo es exactamente igual al del anterior ejemplo. En general, todas las tareas de aprendizaje supervisado tienen un flujo similar. En este caso, hemos logrado entrenar un algoritmo de regresión usando una red neuronal de una sola capa. 

## Clasificación: Detección de tumores malignos

Para la tarea de clasificación, usaremos un dataset con datos de 569 pacientes para el diagnóstico de cáncer de mama en base a datos sobre un tumor. En este caso se cuenta con 30 campos numéricos en cada registro. Entre los campos tenemos la siguiente información:

  - Radio (media de las distancias desde el centro a los puntos en el perímetro del tumor)
  - textura (desviación estándar de valores en escala de grises)
  - perímetro
  - área
  - smoothness (variación local en distancias de radios)
  - compactness ($\frac{perimetro^2}{area} - 1$)
  - concavidades (severidad de porciones cóncavas del contorno)
  - puntos cóncavos (número de porciones cóncavas del contorno)
  - simetría
  - dimensión fractal.

Se ha calculado la media, desviación estándar y el peor (media de los 3 peores valores) de las características para cada imagen resultando en 30 campos.

Se tienen 2 clases, 1 = maligno, 0 = benigno.

  

## Obtención del dataset

In [None]:
X, y = load_breast_cancer(return_X_y=True)
X = (X - np.mean(X, axis=0)) / np.std(X, axis=0)
# y = (y - np.mean(y)) / np.std(y, axis=1)
print(f'X: {X.shape}, y: {y.shape}')

In [None]:
print(np.std(X, axis=0))

## Definición del modelo

In [None]:
model = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, input_shape=[30], activation='relu'),
        tf.keras.layers.Dense(1, activation='sigmoid')
    ]
)

## Compilación del modelo 

In [None]:
model.compile(optimizer='sgd', loss='binary_crossentropy')

## Entrenamiento

In [None]:
history = model.fit(X, y, epochs=20)

In [None]:
import matplotlib.pyplot as plt
plt.plot(history.history['loss'])
plt.show()