# Redes neuronales

Son modelos inspirados en el cerebro humano y utilizados para problemas complejos de clasificación y regresión.

La estructura de una red neuronal es mediante el uso de **capas**, formadas a su vez por **neuronas**. Cada neurona, 
realiza una operación sencilla y está conectada a las neuronas de la capa anterior y de la capa siguiente mediante **pesos**, 
cuya función es regular la información que se propaga de una neurona a otra.


La primera capa de la red neuronal (color rojo) se conoce como capa de entrada y recibe el valor de los predictores *X*. La capa intermedia (color azul), recibe los valores de la capa de entrada, ponderados por los pesos *W*. La capa de salida (color verde), combina los valores que salen de la capa intermedia para generar la predicción *Y*.



<center><div> <img src="fig/red.jpeg" alt="Drawing" style="width: 600px;"/></div><center>


La **neurona** es la unidad funcional de los modelos de redes. Dentro de cada neurona, ocurren simplemente dos operaciones: la suma ponderada de sus entradas y la aplicación de una función de activación.

En la primera parte, se multiplica cada valor de entrada  $x_i$ por su peso asociado  $w_i$  y se suman junto con el bías. Este es el valor neto de entrada a la neurona. A continuación, este valor se pasa por una función, conocida como función de activación, que transforma el valor neto de entrada en un valor de salida.

Si bien el valor que llega a la neurona, multiplicación de los pesos por las entradas, siempre es una combinación lineal, gracias a la función de activación, se pueden generar salidas muy diversas. Es en la función de activación donde reside el potencial de los modelos de redes para aprender relaciones no lineales.

El valor neto de entrada a una neurona es la suma de los valores que le llegan, ponderados por el peso de las conexiones, más el bias.
$
\begin{equation}
entrada = \sum_{i = 1}^{n} x_i w_i +b
\end{equation}
$

A este valor se le aplica una función de activación (g) que lo transforma en lo que se conoce como valor de activación (a), que es lo que finalmente sale de la neurona.

$
\begin{equation}
a = g(entrada) = g(\mathbf{XW}+b)
\end{equation}
$

https://www.kaggle.com/datasets/mathchi/diabetes-data-set

In [2]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import sklearn
from sklearn.neural_network import MLPClassifier
from sklearn.neural_network import MLPRegressor

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from math import sqrt
from sklearn.metrics import r2_score

In [23]:
df = pd.read_csv('../datasets/diabetes.csv') 
print(df.shape)
df.describe().transpose()

(768, 9)


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Pregnancies,768.0,3.845052,3.369578,0.0,1.0,3.0,6.0,17.0
Glucose,768.0,120.894531,31.972618,0.0,99.0,117.0,140.25,199.0
BloodPressure,768.0,69.105469,19.355807,0.0,62.0,72.0,80.0,122.0
SkinThickness,768.0,20.536458,15.952218,0.0,0.0,23.0,32.0,99.0
Insulin,768.0,79.799479,115.244002,0.0,0.0,30.5,127.25,846.0
BMI,768.0,31.992578,7.88416,0.0,27.3,32.0,36.6,67.1
DiabetesPedigreeFunction,768.0,0.471876,0.331329,0.078,0.24375,0.3725,0.62625,2.42
Age,768.0,33.240885,11.760232,21.0,24.0,29.0,41.0,81.0
Outcome,768.0,0.348958,0.476951,0.0,0.0,0.0,1.0,1.0


In [24]:
target_column = ['Outcome'] 
predictors = list(set(list(df.columns))-set(target_column))
df[predictors] = df[predictors]/df[predictors].max()
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Pregnancies,768.0,0.22618,0.19821,0.0,0.058824,0.176471,0.352941,1.0
Glucose,768.0,0.60751,0.160666,0.0,0.497487,0.58794,0.704774,1.0
BloodPressure,768.0,0.566438,0.158654,0.0,0.508197,0.590164,0.655738,1.0
SkinThickness,768.0,0.207439,0.161134,0.0,0.0,0.232323,0.323232,1.0
Insulin,768.0,0.094326,0.136222,0.0,0.0,0.036052,0.150414,1.0
BMI,768.0,0.47679,0.117499,0.0,0.406855,0.4769,0.545455,1.0
DiabetesPedigreeFunction,768.0,0.19499,0.136913,0.032231,0.100723,0.153926,0.258781,1.0
Age,768.0,0.410381,0.145188,0.259259,0.296296,0.358025,0.506173,1.0
Outcome,768.0,0.348958,0.476951,0.0,0.0,0.0,1.0,1.0


In [33]:
X = df[predictors].values
y = df[target_column].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=40)
print(X_train.shape); print(X_test.shape)

(537, 8)
(231, 8)


In [36]:
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(hidden_layer_sizes=(8,8,8), activation='relu', solver='adam', max_iter=500)
mlp.fit(X_train,y_train.ravel())

predict_train = mlp.predict(X_train)
predict_test = mlp.predict(X_test)

In [35]:
from sklearn.metrics import classification_report,confusion_matrix
print(confusion_matrix(y_train,predict_train))
print(classification_report(y_train,predict_train))

[[314  44]
 [ 72 107]]
              precision    recall  f1-score   support

           0       0.81      0.88      0.84       358
           1       0.71      0.60      0.65       179

    accuracy                           0.78       537
   macro avg       0.76      0.74      0.75       537
weighted avg       0.78      0.78      0.78       537



In [37]:
print(confusion_matrix(y_test,predict_test))
print(classification_report(y_test,predict_test))

[[123  19]
 [ 39  50]]
              precision    recall  f1-score   support

           0       0.76      0.87      0.81       142
           1       0.72      0.56      0.63        89

    accuracy                           0.75       231
   macro avg       0.74      0.71      0.72       231
weighted avg       0.75      0.75      0.74       231

