# **Ajuste de Redes Neuronales**

## Ejercicio 1

In [None]:
import pandas as pd

In [None]:
crime_data = pd.read_csv('/content/crime_data.csv')

In [None]:
independent_vars = ['M', 'W', 'H', 'S']
dependent_var = 'MR'

### Evalúa con validación cruzada un modelo pereceptrón multicapa para las variables que se te asignaron para este ejercicio.

In [None]:
from sklearn.model_selection import KFold
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
import numpy as np

In [None]:
x = crime_data[independent_vars].values
y = crime_data[dependent_var].values

In [None]:
regr = MLPRegressor(hidden_layer_sizes=(20, 20), max_iter=20000)
regr.fit(x, y)

In [None]:
y_pred = regr.predict(x)
print('MSE: ', mean_squared_error(y, y_pred))
print("MAE: ", mean_absolute_error(y, y_pred))

MSE:  1.8404625640160839
MAE:  1.0103156678834984


In [None]:
kf = KFold(n_splits=5, shuffle=True, random_state=42)

In [None]:
mse_cv = []
mae_cv = []

In [None]:
for train_index, test_index in kf.split(x):
    x_train = x[train_index, :]
    y_train = y[train_index]

    regr_cv = MLPRegressor(hidden_layer_sizes=(20, 20), max_iter=20000)
    regr_cv.fit(x_train, y_train)

    x_test = x[test_index, :]
    y_test = y[test_index]

    y_pred = regr_cv.predict(x_test)

    mse_i = mean_squared_error(y_test, y_pred)
    mse_cv.append(mse_i)

    mae_i = mean_absolute_error(y_test, y_pred)
    mae_cv.append(mae_i)

In [None]:
print('MSE:', np.average(mse_cv))
print('MAE:', np.average(mae_cv))

MSE: 137.88925196123745
MAE: 5.369521631071816


### Agrega al conjunto de datos columnas que representen los cuadrados de las variables predictoras (por ejemplo, M2, W2), así como los productos entre pares de variables (por ejemplo, PxS, MxW). Evalúa un modelo perceptrón multicapa para este nuevo conjunto de datos.

In [None]:
for var in independent_vars:
    crime_data[f'{var}^2'] = crime_data[var] ** 2

In [None]:
for i in range(len(independent_vars)):
    for j in range(i+1, len(independent_vars)):
        var1 = independent_vars[i]
        var2 = independent_vars[j]
        crime_data[f'{var1}x{var2}'] = crime_data[var1] * crime_data[var2]

In [None]:
regr = MLPRegressor(hidden_layer_sizes=(20, 20), max_iter=20000)

In [None]:
kf = KFold(n_splits=5, shuffle=True, random_state=42)

In [None]:
mse_cv = []
mae_cv = []

In [None]:
for train_index, test_index in kf.split(x):
    x_train = x[train_index, :]
    y_train = y[train_index]

    regr_cv = MLPRegressor(hidden_layer_sizes=(20, 20), max_iter=20000)
    regr_cv.fit(x_train, y_train)

    x_test = x[test_index, :]
    y_test = y[test_index]

    y_pred = regr_cv.predict(x_test)

    mse_i = mean_squared_error(y_test, y_pred)
    mse_cv.append(mse_i)

    mae_i = mean_absolute_error(y_test, y_pred)
    mae_cv.append(mae_i)

In [None]:
print('MSE:', np.average(mse_cv))
print('MAE:', np.average(mae_cv))

MSE: 89.02281281504723
MAE: 4.218517253008505


### 3. Viendo los resultados de regresión, desarrolla una conclusión sobre los siguientes puntos:
a. **¿Consideras que el modelo perceptrón multicapa es efectivo para modelar los datos del problema? ¿Por qué?**

No, pues el rendimiento del modelo empeoró después de la expansión de características, y los valores del promedio de MSE y MAE siguen siendo altos.
        
b. **¿Qué modelo es mejor para los datos de criminalidad, el lineal o el perceptrón multicapa? ¿Por qué?**

El lineal, debido a que hace más fácil comprender cómo cada característica influye en la variable objetivo y las relaciones entre las variables son lineales y directas. Además, es un modelo más simple y requiere menos ajuste de hiperparámetros en comparación con el de perceptrón multicapa.

## Ejercicio 2

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import GridSearchCV, cross_val_predict
from sklearn.metrics import classification_report

In [None]:
activity_data = np.loadtxt('M_2.txt')

### 1. Evalúa un modelo perceptrón multicapa con validación cruzada utilizando al menos 5 capas de 20 neuronas.

In [None]:
x = activity_data[:, 2:]
y = activity_data[:, 0].astype(int)

In [None]:
clf = MLPClassifier(hidden_layer_sizes=(20, 20, 20, 20, 20), max_iter=1000)
clf.fit(x,y)

In [None]:
y_pred = cross_val_predict(MLPClassifier(hidden_layer_sizes=(20, 20, 20, 20, 20), max_iter=10000), x, y)
print(classification_report(y, y_pred))

              precision    recall  f1-score   support

           1       0.86      0.87      0.86        90
           2       0.72      0.69      0.70        90
           3       0.92      0.88      0.90        90
           4       0.85      0.90      0.88        90
           5       0.75      0.70      0.72        90
           6       0.72      0.74      0.73        90
           7       0.89      0.94      0.92        90

    accuracy                           0.82       630
   macro avg       0.82      0.82      0.82       630
weighted avg       0.82      0.82      0.82       630



### 2. Evalúa un modelo perceptrón multicapa con validación cruzada, pero encontrando el número óptimo de capas y neuronas de la red.

In [None]:
num_layers = np.arange(1, 20, 5)
num_neurons = np.arange(10, 110, 20)

In [None]:
layers = []

In [None]:
for l in num_layers:
  for n in num_neurons:
    layers.append(l*[n])

In [None]:
clf = GridSearchCV(MLPClassifier(max_iter=10000), {'hidden_layer_sizes': layers}, cv = 5)
clf.fit(x, y)

In [None]:
print(clf.best_estimator_)

MLPClassifier(hidden_layer_sizes=[90], max_iter=10000)


In [None]:
clf = GridSearchCV(MLPClassifier(max_iter=10000), {'hidden_layer_sizes': layers},
cv = 5)
y_pred = cross_val_predict(clf, x, y, cv = 5)

In [None]:
print(classification_report(y, y_pred))

              precision    recall  f1-score   support

           1       0.85      0.92      0.88        90
           2       0.73      0.77      0.75        90
           3       0.95      0.93      0.94        90
           4       0.92      0.89      0.90        90
           5       0.79      0.79      0.79        90
           6       0.84      0.74      0.79        90
           7       0.89      0.91      0.90        90

    accuracy                           0.85       630
   macro avg       0.85      0.85      0.85       630
weighted avg       0.85      0.85      0.85       630



### 3. Prepara el modelo perceptrón multicapa:

#### A. Opten los hiperparámetros óptimos de capas y neuronas de la red.

In [None]:
param_grid = {
    'hidden_layer_sizes': [(20,), (30,), (40,), (20, 20), (30, 30), (40, 40)],
    'max_iter': [1000],
}

In [None]:
mlp = MLPClassifier()

In [None]:
grid_search = GridSearchCV(mlp, param_grid, cv=5, verbose=1, n_jobs=-1)

In [None]:
grid_search.fit(x, y)

Fitting 5 folds for each of 6 candidates, totalling 30 fits


In [None]:
best_config = grid_search.best_params_
best_hidden_layer_sizes = best_config['hidden_layer_sizes']

#### B. Con los hiperparámetros óptimos, ajusta el modelo con todos los datos.

In [None]:
mlp_optimal = MLPClassifier(hidden_layer_sizes=best_hidden_layer_sizes, max_iter=1000)

In [None]:
mlp_optimal.fit(x, y)

### 4. Contesta lo siguientes:
a. **¿Observas alguna mejora importante al optimizar el tamaño de la red? ¿Es el resultado que esperabas? Argumenta tu respuesta.**

Si, al comparar los resultados se ve que hay una mejora pues el modelo optimizado tiene una precisión promedio y una exactitud más altas en comparación con el modelo inicial. Es el resultado esperado puesto que se espera que una red neuronal más grande y compleja puede aprender mejor los patrones en los datos y así mejorar su capacidad de clasificación.
        
b. **¿Qué inconvenientes hay al encontrar el tamaño óptimo de la red? ¿Por qué?**

Uno de los incovenientes es que la cantidad de combinaciones posibles de capas y neuronas aumenta con la profundidad y la cantidad de capas ocultas, lo cual muchas veces requiere de mucho tiempo para explorar todas las configuraciones posibles. De igual forma, un modelo con muchas capas y neuronas puede llevar a un sobreajuste, haciendo que se adapte excesivamente a los datos de entrenamiento y pierde generalización en los nuevos datos. Además, el proceso de encontrar el tamaño óptimo a menudo implica un ajuste manual, por lo tanto lo vuelve algo subjetivo.