### Practica 23 RNA Multicapa Regresor

En este ejercicio vamos a trabajar con una RNA secuencial y el dataset MPG que consiste en un conjunto de datos clásico utilizado en problemas de regresión. 

Contiene información sobre el consumo de combustible de diferentes automóviles, medido en millas por galón (MPG). Además del consumo de combustible, el dataset incluye características como el número de cilindros, desplazamiento del motor, potencia, peso, aceleración, año del modelo y origen del vehículo.

Características principales:\
MPG : Variable objetivo (dependiente). Representa las millas por galón que un automóvil puede recorrer con un galón de combustible.\
Cilindros : Número de cilindros en el motor.\
Desplazamiento : Volumen total del desplazamiento del motor (en pulgadas cúbicas).\
Potencia : Potencia del motor (en caballos de fuerza).\
Peso : Peso del vehículo (en libras).\
Aceleración : Tiempo en segundos para alcanzar una velocidad específica.\
Año : Año del modelo del automóvil.\
Origen : País de origen del automóvil (1: América, 2: Europa, 3: Asia).\
Este dataset es ideal para problemas de regresión, ya que intentamos predecir el valor continuo de MPG en función de las características mencionadas.

Escalado (Scaling):
Escalar las características implica ajustar el rango de los valores de las características para que estén dentro de un intervalo específico.
El método más común de escalado es la estandarización (StandardScaler) , que transforma los datos para que tengan una media de 0 y una desviación estándar de 1. 

Para redes neuronales, generalmente se prefiere el escalado (StandardScaler) porque funcionan mejor cuando los datos están centrados en 0 y tienen una varianza unitaria.

Métricas Utilizadas:Error Cuadrático Medio (MSE) y Coeficiente de Determinación (R²).\
(R² nos dice cuánto de lo que cambia en Y se puede predecir gracias a los datos de entrada X.)

Funcion de activación:\
En problemas de regresión, la capa de salida no tiene función de activación para permitir la predicción de valores continuos sin restricciones.

En las capas ocultas puede ser ReLu(relu), Sigmoide (sigmoid) o tangente hiperbólica (tanh) entre otras.

Modelo secuencial (feedforward):\
Un modelo secuencial es un tipo de arquitectura de red neuronal en la que las capas están organizadas en una secuencia lineal , es decir, las conexiones entre las neuronas van en una sola dirección, de la entrada hacia la salida, sin ciclos ni retroalimentación.

En términos prácticos, un modelo secuencial es como un "tubo" donde los datos fluyen de una capa a la siguiente, sin bifurcaciones ni conexiones complejas entre capas no consecutivas.
Para crear un modelo secuencial primero se declara una estructura vacía a la que vas añadiendo capas Dense (u otros tipos de capas) para construir tu red neuronal. 

#----------------------------------------------------------------------------------------------\
Parámetros del método fit():

X_train_scaled:\
Es el conjunto de datos de entrada para el entrenamiento (las características).
En este caso ya está escalado, probablemente con StandardScaler o MinMaxScaler.

y_train:\
Es el conjunto de etiquetas o salidas correspondiente a las entradas X_train_scaled.

epochs=100:\
Indica cuántas veces se repite el entrenamiento completo sobre todo el conjunto de entrenamiento.
→ Aquí entrenarás durante 100 ciclos completos.

batch_size=32:\
El tamaño del lote (batch): la red actualiza sus pesos cada vez que procesa 32 muestras.
→ Esto permite entrenar más rápido y estabiliza el aprendizaje.

validation_split=0.2:\
Se reserva el 20% de los datos de entrenamiento para validación durante el entrenamiento.
→ Esto se hace automáticamente, sin necesidad de tener un conjunto de validación aparte.

verbose=1:\
Controla el nivel de información que se muestra por pantalla durante el entrenamiento.

0: sin salida

1: barra de progreso

2: una línea por época
→ En este caso, verás una barra de progreso con la pérdida y la precisión.

----------------------------------------------------------------------------------
Respecto del apartado de compilación del modelo hay que aclarar que:\
- El proceso de compilación prepara el modelo para que se pueda entrenar correctamente.\
- Define la estrategia que el modelo seguirá para aprender a partir de los datos de entrenamiento.\
- Sin la compilación, Keras no sabría qué optimizador usar ni cómo evaluar el error durante el entrenamiento.\
- Una vez que el modelo está compilado, podemos proceder con el entrenamiento del modelo.\
- Debemos especificar el optimizador a utilizar, la función de pérdida y las métricas a evaluar.\

El optimizador es el algoritmo que ajusta los pesos de la red para minimizar la función de pérdida durante el entrenamiento:\

Alternativas para "optimice":\
'adam' (Adaptive Moment Estimation) es uno de los más usados por su rapidez y buen desempeño general.

'sgd': Gradiente descendente clásico (stochastic gradient descent).

'rmsprop': Bueno para RNNs.

'adagrad', 'adadelta', 'nadam': Variaciones adaptativas.


La función de pérdida mide el error entre las predicciones del modelo y las etiquetas reales. El objetivo es minimizar esta pérdida durante el entrenamiento.

Alternativas para "loss":\
'sparse_categorical_crossentropy': Se usa para clasificación multiclase cuando las etiquetas son enteros (0,1,2...) 

'categorical_crossentropy': Para clasificación multiclase con etiquetas en one-hot encoding.

'binary_crossentropy': Para clasificación binaria (0 o 1).

'mean_squared_error', 'mean_absolute_error': Para regresión.

'hinge': Para clasificación tipo SVM.


La métrica permite evaluar el rendimiento del modelo durante el entrenamiento y evaluación.

Alternativas para "metrics":\
'accuracy': porcentaje de predicciones correctas.

'mae': Error absoluto medio (útil en regresión).

'mse': Error cuadrático medio.

'Precision', 'Recall', 'AUC': Métricas más específicas para clasificación.


In [None]:
# Importamos las bibliotecas necesarias
import pandas as pd  # Para manipulación de datos
import numpy as np  # Para operaciones numéricas
from sklearn.model_selection import train_test_split  # Para dividir los datos en entrenamiento y prueba
from sklearn.preprocessing import StandardScaler  # Para escalar las características
from sklearn.metrics import mean_squared_error, r2_score  # Métricas para evaluar el modelo
from tensorflow.keras.models import Sequential  # Para construir el modelo secuencial
from tensorflow.keras.layers import Dense  # Capas densas para la red neuronal
import seaborn as sns                      # Para carga del dataset MPG desde seaborn



mpg_data = sns.load_dataset('mpg')  # Cargamos el dataset MPG

# Exploramos el dataset
print(mpg_data.head())  # Mostramos las primeras filas del dataset
print(mpg_data.info())  # Información general del dataset (tipos de datos, valores nulos, etc.)

# Limpieza de datos: Eliminamos filas con valores nulos
mpg_data = mpg_data.dropna()  # Eliminamos filas con valores faltantes

# Convertimos la columna 'origin' en variables categóricas (one-hot encoding)
mpg_data = pd.get_dummies(mpg_data, columns=['origin'], drop_first=True)

# Convertimos la columna 'horsepower' a valores numéricos, forzando los valores no numéricos a NaN 
# y luego eliminando filas con NaN
mpg_data['horsepower'] = pd.to_numeric(mpg_data['horsepower'], errors='coerce')
mpg_data = mpg_data.dropna(subset=['horsepower'])  # Elimina filas donde 'horsepower' es NaN

# Definimos las características (X) y la variable objetivo (y)
X = mpg_data[['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 
              'origin_usa', 'origin_japan']]  # Variables independientes (eliminamos 'name' que es texto)
y = mpg_data['mpg']  # Variable dependiente (objetivo)

# Dividimos los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Registros de entrenamiento:", X_train.shape[0])
print("Registros de test:", X_test.shape[0])

# Escalamos las características para mejorar el rendimiento de la red neuronal
scaler = StandardScaler()  # Creamos un objeto para escalar
X_train_scaled = scaler.fit_transform(X_train)  # Escalamos los datos de entrenamiento
X_test_scaled = scaler.transform(X_test)  # Escalamos los datos de prueba

# Construimos el modelo de red neuronal artificial
modelo = Sequential()  # Inicializamos un modelo secuencial

# Agregamos capas al modelo
modelo.add(Dense(64, input_dim=X_train_scaled.shape[1], activation='relu'))  # Capa oculta con 64 neuronas y función ReLU
modelo.add(Dense(32, activation='relu'))  # Segunda capa oculta con 32 neuronas y función ReLU
modelo.add(Dense(1))  # Capa de salida con 1 neurona (para regresión)



# Compilamos el modelo
modelo.compile(optimizer='adam', loss='mse')  # Usamos el optimizador Adam y la función de pérdida MSE (Error Cuadrático Medio)

# Entrenamos el modelo
historia = modelo.fit(X_train_scaled, y_train, epochs=100, batch_size=32, validation_split=0.2, verbose=1)

# Evaluamos el modelo en el conjunto de prueba
predicciones = modelo.predict(X_test_scaled)  # Realizamos predicciones en los datos de prueba

# Calculamos las métricas de evaluación
print(f"\nCalculando métricas despues de pasar valores de test")
mse = mean_squared_error(y_test, predicciones)  # Error Cuadrático Medio
r2 = r2_score(y_test, predicciones)  # Coeficiente de Determinación (R²)

# Mostramos las métricas
print(f"Error Cuadrático Medio (MSE): {mse}")
print(f"Coeficiente de Determinación (R²): {r2}")

# Comentarios adicionales:
# - El Error Cuadrático Medio (MSE) mide el promedio de los errores al cuadrado entre las predicciones y los valores reales.
# - El Coeficiente de Determinación (R²) indica qué tan bien se ajusta el modelo a los datos. Un valor cercano a 1 es ideal.


    mpg  cylinders  displacement  horsepower  weight  acceleration  \
0  18.0          8         307.0       130.0    3504          12.0   
1  15.0          8         350.0       165.0    3693          11.5   
2  18.0          8         318.0       150.0    3436          11.0   
3  16.0          8         304.0       150.0    3433          12.0   
4  17.0          8         302.0       140.0    3449          10.5   

   model_year origin                       name  
0          70    usa  chevrolet chevelle malibu  
1          70    usa          buick skylark 320  
2          70    usa         plymouth satellite  
3          70    usa              amc rebel sst  
4          70    usa                ford torino  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2 

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 26ms/step - loss: 593.9805 - val_loss: 641.5266
Epoch 2/100
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 532.7098 - val_loss: 616.6187
Epoch 3/100
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 10ms/step - loss: 532.4515 - val_loss: 587.9912
Epoch 4/100
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - loss: 532.7831 - val_loss: 554.3361
Epoch 5/100
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - loss: 465.9974 - val_loss: 514.7284
Epoch 6/100
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step - loss: 419.1887 - val_loss: 466.8621
Epoch 7/100
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step - loss: 392.2576 - val_loss: 410.0706
Epoch 8/100
[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - loss: 328.0092 - val_loss: 347.1815
Epoch 9/100
[1m8/8[0m [32m━━━━━━━

Preguntas:
- Tipo de funcion de activación utilizada en capas ocultas.
- Estructura de la RNA. Cuantas capas ocultas y cuantas neuronas en cada capa, incluida la de salida?
- ¿En cuantos bloques se divide cada epoca?
- ¿Notamos algún cambio significativo si en lugar de reservar el 20% para valización inter-epoca utilizamos solo el 10%?


Ejercicio: Repite el entrenamiento y prueba con la funcion sigmoide. Compara los mejores resultados.


Ejercicio: Tomando como referencia el codigo disponible en el archivo "punto de ruptura", modifica el programa para
conseguir que el entrenamiento finalice después de que le valor val_loss no mejores en 5 epocas