# Modelo final y datos de competición

Una vez el modelo final ha sido almacenado en el fichero *modelo_final.pkl* este se utiliza para realizar las predicciones de energía de los datos de competición en *wind_comp.csv*. Antes de realizar las predicciones es necesario cargar el modelo, los datos, y eliminar las columnas que se quitaron en el proceso de entrenamiento por motivos varios. Este último paso es necesario ya que solo se puede predecir con las columnas que tiene el modelo, y en caso de añadir más se produciría un error. 

In [9]:
import joblib
import pandas as pd
import numpy as np

modelo_final = joblib.load("modelo_final.pkl")

data = pd.read_csv("wind_comp.csv")
#Esto quita todas las columnas que no terminan en .13
data = data.filter(regex='.*\.13|energy|datetime')
data = data.drop(['v10.13', 'u10.13','datetime'], axis = 1)
predicion = modelo_final.predict(data)

print(predicion)

[689.54803605 252.66851294 940.31267291 ... 252.90355447  -1.26130523
 -36.48660871]


### Análisis de las predicciones
Una vez obtenidas las predicciones, se han adquirido algunos datos para conocer la naturaleza de estos, poder compararlos con los ya conocidos y estimar si existe algún error mayor con las predicciones en caso de existir una diferencia de escala demasiado grande. Se ha decidido obtener desviación típica, media, tercer cuartil y máximos y mínimos, siendo estos los analizados en pasos anteriores del estudio:

In [13]:
print("Desviación típica de las predicciones: ",np.std(predicion), " Los datos de entrenamiento contaban con 665.531609")
print("Media de las predicciones: ",np.mean(predicion), " Los datos de entrenamiento contaban con 693.126247")
print("3er cuartil de las predicciones: ",np.quantile(predicion, 0.75), " Los datos de entrenamiento contaban con 1089.375000")
print("Máximo de las predicciones: " ,np.max(predicion), "Mínimo de las predicciones: " ,np.min(predicion))
print("Máximo entrenamiento: 2792.550000, Mínimo entrenamiento: 0.010000")

Desviación típica de las predicciones:  545.9782764646917  Los datos de entrenamiento contaban con 665.531609
Media de las predicciones:  712.6274136463793  Los datos de entrenamiento contaban con 693.126247
3er cuartil de las predicciones:  1001.2901817536715  Los datos de entrenamiento contaban con 1089.375000
Máximo de las predicciones:  2283.6012072184935 Mínimo de las predicciones:  -106.0682576486081
Máximo entrenamiento: 2792.550000, Mínimo entrenamiento: 0.010000


Tras este análisis se considera que los datos obtenidos son razonables, por lo que las predicciones del modelo se pueden aceptar como válidas. 

### Almacenamiento de predicciones
Después del calculo de predicciones se almacenan todos los datos en un fichero csv, en el cual se añade el título *energy* a la columna. Para esta tarea se utiliza la función de pandas *to_csv*.

In [None]:
pd.DataFrame(predicion, columns=['energy']).to_csv('predicciones.csv',index=None)

# Uso de ChatGPT y prompts 

Durante el desarrollo de la práctica hemos usado ChatGPT para responder dudas de caracter teórico o para obtener código para realizar una tarea en concreto, la cual no teníamos una manera clara de la que comenzar. Para el resto de información se ha consultado en su mayoría el manual de numpy, la web de sklearn y ejemplos varios de Kaggle.

- **Prompts relevantes**:
  1. ¿Por qué podría ser importante comprobar las colummnas correladas antes de realizar un entrenamiento?
  2. ¿Cómo podría simular un TimeSeriesSplit de manera que cada vez que el conjunto aumenta se le añaden los datos del siguiente año?
  3. ¿Cómo puedo saber si un error a través de la métrica RMSE es alto o bajo?
  4. Dame algunos ejemplos de valores para hiperparámetros de Regresión lineal Lasso. Esta consulta se repitió para otros modelos en caso de no encontrar información en el manual.
  5. Tengo un dataframe donde quiero obtener el 3ºquartil de una columna "energy" y para cada valor de energy quiero cambiar su valor numérico a "1" si el valor es mayor al 3ºquartil o cambiar a "0" si el valor está por debajo del 3ºquartil.
- **Casos de respuestas erróneas**:
  - Para la respuesta de la consulta 4 obtuvimos varios ejemplos donde se utilizaban hiperparámetros que no existían dentro de la biblioteca sklearn, necesitando así pasar a definición de valores de manera empírica.

Aunque el uso de ChatGPT para la práctica ha resultado útil para empezar a realizar varias partes, en el resultado final se ha mantenido poco de todo lo consultado, por lo que la mayoría de las *prompts* no se ven reflejadas en el cuaderno. 