In [44]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

# Paso 1: Cargar los datos del archivo CSV
archivo_csv = 'PREC_1981_2010_Provincias.csv'
# Lee el archivo CSV especificando el delimitador como ';'
df = pd.read_csv(archivo_csv, delimiter=';')

# Paso 2: Explorar y preprocesar los datos
# En este paso, asegúrate de que los datos cargados en el DataFrame sean legibles y contengan información relevante, como el año.

# Convierte 'region' a minúsculas y elimina acentos y caracteres especiales
df['region'] = df['region'].str.lower()
df['region'] = df['region'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

# Elimina la columna 'Parametro'
df.drop(columns=['Parametro'], inplace=True)

# Rellena los valores nulos en las columnas de enero a diciembre con 0
df.fillna(0, inplace=True)

# Paso 3: Asignar un número a cada provincia
# Crea un diccionario de mapeo de provincias a números
provincias_a_numeros = {
    'álava': 1,
    'albacete': 2,
    'alicante': 3,
    'almería': 4,
    'asturias': 5,
    'ávila': 6,
    'badajoz': 7,
    'barcelona': 8,
    'burgos': 9,
    'cáceres': 10,
    'cádiz': 11,
    'cantabria': 12,
    'castellón': 13,
    'ciudad real': 14,
    'córdoba': 15,
    'cuenca': 16,
    'gerona': 17,
    'granada': 18,
    'guadalajara': 19,
    'guipúzcoa': 20,
    'huelva': 21,
    'huesca': 22,
    'islas balears': 23,
    'jaén': 24,
    'la coruña': 25,
    'la rioja': 26,
    'las palmas': 27,
    'león': 28,
    'lérida': 29,
    'lugo': 30,
    'madrid': 31,
    'málaga': 32,
    'murcia': 33,
    'navarra': 34,
    'orense': 35,
    'palencia': 36,
    'pontevedra': 37,
    'salamanca': 38,
    'santa cruz de tenerife': 39,
    'segovia': 40,
    'sevilla': 41,
    'soria': 42,
    'tarragona': 43,
    'teruel': 44,
    'toledo': 45,
    'valencia': 46,
    'valladolid': 47,
    'vizcaya': 48,
    'zamora': 49,
    'zaragoza': 50
}

# Añade una columna 'provincia_id' al DataFrame
df['provincia_id'] = df['region'].map(provincias_a_numeros)

# Paso 4: Separar los datos por años
# Extrae el año del nombre del archivo (ajusta esto según el formato de tus archivos)
ano = int(archivo_csv.split('_')[1])

# Añade una columna 'ano' al DataFrame
df['ano'] = ano

# Ahora puedes filtrar los datos por año
datos_ano_actual = df[df['ano'] == ano]
# Paso 7.1: Cargar los datasets adicionales
datos_2019 = pd.read_csv('PREC_2019_Provincias.csv', delimiter=';')
datos_2020 = pd.read_csv('PREC_2020_Provincias.csv', delimiter=';')
datos_2021 = pd.read_csv('PREC_2021_Provincias.csv', delimiter=';')
datos_2022 = pd.read_csv('PREC_2022_Provincias.csv', delimiter=';')

# Paso 7.2: Concatenar los datasets
datos_historicos = pd.concat([datos_ano_actual, datos_2019, datos_2020, datos_2021, datos_2022], ignore_index=True)

# Paso 7.3: Reemplazar los valores NaN (si es necesario)
datos_historicos = datos_historicos.fillna(0)  # Reemplazar NaN con 0 u otro valor adecuado

# Paso 7.4: Verificar los datos combinados
print(datos_historicos.head())

# Paso 8.1: Seleccionar las características y el objetivo
X = datos_historicos[['ano', 'provincia_id']]  # Características (año y provincia)
y = datos_historicos['anual']  # Objetivo (cantidad de precipitación)

# Paso 8.2: Crear y entrenar el modelo de regresión lineal
modelo_regresion_lineal = LinearRegression()
modelo_regresion_lineal.fit(X, y)

# Paso 8.3: Calcular las predicciones
y_pred_regresion = modelo_regresion_lineal.predict(X)

# Calcular el error absoluto medio (MAE)
mae_regresion = mean_absolute_error(y, y_pred_regresion)
print(f'Mean Absolute Error (MAE) - Regresión Lineal: {mae_regresion}')

# Calcular el error cuadrático medio (MSE)
mse_regresion = mean_squared_error(y, y_pred_regresion)
print(f'Mean Squared Error (MSE) - Regresión Lineal: {mse_regresion}')

# Calcular el coeficiente de determinación R^2
r2_regresion = r2_score(y, y_pred_regresion)
print(f'R-squared (R^2) - Regresión Lineal: {r2_regresion}')

# Paso 9: Crear y entrenar un modelo de Bosque Aleatorio (Random Forest)
modelo_bosque_aleatorio = RandomForestRegressor(n_estimators=100, random_state=42)
modelo_bosque_aleatorio.fit(X, y)

# Paso 9.1: Calcular las predicciones con el modelo de Bosque Aleatorio
y_pred_bosque_aleatorio = modelo_bosque_aleatorio.predict(X)

# Paso 9.2: Calcular las métricas de evaluación para el modelo de Bosque Aleatorio
mae_bosque_aleatorio = mean_absolute_error(y, y_pred_bosque_aleatorio)
print(f'Mean Absolute Error (MAE) - Bosque Aleatorio: {mae_bosque_aleatorio}')

mse_bosque_aleatorio = mean_squared_error(y, y_pred_bosque_aleatorio)
print(f'Mean Squared Error (MSE) - Bosque Aleatorio: {mse_bosque_aleatorio}')

r2_bosque_aleatorio = r2_score(y, y_pred_bosque_aleatorio)
print(f'R-squared (R^2) - Bosque Aleatorio: {r2_bosque_aleatorio}')

# Paso 10: Crear y entrenar un modelo de SVR (Support Vector Machine para Regresión)
modelo_svr = SVR()
modelo_svr.fit(X, y)

# Paso 10.1: Calcular las predicciones con el modelo de SVR
y_pred_svr = modelo_svr.predict(X)

# Paso 10.2: Calcular las métricas de evaluación para el modelo de SVR
mae_svr = mean_absolute_error(y, y_pred_svr)
print(f'Mean Absolute Error (MAE) - SVR: {mae_svr}')

mse_svr = mean_squared_error(y, y_pred_svr)
print(f'Mean Squared Error (MSE) - SVR: {mse_svr}')

r2_svr = r2_score(y, y_pred_svr)
print(f'R-squared (R^2) - SVR: {r2_svr}')

# Paso 11: Crear y entrenar un modelo de K-Vecinos Más Cercanos (K-NN)
modelo_knn = KNeighborsRegressor()
modelo_knn.fit(X, y)

# Paso 11.1: Calcular las predicciones con el modelo de K-NN
y_pred_knn = modelo_knn.predict(X)

# Paso 11.2: Calcular las métricas de evaluación para el modelo de K-NN
mae_knn = mean_absolute_error(y, y_pred_knn)
print(f'Mean Absolute Error (MAE) - K-NN: {mae_knn}')

mse_knn = mean_squared_error(y, y_pred_knn)
print(f'Mean Squared Error (MSE) - K-NN: {mse_knn}')

r2_knn = r2_score(y, y_pred_knn)
print(f'R-squared (R^2) - K-NN: {r2_knn}')

# Paso 12: Crear y entrenar un modelo de Red Neuronal (MLPRegressor)
modelo_red_neuronal = MLPRegressor(random_state=42)
modelo_red_neuronal.fit(X, y)

# Paso 12.1: Calcular las predicciones con el modelo de Red Neuronal
y_pred_red_neuronal = modelo_red_neuronal.predict(X)

# Paso 12.2: Calcular las métricas de evaluación para el modelo de Red Neuronal
mae_red_neuronal = mean_absolute_error(y, y_pred_red_neuronal)
print(f'Mean Absolute Error (MAE) - Red Neuronal: {mae_red_neuronal}')

mse_red_neuronal = mean_squared_error(y, y_pred_red_neuronal)
print(f'Mean Squared Error (MSE) - Red Neuronal: {mse_red_neuronal}')

r2_red_neuronal = r2_score(y, y_pred_red_neuronal)
print(f'R-squared (R^2) - Red Neuronal: {r2_red_neuronal}')




  periodo de referencia    region  enero  febrero  marzo  abril   mayo  junio  \
0             1981-2010  a coruna  191.5    147.0  133.6  139.0  117.5   62.6   
1             1981-2010  albacete   32.2     35.5   35.3   46.9   46.3   29.0   
2             1981-2010  alicante   35.9     35.5   33.7   38.7   40.8   18.9   
3             1981-2010   almeria   34.7     34.9   30.7   26.2   26.4   10.6   
4             1981-2010     araba   88.5     72.0   73.0   88.4   77.2   49.8   

   julio  agosto  septiembre  octubre  noviembre  diciembre   anual  \
0   45.4    49.8        92.0    200.2      209.9      218.8  1607.3   
1    8.4    13.9        36.0     48.8       46.4       45.4   424.1   
2    5.7    11.4        54.6     56.0       51.2       38.5   420.9   
3    1.9     5.6        27.7     36.2       42.6       37.9   315.4   
4   36.5    38.2        50.1     79.0      104.8       96.2   853.7   

   provincia_id     ano parametro Prametro Parametro  
0           0.0  1981.0        



In [35]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Asumiendo que tienes tus datos reales de precipitación anual en una serie llamada 'y'
# Esta serie debe contener las mismas fechas que 'X' (las características utilizadas para hacer las predicciones)

# Paso 8.3: Calcular las predicciones
y_pred = modelo_prediccion.predict(X)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y, y_pred)
print(f'Mean Absolute Error (MAE): {mae}')

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y, y_pred)
print(f'Mean Squared Error (MSE): {mse}')

# Calcular el coeficiente de determinación R^2
r2 = r2_score(y, y_pred)
print(f'R-squared (R^2): {r2}')


Mean Absolute Error (MAE): 191.37049969039117
Mean Squared Error (MSE): 82610.16840860921
R-squared (R^2): 0.01865724310229866


In [28]:
# Paso 6.1: Preparar los datos de predicción
# Supongamos que deseas predecir la precipitación para el año 2025 en la provincia de Barcelona (por ejemplo, provincia_id = 8).
datos_prediccion = pd.DataFrame({'ano': [2022], 'provincia_id': [32]})

# Paso 6.2: Realizar la predicción
prediccion = modelo_prediccion.predict(datos_prediccion)

# Paso 6.3: Imprimir la predicción
anno_prediccion = datos_prediccion['ano'].values[0]
provincia_prediccion_id = datos_prediccion['provincia_id'].values[0]

# Obtener el nombre de la provincia a partir del diccionario inverso
provincias_inverso = {v: k for k, v in provincias_a_numeros.items()}
ciudad_prediccion = provincias_inverso.get(provincia_prediccion_id, "Provincia Desconocida")

print(f"Precipitación predicha para {anno_prediccion} en {ciudad_prediccion}: {prediccion[0]} mm")



Precipitación predicha para 2022 en málaga: 607.0557569707748 mm
