En el presente código se entrenan y evalúan tres modelos de clasificación de Bosque Aleatorio con 10 árboles, donde como variables independientes se utilizan los valores de diferentes variables meteorológicas para cada uno de los diferentes días anteriores al momento de la predicción. La variable objetivo es la clasificación binaria de la precipitación del día siguiente, clasificada de la siguiente forma:

Clase 0: Si la lluvia del día siguiente es =0

Clase 1: Si la lluvia del día siguiente es >0

Un modelo es entrenado con datos de todo el año, el segundo con datos solo de la época lluviosa, y el tercero con datos de la época seca. 

Se realizan tres validaciones para cada modelo: una con datos de todo el año, una con datos exclusivos de la época lluviosa y la última con datos de la época seca.

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

# IMPORTACIÓN Y PREPARACIÓN DE DATOS

In [None]:
import pandas as pd
import numpy as np

# Se importan los datos de entrenamiento de todo el año
file_path = 'Train_all.xlsx'
trainall = pd.read_excel(file_path)

# Se importan los datos de validación de todo el año
file_path = 'Test_all.xlsx'
testall = pd.read_excel(file_path)

#--------------------------------------------------------------------

# Se importan los datos de entrenamiento de la época lluviosa
file_path = 'Train_rainy.xlsx'
trainrainy = pd.read_excel(file_path)

# Se importan los datos de validación de la época lluviosa
file_path = 'Test_rainy.xlsx'
testrainy = pd.read_excel(file_path)

#--------------------------------------------------------------------

# Se importan los datos de entrenamiento de la época seca
file_path = 'Train_dry.xlsx'
traindry = pd.read_excel(file_path)

# Se importan los datos de validación de la época seca
file_path = 'Test_dry.xlsx'
testdry = pd.read_excel(file_path)

### SEPARACIÓN DE DATOS EN X,Y

In [None]:
# Separamos los datos de entrenamiento de todo el año en variables independientes (X_train) y variable objetivo (Y_train)
Y_trainall = pd.DataFrame()
Y_trainall['Lluvia_Binaria'] = trainall['Lluvia_Binaria']
X_trainall = trainall.drop(columns='Lluvia_Binaria')

# Separamos los datos de validación de todo el año en variables independientes (X_test) y variable objetivo (Y_test)
Y_testall = pd.DataFrame()
Y_testall['Lluvia_Binaria'] = testall['Lluvia_Binaria']
X_testall = testall.drop(columns='Lluvia_Binaria')

#--------------------------------------------------------------------------------------------------------------------------

# Separamos los datos de entrenamiento de época lluviosa en variables independientes (X_train) y variable objetivo (Y_train)
Y_trainrainy = pd.DataFrame()
Y_trainrainy['Lluvia_Binaria'] = trainrainy['Lluvia_Binaria']
X_trainrainy = trainrainy.drop(columns='Lluvia_Binaria')

# Separamos los datos de validación de la época lluviosa en variables independientes (X_test) y variable objetivo (Y_test)
Y_testrainy = pd.DataFrame()
Y_testrainy['Lluvia_Binaria'] = testrainy['Lluvia_Binaria']
X_testrainy = testrainy.drop(columns='Lluvia_Binaria')

#--------------------------------------------------------------------------------------------------------------------------

# Separamos los datos de entrenamiento de época seca en variables independientes (X_train) y variable objetivo (Y_train)
Y_traindry = pd.DataFrame()
Y_traindry['Lluvia_Binaria'] = traindry['Lluvia_Binaria']
X_traindry = traindry.drop(columns='Lluvia_Binaria')

# Separamos los datos de validación de la época seca en variables independientes (X_test) y variable objetivo (Y_test)
Y_testdry = pd.DataFrame()
Y_testdry['Lluvia_Binaria'] = testdry['Lluvia_Binaria']
X_testdry = testdry.drop(columns='Lluvia_Binaria')

#--------------------------------------------------------------------------------------------------------------------------

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

# ENTRENAMIENTO CON DATOS DE TODO EL AÑO

### ENTRENAMIENTO DEL MODELO

In [None]:
from sklearn.ensemble import RandomForestClassifier
import joblib
import time

modelo = RandomForestClassifier(n_estimators = 10)

start_time = time.time()
modelo.fit(X_trainall, Y_trainall.values.ravel())
end_time = time.time()

training_time = end_time - start_time

# Guarda el modelo en un archivo
joblib.dump(modelo, 'RF_10trees_comb1_5days_alltrain.pkl')

print('EL MODELO HA SIDO ENTRENADO EXITOSAMENTE')
print()
print(f'Tiempo de entrenamiento: {training_time:.4f} segundos')

In [None]:
# Importancia de características (Feature importance)
nombres_columnas = X_trainall.columns
importancia = modelo.feature_importances_

print('\nImportancia de cada característica:')
for nombre, imp in zip(nombres_columnas, importancia):
    print(f'{nombre}: {imp:.4f}')

### EVALUACIÓN DEL MODELO

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE TODO EL AÑO--------------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_predall = modelo.predict(X_testall)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testall, Y_predall)
print("Matriz de Confusión:")
print(conf_matrix)

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE LA ÉPOCA LLUVIOSA-----------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_predrainy = modelo.predict(X_testrainy)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testrainy, Y_predrainy)
print("Matriz de Confusión:")
print(conf_matrix)

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE LA ÉPOCA SECA---------------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_preddry = modelo.predict(X_testdry)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testdry, Y_preddry)
print("Matriz de Confusión:")
print(conf_matrix)

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

# ENTRENAMIENTO CON DATOS DE LA ÉPOCA LLUVIOSA

### ENTRENAMIENTO DEL MODELO

In [None]:
from sklearn.ensemble import RandomForestClassifier
import joblib
import time

modelo = RandomForestClassifier(n_estimators = 10)

start_time = time.time()
modelo.fit(X_trainrainy, Y_trainrainy.values.ravel())
end_time = time.time()

training_time = end_time - start_time

# Guarda el modelo en un archivo
joblib.dump(modelo, 'RF_10trees_comb1_5days_rainytrain.pkl')

print('EL MODELO HA SIDO ENTRENADO EXITOSAMENTE')
print()
print(f'Tiempo de entrenamiento: {training_time:.4f} segundos')

In [None]:
# Importancia de características (Feature importance)
nombres_columnas = X_trainall.columns
importancia = modelo.feature_importances_

print('\nImportancia de cada característica:')
for nombre, imp in zip(nombres_columnas, importancia):
    print(f'{nombre}: {imp:.4f}')

### EVALUACIÓN DEL MODELO

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE TODO EL AÑO--------------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_predall = modelo.predict(X_testall)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testall, Y_predall)
print("Matriz de Confusión:")
print(conf_matrix)

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE LA ÉPOCA LLUVIOSA-----------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_predrainy = modelo.predict(X_testrainy)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testrainy, Y_predrainy)
print("Matriz de Confusión:")
print(conf_matrix)

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE LA ÉPOCA SECA---------------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_preddry = modelo.predict(X_testdry)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testdry, Y_preddry)
print("Matriz de Confusión:")
print(conf_matrix)

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

# ENTRENAMIENTO CON DATOS DE LA ÉPOCA SECA

### ENTRENAMIENTO DEL MODELO

In [None]:
from sklearn.ensemble import RandomForestClassifier
import joblib
import time

modelo = RandomForestClassifier(n_estimators = 10)

start_time = time.time()
modelo.fit(X_traindry, Y_traindry.values.ravel())
end_time = time.time()

training_time = end_time - start_time

# Guarda el modelo en un archivo
joblib.dump(modelo, 'RF_10trees_comb1_5days_drytrain.pkl')

print('EL MODELO HA SIDO ENTRENADO EXITOSAMENTE')
print()
print(f'Tiempo de entrenamiento: {training_time:.4f} segundos')

In [None]:
# Importancia de características (Feature importance)
nombres_columnas = X_trainall.columns
importancia = modelo.feature_importances_

print('\nImportancia de cada característica:')
for nombre, imp in zip(nombres_columnas, importancia):
    print(f'{nombre}: {imp:.4f}')

### EVALUACIÓN DEL MODELO

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE TODO EL AÑO--------------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_predall = modelo.predict(X_testall)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testall, Y_predall)
print("Matriz de Confusión:")
print(conf_matrix)

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE LA ÉPOCA LLUVIOSA-----------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_predrainy = modelo.predict(X_testrainy)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testrainy, Y_predrainy)
print("Matriz de Confusión:")
print(conf_matrix)

In [None]:
#---------------------------------EVALUACIÓN CON DATOS DE LA ÉPOCA SECA---------------------------------------------------------

from sklearn.metrics import confusion_matrix
import numpy as np

# Se realiza la predicción
Y_preddry = modelo.predict(X_testdry)

# Se calcula y despliega la matriz de confusión
conf_matrix = confusion_matrix(Y_testdry, Y_preddry)
print("Matriz de Confusión:")
print(conf_matrix)