In [1]:
# módulos estándar
import pandas as pd
import numpy as np

import math
import matplotlib.pyplot as plt
import seaborn as sns
import plotnine as pn

# config Matplotlib
%matplotlib inline
plt.style.use('ggplot')

# config Seaborn
sns.set_theme(color_codes=True)
sns.set_style("darkgrid") # whitegrid


In [2]:
#Dar permisos para acceso a archivos en drive
#Es necesario para obtener el archivo gpkg
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#Insertar DataSet


In [3]:
# Cargar usando Files de Google
from google.colab import files
uploaded = files.upload()

Saving df8.csv to df8.csv


In [4]:
ls

df8.csv  [0m[01;34mdrive[0m/  [01;34msample_data[0m/


In [5]:
#Definimos las columnas y leimos el dataset 1
colnames = ['año','mes','festividad','nom_comuna','conducta','cantidad']
dfml = pd.read_csv('df8.csv', header=None,names=colnames, low_memory=False)

In [6]:
#Restablecemos los indices, para crear un nuevo índice numérico.
dfml = dfml.reset_index(drop=True)

In [7]:
#Eliminar valores nulos
dfml = dfml.dropna()

In [8]:
dfml = dfml.drop(index=0)

In [9]:
dfml.dtypes

año           object
mes           object
festividad    object
nom_comuna    object
conducta      object
cantidad      object
dtype: object

In [10]:
dfml

Unnamed: 0,año,mes,festividad,nom_comuna,conducta,cantidad
1,2010,Abril,Dia de la Tierra,Cabecera del Llano,LESIONES CULPOSAS ( EN ACCIDENTE DE TRANSITO ),2
2,2010,Abril,Dia de la Tierra,Centro,LESIONES PERSONALES,1
3,2010,Abril,Dia de la Tierra,García Rovira,HURTO A PERSONAS,3
4,2010,Abril,Dia de la Tierra,La Concordia,LESIONES CULPOSAS ( EN ACCIDENTE DE TRANSITO ),1
5,2010,Abril,Dia de la Tierra,La Pedregosa,VIOLENCIA INTRAFAMILIAR,1
...,...,...,...,...,...,...
33255,2021,Septiembre,No Aplica,Sur Occidente,HOMICIDIO,1
33256,2021,Septiembre,No Aplica,Sur Occidente,HURTO A MOTOCICLETAS,1
33257,2021,Septiembre,No Aplica,Sur Occidente,HURTO A PERSONAS,5
33258,2021,Septiembre,No Aplica,Sur Occidente,HURTO A RESIDENCIAS,1


In [11]:
dfml = dfml[dfml['festividad'] != 'No Aplica']
dfml

Unnamed: 0,año,mes,festividad,nom_comuna,conducta,cantidad
1,2010,Abril,Dia de la Tierra,Cabecera del Llano,LESIONES CULPOSAS ( EN ACCIDENTE DE TRANSITO ),2
2,2010,Abril,Dia de la Tierra,Centro,LESIONES PERSONALES,1
3,2010,Abril,Dia de la Tierra,García Rovira,HURTO A PERSONAS,3
4,2010,Abril,Dia de la Tierra,La Concordia,LESIONES CULPOSAS ( EN ACCIDENTE DE TRANSITO ),1
5,2010,Abril,Dia de la Tierra,La Pedregosa,VIOLENCIA INTRAFAMILIAR,1
...,...,...,...,...,...,...
33175,2021,Septiembre,Festival Internacional de Cine de Santander,Sur,LESIONES PERSONALES,2
33176,2021,Septiembre,Festival Internacional de Cine de Santander,Sur Occidente,HOMICIDIO,1
33177,2021,Septiembre,Festival Internacional de Cine de Santander,Sur Occidente,HURTO A ENTIDADES COMERCIALES,1
33178,2021,Septiembre,Festival Internacional de Cine de Santander,Sur Occidente,HURTO A MOTOCICLETAS,1


In [12]:
#Definir un diccionario de mapeo
Comuna = {
    'Norte': 1,
    'Nor Oriental': 2,
    'San Francisco': 3,
    'Occidental': 4,
    'García Rovira': 5,
    'La Concordia': 6,
    'La Ciudadela': 7,
    'Sur Occidente': 8,
    'La Pedregosa': 9,
    'Provenza': 10,
    'Sur': 11,
    'Cabecera del Llano': 12,
    'Oriental': 13,
    'Morrorico': 14,
    'Centro': 15,
    'Lagos del Cacique': 16,
    'Mutis': 17
}

#Aplicar el mapeo a la columna 'Comuna'
dfml['nom_comuna'] = dfml['nom_comuna'].map(Comuna)

#Definir un diccionario de mapeo
conducta = {
    'HURTO A PERSONAS': 1,
    'LESIONES PERSONALES': 2,
    'LESIONES CULPOSAS ( EN ACCIDENTE DE TRANSITO )': 3,
    'VIOLENCIA INTRAFAMILIAR': 4,
    'HURTO A ENTIDADES COMERCIALES': 5,
    'HURTO A RESIDENCIAS': 6,
    'HURTO A MOTOCICLETAS': 7,
    'HOMICIDIO': 8,
    'HOMICIDIO CULPOSO ( EN ACCIDENTE DE TRÁNSITO)': 9,
    'EXTORSIÓN': 10,
    'HURTO A AUTOMOTORES': 11,
    'FEMINICIDIO': 12,
    'LESIONES CULPOSAS': 13,
    'HURTO A ENTIDADES FINANCIERAS': 14,
    'HURTO A PIRATERÍA TERRESTRE': 15,
    'LESIONES AL FETO': 16,
    'HURTO A ABIGEATO': 17,
    'SECUESTRO SIMPLE': 18,
    'LESIONES PERSONALES ( CIRCUNSTANCIAS DE AGRAVACIÓN)': 19,
    'SECUESTRO EXTORSIVO': 20,
    'INCAPACIDAD PARA TRABAJAR O ENFERMEDAD': 21
}

#Aplicar el mapeo a la columna 'delitos'
dfml['conducta'] = dfml['conducta'].map(conducta)

meses = {
    'Enero': 1,
    'Febrero': 2,
    'Marzo': 3,
    'Abril': 4,
    'Mayo': 5,
    'Junio': 6,
    'Julio': 7,
    'Agosto': 8,
    'Septiembre': 9,
    'Octubre': 10,
    'Noviembre': 11,
    'Diciembre': 12
}

#Aplicar el mapeo a la columna 'mes'
dfml['mes'] = dfml['mes'].map(meses)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


In [13]:
dfml

Unnamed: 0,año,mes,festividad,nom_comuna,conducta,cantidad
1,2010,4,Dia de la Tierra,12,3,2
2,2010,4,Dia de la Tierra,15,2,1
3,2010,4,Dia de la Tierra,5,1,3
4,2010,4,Dia de la Tierra,6,3,1
5,2010,4,Dia de la Tierra,9,4,1
...,...,...,...,...,...,...
33175,2021,9,Festival Internacional de Cine de Santander,11,2,2
33176,2021,9,Festival Internacional de Cine de Santander,8,8,1
33177,2021,9,Festival Internacional de Cine de Santander,8,5,1
33178,2021,9,Festival Internacional de Cine de Santander,8,7,1


In [14]:
#Visualizamos la cantidad de festividades que hay y sus valores
dfml['festividad'].value_counts()

Domingo                                                 7476
Festival Internacional del Piano de Santander la IUS    1213
Feria Bonita                                             923
Festival Internacional de Cine de Santander              591
Año Nuevo                                                370
Semana Nacional del Tiple                                325
Dia de Amor y Amistad                                    289
Dia del Niño                                             271
Domingo de Ramos                                         266
Dia de los Amigos                                        266
Halloween                                                261
Dia de la Madre                                          252
Dia de San Valentin                                      252
Dia del Campesino                                        246
Dia del Turismo                                          240
Dia del Ingeniero                                        239
Dia del Hombre          

In [15]:
dfml['año'] = pd.to_numeric(dfml['año'], errors='coerce')
dfml['cantidad'] = pd.to_numeric(dfml['cantidad'], errors='coerce')
dfml['conducta'] = pd.to_numeric(dfml['conducta'], errors='coerce')
dfml['nom_comuna'] = pd.to_numeric(dfml['nom_comuna'], errors='coerce')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

In [16]:
#Verificamos las columnas
print(dfml.columns)

Index(['año', 'mes', 'festividad', 'nom_comuna', 'conducta', 'cantidad'], dtype='object')


In [17]:
#Verificamos los indices
print(dfml.index)

Int64Index([    1,     2,     3,     4,     5,     6,     7,     8,     9,
               10,
            ...
            33170, 33171, 33172, 33173, 33174, 33175, 33176, 33177, 33178,
            33179],
           dtype='int64', length=20063)


In [18]:
#Visualizamos si tenemos valores nulos
print(dfml.isna().sum())

año           0
mes           0
festividad    0
nom_comuna    0
conducta      0
cantidad      0
dtype: int64


In [19]:
#Revisamos el tipo de datos del dataframe
dfml.dtypes

año            int64
mes            int64
festividad    object
nom_comuna     int64
conducta       int64
cantidad       int64
dtype: object

In [20]:
# Obtener información sobre el dataframe
print(dfml.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20063 entries, 1 to 33179
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   año         20063 non-null  int64 
 1   mes         20063 non-null  int64 
 2   festividad  20063 non-null  object
 3   nom_comuna  20063 non-null  int64 
 4   conducta    20063 non-null  int64 
 5   cantidad    20063 non-null  int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ MB
None


In [21]:
# Obtener estadísticas descriptivas de los datos
print(dfml.describe())

                año           mes    nom_comuna      conducta      cantidad
count  20063.000000  20063.000000  20063.000000  20063.000000  20063.000000
mean    2015.165927      6.859044      8.385685      3.237203      2.234212
std        3.203501      3.219664      5.000546      2.133167      2.906293
min     2010.000000      1.000000      1.000000      1.000000      1.000000
25%     2012.000000      4.000000      4.000000      1.000000      1.000000
50%     2015.000000      8.000000      8.000000      3.000000      1.000000
75%     2018.000000      9.000000     13.000000      4.000000      2.000000
max     2021.000000     12.000000     17.000000     21.000000     92.000000


In [22]:
# Convertir variables categóricas a numéricas
festividad_dummies = pd.get_dummies(dfml['festividad'])

In [23]:
#Visualizamos festividades_dummies
festividad_dummies

Unnamed: 0,Asuncion de la Virgen,Año Nuevo,Año Viejo,Batalla de Boyaca,Concurso Nacional del Tiple,Dia Internacional de la Mujer,Dia de Amor y Amistad,Dia de Corpus Christi,Dia de San Pedro y San Pablo,Dia de San Valentin,...,Halloween,Independencia de Cartagena,Inmaculada Concepcion,Jueves Santo,Navidad,Noche Buena,Reyes Magos,San Jose,Semana Nacional del Tiple,Viernes Santo
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
33175,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
33176,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
33177,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
33178,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [24]:
# Seleccionar las variables relevantes
X = dfml[['año','mes','nom_comuna']]
y = dfml[['conducta','cantidad']]

In [25]:
X

Unnamed: 0,año,mes,nom_comuna
1,2010,4,12
2,2010,4,15
3,2010,4,5
4,2010,4,6
5,2010,4,9
...,...,...,...
33175,2021,9,11
33176,2021,9,8
33177,2021,9,8
33178,2021,9,8


In [26]:
#Agregamos la columna dummies en el conjunto de variables predictoras
X = pd.concat([X, festividad_dummies], axis=1)

In [27]:
#Visualizamos como quedo X
X

Unnamed: 0,año,mes,nom_comuna,Asuncion de la Virgen,Año Nuevo,Año Viejo,Batalla de Boyaca,Concurso Nacional del Tiple,Dia Internacional de la Mujer,Dia de Amor y Amistad,...,Halloween,Independencia de Cartagena,Inmaculada Concepcion,Jueves Santo,Navidad,Noche Buena,Reyes Magos,San Jose,Semana Nacional del Tiple,Viernes Santo
1,2010,4,12,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2010,4,15,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,2010,4,5,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,2010,4,6,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,2010,4,9,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
33175,2021,9,11,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
33176,2021,9,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
33177,2021,9,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
33178,2021,9,8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [28]:
X.dtypes

año                                                     int64
mes                                                     int64
nom_comuna                                              int64
Asuncion de la Virgen                                   uint8
Año Nuevo                                               uint8
Año Viejo                                               uint8
Batalla de Boyaca                                       uint8
Concurso Nacional del Tiple                             uint8
Dia Internacional de la Mujer                           uint8
Dia de Amor y Amistad                                   uint8
Dia de Corpus Christi                                   uint8
Dia de San Pedro y San Pablo                            uint8
Dia de San Valentin                                     uint8
Dia de la Afrocolombianidad                             uint8
Dia de la Ascension                                     uint8
Dia de la Madre                                         uint8
Dia de l

In [29]:
print(X.columns)

Index(['año', 'mes', 'nom_comuna', 'Asuncion de la Virgen', 'Año Nuevo',
       'Año Viejo', 'Batalla de Boyaca', 'Concurso Nacional del Tiple',
       'Dia Internacional de la Mujer', 'Dia de Amor y Amistad',
       'Dia de Corpus Christi', 'Dia de San Pedro y San Pablo',
       'Dia de San Valentin', 'Dia de la Afrocolombianidad',
       'Dia de la Ascension', 'Dia de la Madre', 'Dia de la Policia',
       'Dia de la Raza', 'Dia de la Seguridad Social', 'Dia de la Tierra',
       'Dia de la independencia', 'Dia de las Velitas', 'Dia de los Amigos',
       'Dia de los Inocentes', 'Dia de todos los Santos',
       'Dia del Adulto Mayor', 'Dia del Campesino',
       'Dia del Ejercito Nacional', 'Dia del Hombre', 'Dia del Ingeniero',
       'Dia del Maestro', 'Dia del Medio Ambiente', 'Dia del Niño',
       'Dia del Padre', 'Dia del Sagrado Corazon de Jesus', 'Dia del Trabajo',
       'Dia del Turismo', 'Domingo', 'Domingo de Pascua o Resurreccion',
       'Domingo de Ramos', 'Feria Boni

# **Evaluando Modelos**

**Regresión Lineal Multiiple**

In [30]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score, mean_absolute_error

# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [31]:
# Crear una instancia del modelo de regresión lineal
regression_model = LinearRegression()

# Entrenar el modelo de regresión lineal con los datos de entrenamiento
regression_model.fit(X_train, y_train)


In [32]:
# Predecir los valores de salida en los datos de prueba
y_pred = regression_model.predict(X_test)

# Calcular el error cuadrado medio (MSE) para ambas variables de salida
mse = mean_squared_error(y_test, y_pred)

print("Error cuadrado medio para ambas variables de salida:", mse)

# Calcular el Coeficiente de Determinación (R2 score)
r2 = r2_score(y_test, y_pred)
print("Coeficiente de Determinación (R2 score):", r2)

Error cuadrado medio para ambas variables de salida: 4.6641005031933105
Coeficiente de Determinación (R2 score): 0.09021237833379403


In [None]:
from sklearn.metrics import precision_score
precision_score(y_test, y_pred, average='macro')

**DecisionTreeRegressor**

In [36]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score, mean_absolute_error

# Supongamos que tienes tus datos X y y (variables de entrada y de salida)

# Crear una instancia del modelo Árbol de Decisión para regresión
tree_model = DecisionTreeRegressor(random_state=42)

# Entrenar el modelo Árbol de Decisión con los datos de entrenamiento
tree_model.fit(X_train, y_train)

In [37]:
# Predecir los valores de salida en los datos de prueba
y_pred = tree_model.predict(X_test)

# Calcular el error cuadrado medio (MSE) entre las predicciones y los valores reales
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrado medio:", mse)

# Calcular el Coeficiente de Determinación (R2 score)
r2 = r2_score(y_test, y_pred)
print("Coeficiente de Determinación (R2 score):", r2)


Error cuadrado medio: 7.3847883912000265
Coeficiente de Determinación (R2 score): -0.4581968414138746


**MultiOutputRegressorr**


In [None]:
# Modelo de regresión múltiple usando un RandomForestRegressor como estimador base.

from sklearn.multioutput import MultiOutputRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

#Inicializar los modelos
random_forest_model = MultiOutputRegressor(RandomForestRegressor(n_estimators=100, random_state=42))

#Entrenar Modelo
random_forest_model.fit(X_train, y_train)

#Realizar Prediciones
random_forest_predictions = random_forest_model.predict(X_test)

In [None]:
# Calcular el Error Cuadrático Medio (MSE)
mse = mean_squared_error(y_test, random_forest_predictions)
print("Error Cuadrático Medio:", mse)

# Calcular el Coeficiente de Determinación (R2)
r2 = r2_score(y_test, random_forest_predictions)
print("Coeficiente de Determinación (R2):", r2)


Error Cuadrático Medio: 6.316033985719859
Coeficiente de Determinación (R2): -0.24091138715471005


# **Hiperparametros**

**RandomForestRegressor**

In [None]:
#Buscar HiperParametros

from sklearn.multioutput import MultiOutputRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV

#Definir los hiperparámetros a ajustar y sus rangos de valores
param_grid_random_forest = {
    'estimatorn_estimators': [50, 100, 150],
    'estimatormax_depth': [None, 10, 20],
    'estimatormin_samples_split': [2, 5, 10],
    'estimatormin_samples_leaf': [1, 2, 4]
    # Agrega más hiperparámetros y rangos de valores según consideres necesario
}

#Crear el modelo de Bosque Aleatorio con Múltiple Salida
random_forest_model = RandomForestRegressor(random_state=42)
multioutput_random_forest = MultiOutputRegressor(random_forest_model)

#Realizar la búsqueda en cuadrícula
grid_search_multioutput_random_forest = GridSearchCV(estimator=multioutput_random_forest, param_grid=param_grid_random_forest, cv=5, scoring='neg_mean_squared_error')
grid_search_multioutput_random_forest.fit(X_train, y_train)

#Imprimir los mejores hiperparámetros encontrados
print("Mejores hiperparámetros encontrados para Bosque Aleatorio con Múltiple Salida:")
print(grid_search_multioutput_random_forest.bestparams)

In [None]:
#Mejores HiperParametros
# {'ccp_alpha': 0.0, 'criterion': 'squared_error', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'random_state': None, 'splitter': 'best'}


**DecisionTreeRegressor**

In [None]:
# Buscar Mejores HiperParametros Para DecisionTreeRegressor

from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV
import joblib

# Definir los hiperparámetros que deseas ajustar
parameters = {
    "splitter": ["best", "random"],
    "max_depth": [1, 3, 5, 7, 9, 11, 12],
    "min_samples_leaf": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "min_weight_fraction_leaf": [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9],
    "max_features": ["auto", "log2", "sqrt", None],
    "max_leaf_nodes": [None, 10, 20, 30, 40, 50, 60, 70, 80, 90]
}

# Crear una instancia del modelo DecisionTreeRegressor
tree_model = DecisionTreeRegressor()

# Realizar la búsqueda de hiperparámetros utilizando validación cruzada
grid_search = GridSearchCV(tree_model, parameters, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Obtener los mejores hiperparámetros encontrados
best_params = grid_search.best_params_
print("Mejores hiperparámetros:", best_params)

# Crear una nueva instancia del modelo con los mejores hiperparámetros
best_tree_model = DecisionTreeRegressor(**best_params)

# Entrenar el modelo con los datos de entrenamiento
best_tree_model.fit(X_train, y_train)

# Guardar el modelo entrenado en un archivo
joblib.dump(best_tree_model, 'mejor_modelo_decision_tree.pkl')


In [None]:
#Mejores HiperParametros
#{'max_depth': 3, 'max_features': 'auto', 'max_leaf_nodes': None, 'min_samples_leaf': 1, 'min_weight_fraction_leaf': 0.1, 'splitter': 'best'}

**Neural Network**

In [None]:
from sklearn.model_selection import RandomizedSearchCV
from keras.wrappers.scikit_learn import KerasRegressor
from keras.optimizers import Adam

#Crear una función que construya el modelo
def build_neural_network(learning_rate, num_hidden_units):
    model = Sequential([
        Dense(num_hidden_units, activation='relu', input_dim=X.shape[1]),
        Dense(num_hidden_units // 2, activation='relu'),
        Dense(2)  # Dos salidas: conducta y cantidad, activación linear para regresión
    ])
    optimizer = Adam(learning_rate=learning_rate)
    model.compile(optimizer=optimizer, loss='mean_squared_error')
    return model

#Crear un modelo envuelto para usar con RandomizedSearchCV
neural_network = KerasRegressor(build_fn=build_neural_network)

#Definir el espacio de búsqueda de hiperparámetros
param_grid = {
    'learning_rate': [0.001, 0.01, 0.1, 0.0001, 0.00001],
    'num_hidden_units': [16, 32, 64, 128, 256],
    'batch_size': [8, 16, 32, 64, 128],
    'epochs': [10, 50, 100, 200, 500],
    'validation_split': [0.1, 0.2, 0.3]
}

#Realizar la búsqueda aleatoria de hiperparámetros
random_search = RandomizedSearchCV(neural_network, param_distributions=param_grid, n_iter=10, cv=3)
random_search.fit(X_train, y_train)

#Mostrar los mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", random_search.bestparams)

In [None]:
#Mejores hiperparámetros: {'validation_split': 0.3, 'num_hidden_units': 32, 'learning_rate': 1e-05, 'epochs': 500, 'batch_size': 16}

# **Evaluando Modelos Con HiperParametros**

**Neural Network**

In [None]:
from sklearn.model_selection import RandomizedSearchCV
from keras.wrappers.scikit_learn import KerasRegressor
from keras.optimizers import Adam
from keras.models import Sequential
from keras.layers import Dense

random_search.bestparams_ =  {'validation_split': 0.3, 'num_hidden_units': 32, 'learning_rate': 1e-05, 'epochs': 500, 'batch_size': 16}

#Mostrar los mejores hiperparámetros encontrados
#print("Mejores hiperparámetros:", random_search.bestparams)

#Crear una función que construya el modelo con los mejores hiperparámetros
def build_best_neural_network():
    model = Sequential([
        Dense(random_search.bestparams_['num_hidden_units'], activation='relu', kernel_initializer='glorot_uniform', input_dim=X.shape[1]),
        Dense(random_search.bestparams_['num_hidden_units'] // 2, activation='relu', kernel_initializer='glorot_uniform'),
        Dense(2)  # Dos salidas: conducta y cantidad, activación linear para regresión
    ])
    optimizer = Adam(learning_rate=random_search.bestparams['learning_rate'])
    model.compile(optimizer=optimizer, loss='mean_squared_error')
    return model

#Crear y entrenar la nueva red neuronal con los mejores hiperparámetros
best_neural_network = build_best_neural_network()
best_neural_network.fit(X_train, y_train, epochs=random_search.bestparams['epochs'], batch_size=random_search.bestparams['batch_size'], validation_split=random_search.bestparams['validation_split'])

#Realizar predicciones con la nueva red neuronal
neural_network_predictions = best_neural_network.predict(X_test)

**DecisionTreeRegressora HyperPerametros_1**

In [None]:
from sklearn.tree import DecisionTreeRegressor

#Definir los mejores hiperparámetros
best_hyperparameters = {
    'ccp_alpha': 0.0,
    'criterion': 'squared_error',
    'max_depth': None,
    'max_features': None,
    'max_leaf_nodes': None,
    'min_impurity_decrease': 0.0,
    'min_samples_leaf': 1,
    'min_samples_split': 2,
    'min_weight_fraction_leaf': 0.0,
    'random_state': None,
    'splitter': 'best'
}

#Crear una instancia del modelo de árbol de decisión con los mejores hiperparámetros
model = DecisionTreeRegressor(**best_hyperparameters)

#Entrenar el modelo con tus datos
model.fit(X_train, y_train)

#Realizar predicciones
y_pred = model.predict(X_test)

In [None]:
mse_conducta = mean_squared_error(y_test['conducta'], y_pred[:, 0])
mse_cantidad = mean_squared_error(y_test['cantidad'], y_pred[:, 1])
average_mse = (mse_conducta + mse_cantidad) / 2

In [None]:
#Calcular el Coeficiente de Determinación (R²) promedio para ambas variables
r2_conducta = r2_score(y_test['conducta'], y_pred[:, 0])
r2_cantidad = r2_score(y_test['cantidad'], y_pred[:, 1])
average_r2 = (r2_conducta + r2_cantidad) / 2

In [None]:
print(f"Promedio del MSE para Conducta y Cantidad: {average_mse}")
print(f"Promedio del R² para Conducta y Cantidad: {average_r2}")

Promedio del MSE para Conducta y Cantidad: 7.839561520250042
Promedio del R² para Conducta y Cantidad: -0.5366784954905344


**RandomForestRegressor**

In [None]:
from sklearn.ensemble import RandomForestRegressor

#Definir los mejores hiperparámetros
best_hyperparameters = {
    'ccp_alpha': 0.0,
    'criterion': 'squared_error',
    'max_depth': None,
    'max_features': None,
    'max_leaf_nodes': None,
    'min_impurity_decrease': 0.0,
    'min_samples_leaf': 1,
    'min_samples_split': 2,
    'min_weight_fraction_leaf': 0.0,
    'random_state': None,
    #'splitter': 'best'
}

#Crear una instancia del modelo RandomForestRegressor con los mejores hiperparámetros
new_random_forest_model = RandomForestRegressor(**best_hyperparameters)

#Entrenar el nuevo modelo con tus datos
new_random_forest_model.fit(X_train, y_train)

#Realizar predicciones con el nuevo modelo
new_random_forest_predictions = new_random_forest_model.predict(X_test)


In [None]:
mse_conducta = mean_squared_error(y_test['conducta'], new_random_forest_predictions[:, 0])
mse_cantidad = mean_squared_error(y_test['cantidad'], new_random_forest_predictions[:, 1])
average_mse = (mse_conducta + mse_cantidad) / 2

In [None]:
#Calcular el Coeficiente de Determinación (R²) promedio para ambas variables
r2_conducta = r2_score(y_test['conducta'], random_forest_predictions[:, 0])
r2_cantidad = r2_score(y_test['cantidad'], random_forest_predictions[:, 1])
average_r2 = (r2_conducta + r2_cantidad) / 2

In [None]:
print(f"Promedio del MSE para Conducta y Cantidad: {average_mse}")
print(f"Promedio del R² para Conducta y Cantidad: {average_r2}")

Promedio del MSE para Conducta y Cantidad: 7.560955364849574
Promedio del R² para Conducta y Cantidad: -0.46072290810963246


**DecisionTreeRegressor HiperParametros_2**

In [None]:
from sklearn.tree import DecisionTreeRegressor

# Crear una instancia del modelo de árbol de decisión con los mejores hiperparámetros
model = DecisionTreeRegressor(max_depth=3, max_features='auto', min_samples_leaf=1, splitter='best')

# Entrenar el modelo con tus datos
model.fit(X_train, y_train)

# Realizar predicciones
y_pred = model.predict(X_test)



In [None]:
# Calcular el error cuadrado medio (MSE) para ambas variables de salida
mse = mean_squared_error(y_test, y_pred)

print("Error cuadrado medio para ambas variables de salida:", mse)

# Calcular el Coeficiente de Determinación (R2 score)
r2 = r2_score(y_test, y_pred)
print("Coeficiente de Determinación (R2 score):", r2)

Error cuadrado medio para ambas variables de salida: 4.644615964993199
Coeficiente de Determinación (R2 score): 0.09353995535377985


# **Todos Los Datos**

**DecisionTreeRegressor_1**

In [None]:
import pickle
from sklearn.tree import DecisionTreeRegressor

# Crear una instancia del modelo de árbol de decisión con los mejores hiperparámetros
model = DecisionTreeRegressor(max_depth=3, max_features='auto', min_samples_leaf=1, splitter='best')

# Entrenar el modelo con tus datos
model.fit(X, y)

# Guardar el modelo entrenado en un archivo
filename = 'decision_tree_model.pkl'
with open(filename, 'wb') as file:
    pickle.dump(model, file)



**DecisionTreeRegressor_2**

In [None]:
#Decidimos usar DecisionTreeRegressor con los Hyperparametros 2 porque nos dio un resultados mejoren realacion a los otras pruebas

#Error cuadrado medio para ambas variables de salida: 4.644615964993199
#Coeficiente de Determinación (R2 score): 0.09353995535377985

In [43]:
import pickle
from sklearn.tree import DecisionTreeRegressor

# Parámetros para el modelo de árbol de decisión
params = {
    'ccp_alpha': 0.0,
    'criterion': 'squared_error',
    'max_depth': None,
    'max_features': None,
    'max_leaf_nodes': None,
    'min_impurity_decrease': 0.0,
    'min_samples_leaf': 1,
    'min_samples_split': 2,
    'min_weight_fraction_leaf': 0.0,
    'random_state': None,
    'splitter': 'best',
}

# Crear una instancia del modelo de árbol de decisión con los parámetros específicos
model = DecisionTreeRegressor(**params)

# Entrenar el modelo con tus datos
model.fit(X, y)

# Guardar el modelo entrenado en un archivo
filename = 'decision_tree_model_Pr2.pkl'
with open(filename, 'wb') as file:
    pickle.dump(model, file)


**LinearRegression**

In [None]:
import pickle
from sklearn.tree import DecisionTreeRegressor

# Crear una instancia del modelo de árbol de decisión con los mejores hiperparámetros
modelR = LinearRegression()

# Entrenar el modelo con tus datos
modelR.fit(X, y)

# Guardar el modelo entrenado en un archivo
filename = 'LinearRegression_model.pkl'
with open(filename, 'wb') as file:
    pickle.dump(modelR, file)

# **Descargamos el modelo para su posterior uso**

In [None]:
# Guardar el modelo entrenado en un archivo
filename = 'decision_tree_model.pkl'
with open(filename, 'wb') as file:
    pickle.dump(regression_model, file)

In [None]:
#Guardar Resultado del Modelo
import pickle
filename = "model.pkl"
pickle.dump(model, open(filename, "wb"))

In [None]:
#Descargamos el nuevo dataset para su despliegue
from google.colab import files

dfml.to_csv('dfml.csv')
files.download('dfml.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>