In [1]:
# módulos estándar
import pandas as pd
import numpy as np

import math
import matplotlib.pyplot as plt
import seaborn as sns
import plotnine as pn

# config Matplotlib
%matplotlib inline
plt.style.use('ggplot')

# config Seaborn
sns.set_theme(color_codes=True)
sns.set_style("darkgrid") # whitegrid

In [2]:
#Dar permisos para acceso a archivos en drive
#Es necesario para obtener el archivo gpkg
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [41]:
# Cargar usando Files de Google
from google.colab import files
uploaded = files.upload()

Saving decision_tree_model_Pr2.pkl to decision_tree_model_Pr2.pkl


In [121]:
ls

Calendario-2023.csv  decision_tree_model_Pr2.pkl  [0m[01;34mdrive[0m/  [01;34msample_data[0m/


# **Dataset Destino**

In [122]:
#Definimos las columnas y leimos el dataset 1
colnames = ['año','dia','mes','festividad']
df3 = pd.read_csv('Calendario-2023.csv', header=None,names=colnames, low_memory=False)

In [123]:
df3 = df3.reset_index(drop=True)

In [124]:
df3 = df3.drop(index=0)

In [125]:
df3 = df3.reset_index(drop=True)

In [126]:
meses = {
    'Enero': 1,
    'Febrero': 2,
    'Marzo': 3,
    'Abril': 4,
    'Mayo': 5,
    'Junio': 6,
    'Julio': 7,
    'Agosto': 8,
    'Septiembre': 9,
    'Octubre': 10,
    'Noviembre': 11,
    'Diciembre': 12
}

#Aplicar el mapeo a la columna 'mes'
df3['mes'] = df3['mes'].map(meses)

In [127]:
df3

Unnamed: 0,año,dia,mes,festividad
0,2023,1,1,Año Nuevo
1,2023,1,1,Domingo
2,2023,8,1,Domingo
3,2023,9,1,Reyes Magos
4,2023,15,1,Domingo
...,...,...,...,...
130,2023,24,12,Noche Buena
131,2023,25,12,Navidad
132,2023,28,12,Dia de los Inocentes
133,2023,31,12,Domingo


In [128]:
df3['año'] = df3['año'].astype(int)
df3['dia'] = df3['dia'].astype(int)

In [129]:
df3.dtypes

año            int64
dia            int64
mes            int64
festividad    object
dtype: object

In [130]:
df20 = pd.DataFrame(df3)

# Generar las combinaciones únicas de año, mes y festividad
unique_combinations = df3[['año', 'mes', 'festividad']].drop_duplicates()

# Generar una lista con todas las combinaciones posibles de año, mes, festividad y nom_comuna
combinations = []
for _, row in unique_combinations.iterrows():
    year = row['año']
    month = row['mes']
    festivity = row['festividad']
    for nom_comuna in range(1, 18):
        combinations.append([year, month, festivity, nom_comuna])

# Crear un DataFrame a partir de la lista de combinaciones
column_names = ['año', 'mes', 'festividad', 'nom_comuna']
df1 = pd.DataFrame(combinations, columns=column_names)

In [131]:
df1

Unnamed: 0,año,mes,festividad,nom_comuna
0,2023,1,Año Nuevo,1
1,2023,1,Año Nuevo,2
2,2023,1,Año Nuevo,3
3,2023,1,Año Nuevo,4
4,2023,1,Año Nuevo,5
...,...,...,...,...
1049,2023,12,Año Viejo,13
1050,2023,12,Año Viejo,14
1051,2023,12,Año Viejo,15
1052,2023,12,Año Viejo,16


# **Copia Dummis**

In [132]:
df1_copy = df1.copy()

In [133]:
df1.dtypes

año            int64
mes            int64
festividad    object
nom_comuna     int64
dtype: object

# **Implementacion**

In [134]:
# Definir una función lambda para eliminar los espacios al final de la cadena solo si hay un espacio al final
remove_trailing_space = lambda x: x.rstrip() if x[-1] == ' ' else x

# Aplicar la función a la columna 'Festividad'
df1['festividad'] = df1['festividad'].apply(remove_trailing_space)

In [135]:
# Se realiza dummis de la copia "df_prueba_de_def_combine"
festividad_dummies = pd.get_dummies(df1['festividad'])

In [136]:
festividad_dummies

Unnamed: 0,Asuncion de la Virgen,Año Nuevo,Año Viejo,Batalla de Boyaca,Concurso Nacional del Tiple,Dia Internacional de la Mujer,Dia de Amor y Amistad,Dia de Corpus Christi,Dia de San Pedro y San Pablo,Dia de San Valentin,...,Halloween,Independencia de Cartagena,Inmaculada Concepcion,Jueves Santo,Navidad,Noche Buena,Reyes Magos,San Jose,Semana Nacional del Tiple,Viernes Santo
0,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1049,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1050,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1051,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1052,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [137]:
#Se elimina la columna festividad de "df_prueba_de_def_combine"
df1 = df1.drop("festividad", axis=1)

In [138]:
df1

Unnamed: 0,año,mes,nom_comuna
0,2023,1,1
1,2023,1,2
2,2023,1,3
3,2023,1,4
4,2023,1,5
...,...,...,...
1049,2023,12,13
1050,2023,12,14
1051,2023,12,15
1052,2023,12,16


In [139]:
df1.dtypes

año           int64
mes           int64
nom_comuna    int64
dtype: object

In [140]:
df1['año'] = df1['año'].astype(int)
#df1['nom_comuna'] = df1['nom_comuna'].astype(int)

In [141]:
df1.dtypes

año           int64
mes           int64
nom_comuna    int64
dtype: object

In [142]:
#Se concatena la "df_prueba_de_def_combine" con dummins "festividad_dummies"
df1 = pd.concat([df1, festividad_dummies], axis=1)

In [143]:
df1

Unnamed: 0,año,mes,nom_comuna,Asuncion de la Virgen,Año Nuevo,Año Viejo,Batalla de Boyaca,Concurso Nacional del Tiple,Dia Internacional de la Mujer,Dia de Amor y Amistad,...,Halloween,Independencia de Cartagena,Inmaculada Concepcion,Jueves Santo,Navidad,Noche Buena,Reyes Magos,San Jose,Semana Nacional del Tiple,Viernes Santo
0,2023,1,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2023,1,2,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2023,1,3,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,2023,1,4,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,2023,1,5,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1049,2023,12,13,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1050,2023,12,14,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1051,2023,12,15,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1052,2023,12,16,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# **Prediciones**

In [144]:
# Importamos la libreria y cargamos el modelo de entrenamiento al cual le pasaremos el dataframe creado de prueba.
import pickle
filename = "decision_tree_model_Pr2.pkl"
loaded_model = pickle.load(open(filename,"rb"))

In [145]:
# Se pasa el DataFrame por el Modelo de Entrenamiento.
prueba=loaded_model.predict(df1)

In [146]:
# Se imprime el resultado de la prediccion de las conductas
prueba

array([[ 5.  ,  1.75],
       [ 9.  ,  1.  ],
       [ 7.  ,  1.  ],
       ...,
       [ 1.  , 28.  ],
       [ 1.  ,  2.  ],
       [ 1.5 ,  1.5 ]])

In [147]:
# Se crea el DF Final partiendo de las columnas originales. Luego se le anexará la columna de predicción
df_futuro = df1.copy()
df_futuro

Unnamed: 0,año,mes,nom_comuna,Asuncion de la Virgen,Año Nuevo,Año Viejo,Batalla de Boyaca,Concurso Nacional del Tiple,Dia Internacional de la Mujer,Dia de Amor y Amistad,...,Halloween,Independencia de Cartagena,Inmaculada Concepcion,Jueves Santo,Navidad,Noche Buena,Reyes Magos,San Jose,Semana Nacional del Tiple,Viernes Santo
0,2023,1,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2023,1,2,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2023,1,3,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,2023,1,4,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,2023,1,5,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1049,2023,12,13,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1050,2023,12,14,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1051,2023,12,15,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1052,2023,12,16,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [148]:
df_predicciones = pd.DataFrame(prueba, columns=["conducta", "cantidad"])

# Concatenar los DataFrames 'df_futuro' y 'df_predicciones' a lo largo de las columnas
df_futuro = pd.concat([df_futuro, df_predicciones], axis=1)

# Imprimir el DataFrame actualizado con las predicciones
print(df_futuro)

       año  mes  nom_comuna  Asuncion de la Virgen  Año Nuevo  Año Viejo  \
0     2023    1           1                      0          1          0   
1     2023    1           2                      0          1          0   
2     2023    1           3                      0          1          0   
3     2023    1           4                      0          1          0   
4     2023    1           5                      0          1          0   
...    ...  ...         ...                    ...        ...        ...   
1049  2023   12          13                      0          0          1   
1050  2023   12          14                      0          0          1   
1051  2023   12          15                      0          0          1   
1052  2023   12          16                      0          0          1   
1053  2023   12          17                      0          0          1   

      Batalla de Boyaca  Concurso Nacional del Tiple  \
0                     0        

In [149]:
#Se crea la columna 'conducta' asignandole la variable de prediccion del modelo.
df_futuro

Unnamed: 0,año,mes,nom_comuna,Asuncion de la Virgen,Año Nuevo,Año Viejo,Batalla de Boyaca,Concurso Nacional del Tiple,Dia Internacional de la Mujer,Dia de Amor y Amistad,...,Inmaculada Concepcion,Jueves Santo,Navidad,Noche Buena,Reyes Magos,San Jose,Semana Nacional del Tiple,Viernes Santo,conducta,cantidad
0,2023,1,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,5.000000,1.75
1,2023,1,2,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,9.000000,1.00
2,2023,1,3,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,7.000000,1.00
3,2023,1,4,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1.500000,2.50
4,2023,1,5,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,4.000000,3.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1049,2023,12,13,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,2.666667,2.00
1050,2023,12,14,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,2.666667,2.00
1051,2023,12,15,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1.000000,28.00
1052,2023,12,16,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1.000000,2.00


In [150]:
df_futuro.dtypes

año                                                       int64
mes                                                       int64
nom_comuna                                                int64
Asuncion de la Virgen                                     uint8
Año Nuevo                                                 uint8
Año Viejo                                                 uint8
Batalla de Boyaca                                         uint8
Concurso Nacional del Tiple                               uint8
Dia Internacional de la Mujer                             uint8
Dia de Amor y Amistad                                     uint8
Dia de Corpus Christi                                     uint8
Dia de San Pedro y San Pablo                              uint8
Dia de San Valentin                                       uint8
Dia de la Afrocolombianidad                               uint8
Dia de la Ascension                                       uint8
Dia de la Madre                         

In [151]:
print(df_futuro.isna().sum())

año                                                     0
mes                                                     0
nom_comuna                                              0
Asuncion de la Virgen                                   0
Año Nuevo                                               0
Año Viejo                                               0
Batalla de Boyaca                                       0
Concurso Nacional del Tiple                             0
Dia Internacional de la Mujer                           0
Dia de Amor y Amistad                                   0
Dia de Corpus Christi                                   0
Dia de San Pedro y San Pablo                            0
Dia de San Valentin                                     0
Dia de la Afrocolombianidad                             0
Dia de la Ascension                                     0
Dia de la Madre                                         0
Dia de la Policia                                       0
Dia de la Raza

In [153]:
df_futuro.conducta.value_counts()

1.000000     289
2.000000     146
1.500000     117
3.000000      96
4.000000      66
3.333333      43
3.500000      40
5.000000      37
7.000000      26
6.000000      25
2.666667      18
8.000000      17
4.333333      15
3.666667      14
4.500000      13
2.750000      10
2.500000      10
5.500000       9
4.250000       6
4.666667       5
3.750000       5
10.000000      4
4.200000       4
3.250000       4
3.400000       4
4.800000       3
3.600000       3
9.000000       3
3.800000       3
4.571429       2
4.600000       2
5.333333       2
4.750000       2
4.400000       2
7.500000       2
4.833333       2
5.166667       1
5.666667       1
5.750000       1
2.333333       1
13.000000      1
Name: conducta, dtype: int64

In [155]:
df_futuro.dtypes

año                                                       int64
mes                                                       int64
nom_comuna                                                int64
Asuncion de la Virgen                                     uint8
Año Nuevo                                                 uint8
Año Viejo                                                 uint8
Batalla de Boyaca                                         uint8
Concurso Nacional del Tiple                               uint8
Dia Internacional de la Mujer                             uint8
Dia de Amor y Amistad                                     uint8
Dia de Corpus Christi                                     uint8
Dia de San Pedro y San Pablo                              uint8
Dia de San Valentin                                       uint8
Dia de la Afrocolombianidad                               uint8
Dia de la Ascension                                       uint8
Dia de la Madre                         

In [157]:
import pandas as pd

# Generar columnas dummy a partir de la columna 'festividad'
columnas_dummy_festividad = pd.get_dummies(df1_copy['festividad'], prefix='festividad')

# Concatenar las columnas dummy con el DataFrame original
df7 = pd.concat([df1_copy, columnas_dummy_festividad], axis=1)

In [158]:
# Concatenar los DataFrames 'df_futuro' y 'df_predicciones' a lo largo de las columnas
df7 = pd.concat([df7, df_predicciones], axis=1)

In [162]:
df7

Unnamed: 0,año,mes,festividad,nom_comuna,festividad_Asuncion de la Virgen,festividad_Año Nuevo,festividad_Año Viejo,festividad_Batalla de Boyaca,festividad_Concurso Nacional del Tiple,festividad_Dia Internacional de la Mujer,...,festividad_Inmaculada Concepcion,festividad_Jueves Santo,festividad_Navidad,festividad_Noche Buena,festividad_Reyes Magos,festividad_San Jose,festividad_Semana Nacional del Tiple,festividad_Viernes Santo,conducta,cantidad
0,2023,1,Año Nuevo,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,5.000000,1.75
1,2023,1,Año Nuevo,2,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,9.000000,1.00
2,2023,1,Año Nuevo,3,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,7.000000,1.00
3,2023,1,Año Nuevo,4,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1.500000,2.50
4,2023,1,Año Nuevo,5,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,4.000000,3.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1049,2023,12,Año Viejo,13,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,2.666667,2.00
1050,2023,12,Año Viejo,14,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,2.666667,2.00
1051,2023,12,Año Viejo,15,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,1.000000,28.00
1052,2023,12,Año Viejo,16,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,1.000000,2.00


In [177]:
# Lista de nombres de las columnas que deseas seleccionar
columnas_seleccionadas = ['año',	'mes',	'festividad',	'nom_comuna','conducta','cantidad']
df3 = df7[columnas_seleccionadas].copy()

In [178]:
def redondear_cantidad(valor):
    return round(valor)

# Aplicar la función de redondeo solo a la columna "cantidad"
df3["conducta"] = df3["conducta"].apply(redondear_cantidad)

In [179]:
#Definir un diccionario de mapeo
Comuna = {
    1 : 'Norte',
    2 : 'Nor Oriental',
    3 : 'San Francisco',
    4 : 'Occidental',
    5 : 'García Rovira',
    6 :'La Concordia',
    7 :'La Ciudadela',
    8 :'Sur Occidente',
    9 :'La Pedregosa',
    10 :'Provenza',
    11 :'Sur',
    12 :'Cabecera del Llano',
    13 :'Oriental',
    14 :'Morrorico',
    15 :'Centro',
    16 :'Lagos del Cacique',
    17 :'Mutis'
}

#Aplicar el mapeo a la columna 'Comuna'
df3['nom_comuna'] = df3['nom_comuna'].map(Comuna)

#Definir un diccionario de mapeo
delitos = {
    1:'HURTO A PERSONAS',
    2:'LESIONES PERSONALES',
    3:'LESIONES CULPOSAS ( EN ACCIDENTE DE TRANSITO )',
    4:'VIOLENCIA INTRAFAMILIAR',
    5:'HURTO A ENTIDADES COMERCIALES',
    6:'HURTO A RESIDENCIAS',
    7:'HURTO A MOTOCICLETAS',
    8:'HOMICIDIO',
    9:'HOMICIDIO CULPOSO ( EN ACCIDENTE DE TRÁNSITO)',
    10:'EXTORSIÓN',
    11:'HURTO A AUTOMOTORES',
    12:'FEMINICIDIO',
    13:'LESIONES CULPOSAS',
    14:'HURTO A ENTIDADES FINANCIERAS',
    15:'HURTO A PIRATERÍA TERRESTRE',
    16:'LESIONES AL FETO',
    17:'HURTO A ABIGEATO',
    18:'SECUESTRO SIMPLE',
    19:'LESIONES PERSONALES ( CIRCUNSTANCIAS DE AGRAVACIÓN)',
    20:'SECUESTRO EXTORSIVO',
    21:'INCAPACIDAD PARA TRABAJAR O ENFERMEDAD'
}


In [180]:
df3

Unnamed: 0,año,mes,festividad,nom_comuna,conducta,cantidad
0,2023,1,Año Nuevo,Norte,5,1.75
1,2023,1,Año Nuevo,Nor Oriental,9,1.00
2,2023,1,Año Nuevo,San Francisco,7,1.00
3,2023,1,Año Nuevo,Occidental,2,2.50
4,2023,1,Año Nuevo,García Rovira,4,3.00
...,...,...,...,...,...,...
1049,2023,12,Año Viejo,Oriental,3,2.00
1050,2023,12,Año Viejo,Morrorico,3,2.00
1051,2023,12,Año Viejo,Centro,1,28.00
1052,2023,12,Año Viejo,Lagos del Cacique,1,2.00


# **Descargar DataSet Final**

In [172]:
#Descargamos el nuevo dataset para su despliegue
from google.colab import files

df3.to_csv('df3.csv')
files.download('df3.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>