# Predicción de procesos abiertos por departamento

## Importando las librerías necesarias 


In [13]:
import numpy as np
import pandas as pd
import functions as ft
import os
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

# Importe,segmentación, ordenado y limpieza del dataset

En esta sección nos interesa lograr los siguientes items: 

* Dividir el dataset por departamentos
* Dentro de los departamentos, contar la cantidad de procesos solicitados por día
* Crear una línea de tiempo continua, lo que implica que todos los días del año deben estar dentro de cada subdataset.

In [15]:
df = pd.read_csv("../data/processed/unified_data.csv")
print(df.head())
print(df.shape)
print(df.dtypes)

   IdSolicitud                                         NomEntidad  \
0       481137  UNIVERSIDAD  FACULTAD DE DERECHO  CONSULTORIOJ...   
1      3930874  UNIVERSIDAD  FACULTAD DE DERECHO  CONSULTORIOJ...   
2       414466  UNIVERSIDAD  FACULTAD DE DERECHO  CONSULTORIOJ...   
3       441614  UNIVERSIDAD  FACULTAD DE DERECHO  CONSULTORIOJ...   
4        39309  UNIVERSIDAD  FACULTAD DE DERECHO  CONSULTORIOJ...   

           NomCasaJusticia FechaSolicitud  days  months  years  day_of_week  \
0  CASA DE JUSTICIA CAJICA     2019-10-21    21      10   2019            1   
1  CASA DE JUSTICIA CAJICA     2019-05-08     8       5   2019            3   
2  CASA DE JUSTICIA CAJICA     2019-09-16    16       9   2019            1   
3  CASA DE JUSTICIA CAJICA     2019-09-30    30       9   2019            1   
4  CASA DE JUSTICIA CAJICA     2019-05-08     8       5   2019            3   

   COD_DPTO  COD_MPIO        VULNERABILITY  IPM-mean  IPM-median  \
0        25       126  Vulnerabilidad baja

Como puede observarse, la fecha sigue almacenada en formato object, por lo que la modificaremos a datetime

In [16]:
df["FechaSolicitud"] = pd.to_datetime(df["FechaSolicitud"])

Además, de aquí en adelante solo nos interesará la fecha de la solicitud, su departamento y sus indicadores de vulnerabilidad

In [18]:
df.drop(['COD_MPIO', 'Municipio', 'days', 'months', 'years', 'day_of_week', 'NomCasaJusticia', 'NomEntidad', 'IdSolicitud'], axis = 1, inplace = True)

df.head()

Unnamed: 0,FechaSolicitud,COD_DPTO,VULNERABILITY,IPM-mean,IPM-median,PREGANCY,REACTIVATION,Departamento
0,2019-10-21,25,Vulnerabilidad baja,6.305179,4.511278,Vulnerabilidad baja,elegibilidad media-baja,CUNDINAMARCA
1,2019-05-08,25,Vulnerabilidad baja,6.305179,4.511278,Vulnerabilidad baja,elegibilidad media-baja,CUNDINAMARCA
2,2019-09-16,25,Vulnerabilidad baja,6.305179,4.511278,Vulnerabilidad baja,elegibilidad media-baja,CUNDINAMARCA
3,2019-09-30,25,Vulnerabilidad baja,6.305179,4.511278,Vulnerabilidad baja,elegibilidad media-baja,CUNDINAMARCA
4,2019-05-08,25,Vulnerabilidad baja,6.305179,4.511278,Vulnerabilidad baja,elegibilidad media-baja,CUNDINAMARCA


Con el dataframe inicial listo, se procede a dividirlo en subdataframes

In [19]:
dfs = ft.divide_dataframe(df, "Departamento")

ft.compare_rows(df, dfs)


(3607572, 3607572)


True

In [20]:
dfs.values()

dict_values([        FechaSolicitud  COD_DPTO        VULNERABILITY   IPM-mean  IPM-median  \
65          2019-11-12         5  Vulnerabilidad baja  18.842702   16.993464   
66          2019-10-29         5  Vulnerabilidad baja  18.842702   16.993464   
67          2019-12-13         5  Vulnerabilidad baja  18.842702   16.993464   
68          2019-09-12         5  Vulnerabilidad baja  18.842702   16.993464   
69          2019-12-12         5  Vulnerabilidad baja  18.842702   16.993464   
...                ...       ...                  ...        ...         ...   
3607543     2024-09-30         5  Vulnerabilidad baja  33.161055   34.129353   
3607544     2024-09-30         5  Vulnerabilidad baja  33.161055   34.129353   
3607545     2024-09-30         5  Vulnerabilidad baja  33.161055   34.129353   
3607547     2024-09-30         5  Vulnerabilidad baja  33.161055   34.129353   
3607548     2024-09-30         5  Vulnerabilidad baja  33.161055   34.129353   

                    PREGAN