## Data: Inventario

In [1]:
import os
import pandas as pd
import numpy as np
from pyarrow import feather
from tqdm import tqdm

from src.data import clean_data

In [2]:
path_raw = "../data/raw"
archivos = os.listdir(path_raw) 

tqdm.pandas()

  from pandas import Panel


In [3]:
# Creacion dataframe con los datos de Inventario Causas en Tramitación Penal de los años 2015 a 2019

dataframes = []

for archivo in archivos:
    if archivo.find("Inventario Causas en Tramitación Penal") != -1:
        df = pd.read_csv(f"{path_raw}/{archivo}", sep = ";", encoding = 'cp850', low_memory = True)
        dataframes.append(df) 
        
df_inventario = pd.concat(dataframes, axis = 0)


In [4]:
# ESTANDARIZACION DE NOMBRES DE VARIABLES 

df_inventario.rename(columns = {'CÓDIGO CORTE':'COD. CORTE',
                                'CÓDIGO TRIBUNAL':'COD. TRIBUNAL',
                                'CÓDIGO MATERIA':'COD. MATERIA',
                                ' MATERIA':'MATERIA'
                               },
                     inplace = True)

df_inventario.drop(['TOTAL INVENTARIO','SISTEMA'], axis = 'columns', inplace = True)

In [5]:
# TRANSFORMAMOS DE FLOAT A INTEGER

df_inventario['COD. CORTE'] = df_inventario['COD. CORTE'].fillna(0).astype(np.int16)
df_inventario['COD. TRIBUNAL'] = df_inventario['COD. TRIBUNAL'].fillna(0).astype(np.int16)
df_inventario['COD. MATERIA'] = df_inventario['COD. MATERIA'].fillna(0).astype(np.int16)

In [6]:
# Transformamos fechas

df_inventario['FECHA INGRESO'] = df_inventario['FECHA INGRESO'].progress_apply(clean_data.convierte_fecha)
df_inventario['FECHA ULT. DILIGENCIA'] = df_inventario['FECHA ULT. DILIGENCIA'].progress_apply(clean_data.convierte_fecha)

100%|██████████| 1786310/1786310 [00:03<00:00, 551508.65it/s]
100%|██████████| 1786310/1786310 [00:03<00:00, 536353.25it/s]


In [7]:
# Elimino espacios en las columnas tipo objetos

df_inventario = df_inventario.progress_apply(clean_data.elimina_espacios, axis=0)

100%|██████████| 12/12 [00:15<00:00,  1.28s/it]


In [8]:
# Elimino tildes de las columnas object

cols = df_inventario.select_dtypes(include = ["object"]).columns
df_inventario[cols] = df_inventario[cols].progress_apply(clean_data.elimina_tilde)

100%|██████████| 7/7 [00:31<00:00,  4.47s/it]


In [9]:
# CATEGORIZACION DE VARIABLES

df_inventario['CORTE'] = df_inventario['CORTE'].astype('category')
df_inventario['COMPETENCIA'] = df_inventario['COMPETENCIA'].astype('category')
df_inventario['TIPO CAUSA'] = df_inventario['TIPO CAUSA'].astype('category')
df_inventario['TIPO ULT. DILIGENCIA'] = df_inventario['TIPO ULT. DILIGENCIA'].astype('category')

In [10]:
# Reset el index para realizar feather

df_inventario.reset_index(inplace = True)

In [11]:
df_inventario

Unnamed: 0,index,COD. CORTE,CORTE,COD. TRIBUNAL,TRIBUNAL,RIT,COMPETENCIA,TIPO CAUSA,COD. MATERIA,MATERIA,TIPO ULT. DILIGENCIA,FECHA ULT. DILIGENCIA,FECHA INGRESO
0,0,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,123-2016,ORAL,Ordinaria,856,APROPIACION INDEBIDA ART.470 N°1,AUDIENCIA,2019-10-31,2016-04-29
1,1,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,159-2019,ORAL,Ordinaria,7037,TRAFICO DE PEQUEÑA CANTIDADE (ART. 4).,RESOLUCION,2019-12-31,2019-05-28
2,2,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,160-2019,ORAL,Ordinaria,10011,POSESION TENENCIA O PORTE DE MUN Y SUST QUIMICAS,RESOLUCION,2019-11-21,2019-05-28
3,3,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,176-2019,ORAL,Ordinaria,12051,CONTRAB. INFRAC A LA ORD. DE ADUAN ART 168. LE...,RESOLUCION,2019-12-31,2019-06-06
4,4,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,196-2013,ORAL,Ordinaria,7007,TRAFICO ILICITO DE DROGA (ART. 3).,RESOLUCION,2019-09-10,2013-08-05
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1786305,343957,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,87-2017,ORAL,Ordinaria,10008,PORTE DE ARMA PROHIBIDA (ART. 14 INC. 1°),RESOLUCION,2017-12-14,2017-07-24
1786306,343958,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,89-2017,ORAL,Ordinaria,12149,DESACATO (ART. 240 CODIGO DE PROCEDIMIENTO CIV...,RESOLUCION,2017-12-06,2017-07-26
1786307,343959,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,91-2017,ORAL,Ordinaria,623,ABUSO SEXUAL CON CONTACTO DE MENOR DE 14 AÑOS....,RESOLUCION,2017-12-11,2017-07-28
1786308,343960,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,95-2017,ORAL,Ordinaria,7037,TRAFICO DE PEQUEÑAS CANTIDADES (ART. 4).,RESOLUCION,2017-12-18,2017-08-02


In [12]:
# Guardamos dataset como archivo feather

df_inventario.to_feather('../data/interim/Inventario_feather')