## Carga Data TERMINOS X ROL

In [1]:
import os
import pandas as pd
import numpy as np
from pyarrow import feather
from tqdm import tqdm

from src.data import cleandata

In [2]:
path_raw = "../data/raw/pjud" 
archivos = os.listdir(path_raw) 
tqdm.pandas()

  from pandas import Panel


In [3]:
# Creacion dataframe con los datos de Términos por Rol Penal de los años 2015 a 2019

dataframes = []

for archivo in archivos:
    if archivo.find("Términos por Rol Penal") != -1:
        df = pd.read_csv(f"{path_raw}/{archivo}", sep = ";", encoding = 'cp850', low_memory = True)
        dataframes.append(df) 
        
df_termino_rol = pd.concat(dataframes, axis = 0)

In [4]:
# Elimino filas vacias o con datos NaN

df_termino_rol = df_termino_rol.dropna()
df_termino_rol.drop(['N°','MES TÉRMINO','AÑO TÉRMINO','TOTAL TÉRMINOS','SISTEMA'], axis = 'columns', inplace = True)

In [5]:
# Cambio de nombre a algunas columnas para dejarlas iguales a otros dataframes

df_termino_rol.rename(columns = {'CÓD. CORTE':'COD. CORTE',
                                'CÓD. TRIBUNAL':'COD. TRIBUNAL',
                                'DURACIÓN CAUSA ':'DURACION CAUSA',
                                'MOTIVO DE TÉRMINO':'MOTIVO TERMINO',
                                'FECHA TÉRMINO':'FECHA TERMINO'
                                },
                     inplace = True) 

In [6]:
# Transformamos variables float64 a int16

df_termino_rol['COD. CORTE'] = df_termino_rol['COD. CORTE'].fillna(0).astype(np.int16)
df_termino_rol['COD. TRIBUNAL'] = df_termino_rol['COD. TRIBUNAL'].fillna(0).astype(np.int16)
df_termino_rol['DURACION CAUSA'] = df_termino_rol['DURACION CAUSA'].fillna(0).astype(np.int16)

In [7]:
# Elimino tildes de las columnas object

cols = df_termino_rol.select_dtypes(include = ["object"]).columns
df_termino_rol[cols] = df_termino_rol[cols].progress_apply(cleandata.elimina_tilde)

100%|██████████| 7/7 [00:55<00:00,  7.92s/it]


In [8]:
# Convertir objetos a fechas
#cols_date = ['FECHA INGRESO', 'FECHA TERMINO']
#df_termino_rol[cols_date] = df_termino_rol[cols_date].progress_apply(convierte_fecha)

df_termino_rol['FECHA INGRESO'] = df_termino_rol['FECHA INGRESO'].progress_apply(cleandata.convierte_fecha)
df_termino_rol['FECHA TERMINO'] = df_termino_rol['FECHA TERMINO'].progress_apply(cleandata.convierte_fecha)

100%|██████████| 3357121/3357121 [00:05<00:00, 574498.88it/s]
100%|██████████| 3357121/3357121 [00:05<00:00, 579927.22it/s]


In [9]:
# Elimino espacios en las columnas tipo objetos

df_termino_rol = df_termino_rol.progress_apply(cleandata.elimina_espacios, axis=0)

100%|██████████| 10/10 [00:24<00:00,  2.46s/it]


In [10]:
# Transformamos en variables categoricas

df_termino_rol['CORTE'] = df_termino_rol['CORTE'].astype('category')
df_termino_rol['TIPO CAUSA'] = df_termino_rol['TIPO CAUSA'].astype('category')
df_termino_rol['MOTIVO TERMINO'] = df_termino_rol['MOTIVO TERMINO'].astype('category')

In [11]:
df_termino_rol

Unnamed: 0,COD. CORTE,CORTE,COD. TRIBUNAL,TRIBUNAL,RIT,TIPO CAUSA,FECHA INGRESO,FECHA TERMINO,DURACION CAUSA,MOTIVO TERMINO
0,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,100-2018,Ordinaria,2018-04-02,2018-06-01,60,SENTENCIA
1,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,101-2018,Ordinaria,2018-04-02,2018-08-29,149,SENTENCIA
2,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,10-2018,Ordinaria,2018-01-10,2018-03-14,63,SENTENCIA
3,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,102-2018,Ordinaria,2018-04-02,2018-05-29,57,SENTENCIA
4,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,103-2018,Ordinaria,2018-04-02,2018-05-30,58,SENTENCIA
...,...,...,...,...,...,...,...,...,...,...
679953,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,86-2014,Ordinaria,2014-12-02,2015-01-31,60,SENTENCIA
679954,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,87-2014,Ordinaria,2014-12-09,2015-01-28,50,SENTENCIA
679955,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,88-2014,Ordinaria,2014-12-30,2015-02-02,34,SENTENCIA
679956,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,90-2013,Ordinaria,2013-12-18,2015-08-17,607,SENTENCIA


In [12]:
# Reset el index para realizar feather
df_termino_rol.reset_index(inplace = True)

In [13]:
# Guardamos dataset como archivo feather
path_interim = "../data/interim/pjud"
os.makedirs(path_interim, exist_ok = True) 

df_termino_rol.to_feather(f'{path_interim}/TerminoRol_feather')
