## Data: Duracion de audiencias

In [1]:
import os
import pandas as pd
import numpy as np
from pyarrow import feather
from tqdm import tqdm

from src.data import clean_data

In [2]:
path_raw = "../data/raw"
archivos = os.listdir(path_raw) 

tqdm.pandas()

  from pandas import Panel


In [3]:
# Creacion dataframe con los datos de Duraciones por Rol Penal de los años 2015 a 2019

dataframes = []

for archivo in archivos:
    if archivo.find("Duraciones por Rol Penal") != -1:
        df = pd.read_csv(f"{path_raw}/{archivo}", sep = ";", encoding = 'cp850', dtype = 'unicode', low_memory = True)
        dataframes.append(df) 
        
df_duraciones = pd.concat(dataframes, axis = 0)


In [4]:
df_duraciones.columns


Index(['N°', 'CÓD. CORTE', 'CORTE', 'CÓD. TRIBUNAL', 'TRIBUNAL', 'RIT',
       'TIPO CAUSA', 'FECHA INGRESO', 'FECHA TÉRMINO', 'DURACIÓN CAUSA ',
       'MOTIVO DE TÉRMINO', 'MES TÉRMINO', 'AÑO TÉRMINO', 'TOTAL TÉRMINOS',
       'SISTEMA'],
      dtype='object')

In [5]:
df_duraciones.drop(['N°','MES TÉRMINO','AÑO TÉRMINO','TOTAL TÉRMINOS','SISTEMA'], axis = 'columns', inplace = True)

df_duraciones = df_duraciones.dropna()

In [6]:
df_duraciones.rename(columns = {'CÓD. CORTE':'COD. CORTE',
                                'CÓD. TRIBUNAL':'COD. TRIBUNAL',
                                'DURACIÓN CAUSA ':'DURACIÓN CAUSA',
                                'FECHA TÉRMINO':'FECHA TERMINO',
                                'MOTIVO DE TÉRMINO':'MOTIVO TERMINO'
                               },
                     inplace = True)

In [7]:
# TRANSFORMAMOS DE FLOAT A INTEGER

df_duraciones['COD. CORTE'] = df_duraciones['COD. CORTE'].fillna(0).astype(np.int16)
df_duraciones['COD. TRIBUNAL'] = df_duraciones['COD. TRIBUNAL'].fillna(0).astype(np.int16)

In [8]:
# Transformamos fechas

df_duraciones['FECHA INGRESO'] = df_duraciones['FECHA INGRESO'].progress_apply(clean_data.convierte_fecha)
df_duraciones['FECHA TERMINO'] = df_duraciones['FECHA TERMINO'].progress_apply(clean_data.convierte_fecha)

100%|██████████| 3357121/3357121 [00:06<00:00, 544353.04it/s]
100%|██████████| 3357121/3357121 [00:06<00:00, 538982.70it/s]


In [9]:
# Elimino espacios en las columnas tipo objetos

df_duraciones = df_duraciones.progress_apply(clean_data.elimina_espacios, axis=0)

100%|██████████| 10/10 [00:26<00:00,  2.70s/it]


In [10]:
# Elimino tildes 

cols = df_duraciones.select_dtypes(include = ["object"]).columns
df_duraciones[cols] = df_duraciones[cols].progress_apply(clean_data.elimina_tilde) 


100%|██████████| 6/6 [00:50<00:00,  8.38s/it]


In [11]:
# Debo transformar el formato del RIT--AÑO a RIT-AÑO

df_duraciones['RIT'] = df_duraciones['RIT'].progress_apply(clean_data.limpia_rit)

100%|██████████| 3357121/3357121 [00:03<00:00, 1055075.31it/s]


In [12]:
# Categorizacion

df_duraciones['CORTE'] = df_duraciones['CORTE'].astype('category')
df_duraciones['TIPO CAUSA'] = df_duraciones['TIPO CAUSA'].astype('category')
df_duraciones['MOTIVO TERMINO'] = df_duraciones['MOTIVO TERMINO'].astype('category')

In [13]:
# Reset el index para realizar feather

df_duraciones.reset_index(inplace = True)

In [14]:
df_duraciones

Unnamed: 0,index,COD. CORTE,CORTE,COD. TRIBUNAL,TRIBUNAL,RIT,TIPO CAUSA,FECHA INGRESO,FECHA TERMINO,DURACIÓN CAUSA,MOTIVO TERMINO
0,0,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,100-2019,Ordinaria,2019-04-03,2019-05-17,44,SENTENCIA
1,1,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,101-2019,Ordinaria,2019-04-04,2019-05-17,43,SENTENCIA
2,2,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,10-2019,Ordinaria,2019-01-04,2019-01-29,25,SENTENCIA
3,3,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,102-2019,Ordinaria,2019-04-04,2019-11-20,230,SENTENCIA
4,4,10,C.A. DE ARICA,988,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE ARICA,103-2019,Ordinaria,2019-04-05,2019-04-10,5,DECLARA SOBRESEIMIENTO DEFINITIVO.
...,...,...,...,...,...,...,...,...,...,...,...
3357116,679953,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,86-2014,Ordinaria,2014-12-02,2015-01-31,60,SENTENCIA
3357117,679954,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,87-2014,Ordinaria,2014-12-09,2015-01-28,50,SENTENCIA
3357118,679955,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,88-2014,Ordinaria,2014-12-30,2015-02-02,34,SENTENCIA
3357119,679956,91,C.A. DE SAN MIGUEL,1355,TRIBUNAL DE JUICIO ORAL EN LO PENAL DE MELIPILLA,90-2013,Ordinaria,2013-12-18,2015-08-17,607,SENTENCIA


In [15]:
# Guardamos dataset como archivo feather

df_duraciones.to_feather('../data/interim/Duraciones_feather')