# Análisis Exploratorio de Datos de Juzgado 10

In [1]:
from pathlib import Path
import pandas as pd
import sys
project_dir = Path().resolve().parents[0]
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
from datetime import datetime

## 1. Carga de Datos

In [2]:
df_xlsx_17 = pd.read_excel(str(project_dir) + '/data/juz10/'+ "set_de_datos_resoluciones_jpcyf10_2017.ods.xlsx")
df_xlsx_18 = pd.read_excel(str(project_dir) + '/data/juz10/'+ "set_de_datos_resoluciones_jpcyf10_2018.xlsx")

In [3]:
print('En 2017 tenemos {} casos'.format(df_xlsx_17.shape[0]))
print('En 2018 tenemos {} casos'.format(df_xlsx_18.shape[0]))

En 2017 tenemos 562 casos
En 2018 tenemos 1180 casos


### 1.1 Unimos los archivos

Buscamos campos coincidentes entre los archivos jpcyf10_2017 y jpcyf10_2018

In [4]:
list(df_xlsx_17.columns.values)

['N',
 'NRO. REGISTRO',
 'TOMO',
 'FECHA RESOLUCION',
 'NRO_EXPTE_JUSCABA',
 'MATERIA',
 'ARTICULO_INFRINGIDO',
 'TIPO_DE_RESOLUCION',
 'OBJETO_DE_LA_RESOLUCION ',
 'DETALLE',
 'DECISION',
 'LINK',
 'Unnamed: 12']

In [5]:
df_xlsx_17.columns = ['N',
 'NRO._REGISTRO',
 'TOMO',
 'FECHA_RESOLUCION',
 'NRO_EXPTE_EJE',
 'MATERIA',
 'ARTICULO_INFRINGIDO',
 'TIPO_DE_RESOLUCION',
 'OBJETO_DE_LA_RESOLUCION ',
 'DETALLE',
 'DECISION',
 'LINK',
 'Unnamed: 12']

In [6]:
list(df_xlsx_18.columns.values)

['N',
 'NRO._REGISTRO',
 'TOMO',
 'FECHA_RESOLUCION',
 'NRO_EXPTE_EJE',
 'MATERIA',
 'ARTICULO_INFRINGIDO',
 'CONDUCTA',
 'TIPO_DE_RESOLUCION',
 'OBJETO_DE_LA_RESOLUCION',
 'DETALLE',
 'DECISION',
 'ORAL_O_ESCRITA',
 'HORA_DE_INICIO',
 'HORA_DE_CIERRE',
 'DURACION',
 'LINK',
 'SI/NO_Recurrente',
 'Decisión ',
 'Nº Registro y Tomo',
 'Link',
 'SI/NO y Recurrente',
 'Decisión de Admisibilidad (Cámara)',
 'Nº Registro y Tomo.1',
 'Link.1',
 'Decisión de Fondo (TSJ)',
 'Nº Registro y Tomo.2',
 'SI/NO y quien',
 'Confirma/Revoca/Confirma parcialmente/Rechazo in limine',
 'Nº Registro y Tomo.3']

In [7]:
print('Los campos coincidentes son:')
list(set(df_xlsx_17.columns.values).intersection(df_xlsx_18.columns.values))

Los campos coincidentes son:


['LINK',
 'DETALLE',
 'DECISION',
 'NRO_EXPTE_EJE',
 'MATERIA',
 'TOMO',
 'ARTICULO_INFRINGIDO',
 'N',
 'NRO._REGISTRO',
 'FECHA_RESOLUCION',
 'TIPO_DE_RESOLUCION']

Seleccionamos el subset

In [8]:
df_18 = df_xlsx_18[['DECISION','NRO._REGISTRO','N','MATERIA',
         'DETALLE','LINK','FECHA_RESOLUCION','ARTICULO_INFRINGIDO',
            'NRO_EXPTE_EJE','TIPO_DE_RESOLUCION','TOMO']]

In [9]:
df_17 = df_xlsx_17[['DECISION','NRO._REGISTRO','N','MATERIA',
         'DETALLE','LINK','FECHA_RESOLUCION','ARTICULO_INFRINGIDO',
            'NRO_EXPTE_EJE','TIPO_DE_RESOLUCION','TOMO']]

Combinamos

In [10]:
df_xlsx_all = df_17.append(df_18)

In [11]:
print('Finalmente nos quedan {} registros'.format(df_xlsx_all.shape[0]))

Finalmente nos quedan 1742 registros


## 2. Exploramos las distintas variables

### 2.1 Fechas

Corregimos fechas

In [16]:
# Corregimos algunos datos
df_xlsx['FECHA_RESOLUCION'].replace('14_08_17','14_08_2017', inplace=True)
df_xlsx['FECHA_RESOLUCION'].replace('28_02_18','28_02_2018', inplace=True)
df_xlsx['FECHA_RESOLUCION'].replace('04_09_18','04_09_2018', inplace=True)
df_xlsx['FECHA_RESOLUCION'].replace('06_09_18','06_09_2018', inplace=True)
df_xlsx['FECHA_RESOLUCION'].replace('10_09_18','10_09_2018', inplace=True)

# Valor 18_19_2017 no tiene formato de fecha
df_xlsx['FECHA_RESOLUCION'].replace('18_19_2017',None, inplace=True)
df_xlsx.dropna(subset=['FECHA_RESOLUCION'], inplace=True)
print('Se eliminó el {:0.2f} % de registros'.format((df_xlsx_all.shape[0]-df_xlsx.shape[0])/df_xlsx_all.shape[0]*100))

Se eliminó el 19.63 % de registros


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # Remove the CWD from sys.path while we load stuff.


In [None]:
# Convertimos a campo fecha
df_xlsx['FECHA_RESOLUCION']=df_xlsx['FECHA_RESOLUCION'].apply(lambda x: datetime.strptime(x, '%d_%m_%Y').strftime('%m-%d-%Y'))
df_xlsx['FECHA_RESOLUCION'] = pd.to_datetime(df_xlsx['FECHA_RESOLUCION'])

In [None]:
df_xlsx['FECHA_RESOLUCION'].groupby(df_xlsx['FECHA_RESOLUCION'].dt.month).count().plot(kind="bar")

In [None]:
df_xlsx['FECHA_RESOLUCION'].min()

In [None]:
df_xlsx['FECHA_RESOLUCION'].max()

In [None]:
df_xlsx['FECHA_RESOLUCION'].groupby(df_xlsx['FECHA_RESOLUCION'].dt.year).count().plot(kind="bar")

### 2.2 Distribución de Causa

In [None]:
df_xlsx['exp_unico'] = df_xlsx['NRO_EXPTE_EJE'].astype(str) +'T_'+ df_xlsx['TOMO'].astype(str)

In [None]:
df_xlsx.exp_unico.head()

Estudiamos cuantas causas tienen expedientes que aparecen mas de una ves en la tabla.

In [None]:
df_xlsx.groupby('exp_unico', sort=True).size().to_frame('count').groupby('count').size().to_frame('casos')

### 2.3 Distribución por Materia

In [None]:
df_xlsx['MATERIA'].groupby(df_xlsx['MATERIA']).count().plot(kind="bar")