# Análisis Exploratorio de Datos de Juzgado 13

## Primera Instancia - Montos

In [2]:
from pathlib import Path
import numpy as np
import pandas as pd
import re
import sys
import nltk
sys.path.insert(0, "../data/")
from nltk.tokenize import word_tokenize
from nltk.util import ngrams
from bisect import bisect_left
pd.set_option('display.max_colwidth', -1)
project_dir = Path().resolve().parents[0]

## 1. Carga de Datos

In [3]:
project_dir

PosixPath('/Users/dscgim/git_project_carlos/jusdata_violencia_de_genero')

In [281]:
ls_terminos = pd.read_excel(str(project_dir) + '/data/juz13'+ "Terminos_por_Rubro_1212181052.xlsx")
ls_terminos = ls_terminos['terminos']
ls_terminos = ls_terminos.append(pd.Series(['gast farmaceut', 'dan material']), ignore_index=True)

Cargamos documento con montos para test

In [282]:
montos_asign = pd.read_excel(str(project_dir) + '/data/input/'+ "Asignacion_de_montos_PI_1212181053.xlsx", header=1)

In [283]:
montos_asign.shape

(98, 68)

In [284]:
montos_asign.columns = proc_text(pd.Series(montos_asign.columns.values.tolist())).tolist()
montos_asign.columns

Index(['expedient', 'tip estructur', 'respons', 'total', 'valor vid',
       'reparacion rod', 'dan emergent', 'dan rod', 'gast medic',
       'gast atencion medic farmaci', 'lucr cesant', 'gast tratamient',
       'incapac sobrevinient', 'dan motovehicul', 'reparacion automotor',
       'privacion uso', 'dan moral', 'gast terapeut', 'dan fisic',
       'incapac dan fisicolesion', 'incapac', 'dan motociclet',
       'incapac sobrevinient', 'incapac sobrevinient psicofis',
       'tratamient psicolog', 'gast tratamient farmaci', 'gast medic trasl',
       'trasl', 'gast', 'dan material', 'gast futur', 'desvalorizacion',
       'gast atencion medic trasl medicament estudi complementari',
       'tratamient gast futur', 'gast tratamient psicolog kinesiolog',
       'incapac fisic', 'tratamient kines', 'dan psicolog', 'dan patrimonial',
       'dan extrapatrimonial', 'gast farmaci medic asistencial',
       'tratamient psicolog kines', 'gast farmaci movil',
       'gast farmaci estudi comp

In [285]:
montos_asign.dropna(subset=['expedient'], inplace=True)
montos_asign.reset_index(drop=True,inplace=True)

In [286]:
montos_asign.shape

(92, 68)

In [287]:
montos_asign['rubros_values'] = np.nan
montos_asign['montos_values'] = np.nan

for i in range(len(montos_asign)):
    monto_tmp = montos_asign.loc[i].dropna().to_frame(name='monto')
    rubros_tmp = monto_tmp.index

    montos_asign.loc[i,'monto_values'] = [dict({'monto_asign': list(monto_tmp.monto)})]
    montos_asign.loc[i,'rubro_values'] = [dict({'rubro_asign': list(monto_tmp.index)})]

In [288]:
montos_asign.rubro_values

0     {'rubro_asign': ['expedient', 'tip estructur', 'reparacion automotor', 'privacion uso', 'dan moral', 'gast terapeut']}                                                                                                                                                                                                                     
1     {'rubro_asign': ['expedient', 'tip estructur', 'dan moral', 'incapac sobrevinient']}                                                                                                                                                                                                                                                       
2     {'rubro_asign': ['expedient', 'privacion uso', 'dan moral', 'incapac sobrevinient', 'tratamient psicolog', 'gast', 'dan material']}                                                                                                                                                                                           

## 1. Procesamiento de Fallo y Lista de Rubros

Procesamos rubros

In [289]:
FalloTK = bsp.bp_token(proc_text(df.text))
FalloNorm = proc_text(df.text)

In [290]:
FalloNorm_df = FalloNorm.to_frame()
FalloNorm_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1189 entries, 0 to 1188
Data columns (total 1 columns):
text    1189 non-null object
dtypes: object(1)
memory usage: 9.4+ KB


Procesamos lista de terminos

In [294]:
ls_terminos = proc_text(ls_terminos.dropna())

## 2. Indexacion de ngrama por palabra clave

### 2.1 Generacion de ngramas

In [295]:
FalloNorm_df['gram2'] = np.nan
def get_ngrams(text, n ):
    n_grams = ngrams(word_tokenize(text), n)
    return [ ' '.join(grams) for grams in n_grams]

listvalues = get_ngrams(FalloNorm_df.text[3], 2 )
listvalues1gram = get_ngrams(FalloNorm_df.text[3], 1)

### 2.2 Obtención de posición en ngramas

In [296]:
# Creamos un dataframe dummy
df_rubros = pd.DataFrame([])

def ngram_index(ngramselect, listvalues):
    # Extrae index de posiciones de ngram
    # output: lista de indices de ngrama especifico
    get_indexes = lambda x, xs: [i for (y, i) in zip(xs, range(len(xs))) if x == y]
    lista = get_indexes(ngramselect, listvalues)
    return(lista)

for gram in ls_terminos:
    # recorre la lista de terminos y asocia las posiciones máximas a los ngram 
    # específicos
    
    lsindex = ngram_index(gram, listvalues)
    
    if len(lsindex) != 0:
        tmp_in = pd.DataFrame(np.array([str(gram), str(max(lsindex))]).reshape(1,2), columns = ['rubro','maxindex'])
        df_rubros = df_rubros.append(tmp_in)

### 2.3 Obtención de la posición de los montos

Primero extraemos las posiciones de los montos

In [297]:
index_amount = list(ngram_index('$', listvalues1gram))
size_amount = list(listvalues1gram[x+1] for x in ngram_index('$', listvalues1gram))

Asignamos las posiciones a los montos correspondientes

In [298]:
df_amount = pd.DataFrame({'index_amount': index_amount, 'size_amount': size_amount})

In [299]:
df_amount

Unnamed: 0,index_amount,size_amount
0,170,172
1,174,350000
2,178,100000
3,182,80000
4,186,80000
5,192,2500
6,198,612672
7,3835,80
8,3837,120
9,4626,800


In [300]:
df_rubros

Unnamed: 0,rubro,maxindex
0,dan fisic,172
0,incapac fisic,7801
0,incapac sobrevinient,5549
0,dan estet,5621
0,lesion estet,5594
0,lesion estet,5594
0,dan moral,5052
0,dan extrapatrimonial,7805
0,agravi moral,5445
0,dan patrimonial,5422


## 2.4 Medida de distancia entre index

In [301]:
def takeClosest(myList, myNumber):
    """
    Asume una lista ordenada.

    Si dos numeros son igualmente cercanos, trae el menor.
    """
    pos = bisect_left(myList, myNumber)
    if pos == 0:
        return myList[0]
    if pos == len(myList):
        return myList[-1]
    before = myList[pos - 1]
    after = myList[pos]
    if after - myNumber < myNumber - before:
       return after
    else:
       return before

## 2.5 Asignación de Montos a rubros

In [302]:
df_rubro_monto = pd.DataFrame([])

for rubro_index in df_rubros.maxindex:
    
    # Select index amount near to rubro index
    amount_select = takeClosest(df_amount.index_amount, int(rubro_index))
    
    # select amount
    amount = df_amount[df_amount.index_amount == amount_select]['size_amount']
    
    # select rubro
    rubro = df_rubros[df_rubros.maxindex == rubro_index]['rubro']
    
    tmp_in = pd.DataFrame(np.array([rubro.iloc[0], amount.iloc[0]]).reshape(1,2), columns = ['rubro','monto'])
    df_rubro_monto = df_rubro_monto.append(tmp_in)
    
    # merge

In [303]:
df_rubro_monto

Unnamed: 0,rubro,monto
0,dan fisic,172
0,incapac fisic,314272
0,incapac sobrevinient,2500
0,dan estet,2500
0,lesion estet,2500
0,lesion estet,2500
0,dan moral,19200
0,dan extrapatrimonial,314272
0,agravi moral,2500
0,dan patrimonial,2500


## 3. Generalizacion de NGram

## Funciones

In [304]:
def ngram_index(ngramselect, listvalues):
    # Extrae index de posiciones de ngram
    # output: lista de indices de ngrama especifico
    get_indexes = lambda x, xs: [i for (y, i) in zip(xs, range(len(xs))) if x == y]
    lista = get_indexes(ngramselect, listvalues)
    return(lista)

df_rubros = pd.DataFrame([])

### 3.1 Generamos los 1gram y 2gram 

In [305]:
FalloNorm_df['gram2'] = FalloNorm_df['text'].apply(lambda x:  get_ngrams(str(x), 2))
FalloNorm_df['gram1'] = FalloNorm_df['text'].apply(lambda x:  get_ngrams(str(x), 1))

  after removing the cwd from sys.path.


### 3.2 Obtención de index Ngram

In [263]:
FalloNorm_df['rubros'] = np.nan
FalloNorm_df['index_rubros'] = np.nan
FalloNorm_df['montos'] = np.nan
FalloNorm_df['index_montos'] = np.nan

In [264]:
df_rubros = pd.Series([])

In [265]:
i = 0

# recorremos todos los documentos
for j in range(len(FalloNorm_df)-1):
    
    # Extraigo los ngramas
    text2gram = FalloNorm_df['gram2'][i]
    text1gram = FalloNorm_df['gram1'][i]
    
    df_rubros = pd.DataFrame([])
    
    for gram in ls_terminos:
        # recorre la lista de terminos y asocia las posiciones máximas a los ngram 
        # específicos
        
        # Extraemos los index de los ngramas de tipo 2
        lsindex = ngram_index(gram, text2gram)
        
        # Si no captura ngramas salta
        if len(lsindex) != 0:
            
            tmp_in = pd.DataFrame(np.array([str(gram), str(max(lsindex))]).reshape(1,2), 
                                  columns = ['rubro','maxindex'])
            
            df_rubros = df_rubros.append(tmp_in)
    
    # Guardamos los rubros, montos e indices de cada registro
    FalloNorm_df.loc[i,'rubros'] = [dict({'rubros': list(df_rubros.rubro)})]
    FalloNorm_df.loc[i,'index_rubros'] = [dict({'rubros': list(df_rubros.maxindex)})]
    FalloNorm_df.loc[i, 'montos'] = [dict({'montos': list(text1gram[x+1] for x in ngram_index('$', text1gram))})]
    FalloNorm_df.loc[i, 'index_montos'] = [dict({'index_montos': list(ngram_index('$', text1gram))})]
    
    # Extraigo los indices y montos
    index_amount = list(ngram_index('$', text1gram))
    size_amount = list(text1gram[x+1] for x in ngram_index('$', text1gram))
    
    # reseteo el dataframe de rubros
    df_rubro_monto = pd.DataFrame([])
   
    # Construimos un dataframe intermedio
    df_amount = pd.DataFrame({'index_amount': index_amount, 'size_amount': size_amount})
    
    print('Registro Nro {}'.format(str(i)))
    
    for rubro_index in df_rubros.maxindex:

        # Select index amount near to rubro index
        amount_select = takeClosest(list(df_amount.index_amount), int(rubro_index))

        # select amount
        amount = df_amount[df_amount.index_amount == amount_select]['size_amount']

        # select rubro
        rubro = df_rubros[df_rubros.maxindex == rubro_index]['rubro']

        tmp_in = pd.DataFrame(np.array([rubro.iloc[0], amount.iloc[0]]).reshape(1,2), columns = ['rubro','monto'])
        
        df_rubro_monto = df_rubro_monto.append(tmp_in)
        
    print('Rubro Procesado')
    
    print('---> {}'.format(df_rubro_monto.shape))
    
    FalloNorm_df.loc[i,'rubros_asign'] = [dict({'rubros_asign': list(df_rubro_monto.rubro)})]
    FalloNorm_df.loc[i,'monto_asign'] = [dict({'monto_asign': list(df_rubro_monto.monto)})]
    
    print('Rubro Procesado stored')
    i+=1

Registro Nro 0
Rubro Procesado
---> (1, 2)
Rubro Procesado stored
Registro Nro 1
Rubro Procesado
---> (1, 2)
Rubro Procesado stored
Registro Nro 2
Rubro Procesado
---> (1, 2)
Rubro Procesado stored
Registro Nro 3
Rubro Procesado
---> (2, 2)
Rubro Procesado stored
Registro Nro 4
Rubro Procesado
---> (1, 2)
Rubro Procesado stored


AttributeError: 'DataFrame' object has no attribute 'rubro'