## Cantidad de sentencias en el corpus

In [1]:
import pandas as pd
corpus = pd.read_csv("output.csv", delimiter=',', skip_blank_lines=True, encoding='utf-8')
corpus = corpus.drop_duplicates()
sentencias = corpus["sentencia"]
print("*****Cantidad de sentencias*****")
print(len(sentencias))

*****Cantidad de sentencias*****
20046


## Cantidad de palabras de las sentencias del corpus

In [3]:
largo = sum(len(s.split()) for s in sentencias)
print("*****Cantidad de palabras*****")
print(largo)

*****Cantidad de palabras*****
25913705


## Cantidad de sentencias por nivel de importancia

In [4]:
from collections import Counter
Counter(corpus["importancia"])

Counter({'ALTA': 10063, 'BAJA': 4206, 'MEDIA': 5777})

## Cantidad de sentencias por procedimiento

In [5]:
Counter(corpus["procedimiento"])

Counter({'CAUSA DIPLOMATICA': 81,
         'CONTIENDA DE COMPETENCIA': 208,
         'LESION DE AUTONOMIA': 6,
         'OTROS': 620,
         'PROCESO ADUANERO': 69,
         'PROCESO ARBITRAL': 5,
         'PROCESO CAUTELAR': 350,
         'PROCESO CIVIL EXTRAORDINARIO': 1046,
         'PROCESO CIVIL ORDINARIO': 7459,
         'PROCESO CONCURSAL': 64,
         'PROCESO DE AMPARO': 205,
         'PROCESO DE EJECUCIÓN': 458,
         'PROCESO DE INCONSTITUCIONALIDAD': 1311,
         'PROCESO INCIDENTAL': 791,
         'PROCESO MONITORIO': 661,
         'PROCESO PENAL ESPECIAL': 82,
         'PROCESO PENAL ORDINARIO': 3482,
         'PROCESO PRELIMINAR': 85,
         'PROCESO VOLUNTARIO': 115,
         'RECONOCIMIENTO Y EJECUCION DE SENTENCIAS EXTRANJERAS (EXECUATUR)': 6,
         'RECURSO DE ACLARACION Y AMPLIACION': 114,
         'RECURSO DE CASACIÓN': 1514,
         'RECURSO DE QUEJA': 764,
         'RECURSO DE REPOSICION': 57,
         'RECURSO DE REVISION': 126,
         'REGULACIO

In [6]:
print("*****Cantidad de sentencias con resumen*****")
len([x for x in corpus["resumen"] if type(x) == str])


*****Cantidad de sentencias con resumen*****


2240

## Verificar cual es la clave que identifica una sentencia

Buscando clave que identifica cada sentencia, pruebo diferentes combinaciones

In [7]:

l1 = corpus["numero"]
l2 = corpus["sede"]
l3 = corpus["ficha"]
l4 = corpus["fecha"]
l5 = corpus["tipo"]
l6 = corpus["importancia"]

l = [x for x in zip(l1, l2, l5)]
dup = [item for item, count in Counter(l).items() if count > 1]
print(len(dup))

0


## Tokenización usando nltk

In [8]:
from nltk import word_tokenize
allwords = []
for sentencia in corpus["sentencia"]:
    allwords += word_tokenize(sentencia)

## Limpio la tokenización quitando aquellos que no contienen letras o números

In [9]:
import re
def is_non_alphanumeric(w):
    return re.match(r'^\W+$', w) != None
words = [w for w in allwords if not is_non_alphanumeric(w)] 

## Obtenemos la distribucion de la frecuencia

In [11]:
import nltk
freq_words = nltk.FreqDist(w.lower() for w in words)
freq_words.most_common()[:30]

[('de', 1794721),
 ('la', 1408924),
 ('en', 808342),
 ('el', 797232),
 ('que', 790837),
 ('y', 582662),
 ('a', 551166),
 ('por', 470024),
 ('del', 451776),
 ('se', 409383),
 ('no', 341346),
 ('los', 336907),
 ('lo', 208419),
 ('las', 200404),
 ('al', 197422),
 ('con', 163424),
 ('su', 155048),
 ('fs', 124295),
 ('es', 123913),
 ('para', 122704),
 ('un', 116392),
 ('como', 109254),
 ('sentencia', 109086),
 ('una', 100104),
 ('o', 89518),
 ('art', 86122),
 ('tribunal', 68184),
 ('autos', 66238),
 ('parte', 61768),
 ('instancia', 59255)]