### Universidad Nacional de Córdoba - Facultad de Matemática, Astronomía, Física y Computación

### Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones 2021
Búsqueda y Recomendación para Textos Legales

Mentor: Jorge E. Pérez Villella

# Práctico Análisis y Visualización

Integrantes:

### Objetivos:

* Generar un corpus con todos los documentos. 

* Dividir el corpus en tokens, graficar el histograma de frecuencia de palabras demostrando la ley Zipf. 

* Analizar palabras más frecuentes y menos frecuentes. Seleccionar 5 documentos de cada fuero y realizar el mismo análisis. ¿Se repiten las palabras? 

* Hacer lo mismo con n-gramas.

* Visualizar la frecuencia de palabras en una nube de palabras.

* Elaborar una breve conclusión de lo encontrado

Fecha de Entrega: 6 de junio de 2021

# Generar un corpus con todos los documentos

In [1]:
#!conda install -y -c anaconda spacy 

In [223]:
#!python -m spacy download es_core_news_sm

In [1]:
#!python -m spacy download es_core_news_md

In [2]:
import spacy
from spacy.lang.es.examples import sentences
import glob
import os
import pandas as pd 
import shutil
from collections import Counter


In [3]:
#spacy_nlp = spacy.load("es_core_news_sm")
spacy_nlp = spacy.load("es_core_news_md") 

spacy_nlp.vocab["\n"].is_stop = True
spacy_nlp.vocab[" \n"].is_stop = True
spacy_nlp.vocab["y"].is_stop = True
spacy_nlp.vocab["a"].is_stop = True
spacy_nlp.vocab["o"].is_stop = True
spacy_nlp.vocab[" "].is_stop = True
spacy_nlp.vocab["  "].is_stop = True
spacy_nlp.vocab["\x0c"].is_stop = True



In [4]:
root_path = "Documentos"

directories = [x[0] for x in os.walk(root_path)]

directories.pop(0)

for directory in directories:
    print (directory)


Documentos/MENORES
Documentos/PENAL
Documentos/FAMILIA
Documentos/LABORAL


In [5]:
def path_iterator(paths):
    for p in paths:
        print("yielding")
        yield p.open("r").read(25)

In [6]:
def generate_corpus_df(directories):
    
    for directory in directories:
        print(directory)
        file_list = glob.glob(os.path.join(os.getcwd(), directory, "*.txt"))
        #file_list = glob.glob(os.path.join(os.getcwd(), directory, "*.no"))

        for file_path in file_list:
            #print(f"Archivo: {file_path}")
        
            with open(file_path, 'r') as reader:
                line = reader.readline()
                while line != '':
                    line = reader.readline()
                    yield line.lower()
        #with open(file_path ,buffering=100 , encoding='utf-8' , errors='replace') as f_input:
        #        yield f_input

# Dividir el corpus en tokens, graficar el histograma de frecuencia de palabras demostrando la ley Zipf. 

In [7]:

def get_words(directory): 
    
    docs = spacy_nlp.pipe(generate_corpus_df([directory]), batch_size=50 , n_process=4  ,disable=["tok2vec", "tagger",  "attribute_ruler", "lemmatizer"]  )
    words = [word.text for token in docs for word in token if not word.is_stop and not word.is_punct]
    return (words,docs)

In [8]:
(words_menores,docs_menores) = get_words(directories[0])

Documentos/MENORES


In [9]:
(words_penal,docs_penal) = get_words(directories[1])

Documentos/PENAL


In [10]:
(words_familia,docs_familia) = get_words(directories[2])

Documentos/FAMILIA


In [11]:
(words_laboral,docs_laboral) = get_words(directories[3])

Documentos/LABORAL


In [12]:
def get_words_ocrruence(words):
    
    word_freq = Counter(words)
    return word_freq.most_common

In [13]:
default_limit_commond_words = 20

In [14]:
common_words_menores = get_words_ocrruence(words_menores)

In [15]:
common_words_menores(default_limit_commond_words)

[('fs', 1006),
 ('niño', 939),
 ('art', 628),
 ('derechos', 627),
 ('sra', 605),
 ('ley', 589),
 ('familia', 589),
 ('niña', 542),
 ('m.', 500),
 ('medida', 421),
 ('autos', 401),
 ('situación', 388),
 ('familiar', 385),
 ('derecho', 376),
 ('r.', 347),
 ('relación', 341),
 ('fecha', 334),
 ('protección', 333),
 ('sr', 322),
 ('f.', 295)]

In [16]:
common_words_penal = get_words_ocrruence(words_penal)

In [17]:
common_words_penal(default_limit_commond_words)

[('expediente', 1289),
 ('penal', 1245),
 ('nro', 1243),
 ('n°', 1094),
 ('tribunal', 1048),
 ('s.', 1001),
 ('art', 904),
 ('pena', 904),
 ('vocal', 834),
 ('nº', 817),
 ('f.', 759),
 ('imputado', 745),
 ('sala', 718),
 ('sentencia', 642),
 ('ff', 629),
 ('juicio', 588),
 ('caso', 578),
 ('ley', 561),
 ('recurso', 549),
 ('vta', 534)]

In [18]:
common_words_familia = get_words_ocrruence(words_familia)

In [19]:
common_words_familia(default_limit_commond_words)

[('fs', 3193),
 ('art', 2096),
 ('recurso', 1625),
 ('fecha', 1618),
 ('ley', 1525),
 ('familia', 1429),
 ('apelación', 1292),
 ('cuota', 1224),
 ('señora', 1192),
 ('alimentaria', 1186),
 ('señor', 1065),
 ('autos', 1063),
 ('m.', 959),
 ('tribunal', 950),
 ('a.', 935),
 ('mil', 932),
 ('resolución', 906),
 ('derecho', 903),
 ('caso', 864),
 ('costas', 848)]

In [20]:
common_words_laboral = get_words_ocrruence(words_laboral)

In [21]:
common_words_laboral(default_limit_commond_words)

[('art', 508),
 ('luis', 379),
 ('vocal', 344),
 ('ley', 318),
 ('señor', 279),
 ('expediente', 274),
 ('doctor', 236),
 ('nro', 235),
 ('rubio', 228),
 ('n°', 219),
 ('blanc', 199),
 ('angulo', 198),
 ('mercedes', 191),
 ('sentencia', 185),
 ('nº', 178),
 ('enrique', 178),
 ('e', 178),
 ('m.', 177),
 ('recurso', 177),
 ('arabel', 176)]