# Importamos librerias - Creamos el dataframe de pericias

In [19]:
import pandas as pd
import numpy as np
from pprint import pprint

df = pd.read_csv('pericias_medicas.csv', sep=',',  encoding='utf-8')
#convierte en string los datos de la columna text
df = df['text'].apply(str)
df1 = df.sample(50)
df1

428     Tribunal de Trabajo Nº 16 \n\nSáenz Peña 760 9...
97       \n\n \n\n \n\n \n\n \n\n \n\n \n\nRoque Saenz...
898     Expediente Nº 47735/2016 \n \nJUZGADO NACIONAL...
1921    PERITO MEDICO PRESENTA PERITACION MEDICOLEGAL ...
3735    PERITO MEDICO PRESENTA PERITACION MEDICOLEGAL ...
2488    PERITO MEDICO PRESENTA INFORME PERICIAL \n\nJu...
730     JNT 12 – D. NORTE 760 - PISO 6º \n\n  \nPERITO...
538     Juzgado Nacional del Trabajo Nro. 9 Roque S. P...
1302    31 DE ENERO DE 2017 \nTrabajo Nº 73 \nPERITA M...
2970    Fecha de Emisión:   21/02/2017\n\nFecha de Alt...
840     PERITO MEDICO: PRESENTA PERICIA MEDICA.- \n\nS...
2299    PERITO MEDICO       PRESENTA PERICIA \n\n \n\n...
3325    J. 17 / T. / Diag. Roque S. Peña 760. Piso 9º....
1317    Juzgado Laboral N 46 – Lavalle 1264  Piso 5 \n...
2803    PERITO MEDICO: PRESENTA INFORME PERICIAL  \n \...
1857    PERITO MEDICO INFORMA \n\nJuzgado Nacional del...
174                                                   ...
1667    PERITO

## Limpieza de texto

In [None]:
# Limpieza de texto
# Primera etapa de la limpieza de texto
import re, string, unicodedata
'''
Se hace la eliminacion de texto entre corchetes, acentos, signos de puntuacion (excepto . y :), palabras con numeros.
Se eliminan los espacios de sobra
Se eliminan \r, \t, \v, \f, \a
'''
def limpiarTexto1(txt: str, bert=False, nums=False) -> str:
    """
    Elimina caracteres no deseados
    Params:
        **txt**:texto a ser limpiado de caracteres no desaeados
    """
    if nums:
        txt = re.sub(r'\d+', ' ', txt)
    if not bert:
        txt = txt.translate(str.maketrans(
            'áéíóúýàèìòùÁÉÍÓÚÀÈÌÒÙÝ', 'aeiouyaeiouAEIOUAEIOUY'))

    '''
    Eliminamos caracteres especiales: tabulador horizontal(\t), tabulador vertical(\v), 
    retorno de carro(\r), avance de pagina(\f), 
    caracter de retroceso: Marca el límite de una palabra(\b), 
    '''
    txt = txt.replace('\r', ' ').replace("\v", ' ').replace(
        "\t", ' ').replace("\f", ' ').replace("\a", ' ').replace("\b", ' ')
    txt = re.sub(' +', ' ', txt)
    txt = txt.strip()
    return txt
df1.apply(str)
df1 = df1.apply(limpiarTexto1)
df1

In [None]:
# Segunda fase de limpieza
# Se eliminan todos los elementos que meten ruido al texto y que no fueron eliminados en la fase de limpieza 1.
import re

def limpiarTexto2(text):
    text = re.sub('^ ',' ',text)
    text = re.sub('\n +\n','\n',text)
    text = re.sub(' +\n\n','\n',text)
    text = re.sub('\n\n+','\n',text)
    text = re.sub(' \n','\n',text)
    text = re.sub('\d\n','',text)
    text = re.sub('\x0c','',text)
    text = re.sub('\u200b\n','',text)
    text = re.sub('\d{3,100}','',text)
    text = re.sub('\d+-\d+','',text)
    text = re.sub('\x0c','',text)
    text = re.sub('[nN]º|[nN][. ]º','',text)
    text = re.sub('[º<>/-]','',text)
    text = re.sub('\d{3,100}','',text)
    text = re.sub('[a-zA-z-.]+@[a-zA-Z]+.com','',text)
    return text

dfLimpio = df1.apply(limpiarTexto2)
dfLimpio

In [None]:
# Tercera fase de limpieza
# Eliminamos las lineas que no son de utilidad para el analisis o que van a afectar los resultados del mismo.
# Ejemplo de linea eliminada: las lineas que comienzan con "Se encuentra contestada en....."
import re

def limpiarTexto3(text):
    text = re.sub('[a-z1-9.]+[).-] [s|S]e encuentra contestad[a|o] .+[. \n]','',text)
    text = re.sub('[0-9]+[. ]+[yY]a fue contestado.+[.\n]','',text)
    text = re.sub('[fF]oja [1-9].+\n', '', text)
    text = re.sub('[pP]regunta[ 0-9]+[)].+\n|[rR]espuesta[ 0-9]+[)].+\n','',text)#elimina oraciones comenzadas en preguta/respuesta.
    return text

dfLimpio = dfLimpio.apply(limpiarTexto3)
dfLimpio = dfLimpio.apply(limpiarTexto2)
dfLimpio

In [23]:
#GUARDAR EL DFLIMPIO SIN LAS PALABRAS CON LONGITUD MENOR A 2.texto_nuevo = " "
#for w in dfLimpio:
#    if len(w)>2:
#        texto_nuevo = texto_nuevo + " " + w
#print(texto_nuevo)

# Búsqueda de títulos

In [28]:
# Busqueda de titulos
# Se crea un nuevo dataframe de titulos según distintos criterios

# busca titulos que comienzan con numeros romanos
def buscarTitulosRomanos(text):
    # Expresiones regulares para encontrar los numeros romanos
    tituloNroRomano =re.compile(r'(I{1,3}|IV|V|VI{1,3}|IX|X)[-.)][\w\s]+[:\n]')
    titulosRomanosEncontrados = []

    for m in tituloNroRomano.finditer(text):
        titulosRomanosEncontrados.append(m.group())

    return titulosRomanosEncontrados

# titulosConNroRomano: lista que guarda los titulos que comienzan con numeros romanos   
titulosConNroRomano=[]
for expediente in dfLimpio:
    titulosConNroRomano.append(buscarTitulosRomanos(expediente))

#pprint(titulosConNroRomano[10])

In [None]:
#NO ESTA BIEN ESTO
import pandas as pd
dfTitulosCompletosRom = pd.DataFrame(titulosConNroRomano)
dfTitulosCompletosRom

In [8]:
#TAMPOCO QUEDA BIEN 
#Se exporta el dataframe a csv
dfTitulosCompletosRom.to_csv('titCompletosRom.csv', index=False, sep=';')

In [None]:
# Busca titulos que comienzan con numeros latinos
def buscarTitulosLatinos(text):
    # Expresion regular para encontrar titulos que comienzan con numeros
    tituloNroLatino =re.compile(r'[1-9][-.)][\w\s]+[:\n]')
    titulosLatinosEncontrados = []

    for m in tituloNroLatino.finditer(text):
        titulosLatinosEncontrados.append(m.group())

    return titulosLatinosEncontrados

# titulosConNroLatino: lista que guarda los titulos que comienzan con numeros latinos
titulosConNroLatino=[]
for expediente in dfLimpio:
    titulosConNroLatino.append(buscarTitulosLatinos(expediente))
pprint(titulosConNroLatino[9])

In [None]:
# Busca titulos en mayusculas
def buscarTitulosMayusculas(text):
    # Expresion regular para encontrar titulos en mayusculas.
    tituloMayusculas =re.compile(r'([1-9]|I{1,3}|IV|V|VI{1,3}|IX|X)[-.)][A-Z -]+[:.\n]')
    titulosMayusculasEncontrados = []

    for m in tituloMayusculas.finditer(text):
        titulosMayusculasEncontrados.append(m.group())

    return titulosMayusculasEncontrados
# titulosMAyuscula: lista que guarda los titulos en mayusculas
titulosMayusculas=[]
for expediente in dfLimpio:
    titulosMayusculas.append(buscarTitulosMayusculas(expediente))

pprint(titulosMayusculas)


#### Eliminacion de stopwords y tokenización.

In [29]:
import nltk
import re

stops = nltk.corpus.stopwords.words('spanish')

#elimino stopwords
def remove_stops(texto: str) -> str:
    """
    Función que elimina stopwords
    Params:
        **texto**:texto a ser limpiado de stopwords

    """
    texto = [
        i for i in texto.split() if i not in stops
    ]
    return texto

def limpiarTitulos(text):
    text = text.lower()
    text = re.sub(r'\n','',text)
    text = re.sub(r'[a-z]\.[a-z]\.','',text)
    text = re.sub(r'(i{2,3}|iv|vi{1,3}|ix)','',text)
    text = re.sub(r'\W',' ',text)    
    text = re.sub(r'\d+','',text)
    text = re.sub(r' [a-z] ','',text)
    
    return text

#elimino stopwords y hago una ultima limpieza
titulosMayusculasStop = limpiarTitulos(str(titulosMayusculas))
titulosMayusculasStop = remove_stops(str(titulosMayusculasStop))
titulosConNroLatinoStop = limpiarTitulos(str(titulosConNroLatino))
titulosConNroLatinoStop = remove_stops(str(titulosConNroLatinoStop))
titulosConNroRomanoStop = limpiarTitulos(str(titulosConNroRomano))
titulosConNroRomanoStop = remove_stops(str(titulosConNroRomanoStop))

In [2]:
#Queria saber cuales son los stopwords que hay 
#from nltk.corpus import stopwords
#stopwords.words('spanish')

# Títulos en mayúsculas.

#### Unigrama

In [None]:
import pandas as pd
dfTitulosMayusculas = pd.DataFrame(titulosMayusculasStop,columns=['Tokens'])
dfTitulosMayusculas


In [178]:
#Se exporta el dataframe a un archivo csv
dfTitulosMayusculas.to_csv('titTokenEnMayusculas.csv', index=False, sep=';')

In [None]:
#Cantidad de veces que se repiten los tokens en los titulos.
import pandas as pd
FrecuenciaTitMay = pd.DataFrame(titulosMayusculasStop)
cantMay = FrecuenciaTitMay.value_counts()
print(cantMay)

In [34]:
#Frecuencia con sklearn
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

vectorizer = CountVectorizer(ngram_range= (3,3))
X1 = vectorizer.fit_transform(dfLimpio)
features = (vectorizer.get_feature_names())
print("Palabras: ", features)
print("X1: ", X1.toarray())

vectorizer = TfidfVectorizer(ngram_range = (3,3))
X2 = vectorizer.fit_transform(dfLimpio)
scores = (X2.toarray())
print("Scores: ", scores)

sums = X2.sum(axis = 0)
data1 = []
for col, term in enumerate(features):
    data1.append((term, sums[0,col] ))
    ranking = pd.DataFrame(data1, columns = ['term', 'rank'])
    words = (ranking.sort_values('rank', ascending = False))
    print("Words head: ", words.head(10))
    



Features:  ['00 18 00hs', '00 19 00', '00 41 total', '00 corresponde por', '00 dedo indice', '00 edad 61', '00 extension 20', '00 factores de', '00 hs 28', '00 hs con', '00 hs el', '00 movilidad columna', '00 nota evaluacion', '00 rvan grado', '00 subtotal 23', '00 total columna', '00 total movilidad', '00hs de lunes', '00hs dichas entrevistas', '01 de octubre', '02 cuit monotributista', '03 de diciembre', '03 de febrero', '04 de mayo', '05 15 hs', '05 de la', '05 de mayo', '05 debe agregarse', '05antecedentes heredofamiliares padres', '06 de marzo', '06 dificultad para', '07 00 19', '07 12 hs', '07 30 hs', '08 10 21', '08 30hs en', '08 67 total', '08 contestacion los', '08 factores de', '09 00 18', '10 00 edad', '10 00 movilidad', '10 00 nota', '10 00 subtotal', '10 06 dificultad', '10 10 dolor', '10 10 flexion', '10 10 suma', '10 11respondidos en', '10 12 metros', '10 14 descriptas', '10 21 tipo', '10 30 de', '10 30 hs', '10 50 de', '10 al examen', '10 ambos lados', '10 amerita recal

In [128]:
#def word_count(titulosMayusculasStop):
 #   import collections
  #  word_freq = collections.defaultdict(int)
   # with open(titulosMayusculasStop) as f:
    #    for l in f:
     #       for w in l.strip().split():  
      #          word_freq[w] += 1
    #return word_freq

In [None]:

#DATAFRAME DE LOS TITULOS EN MAYUSCULAS CON SUS FRECUENCIAS.
import pandas as pd
dfFrecuenciaTitMay = pd.DataFrame(cantMay,columns=['Frecuencia'])
dfFrecuenciaTitMay

In [None]:
#No hay valores vacios
dfFrecuenciaTitMay.isna().sum 

#### Bigramas

In [None]:
#bigrama de títulos con mayúsculas.
bigramaMay=(list(nltk.ngrams(titulosMayusculasStop,2)))
bigramaMay

In [None]:
import pandas as pd
dfBigramaMay = pd.DataFrame(bigramaMay,columns=['Token1','Token2'])
dfBigramaMay

In [None]:
#Cantidad de veces que se repiten los bigramas en los titulos con mayúsculas.
import pandas as pd
FrecuenciaBigMay = pd.DataFrame(bigramaMay,columns=['TOKEN1','TOKEN2'])
cantBigMay = FrecuenciaBigMay.value_counts()
print(cantBigMay)

#### Trigramas

In [None]:
#trigrama de títulos con mayúsculas.
trigramaMay=(list(nltk.ngrams(titulosMayusculasStop,3)))
trigramaMay

In [None]:
import pandas as pd
dfTrigramaMay = pd.DataFrame(trigramaMay,columns=['TOKEN1','TOKEN2','TOKEN3'])
dfTrigramaMay

In [None]:
#Cantidad de veces que se repiten los trigramas en los titulos con mayúsculas.
import pandas as pd
FrecuenciaTrigMay = pd.DataFrame(trigramaMay,columns=['TOKEN1','TOKEN2','TOKEN3'])
cantTrigMay = FrecuenciaTrigMay.value_counts()
print(cantTrigMay)

In [162]:
#INTENTO DE HACER UN GRAFICO PERO NO.
#import pandas as pd
#import numpy as np

#dfFrecuenciaTitMay
#ranges = [1,2,3,4,5,6,7,8,9,10]
#print(dfFrecuenciaTitMay['frecuencia'].groupby(pd.cut(dfFrecuenciaTitMay.frecuencia, ranges, right=False)).count())

#### DataFrame de los títulos con números romanos.

#### Unigrama

In [None]:
import pandas as pd
dfTitulosRomanos = pd.DataFrame(titulosConNroRomanoStop,columns=['Tokens'])
dfTitulosRomanos


In [179]:
#Se exporta el dataframe a un archivo csv
dfTitulosRomanos.to_csv('titTokenRomanos.csv', index=False, sep=';')

In [None]:
#Cantidad de veces que se repiten los tokens en los titulos.
import pandas as pd
FrecuenciaTitRomanos = pd.DataFrame(titulosConNroRomanoStop)
cantRom = FrecuenciaTitRomanos.value_counts()
print(cantRom)

In [None]:
#DATAFRAME DE LOS TITULOS CON NUMEROS ROMANOS Y SUS FRECUENCIAS.
import pandas as pd
dfFrecuenciaTitRom = pd.DataFrame(cantRom,columns=['Frecuencia'])
dfFrecuenciaTitRom

#### Bigramas

In [None]:
#bigrama de los títulos con números romanos.
bigramaRom = (list(nltk.ngrams(titulosConNroRomanoStop,2)))
bigramaRom

In [None]:
import pandas as pd
dfBigramaRom = pd.DataFrame(bigramaRom,columns=['TOKEN1','TOKEN2'])
dfBigramaRom

In [None]:
#Cantidad de veces que se repiten los bigramas en los titulos con números romanos.
import pandas as pd
FrecuenciaBigRom = pd.DataFrame(bigramaRom,columns=['TOKEN1','TOKEN2'])
cantBigRom = FrecuenciaBigRom.value_counts()
print(cantBigRom)

#### Trigramas

In [None]:
#trigrama de los títulos con números romanos.
trigramaRom = (list(nltk.ngrams(titulosConNroRomanoStop,3)))
trigramaRom

In [None]:
import pandas as pd
dfTrigramaRom = pd.DataFrame(trigramaRom,columns=['TOKEN1','TOKEN2','TOKEN3'])
dfTrigramaRom

In [None]:
#Cantidad de veces que se repiten los trigramas en los titulos con números romanos.
import pandas as pd
FrecuenciaTrigRom = pd.DataFrame(trigramaRom,columns=['TOKEN1','TOKEN2','TOKEN3'])
cantTrigRom = FrecuenciaTrigRom.value_counts()
print(cantTrigRom)

#### DataFrame de los títulos con números latinos.

#### Unigrama

In [None]:
import pandas as pd
dfTitulosLatinos = pd.DataFrame(titulosConNroLatinoStop, columns=['Tokens'])

#from IPython.display import HTML, display_html, display
#display(HTML('<h2>Frecuencia de los titulos con números latinos</h2>'))
#display_html(dfTitulosLatinos)
dfTitulosLatinos

In [180]:
#Se exporta el dataframe a un archivo csv
dfTitulosLatinos.to_csv('titTokenLatinos.csv', index=False, sep=';')

In [None]:
#Cantidad de veces que se repiten los tokens en los titulos.
import pandas as pd
FrecuenciaTitLatinos = pd.DataFrame(titulosConNroLatinoStop)
cantLat = FrecuenciaTitLatinos.value_counts()
print(cantLat)

In [None]:
#DATAFRAME DE LOS TITULOS CON NUMEROS LATINOS Y SUS FRECUENCIAS.
import pandas as pd
dfFrecuenciaTitLat = pd.DataFrame(cantLat,columns=['Frecuencia'])
dfFrecuenciaTitLat

#### Bigramas

In [None]:
#bigrama de títulos con números latinos.
bigramaLat=(list(nltk.ngrams(titulosConNroLatinoStop,2)))
bigramaLat

In [None]:
import pandas as pd
dfBigramaLat = pd.DataFrame(bigramaLat,columns=['TOKEN1','TOKEN2'])
dfBigramaLat

In [None]:
#Cantidad de veces que se repiten los bigramas en los titulos con números latinos.
import pandas as pd
FrecuenciaBigLat = pd.DataFrame(bigramaLat,columns=['TOKEN1','TOKEN2'])
cantBigLat = FrecuenciaBigLat.value_counts()
print(cantBigLat)

#### Trigramas

In [None]:
#trigrama de títulos con números latinos.
trigramaLat=(list(nltk.ngrams(titulosConNroLatinoStop,3)))
trigramaLat

In [None]:
import pandas as pd
dfTrigramaLat = pd.DataFrame(trigramaLat,columns=['TOKEN1','TOKEN2','TOKEN3'])
dfTrigramaLat

In [88]:
#Cantidad de veces que se repiten los trigramas en los titulos con números latinos.
import pandas as pd
FrecuenciaTrigLat = pd.DataFrame(trigramaLat,columns=['TOKEN1','TOKEN2','TOKEN3'])
cantTrigLat = FrecuenciaTrigLat.value_counts()
print(cantTrigLat)

TOKEN1         TOKEN2            TOKEN3           
honorarios     correspondientes  mas                  3
oportunamente  regule            honorarios           3
regule         honorarios        correspondientes     3
hago           reserva           derecho              2
reserva        derecho           accionar             2
                                                     ..
examen         exhausto          columna              1
               completo          funciones            1
evolucion      daños             psiquicosmorales     1
evaluacion     si                actor                1
vengo          nla               presentedenunciar    1
Length: 519, dtype: int64


# Dataframe de todos los titulos

In [None]:
# crear un df de títulos.
import pandas as pd

dfTitulos = pd.DataFrame()
dfTitulos['latinos'] = titulosConNroLatinoStop
dfTitulos['romanos'] = pd.DataFrame(titulosConNroRomanoStop)
dfTitulos['mayusculas'] = pd.DataFrame(titulosMayusculasStop)
dfTitulos

In [137]:
#Se importan las librerias necesarias y se toman los datos de muestra
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer 
dato1 = titulosMayusculasStop
dato2 = titulosConNroRomanoStop
dato3 = titulosConNroLatinoStop

In [138]:
#Convierte los datos de muestra en DataFrame usando Pandas
dfTodosLosTitulos = pd.DataFrame({'Mayúsculas': [dato1], 'Romanos': [dato2], 'Latinos': [dato3]})
print (dfTodosLosTitulos)

                                          Mayúsculas  \
0  [tobillo, psicoentresta, examen, perito, ofici...   

                                             Romanos  \
0  [nla, articulacion, factible, inestabilidad, a...   

                                             Latinos  
0  [tobillo, psicoentresta, nlas, secuelas, tobil...  


In [139]:
#Inicializa el vectorizador
#Se inicializa el vectorizador y se ajusta y transforman los datos
tfidf_vectorizer = TfidfVectorizer()
doc_vec = tfidf_vectorizer.fit_transform(dfTodosLosTitulos)

In [140]:
#Convierte los datos transformados en un marco de datos
dfMarco = pd.DataFrame(doc_vec.toarray().transpose(), index= tfidf_vectorizer.get_feature_names_out())

In [141]:
#Cambia los nombres de las columnas e imprime el resultado
dfMarco.columns = dfTodosLosTitulos.columns
print(dfMarco)

            Mayúsculas  Romanos  Latinos
latinos            0.0      0.0      1.0
mayúsculas         1.0      0.0      0.0
romanos            0.0      1.0      0.0


In [None]:
#FRECUENCIA DE TODO EL TEXTO (df1 o dfLimpio????)
from sklearn.feature_extraction.text import CountVectorizer 

documento = df1.apply(str)  
# crear la transformación  
vectorizer = CountVectorizer() 
# tokenizar y construir el vocabulario
vectorizer.fit(documento) 
  
print("Vocabulary: ", vectorizer.vocabulary_) 
# codificador de documentos
vector = vectorizer.transform(documento) 

# resumir vector codificado
#print("El documento codificado es:") 
#print(vector.shape)
#print(type(vector))
#print(vector.toarray())

In [None]:
# r'.\n +'[0-9]+[-. ]+[a-zA-z ]+'

#.\n +'([vV][.-]+ [A-Za-z ]+)|([iI{0,3}][vV]+[.-]+ [A-Za-z ]+)