## Clean the converted text files using regex

In [3]:
# Función para hacer la limpieza del texto de todos los archivos.
import re
import os

def transformar_y_guardar_archivo(input_file, output_folder, output_filename):

    # Intenta abrir el archivo con encoding 'utf-8', si falla, intenta con 'latin-1'
    try:
        with open(input_file, 'r', encoding='utf-8') as file:
            contenido_transformado = file.read()
    except UnicodeDecodeError:
        with open(input_file, 'r', encoding='latin-1') as file:
            contenido_transformado = file.read()

    # Realizar las transformaciones con expresiones regulares
    # Eliminar saltos de línea si son más de dos
    contenido_transformado = re.sub(r'\n{2,}', '\n', contenido_transformado)
    # contenido_transformado = contenido_transformado.replace("\n", " ")

    # Limpiar mediante expresiones regulares
    # contenido_transformado = re.sub(r'[^A-Za-z0-9,.\- áÁéÉíÍóÓúÚñÑ]+', ' ', contenido_transformado)
    contenido_transformado = re.sub(r'[^A-Za-z0-9,.\- áÁéÉíÍóÓúÚñÑ?!;:()"\'\n]+', ' ', contenido_transformado)

    # Quitar guiones y puntos sin sentido
    # NO BORRAR PARA TRANSFORMERS
    # contenido_transformado = re.sub(r'\.{2,}-', ' ', contenido_transformado)

    # Quitar guiones consecutivos
    contenido_transformado = re.sub(r'-{2,}', ' ', contenido_transformado)

    # Quitar puntos consecutivos
    # SOLO QUITAR SI SON MAS DE 3 PUNTOS
    # contenido_transformado = re.sub(r'\.{2,}', '.', contenido_transformado)
    contenido_transformado = re.sub(r'\.{4,}', '...', contenido_transformado)

    # Más puntos consecutivos
    # NO BORRAR PARA TRANSFORMERS
    # contenido_transformado = re.sub(r'\.{1,} ', ' ', contenido_transformado)

    # Quitar todos los espacios de más
    contenido_transformado = re.sub(r'  +', ' ', contenido_transformado)

    # A partir de este punto, la variable 'contenido' contiene el texto limpio en Python

    # Aquí, reemplazaremos todas las instancias de "buscar" con "reemplazar"
    # ESTO POR QUÉ?
    # contenido_transformado = re.sub(r'buscar', 'reemplazar', contenido_transformado)

    # Crear el directorio de salida si no existe
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Combinar el directorio de salida y el nombre de archivo de salida
    ruta_salida = os.path.join(output_folder, output_filename)

    # Guardar el archivo transformado
    with open(ruta_salida, 'w', encoding='utf-8') as output_file:
        output_file.write(contenido_transformado)

    print(f'Archivo transformado guardado en {ruta_salida}')

# Directorio que contiene los archivos a procesar
# input_folder = r'/Users/joccerrillo/Downloads/convertidos'
input_folder = 'corpus/convertidos'

# Directorio donde se guardarán los archivos transformados
# output_folder = r'/Users/joccerrillo/Downloads/convertidos/Limpiados'
output_folder = 'corpus/convertidos/cleaned'

# Asegúrate de que el directorio de salida exista
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Lista de archivos en el directorio de entrada
files = os.listdir(input_folder)

# Itera sobre cada archivo en el directorio
for file in files:
    # Verifica que el elemento sea un archivo y no un directorio
    if os.path.isfile(os.path.join(input_folder, file)):
        # Genera un nombre de archivo de salida basado en el nombre del archivo de entrada
        output_filename = f"cleaned_{file}"
        
        # Llama a la función para transformar y guardar el archivo
        transformar_y_guardar_archivo(
            os.path.join(input_folder, file),
            output_folder,
            output_filename
        )

Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_55306_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_41039_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_79423_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_84989_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_60808_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_37925_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_69588_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_30734_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_72683_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_40156_convertido.txt
Archivo transformado guardado en corpus/convertidos/cleaned/cleaned_93621_convertido.txt
Archivo transformado 

### Count number of cleaned files (should be 5000)

In [4]:
# count files in folder corpus/convertidos/cleaned
path, dirs, files = next(os.walk(output_folder))
file_count = len(files)
print(f'Cantidad de archivos transformados: {file_count}')

Cantidad de archivos transformados: 5000


### Load df and cleaned_df

In [None]:
import pandas as pd

df = pd.read_csv('corpus/corpus_final_corregido.txt', sep='\t')
cleaned_df = pd.read_csv('corpus/cleaned_corpus.csv')

### Get Case number to binary result mapping

In [5]:
cleaned_df = df[['Codigo', 'label']].copy()
# cleaned_df.head()
print(type(cleaned_df['Codigo'][0]))

<class 'numpy.int64'>


### Add texts to cleaned_df

In [6]:
import os

path = 'corpus/convertidos/cleaned'

# Lista de archivos en el directorio de entrada
files = os.listdir(path)

# extract the case number from the file name
def extract_case_number(file_name):
    case_number = file_name.split('_')[1].split('.')[0]
    if case_number == '38949':
        print("File name: ", file_name)
        print("Case number: ", case_number)
    return case_number

# Itera sobre cada archivo en el directorio
for file in files:
    # Verifica que el elemento sea un archivo y no un directorio
    if os.path.isfile(os.path.join(path, file)):
        case_number = extract_case_number(file)
        with open(os.path.join(path, file), 'r', encoding='utf-8') as f:
            text = f.read()
            if case_number == '38949':
                print("Text: ", text)
            cleaned_df.loc[cleaned_df['Codigo'] == int(case_number), 'text'] = text

cleaned_df.head()

File name:  cleaned_38949_convertido.txt
Case number:  38949
Text:  1
EXPEDIENTE: RECURSO EXTRAORDINARIO DE
CASACION INTERPUESTO POR EL SR. HANS
FRIEDICH SCHUCHARDT en la causa: IVAN
YEGROS Y OTROS s DEFRAUDACION, i
FALSIFICACION DE INSTRUMENTOS PUBLICOS Yy
. 
CUERDO Y SENTENCIA NUMERO: Noyecventos, sesenta 4 ocho. 
ta
En aAggincién del Paraguay, a los... tyece, seeeseees del mes!
Ee
RENO cece del afio dos mil. Yec ... it
ig reunidos en la Sala de Acuerdos los Excelentisimos
Doctores Alicia Beatriz Pucheta de Correa, Sindulfo Blanco y José
Ratl Torres K., quien integra la Sala Penal en reemplazo del Dr.
Wildo Rienzi Galeano, por ante mi, el Secretaria Autorizante, ser
trajo para acuerdo el expediente caratulado: "RECURSO ;
EXTRAORDINARIO DE CASACION INTERPUESTO POR EL SR. HANS FRIEDICH 
SCHUCHARDT en la causa: IVAN YEGROS Y OTROS S DEFRAUDACION, !
FALSIFICACION DE INSTRUMENTOS PUBLICOS Y OTROS , a fin de 
resolver el recurso extraordinario de casacién interpuesto por ei!
SR. HANS FRIED

Unnamed: 0,Codigo,label,text
0,38949,0,1\nEXPEDIENTE: RECURSO EXTRAORDINARIO DE\nCASA...
1,97614,0,EXPEDIENTE: RECURSO EXTRAORDINARIO DE CASACIÓN...
2,85576,0,lowe Oc\nCORTE EXPTE: NESTOR VALENTIN GONZALE...
3,79901,0,EXPEDIENTE: RECURSO EXTRAORDINARIO DE\nrE cx C...
4,72854,0,EXPEDIENTE: RECURSO DE CASACION INTERPUESTO\nP...


### Remove Resuelve from the texts

In [7]:
import re

def normalizar_resuelve(texto):
    # Definir patrones de variaciones de "resuelve"
    patrones = [
    re.compile(r'(?i)\bres\s*ue\s*lve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bre\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresu\s*ve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresuelvf\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresuelvt\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brtsuelve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brei\s*elve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresuelv\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bres\s*lve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bre\s*5\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\b1\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\be\s*su\s*el\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\b8\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*-\s*e\s*su\s*el\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*lj\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brl\s*v\sees\s*ll\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*lj\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brl\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*lj\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\be\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bs\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bre\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\b\s*l\s*v\s*e\s*\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bres\s*l\s*v\s*e\b(?!so)', re.IGNORECASE)
    ]

    # Buscar coincidencias y reemplazar con "resuelve"
    for patron in patrones:
        texto = patron.sub('resuelve', texto)
    return texto

# remove text after the word "resuelve"
def remove_resuelve(text):
    resuelve_index = text.lower().rfind('resuelve')
    if resuelve_index != -1:
        text = text[:resuelve_index]
    return text

cleaned_df['text'] = cleaned_df['text'].apply(normalizar_resuelve)
cleaned_df['text'] = cleaned_df['text'].apply(remove_resuelve)


In [8]:
print(cleaned_df['text'][0])

1
EXPEDIENTE: RECURSO EXTRAORDINARIO DE
CASACION INTERPUESTO POR EL SR. HANS
FRIEDICH SCHUCHARDT en la causa: IVAN
YEGROS Y OTROS s DEFRAUDACION, i
FALSIFICACION DE INSTRUMENTOS PUBLICOS Yy
. 
CUERDO Y SENTENCIA NUMERO: Noyecventos, sesenta 4 ocho. 
ta
En aAggincién del Paraguay, a los... tyece, seeeseees del mes!
Ee
RENO cece del afio dos mil. Yec ... it
ig reunidos en la Sala de Acuerdos los Excelentisimos
Doctores Alicia Beatriz Pucheta de Correa, Sindulfo Blanco y José
Ratl Torres K., quien integra la Sala Penal en reemplazo del Dr.
Wildo Rienzi Galeano, por ante mi, el Secretaria Autorizante, ser
trajo para acuerdo el expediente caratulado: "RECURSO ;
EXTRAORDINARIO DE CASACION INTERPUESTO POR EL SR. HANS FRIEDICH 
SCHUCHARDT en la causa: IVAN YEGROS Y OTROS S DEFRAUDACION, !
FALSIFICACION DE INSTRUMENTOS PUBLICOS Y OTROS , a fin de 
resolver el recurso extraordinario de casacién interpuesto por ei!
SR. HANS FRIEDICH SCHUCHARDT por derecho propio y bajo patrociniol
del Abogado Fab

### Save df to csv

In [9]:
# save the cleaned dataframe to a csv file
cleaned_df.to_csv('corpus/cleaned_text_and_codigo.csv', index=False)

### Clean the texts of the Google OCR corpus

In [5]:
import re


def transformar(contenido_transformado):
    # Realizar las transformaciones con expresiones regulares
    # Eliminar saltos de línea si son más de dos
    contenido_transformado = re.sub(r'\n{2,}', '\n', contenido_transformado)
    # contenido_transformado = contenido_transformado.replace("\n", " ")

    # Limpiar mediante expresiones regulares
    # contenido_transformado = re.sub(r'[^A-Za-z0-9,.\- áÁéÉíÍóÓúÚñÑ]+', ' ', contenido_transformado)
    contenido_transformado = re.sub(r'[^A-Za-z0-9,.\- áÁéÉíÍóÓúÚñÑ?!;:()"\'\n]+', ' ', contenido_transformado)

    # Quitar guiones y puntos sin sentido
    # NO BORRAR PARA TRANSFORMERS
    # contenido_transformado = re.sub(r'\.{2,}-', ' ', contenido_transformado)

    # Quitar guiones consecutivos
    contenido_transformado = re.sub(r'-{2,}', ' ', contenido_transformado)

    # Quitar puntos consecutivos
    # SOLO QUITAR SI SON MAS DE 3 PUNTOS
    # contenido_transformado = re.sub(r'\.{2,}', '.', contenido_transformado)
    contenido_transformado = re.sub(r'\.{4,}', '...', contenido_transformado)

    # Más puntos consecutivos
    # NO BORRAR PARA TRANSFORMERS
    # contenido_transformado = re.sub(r'\.{1,} ', ' ', contenido_transformado)

    # Quitar todos los espacios de más
    contenido_transformado = re.sub(r'  +', ' ', contenido_transformado)

    return contenido_transformado

In [6]:
import pandas as pd

df = pd.read_csv('corpus/corpus_google.csv')

In [7]:
# Apply transformations to the specified column
df['text'] = df['text'].apply(transformar)

In [8]:
# save df to csv
df.to_csv('corpus/cleaned_corpus_google.csv', index=False)

Remove resuelve

In [10]:
import re

def normalizar_resuelve(texto):
    # Definir patrones de variaciones de "resuelve"
    patrones = [
    re.compile(r'(?i)\bres\s*ue\s*lve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bre\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresu\s*ve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresuelvf\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresuelvt\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brtsuelve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brei\s*elve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bresuelv\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bres\s*lve\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bre\s*5\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\b1\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\be\s*su\s*el\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\b8\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*-\s*e\s*su\s*el\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*lj\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brl\s*v\sees\s*ll\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*lj\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\brl\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*s\s*lj\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\be\s*s\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bs\s*u\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bre\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\b\s*l\s*v\s*e\s*\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\br\s*e\s*e\s*l\s*v\s*e\b(?!so)', re.IGNORECASE),
    re.compile(r'(?i)\bres\s*l\s*v\s*e\b(?!so)', re.IGNORECASE)
    ]

    # Buscar coincidencias y reemplazar con "resuelve"
    for patron in patrones:
        texto = patron.sub('resuelve', texto)
    return texto

# remove text after the word "resuelve"
def remove_resuelve(text):
    resuelve_index = text.lower().rfind('resuelve')
    if resuelve_index != -1:
        text = text[:resuelve_index]
    return text

df['text'] = df['text'].apply(normalizar_resuelve)
df['text'] = df['text'].apply(remove_resuelve)


In [11]:
# save df to csv
df.to_csv('corpus/cleaned_corpus_google_sin_resuelve.csv', index=False)

Clean Google texts further (Clean text chunks that result from sellos, firmas etc.)

In [15]:
import pandas as pd

# load google corpus
df = pd.read_csv('corpus/cleaned_corpus_google_sin_resuelve.csv')

# text_47095 = df[df['Codigo'] == 47095]['text'].values[0]

# with open('corpus/47095_Google_cleaned.txt', 'w', encoding='utf-8') as f:
#     f.write(text_47095)

In [16]:
def remove_passages(text):
    min_line_length = 2

    # get lines of text
    lines = text.split('\n')

    parragraph_len_counter = 0

    index_range = [0, 0]

    for i in range(len(lines)):
        # get words of line
        words = lines[i].split(' ')
        if len(words) < min_line_length:
            if parragraph_len_counter == 0:
                index_range[0] = i
            else:
                index_range[1] = i
            parragraph_len_counter += 1
        else:
            if parragraph_len_counter > 1:
                # delete lines in index_range
                for j in range(index_range[0], index_range[1] + 1):
                    lines[j] = None
            parragraph_len_counter = 0
    
    # delete None values
    lines = [line for line in lines if line is not None]
    
    # return the cleaned text
    return '\n'.join(lines)


In [9]:
print(text_47095)

LICA
DEL
PAR
Corte Suprema de Justicia
EXPEDIENTE: "RECURSO EXTRAORDINARIO DE CASACIÓN
INTERPUESTO POR LA DEFENSORA PUBLICA ELLY ROCIO
MOLAS TROCHE, EN: "QUERELLA CRIMINAL C RAFAEL
GAYOSO Y OTRO S S.H.P. DE ESTAFA Y OTROS EN ESTA
CIUDAD." N 3-1-3-2008-26.
93
01
04.
ACUERDO Y SENTENCIA NÚMERO. Mil ciento treinta
18
En la Ciudad de Asunción, Capital de la República del Paraguay,
los treinta
. días, del mes de diciembre del año dos mil quince; estando
reunidos en la Sala de Acuerdos los señores Ministros de la Excelentísima Corte
Suprema de Justicia, SINDULFO BLANCO, ALICIA BEATRIZ PUCHETA DE CORREA y LUIS
MARIA BENITEZ RIERA, ante mí la Secretaria autorizante, se trajo el expediente
caratulado: "RECURSO EXTRAORDINARIO DE CASACIÓN INTERPUESTO POR LA
DEFENSORA PUBLICA ELLY ROCIO MOLAS TROCHE, EN: "QUERELLA CRIMINAL C 
RAFAEL GAYOSO Y OTRO S S.H.P. DE ESTAFA OTROS EN ESTA CIUDAD", a fin de
resolver el Recurso interpuesto contra el Acuerdo y Sentencia N 59 2.015 T.A.P. de
fecha 16 de setiemb

In [10]:
text_48095_cleaned = remove_passages(text_47095)
print(text_48095_cleaned)

Corte Suprema de Justicia
EXPEDIENTE: "RECURSO EXTRAORDINARIO DE CASACIÓN
INTERPUESTO POR LA DEFENSORA PUBLICA ELLY ROCIO
MOLAS TROCHE, EN: "QUERELLA CRIMINAL C RAFAEL
GAYOSO Y OTRO S S.H.P. DE ESTAFA Y OTROS EN ESTA
ACUERDO Y SENTENCIA NÚMERO. Mil ciento treinta
18
En la Ciudad de Asunción, Capital de la República del Paraguay,
los treinta
. días, del mes de diciembre del año dos mil quince; estando
reunidos en la Sala de Acuerdos los señores Ministros de la Excelentísima Corte
Suprema de Justicia, SINDULFO BLANCO, ALICIA BEATRIZ PUCHETA DE CORREA y LUIS
MARIA BENITEZ RIERA, ante mí la Secretaria autorizante, se trajo el expediente
caratulado: "RECURSO EXTRAORDINARIO DE CASACIÓN INTERPUESTO POR LA
DEFENSORA PUBLICA ELLY ROCIO MOLAS TROCHE, EN: "QUERELLA CRIMINAL C 
RAFAEL GAYOSO Y OTRO S S.H.P. DE ESTAFA OTROS EN ESTA CIUDAD", a fin de
resolver el Recurso interpuesto contra el Acuerdo y Sentencia N 59 2.015 T.A.P. de
fecha 16 de setiembre de 2015, dictado por el Tribunal de Apelación 

In [17]:
# apply remove_passages function to the text column
df['text'] = df['text'].apply(remove_passages)

In [18]:
# save df to csv
df.to_csv(f'corpus/corpus_google_min_line_len2_min_par_len2.csv', index=False)