## Perform OCR with Google Cloud Vision instead of tesseract to improve the dataset quality

### Get text for all the scanned PDFs

In [1]:
from utils import ocr
import pandas as pd
from tqdm import tqdm

path = 'corpus/descargados/'

# get all the PDF files in the directory
import os
pdf_files = [f for f in os.listdir(path) if f.endswith('.pdf')]

print(len(pdf_files), 'files found')

4201 files found


### Count total number of scanned PDF pages in entire corpus

In [2]:
total_pages = 0
for file in tqdm(pdf_files):
    if ocr.is_scanned_pdf(path + file):
        pages = ocr.count_pages(path + file)
        total_pages += pages

print('Total pages:', total_pages)

  0%|          | 0/4201 [00:00<?, ?it/s]

100%|██████████| 4201/4201 [12:59<00:00,  5.39it/s]

Total pages: 28639





Total scanned PDF pages: 28639

First 1k: free  
Next: 29.1966 mxn / unit  
  
Total Google Cloud Vision price = 27639 / 1000 * 29.1966 = 806.96 mxn

### Convert PDFs to text using OCR from Google Cloud Vision

In [1]:
from utils import ocr
import pandas as pd
from tqdm import tqdm

path = 'corpus/descargados/'

# get all the PDF files in the directory
import os
pdf_files = [f for f in os.listdir(path) if f.endswith('.pdf')]

df_google_ocr = pd.DataFrame(columns=['codigo', 'text'])

for file in tqdm(pdf_files, desc="Processing PDFs"):
    
    text = ocr.pdf2text(path + file)
    codigo = file.split('.')[0]

    # Create a new row as a DataFrame
    new_row = pd.DataFrame({'codigo': [codigo], 'text': [text]})
    
    # Concatenate the new row with the existing dataframe
    df_google_ocr = pd.concat([df_google_ocr, new_row], ignore_index=True)

# Save the dataframe to a CSV file for future use
df_google_ocr.to_csv('google_ocr_results.csv', index=False)

print("All files processed and saved to google_ocr_results.csv.")


Processing PDFs:   0%|          | 10/4201 [00:53<6:10:13,  5.30s/it]

All files processed and saved to google_ocr_results.csv.





In [2]:
import pandas as pd

# read df at google_ocr_results_10.csv
df = pd.read_csv('google_ocr_results.csv')

df.describe()

Unnamed: 0,codigo
count,3801.0
mean,71239.029203
std,20319.554312
min,24764.0
25%,52710.0
50%,75967.0
75%,86583.0
max,102577.0


In [23]:
corpus_path='corpus/cleaned_corpus.csv'
df = pd.read_csv(corpus_path, usecols=['text', 'Codigo'])
print(df.loc[df['Codigo'] == 98140, 'text'].values[0])

EXPEDIENTE: ESTANISLAO GAVILÁN VERA S S.H.P CONTRA NIÑOS Y ADOLESCENTES (ABUSO SEXUAL EN NIÑOS) N 1586 2022 ACUERDO Y SENTENCIA En la ciudad de Asunción, Capital de la República del Paraguay, estando reunidos en la Sala de Acuerdos los Excmos. Señores Ministros de la Corte Suprema de Justicia, Sala Penal, Doctores, MANUEL DEJESÚS RAMÍREZ CANDIA, MARÍA CAROLINA LLANES OCAMPOS y LUIS MARIA BENITEZ RIERA, por ante mí, la Secretaria autorizante, se trajo el expediente caratulado: RECURSO DE CASACION INTERPUESTO POR EL ABG. VÍCTOR GÓMEZ GARAY EN LOS AUTOS: ESTANISLAO GAVILÁN VERA S S.H.P C NIÑOS Y ADOLESCENTES (ABUSO SEXUAL EN NIÑOS) N 1586 2022 , a fin de resolver el Recurso Extraordinario de Casación planteado en contra del Acuerdo y Sentencia N 155 de fecha 05 de octubre de 2022, dictado por el Tribunal de Apelación Penal de la Circunscripción Judicial de Central.- Previo el estudio de los antecedentes del caso, la Corte Suprema de Justicia, Sala Penal, resolvió plantear las siguientes; 

In [3]:
print(df['text'][0])

EXPEDIENTE: ESTANISLAO GAVILÁN VERA 
S/ S.H.P CONTRA NIÑOS  Y ADOLESCENTES
 (ABUSO SEXUAL EN NIÑOS) N° 1586/2022
ACUERDO Y SENTENCIA
En la ciudad de Asunción, Capital de la República del Paraguay, 
estando reunidos en la Sala de Acuerdos  los Excmos.  Señores  Ministros de 
la Corte  Suprema de Justicia, Sala Penal, Doctores, MANUEL DEJESÚS 
RAMÍREZ CANDIA, MARÍA CAROLINA  LLANES OCAMPOS y LUIS 
MARIA BENITEZ RIERA, por ante mí, la Secretaria autorizante, se trajo el 
expediente caratulado:  “RECURSO DE CASACION INTERPUESTO  POR 
EL ABG. VÍCTOR GÓMEZ GARAY EN LOS AUTOS: “ESTANISLAO 
GAVILÁN VERA S/ S.H.P  C/ NIÑOS  Y ADOLESCENTES  (ABUSO SEXUAL 
EN NIÑOS) N° 1586/2022 ”, a fin de resolver  el Recurso  Extraordinario de 
Casación planteado  en contra  del Acuerdo  y Sentencia Nº 155 de fecha 05 
de octubre de 2022,   dictado por el Tribunal de Apelación Penal de la 
Circunscripción Judicial  de Central.-
Previo el estudio  de los antecedentes del caso, la Corte Suprema  de 
Justicia, Sa

### Process single PDF with Google Cloud Vision just to show the difference

In [3]:
google_text = ocr.pdf2text('corpus/descargados/47095.pdf')

with open('corpus/google_text_47095_PDF.txt', 'w') as f:
    f.write(google_text)

Processing page 1...
Processing page 2...
Processing page 3...
Processing page 4...
Processing page 5...


In [6]:
df = pd.read_csv('corpus/corpus.csv')

# Get the text of the row with codigo 47095
text = df[df['Codigo'] == 47095]['text'].values[0]

with open('corpus/47095_PDF.txt', 'w') as f:
    f.write(text)

In [1]:
import pandas as pd

df1 = pd.read_csv('google_ocr_results_400.csv')
df2 = pd.read_csv('google_ocr_results.csv')

In [2]:
# concatenate the two dataframes
df = pd.concat([df1, df2], ignore_index=True)

In [3]:
df.describe()

Unnamed: 0,codigo
count,4201.0
mean,71269.064508
std,20318.928857
min,24764.0
25%,52721.0
50%,75973.0
75%,86614.0
max,102577.0


In [5]:
# check if there is a codigo that appears more than once
counts = df['codigo'].value_counts()

# Filtering values that appear more than once
more_than_once = counts[counts > 1]

print(more_than_once)   # making sure there is no duplicated entry

Series([], Name: count, dtype: int64)


In [6]:
# save df to a CSV file
df.to_csv('google_ocr_results_complete.csv', index=False)

In [7]:
corpus_df = pd.read_csv('corpus/corpus.csv')

In [8]:
print(corpus_df.columns)

Index(['Codigo', 'Titulo', 'Fecha de la Resolución Judicial',
       'Número resolución judicial', 'Tipo', 'Sala', 'Preopinante', 'Materia',
       'Accion resuelta', 'Resultado de la acción',
       'Tribunal o juzgado de origen', 'Nueva Fecha Resolución Judicial',
       'Mes Resolución Judicial', 'Semestre Resolución Judicial',
       'Año Resolución Judicial', 'label', 'text'],
      dtype='object')


In [9]:
print(df.columns)

Index(['codigo', 'text'], dtype='object')


In [10]:
# replace texts in text column with the ones from google_ocr_results_complete.csv (df) where codigo matches
for index, row in df.iterrows():
    codigo = row['codigo']
    text = row['text']
    corpus_df.loc[corpus_df['Codigo'] == codigo, 'text'] = text

In [11]:
# save the updated corpus to a new CSV file
corpus_df.to_csv('corpus/corpus_google.csv', index=False)

In [12]:
corpus_df.describe()

Unnamed: 0,Codigo,Número resolución judicial,Mes Resolución Judicial,Año Resolución Judicial,label
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,64139.9448,609.6844,72131.663,2017.663,0.1906
std,24848.501203,473.741576,31753.8983,3.79783,0.392814
min,22512.0,1.0,12014.0,2011.0,0.0
25%,40029.5,232.0,42022.0,2014.0,0.0
50%,69483.5,507.5,72018.0,2019.0,0.0
75%,85612.25,864.0,102014.0,2021.0,0.0
max,102577.0,2551.0,122023.0,2023.0,1.0
