# Extrae los textos de los PDFs

Este notebook extrae la preguntas de los PDF previamente existentes en una ubicación dada.



## Entorno

### Librerías

In [None]:
from logutils import get_logger
from exam_question_downloader.utils.consts import ROOT_DIR
from pathlib import Path
import pickle
from exam_question_downloader.utils.text_processing import get_text_docs_from_dir, extract_questions_from_doc, classify_questions_by_subject
from exam_question_downloader.utils.text_processing import get_text_docs_from_file, get_questions_not_classified
from exam_question_downloader.utils.text_formating import format_question, format_questions

In [None]:
# SOLO DURANTE EL DESARROLLO; Recarga el código fuente de las librerías en cada ejecucion de celda
%load_ext autoreload
%autoreload 2

In [None]:
logger = get_logger("YEA")

### Variables

In [None]:
# Ubicacion de los PDF a procesar
INPUT_PATH=ROOT_DIR.joinpath("..").joinpath("material-opos").joinpath("PDFsExamenes").joinpath("2016-2023-Exámenes UPV Informáticos").joinpath("2021_10 UPV - AnalistasProgramador A2 - Redes y aplicaciones")

print(f"Directorio de los exámenes a analizar: {INPUT_PATH}")

In [None]:
# Fichero de salida de los PIKLE
ASSETS_DIR = ROOT_DIR.joinpath("assets")
ASSETS_DIR.mkdir(exist_ok=True)

print(f"Los PIKLE se guardarán en: {ASSETS_DIR}")

## Leer PDFs

In [None]:
# Buscar archivos PDF en el directorio dado de forma recursiva
archivos_pdf = list(INPUT_PATH.rglob('*.pdf'))

# Mostrar los archivos PDF encontrados
for archivo in archivos_pdf:
    #print(archivo)
    print(archivo.name)

In [None]:
# Cargar en un pickle el texto de todos los PDF
textdocs = []

for archivo in archivos_pdf:
    text_doc = get_text_docs_from_file(archivo)
    textdocs.append((archivo.name, text_doc))

textdocs

In [None]:
# Guardamos el pickle
ASSETS_DIR.joinpath("textdocs.pkl").write_bytes(pickle.dumps(textdocs))

## Reconocer las preguntas

In [None]:
# Detectar las preguntas y guardarlos en otro picke
questiondocs = []
for name, doc in textdocs:
    questiondocs.append((name, extract_questions_from_doc(doc)))

questiondocs

In [None]:
# Guardamos en otro pickle las preguntas 
ASSETS_DIR.joinpath("questiondocs.pkl").write_bytes(pickle.dumps(questiondocs))

In [None]:
# Estadísticas de las preguntas reconocidas y leídas;

totalpreguntas=0
for doc, preguntas in questiondocs:
    numero_preguntas = len(preguntas)
    totalpreguntas=totalpreguntas+numero_preguntas
    print(f"El archivo '{doc}' tiene {numero_preguntas} preguntas.")

print(f"En total se han leído {totalpreguntas} preguntas.")