# Clasifica las preguntas de los pickle y los guarda en un CSV



## Entorno

### Librerías

In [None]:
from logutils import get_logger
from datetime import datetime

from exam_question_downloader.utils.consts import ROOT_DIR
from pathlib import Path
import pickle
from exam_question_downloader.utils.text_processing import get_text_docs_from_dir, extract_questions_from_doc, classify_questions_by_subject
from exam_question_downloader.utils.text_processing import get_text_docs_from_file, get_questions_not_classified
from exam_question_downloader.utils.text_formating import format_question, format_questions

In [None]:
# SOLO DURANTE EL DESARROLLO; Recarga el código fuente de las librerías en cada ejecucion de celda
%load_ext autoreload
%autoreload 2

In [None]:
logger = get_logger("YEA")

### Variables

In [None]:
# Donde se encuentran los PIKLE de entrada
ASSETS_DIR = ROOT_DIR.joinpath("assets")

print(f"Los PLIKE se leeran de: {ASSETS_DIR}")

In [None]:
# Ruta de salida
OUTPUT_PATH=ROOT_DIR.joinpath("..").joinpath("material-opos").joinpath("CSVsExamenes").joinpath("2016-2023-Exámenes UPV Informáticos").joinpath("2021_10 UPV - AnalistasProgramador A2 - Redes y aplicaciones")

print(f"Directorio donde se guardará el CSV: {OUTPUT_PATH}")

## Leer PIKLE

In [None]:
questiondocs = pickle.loads(ASSETS_DIR.joinpath("questiondocs.pkl").read_bytes())
questiondocs

In [None]:
# Leemos las preguntas y las clasificamos por temas
df = classify_questions_by_subject(questiondocs)
df

### Estadísticas

In [None]:
# Estadísticas de las preguntas reconocidas y leídas;

totalpreguntas=0\

for doc, preguntas in questiondocs:
    numero_preguntas = len(preguntas)
    totalpreguntas=totalpreguntas+numero_preguntas
    print(f"El archivo '{doc}' tiene {numero_preguntas} preguntas.")
print(f"En total se han leído {totalpreguntas} preguntas.")

In [None]:
# Estadísticas de la clasificación de preguntas
print (f"De un total de {totalpreguntas} se han clasificado {df.shape[0]} preguntas.")

# Obtener los valores únicos de la columna 'subject' ordenados alfabéticamente
valores_unicos_ordenados = sorted(df['subject'].unique())

# Contar la frecuencia de cada valor y crear un DataFrame ordenado
conteo = df['subject'].value_counts().reindex(valores_unicos_ordenados)

print(conteo)

## Exportación de las preguntas clasificadas al directorio de salida


In [None]:
now = datetime.now().strftime("%Y-%m-%d")
filename=now+"-preguntas.csv"
filepath= OUTPUT_PATH.joinpath(filename)

print(f"Nombre del fichero de salida: {filename}")
print(f"Ruta del fichero de salida: {filepath}")

In [None]:
# Exportación
df.to_csv(filepath, index=False)

In [None]:
# Guardamos un informe de la exportación

# Nombre del fichero
filename=now+"-informe.txt"
filepath= OUTPUT_PATH.joinpath(filename)

# Abrir el fichero en modo escritura
with open(filepath, 'w') as file:

    totalpreguntas=0
    for doc, preguntas in questiondocs:
        numero_preguntas = len(preguntas)
        totalpreguntas=totalpreguntas+numero_preguntas
        print(f"El archivo '{doc}' tiene {numero_preguntas} preguntas.")
        file.write(f"El archivo '{doc}' tiene {numero_preguntas} preguntas.\n")

    print(f"En total se han leído {totalpreguntas} preguntas.")
    print("")
    file.write(f"En total se han leído {totalpreguntas} preguntas.\n")
    file.write("\n")

    print(f"Del total de {totalpreguntas} se han clasificado {df.shape[0]} preguntas.")
    print("")
    file.write(f"Del total de {totalpreguntas} se han clasificado {df.shape[0]} preguntas.\n")
    file.write("\n")

    print(conteo)
    file.write(conteo.to_string())


In [None]:
conteo.to_string()