# Muestra las preguntas que no han sido clasificadas de los pickle

Este notebook sirve para examinar la clasificación de los temas de las preguntas.



## Entorno

### Librerías

In [None]:
from logutils import get_logger
from exam_question_downloader.utils.consts import ROOT_DIR
from pathlib import Path
import pickle
from exam_question_downloader.utils.text_processing import get_text_docs_from_dir, extract_questions_from_doc, classify_questions_by_subject
from exam_question_downloader.utils.text_processing import get_text_docs_from_file, get_questions_not_classified
from exam_question_downloader.utils.text_formating import format_question, format_questions

In [None]:
# SOLO DURANTE EL DESARROLLO; Recarga el código fuente de las librerías en cada ejecucion de celda
%load_ext autoreload
%autoreload 2

In [None]:
logger = get_logger("YEA")

### Variables

In [None]:
# Donde se encuentran los PIKLE de entrada
ASSETS_DIR = ROOT_DIR.joinpath("assets")

print(f"Los PLIKE se leeran de: {ASSETS_DIR}")

## Leer PIKLE

In [None]:
questiondocs = pickle.loads(ASSETS_DIR.joinpath("questiondocs.pkl").read_bytes())
questiondocs

In [None]:
# Leemos las preguntas y las clasificamos por temas
df = classify_questions_by_subject(questiondocs)
df

### Estadísticas

In [None]:
# Estadísticas de las preguntas reconocidas y leídas;

totalpreguntas=0\

for doc, preguntas in questiondocs:
    numero_preguntas = len(preguntas)
    totalpreguntas=totalpreguntas+numero_preguntas
    print(f"El archivo '{doc}' tiene {numero_preguntas} preguntas.")
print(f"En total se han leído {totalpreguntas} preguntas.")

In [None]:
# Estadísticas de la clasificación de preguntas
print (f"De un total de {totalpreguntas} se han clasificado {df.shape[0]} preguntas.")

# Obtener los valores únicos de la columna 'subject' ordenados alfabéticamente
valores_unicos_ordenados = sorted(df['subject'].unique())

# Contar la frecuencia de cada valor y crear un DataFrame ordenado
conteo = df['subject'].value_counts().reindex(valores_unicos_ordenados)

print(conteo)

## Preguntas no clasificadas en temas

In [None]:
# Las preguntas que no se han clasificado
df2 = get_questions_not_classified(questiondocs)

df2[['question','doc']]

In [None]:
print(format_question(df2.iloc[0]))

In [None]:
print(format_questions(df2.head(6)))

In [None]:
print(format_questions(df2))