### Importar librería

In [7]:
import clasificacion_textos as ct

### Establecer ubicaciones de directorio de datos y ficheros de compilación, partición y clasificación

In [8]:
import os

# Equivalente a ../Datos
dir_documentos = os.path.join(os.path.pardir, 'Datos')

# Ficheros temporales
fichero_particion = 'particion_train_test.json'
fichero_clasificacion = 'clasificacion.json'
fichero_compilacion = 'compilacion.json'

### Generar una nueva partición de entrenamiento / test

En este caso no se hace porque ya se ha generado una previamente.

In [9]:
# ct.generar_particion_train_test(
#     f_salida=fichero_particion,
#     temas=('Politica', 'Deportes', 'Salud'),
#     dir_docs=dir_documentos,
#     prop_train=0.5
# )

### Crear una instancia del clasificador

Es importante haber instalado el paquete del parseador dentro del entorno virtual:
```
python -m spacy download es_core_news_md
```

In [10]:
clasificador = ct.ClasificadorTfIdf(
    fichero_salida=fichero_clasificacion,
    f_compilacion=fichero_compilacion,
    f_particion=fichero_particion,
    temas=('Politica', 'Deportes', 'Salud'),
    d_docs=dir_documentos,
)

### Compilar el modelo para la partición actual (generación de vectores tf-idf). Solo hace falta ejecutarlo una vez

In [11]:
clasificador.compilar()

### Probar el modelo sobre la el conjunto de test actual

In [12]:
clasificador.test()

{'errores': [{'real': 'Deportes/text42.txt', 'pred': 'Salud/text42.txt'},
  {'real': 'Politica/text32.txt', 'pred': 'Salud/text32.txt'},
  {'real': 'Salud/text23.txt', 'pred': 'Deportes/text23.txt'}],
 'predicciones': {'../Datos/Deportes/text17.txt': [('Deportes',
    0.22609791583220654),
   ('Politica', 0.08074438525038288),
   ('Salud', 0.05103969365660253)],
  '../Datos/Deportes/text32.txt': [('Deportes', 0.25197062875327275),
   ('Politica', 0.0617521755572689),
   ('Salud', 0.036785040125896354)],
  '../Datos/Deportes/text28.txt': [('Deportes', 0.13440339332833195),
   ('Politica', 0.05400275255067764),
   ('Salud', 0.023832174947727106)],
  '../Datos/Deportes/text47.txt': [('Deportes', 0.145200958801964),
   ('Politica', 0.04595288881257274),
   ('Salud', 0.04446615093469849)],
  '../Datos/Deportes/text22.txt': [('Deportes', 0.0781256530841866),
   ('Politica', 0.06162540697545248),
   ('Salud', 0.060015426671406254)],
  '../Datos/Deportes/text23.txt': [('Deportes', 0.1580015025

### Probar funcionalidad de clasificar documentos sin etiquetar (aunque en este caso sabemos que es de deportes)

In [13]:
paths = [
    'texto_prueba_concepto.txt'
]
clasificador.clasifica(paths, exportar=False)

{'texto_prueba_concepto.txt': [('Deportes', 0.10392268630637337),
  ('Politica', 0.011241229986113075),
  ('Salud', 0.0029481742415920034)]}