## Clasificación de documentos:

# Calculo del género de una película a raíz de su sinopsis

## Parte I: Introducción

Se requiere la implementación de un algoritmo que, previamente entrenado, calcule el __género principal__ de una película en base al conocimiento adquirido.

Los géneros que tendrá en cuenta el algoritmo son: ___acción___, ___comedia___, ___infantil___, ___drama___, ___terror___, ___musical___.

Los __archivos que contienen la sinopsis__ de las películas estarán distribuídos de la siguiente forma: 1) Si forman parte del conjunto de pruebas estarán dentro de la carpeta del conjunto de prueba sin más, que será la carpeta en la que el algoritmo, una vez entrenado, buscará sinopsis para categorizarlas 2) Si forman parte del conjunto de entrenamiento estarán dentro de la carpeta del conjunto de entrenamiento y __a su vez__ dentro de una carpeta que indique su género.

El __formato__ de los archivos será _.txt_, por lo tanto estamos hablando de texto plano.

__Los conocimientos requeridos por parte del usuario__ que ejecutará el algoritmo __son mínimos__: tan sólo necesita __colocar__ los textos, en el formato adecuado, en la carpeta indicada y __ejecutar__ el algoritmo en sí. Únicamente se requiere mayor interacción por parte del usuario si desea cambiar el funcionamiento del algorimo en sí, o ajustar el mismo, como por ejemplo si desea cambiar las palabras clave para cada una de las categorías.

## Parte II: Escaneo de archivos

Empezamos símplemente indicando qué __carpeta__ contiene el __conjunto de entrenamiento__ y el de __prueba__.

In [104]:
ruta_conjunto_entrenamiento = "conjunto_entrenamiento"
ruta_conjunto_prueba = "conjunto_prueba"

#categorías = {"acción", "comedia"}

A continuación, vamos a recorrer nuestra estructura de carpetas para detectar cada uno de los textos a analizar.

Primero __empezamos encontrando__ todos los __archivos ya clasificados__ (conjunto de entrenamiento), según su __categoría__.

In [219]:
# NOTA: Vamos a almacenarlos en conjunto (set) ya que no nos interesa el orden y, además, no permite duplicados (no puede haber dos archivos con el mismo nombre).

archivos_entrenamiento_acción = set()
for file in os.listdir(ruta_conjunto_entrenamiento + "/" + "acción"):
    if file.endswith(".txt"):
        aux = "acción" + "/" + file
        archivos_entrenamiento_acción.add(aux)

archivos_entrenamiento_comedia = set()
for file in os.listdir(ruta_conjunto_entrenamiento + "/" + "comedia"):
    if file.endswith(".txt"):
        aux = "comedia" + "/" + file
        archivos_entrenamiento_comedia.add(aux)

archivos_entrenamiento_terror = set()
for file in os.listdir(ruta_conjunto_entrenamiento + "/" + "terror"):
    if file.endswith(".txt"):
        aux = "terror" + "/" + file
        archivos_entrenamiento_terror.add(aux)

Y, a continuación, procedemos a __encontrar__ los __archivos que querríamos clasificar__ (conjunto de prueba):

In [145]:
# Usamos conjunto por la misma razón de arriba.

archivos_prueba = set()
for file in os.listdir(ruta_conjunto_prueba):
    if file.endswith(".txt"):
        archivos_prueba.add(file)

## Parte III: Elección del conjunto de palabras clave

Para ayudarnos en el estudio de las __palabras clave__ que debemos escoger para cada categoría vamos a realizar un pequeño estudio para determinar las palabras más frecuentes de cada categoría. La elección en sí debemos realizarla a mano puesto que no podemos escoger directamente las más frecuentes puesto que con total seguridad entre las más frecuentes se encontrarán verbos, conectores, preposiciones, pronombres, artículos, nombres propios, etc. que no nos serán de utilidad a la hora de determinar la categoría de una película.

Definimos el siguiente __método que recibirá un conjunto de archivos__ y __contará las palabras__ que aparecen en él __y el número de veces que dichas palabras aparecen__.

In [186]:
def cuenta_palabras_desde_archivos(archivos):
    cuenta_palabras = {}
    
    for archivo in archivos:
        file = open(ruta_conjunto_entrenamiento + "/" + archivo, "r", encoding="latin-1") # Elegimos latin-1 en vez de utf-8 por problemas con las tildes.

        for word in file.read().split(): # Recorremos el fichero, palabra a palabra.
            word = word.lower() # Pasamos la palabra a minúscula.
            # Para perder la menor información posible, reemplazamos ':', ',', ':' y ';', que son los carácteres más típicos que nos podemos encontrar adyacentes a una palabra y que la invalidarían en el siguiente if del algoritmo.
            word = word.replace('.', '')
            word = word.replace(',', '')
            word = word.replace(':', '')
            word = word.replace(';', '')
            if word.isalpha() is True: # Será true cuando todos los caracteres son alfabéticos y hay al menos uno.
                if word in cuenta_palabras:
                    cuenta_palabras[word] += 1 # Si la palabra ya existe, entonces incrementa en 1 el número de veces que hace aparición.
                else:
                    cuenta_palabras[word] = 1 # Si la palabra no existe, la añade (con valor 1 al número de veces que aparece).
    
    return cuenta_palabras

Además, con propósito de limpiar el output que obtendremos vamos a establecer un __umbral__ para desechar todas las palabras que se repitan por debajo del mismo:

In [224]:
umbral_repetición = 3

Y, con el mismo propósito, otro __umbral__ para desechar todas las palabras con una longitud menor a él:

In [233]:
umbral_longitud = 3

Y, por último, un método que use al anterior que, además, nos __ordene las palabras__ (de mayor a menor uso) __y las muestre__:

In [234]:
def cuenta_palabras_desde_archivos_ordenadas(archivos):
    cuenta_palabras = cuenta_palabras_desde_archivos(archivos)
    
    lista = [] # Usamos una lista para poder ordenar las palabras (map).
    for palabra, contador in cuenta_palabras.items():
        lista.append((contador, palabra))

    lista = sorted(lista, reverse = True) # Lo ordenamos y lo invertimos para que las palabras más frecuentes estén arriba.

    for aux in lista:
        if(aux[0] > umbral_repetición and len(aux[1]) > umbral_longitud): # Si el número de veces que aparece la palabra es mayor que el umbral, se muestra.
            print("%s \t %d" % (aux[1], aux[0]))

Palabras más frecuentes en: __ACCIÓN__.

In [232]:
cuenta_palabras_desde_archivos_ordenadas(archivos_entrenamiento_acción)

bourne 	 31
tras 	 14
para 	 14
nicky 	 14
hasta 	 12
vosen 	 11
ross 	 9
mientras 	 9
daniels 	 9
pamela 	 8
este 	 6
agentes 	 6
siendo 	 5
pero 	 5
ellos 	 5
donde 	 5
desh 	 5
sido 	 4
pues 	 4
programa 	 4
estación 	 4
esta 	 4
ella 	 4
documentación 	 4
desde 	 4
cual 	 4
coche 	 4
aunque 	 4


Palabras más frecuentes en: __COMEDIA__.

In [204]:
cuenta_palabras_desde_archivos_ordenadas(archivos_entrenamiento_comedia)

Palabras más frecuentes en: __TERROR__.

In [223]:
cuenta_palabras_desde_archivos_ordenadas(archivos_entrenamiento_terror)

Una vez realizado el estudio, inicializamos manualmente las __palabras clave__ de cada __categoría__, usaremos unas 20 palabras para cada una de ellas (podrán repetirse entre categorías).

In [220]:
# Las inicializamos como conjuntos ya que no nos interesa el orden y, además, no se permiten duplicados.
palabras_clave_accion = {}
palabras_clave_comedia = {}
palabras_clave_terror = {}

Y, a continuación, añadimos todas las palabras clave de cada categoría a un nuevo conjunto que contenga __todas las palabras clave__.

In [222]:
palabras_clave = set()
# Update nos permite añadir el contenido de un set a otro set
palabras_clave.update(palabras_clave_accion)
palabras_clave.update(palabras_clave_comedia)
palabras_clave.update(palabras_clave_terror)
print("Las palabras clave son: %s" % (palabras_clave))

Las palabras clave son: set()


## Parte IV: Procesamiento

# TO DO