In [None]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import sys
import csv
import json
import math
import re
from itertools import chain

def abrir_csv_simple_extractor(nombre_del_fichero):
    with open(nombre_del_fichero, newline='') as csvfile:
        reader = csv.reader(csvfile, delimiter=';')
        reader_it = iter(reader)
        next(reader_it) # quitamos la primera fila
        for row in reader_it: yield (row[0], int(row[1]), int(row[2]))

def quitar_comunes(comunes, datos):
    return filter(lambda t: t[0] not in comunes, datos)

def ordenar_por_apariciones_y_tamano_inverso(datos):
    return sorted(datos, key = lambda t: (t[1], -t[2]))

def limpiar_texto(texto):
    return ''.join( map(lambda w: w if w.isupper() else w.lower(), re.split(r"(\W+)", texto)) )

def limpiar_textos(textos):
    patron_de_espacios = r'[^\s]+'
    textos_con_una_sola_linea = map( lambda txt: ' '.join( patron_de_espacios.findall(txt) ), textos )

    return list(map(limpiar_texto, textos_con_una_sola_linea))

def apariciones_por_texto(palabras, textos):
    palabras_por_tamano = sorted(palabras, key = lambda x: -len(x))
    regla = '[^\w](%s)[^\w]' % '|'.join(map(lambda w: re.escape(w), palabras_por_tamano))
    patron = re.compile(regla)

    for texto in textos:
        yield [ x for x in patron.findall(' %s ' % texto) ]

def idf(palabras, textos):
    n = 0
    c = dict( (p, 0) for p in palabras )

    for ocurrencias in apariciones_por_texto(palabras, textos):
        for x in set(ocurrencias):
            c[x] += 1
        n += 1

    return [(math.log(n/cont), p) for p, cont in c.items() if cont != 0]

def noticias_del_json(nombre_fichero_json):
    with open(nombre_fichero_json, 'r') as f:
        resultados = json.load(f)
        return resultados['noticias']

def ordenar_por_idf(nombre_fichero_json, palabras_a_contar, palabras_prohibidas = []):
    noticias = noticias_del_json(nombre_fichero_json)

    lista_de_palabras = list(
            map(
                lambda x: limpiar_texto(x[0]), 
                palabras_a_contar
            )
    )

    textos_de_noticias_filtrados = filter(
            lambda txt: not any( map(lambda pat: txt.find(pat) != -1, palabras_prohibidas) ),
            map(lambda x: x['texto'], noticias)
    )

    resultados_idf = idf(lista_de_palabras, textos_de_noticias_filtrados)

    return sorted(resultados_idf)

def lista_del_corpus(fichero_glosario):
    with open(fichero_glosario) as f:
        return list( map(lambda x: x.strip(), f.readlines()) )

def crear_vector_del_corpus(posicion_de_cada_palabra, corpus):
    vector = [0] * len(posicion_de_cada_palabra)
    for palabra in corpus:
        vector[posicion_de_cada_palabra[palabra]] = 1
    return vector

def crear_vector_por_texto(posicion_de_cada_palabra, textos):
    for ocurrencias in apariciones_por_texto(posicion_de_cada_palabra.keys(), textos):
        vector = [0] * len(posicion_de_cada_palabra)
        for palabra in ocurrencias:
            vector[posicion_de_cada_palabra[palabra]] += 1
        yield vector

def distancia_del_coseno(v1, v2):
    numerador = sum(map(lambda t: t[0]*t[1], zip(v1, v2)))
    distancia_v1 = math.sqrt(sum(map(lambda x: x*x, v1)))
    distancia_v2 = math.sqrt(sum(map(lambda x: x*x, v2)))
    denomiandor = distancia_v1 * distancia_v2

    return numerador / denomiandor if denomiandor != 0 else -1

def main_corpus(args):
    fichero_animales = args[1]
    fichero_economia = args[2]
    fichero_futbol = args[3]
    json_animales = args[4]
    json_economia = args[5]
    json_futbol = args[6]

    ficheros_csv = (fichero_animales, fichero_economia, fichero_futbol)

    datos_por_fichero = [ list(abrir_csv_simple_extractor(fichero_csv)) for fichero_csv in ficheros_csv ]

    datos_animales, datos_economia, datos_futbol = datos_por_fichero
    set_animales, set_economia, set_futbol = [ set(map(lambda x: limpiar_texto(x[0]), datos)) for datos in datos_por_fichero ]

    comunes_a_los_tres = set_animales.intersection( set_economia ).intersection( set_futbol )

    no_comunes_animales = list( quitar_comunes(comunes_a_los_tres, datos_por_fichero[0]) )
    no_comunes_economia = list( quitar_comunes(comunes_a_los_tres, datos_por_fichero[1]) )
    no_comunes_futbol   = list( quitar_comunes(comunes_a_los_tres, datos_por_fichero[2]) )

    minimo_de_repeticiones = 10
    filtrar_por_tamano = lambda x: filter(
        lambda x: x[1] > minimo_de_repeticiones, 
        x
    )

    # for idf, palabra in ordenar_por_idf(
            # json_animales,
            # filtrar_por_tamano( no_comunes_animales )
    # ):
        # print(palabra)

    for idf, palabra in ordenar_por_idf(
            json_economia,
            filtrar_por_tamano( no_comunes_economia )
    ):
        print(palabra)

    # for idf, palabra in ordenar_por_idf(
            # json_futbol,
            # filtrar_por_tamano( no_comunes_futbol ),
            # palabras_prohibidas = ['accidente aéreo', 'superviviente', 'siniestro', 'estrelló', 'equip', 'tragedia aérea' ]
    # ):
        # print(palabra)

def main_corpus_con_peso(args):
    fichero_glosario = args[1]
    fichero_json = args[2]

    glosario = lista_del_corpus(fichero_glosario)
    noticias = noticias_del_json(fichero_json)
    textos = map(lambda x: x['texto'], noticias)

    apariciones_por_palabra = dict(map(lambda x: (x, [1]), glosario))

    for palabras_encontradas in apariciones_por_texto(glosario, textos):
        d = {}
        for w in palabras_encontradas:
            if w in d:
                d[w] += 1
            else:
                d[w] = 1

        for w, c in d.items():
            apariciones_por_palabra[w].append(c)

    for w, apariciones in apariciones_por_palabra.items():
        apariciones.sort()
        moda_de_apariciones = apariciones[len(apariciones)//2]
        print('%d,%s' % (moda_de_apariciones, w))

def main_similitud(args):
    fichero_glosario_animales = args[1]
    fichero_glosario_economia = args[2]
    fichero_glosario_futbol = args[3]
    nombre_fichero_json = args[4]

    glosario_animales = lista_del_corpus(fichero_glosario_animales)
    glosario_economia = lista_del_corpus(fichero_glosario_economia)
    glosario_futbol = lista_del_corpus(fichero_glosario_futbol)

    glosario_comun = set(chain(glosario_animales, glosario_economia, glosario_futbol))

    # Lo que se hace en la siguiente linea es lo siguiente:
    #  - Ordenamos las palabras por orden alfabetico
    #  - Le añadimos la posición
    #  - Revertimos la tupla para que primero este la palabra y luego la posición
    #  - Creamos un diccionario de palabras con su posición correspondiente
    posicion_de_cada_palabra = dict(map(reversed, enumerate(sorted(glosario_comun))))

    vector_corpus_animales = crear_vector_del_corpus(posicion_de_cada_palabra, glosario_animales)
    vector_corpus_economia = crear_vector_del_corpus(posicion_de_cada_palabra, glosario_economia)
    vector_corpus_futbol = crear_vector_del_corpus(posicion_de_cada_palabra, glosario_futbol)

    noticias = noticias_del_json(nombre_fichero_json)
    contador_de_noticias = dict(
            map(
                lambda nombre: (nombre, 0),
                ("animales", "fútbol", "economia")
            )
    )

    for vector_por_noticia, encabezado in zip(
            crear_vector_por_texto(
                    posicion_de_cada_palabra, 
                    map(lambda x: x['texto'], noticias)
            ),
            map(lambda x: x['encabezado'], noticias)
    ):
        coseno_animales = distancia_del_coseno(vector_corpus_animales, vector_por_noticia)
        coseno_economia = distancia_del_coseno(vector_corpus_economia, vector_por_noticia)
        coseno_futbol   = distancia_del_coseno(vector_corpus_futbol  , vector_por_noticia)

        if coseno_animales > coseno_economia:
            if coseno_animales > coseno_futbol:
                tipo_de_noticia = "animales"
            else:
                tipo_de_noticia = "fútbol"
        else:
            if coseno_economia > coseno_futbol:
                tipo_de_noticia = "economia"
            else:
                tipo_de_noticia = "fútbol"

        contador_de_noticias[tipo_de_noticia] += 1
        print('Título: "%s"' % encabezado.strip())
        print("Tipo: %s" % tipo_de_noticia)
        print(" ----------------------------- ")

    for noticia, contador in contador_de_noticias.items():
        print("%s: %d" % (noticia, contador))

if __name__ == "__main__":
    #main_corpus(sys.argv)
    #main_corpus_con_peso(sys.argv)
    main_similitud(sys.argv)
