## Cargar librerías de todo el programa

##### Requerido siempre

In [1]:
import tkinter as tk
from tkinter import *
from tkinter import scrolledtext
import pandas as pd
import math                                     # Para operar con logaritmos
import time
import nltk
from nltk.tokenize import RegexpTokenizer       # Para tokenizar un texto
from nltk.corpus import stopwords               # Para detectar stopwords en un texto
from nltk.stem.snowball import SnowballStemmer  # Para stemizar los tokens
import numpy as np
import matplotlib.pyplot as plt

## Generar el DataFrame con vectores precalculados

##### Celda requerida siempre

In [2]:
def toStem(texto):
    tokensA = RegexpTokenizer(r'\w+').tokenize(texto.lower()) # Tokenizar y pasar a minusculas el texto recibido
    # ---------- Eliminar stop words ----------
    tokensB = [] # Lista que guardara la nueva lista de tokens sin stop words
    for tok in tokensA: # Recorrer los tokens uno a uno
        if not tok in stopwords.words("spanish"): # Si no es stop-word, añadir a la lista sin stop-words
            tokensB.append(tok)
    # ---------- Hacer stemming ----------
    tokensC = [] # Lista que guardara la nueva lista de tokens stemizados
    for tok in tokensB:# Recorrer los tokens token uno a uno
        tokensC.append(SnowballStemmer(language="spanish").stem(tok)) # Transformar cada token a su correspondiente stem
    return tokensC

##### Requerido solo cuando se desee resetear las noticias

In [3]:
def crearDiccionario():
    diccionario = []
    for i in noticias["Titulos"]:
        for j in toStem(i): # Buscar palabras nuevas en cada titulo en particular
            if not j in diccionario: # Si la palabra seleccionada no esta ya en el diccionario, añadirla
                diccionario.append(j)
    for i in noticias["Entradillas"]:
        for j in toStem(i): # Buscar palabras nuevas en cada entradilla en particular
            if not j in diccionario: # Si la palabra seleccionada no esta ya en el diccionario, añadirla
                diccionario.append(j)
    for i in noticias["Textos"]:
        for j in toStem(i): # Buscar palabras nuevas en cada texto en particular
            if not j in diccionario: # Si la palabra seleccionada no esta ya en el diccionario, añadirla
                diccionario.append(j)
    for i in noticias["Etiquetas"]:
        for j in toStem(i): # Buscar palabras nuevas en cada etiqueta en particular
            if not j in diccionario: # Si la palabra seleccionada no esta ya en el diccionario, añadirla
                diccionario.append(j)
    return diccionario

##### Celda requerida siempre

In [14]:
def textToVector(texto, miDiccionario):
    vector = [0]*len(miDiccionario) # Crear el vector por defecto (todo 0), que ocurrira si el texto no tiene palabras validas
    toks = toStem(texto) # Tokenizar y stemizar el texto
    for tok in toks: # Recorrer los tokens, uno a uno
        if tok in miDiccionario:
            posicion = miDiccionario.index(tok) # Si el token esta en el diccionario, +1 al vector en la pos que ocupe en el dicionario
            vector[posicion] +=1
    return vector

##### Celda requerida solo cuando se desee resetear las noticias

In [31]:
def columnasVectores(col1, col2, col3, col4):
    superLista = []
    for i in col1:
        superLista.append(textToVector(i, diccionario)) # Vectoriza todos los titulos
    noticias["Titulos_vector"] = superLista #  Añade los vectores como columna nueva
    superLista = []
    for i in col2:
        superLista.append(textToVector(i, diccionario)) # Vectoriza todas las entradillas
    noticias["Entradillas_vector"] = superLista #  Añade los vectores como columna nueva
    superLista = []
    for i in col3:
        superLista.append(textToVector(i, diccionario)) # Vectoriza todos los textos
    noticias["Textos_vector"] = superLista #  Añade los vectores como columna nueva
    superLista = []
    for i in col4:
        superLista.append(textToVector(i, diccionario)) # Vectoriza todas las etiquetas
    noticias["Etiquetas_vector"] = superLista #  Añade los vectores como columna nueva
    return noticias

##### Celda requerida solo cuando se desee resetear las noticias

In [16]:
def toIDF():
    titulos = []
    entradillas = []
    textos = []
    etiquetas = []
    
    # ---------- Recoger todos los vectores a convertir en TF-IDF ----------
    for i in range(len(noticias)): 
        titulos.append(list(noticias.iloc[i][6]))
        entradillas.append(list(noticias.iloc[i][7]))
        textos.append(list(noticias.iloc[i][8]))
        etiquetas.append(list(noticias.iloc[i][9]))

    # ---------- Determinar la cantidad de noticias en las que aparece cada token ----------
    nuevoDiccionarioIDF = [0]*len(diccionario) # Lista que almacenara en cuantas noticias aparece cada token

    for i in range(len(titulos)): # Por cada linea, si al menos una columna (titulo, entradilla...) contiene el token, +1 al contador
        for j in range(len(titulos[0])):
            if titulos[i][j] > 0 or entradillas[i][j] > 0 or textos[i][j] > 0 or etiquetas[i][j] > 0:
                nuevoDiccionarioIDF[j] +=1
                
    # ---------- Transformar TF a TF-IDF ----------
    for i in titulos:
        for j in range(len(i)):
            i[j] = i[j] * math.log(len(noticias)/nuevoDiccionarioIDF[j]) # Aplicar formula TF-IDF de los apuntes
    for i in entradillas:
        for j in range(len(i)):
            i[j] = i[j] * math.log(len(noticias)/nuevoDiccionarioIDF[j]) # Aplicar formula TF-IDF de los apuntes
    for i in textos:
        for j in range(len(i)):
            i[j] = i[j] * math.log(len(noticias)/nuevoDiccionarioIDF[j]) # Aplicar formula TF-IDF de los apuntes
    for i in etiquetas:
        for j in range(len(i)):
            i[j] = i[j] * math.log(len(noticias)/nuevoDiccionarioIDF[j]) # Aplicar formula TF-IDF de los apuntes
    
    # ---------- Guardar vectores IDF en el dataframe ----------
    noticias["TitulosIDF"] = titulos
    noticias["EntradillasIDF"] = entradillas
    noticias["TextosIDF"] = textos
    noticias["EtiquetasIDF"] = etiquetas
    return nuevoDiccionarioIDF

##### Celda requerida solo cuando se desee resetear las noticias

In [17]:
start_time = time.time()

noticias = pd.read_csv("noticiarioCompleto.csv") # Cargar CSV obtenido del web scraping
noticias = noticias.drop("Unnamed: 0", axis=1).drop("Numero Noticia", axis=1).drop("Fechas", axis=1) # Eliminar columnas que no utlizamos

diccionario = crearDiccionario() # Crear diccionario con todos token encontrados en todo el df
noticias = columnasVectores(noticias["Titulos"], noticias["Entradillas"], noticias["Textos"], noticias["Etiquetas"]) # Crear columnas de vectores
diccionarioIDF = toIDF()
toIDF() # Crear columnas de TF-IDF

ids = []
for i in range(len(noticias)): # Añadir columna con IDs para facilitar la busqueda de una noticia concreta
    ids.append("%02d" % i)
noticias.insert(loc = 0, column = "ID", value = ids)

print("Tiempo requerido: %s segundos" % (round(time.time()-start_time, 2))) # Tiempo que tarda en generar el DataFrame

Tiempo requerido: 38.87 segundos


## Guardar DataFrame y diccionario para ahorrar cálculos previos al utilizar el programa

##### Celdas requerida solo cuando se desee resetear las noticias

In [None]:
guardarDic = str(diccionario)
ficheroDic = open("diccionario.txt", "w")
ficheroDic.write(guardarDic)
ficheroDic.close()

In [None]:
guardarDicIDF = str(diccionarioIDF)
ficheroDicIDF = open("diccionarioIDF.txt", "w")
ficheroDicIDF.write(guardarDicIDF)
ficheroDicIDF.close()

In [20]:
noticias.to_csv("noticias_vectorizado.csv")

## Recuperar DataFrame de noticias y diccionario precalculados

##### A partir de aquí, todos requeridos siempre

In [3]:
noticias = pd.read_csv("noticias_vectorizado.csv") # Cargar CSV obtenido del web scraping
noticias = noticias.drop("Unnamed: 0", axis=1) # Eliminar columnas que no utlizamos

In [4]:
ficheroDic = open("diccionario.txt", "r")
dicc = ficheroDic.read().replace("[", "").replace("]", "").replace("'", "").replace(" ", "").split(",")
ficheroDic.close()
#dicc

In [5]:
def stringVectorToFloatVector(miLista):
    resultado = []
    for t in miLista:
        resultado.append(float(t))
    return resultado

In [6]:
ficheroDicIDF = open("diccionarioIDF.txt", "r")
diccIDF = ficheroDicIDF.read().replace("[", "").replace("]", "").replace("'", "").replace(" ", "").split(",")
ficheroDicIDF.close()
diccIDF = stringVectorToFloatVector(diccIDF)
#diccIDF

## Funciones comunes en varias pantallas

In [7]:
def Leer(valorMostradoNoticias, contenedorPreview):
    if(valorMostradoNoticias.get() != "No hay noticias"):
        posicion = valorMostradoNoticias.get()[8:10]
        texto = "TÍTULO:\n" + noticias.iloc[int(posicion)][1] + "\n"
        texto += "-"*60+"\n"
        texto += "ENTRADILLA:\n" + noticias.iloc[int(posicion)][2] + "\n"
        texto += "-"*60+"\n"
        texto += "ETIQUETAS:\n" + noticias.iloc[int(posicion)][6] + "\n"
        texto += "-"*60+"\n"
        texto += "NOTICIA:\n" + noticias.iloc[int(posicion)][3]       
        contenedorPreview.delete('1.0', END)
        contenedorPreview.insert(END, texto)
        print(texto)

## Funciones de los botones de la ventana 1 - Comparación por etiquetas (Sorensen-Dice)

In [8]:
def Aplicar(valorMostradoMedio, valorMostradoCategoria, valorMostradoNoticias, self):
    df_seleccionados = noticias[noticias["Noticiario"] == valorMostradoMedio.get().replace(" ", "")]
    df_seleccionados = df_seleccionados[df_seleccionados["Categoria"] == valorMostradoCategoria.get()]

    nombres = list()
    for i in range(len(df_seleccionados)):
        nombres.append("Noticia " + str("%02d" % df_seleccionados.iloc[i][0]) + ": " + str(df_seleccionados.iloc[i][1][0:30]) + "...")

    valorMostradoNoticias.set(nombres[0]) # Por defecto se mostrará la primera opcion encontrada
    desplegableNoticias = OptionMenu(self, valorMostradoNoticias, *nombres) # Cambiar las opciones
    desplegableNoticias.grid(row=5, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

def VerRecom(valorMostradoRanking, contenedorNoticia, self):
    if(valorMostradoRanking.get() != "No hay noticias"):
        posicion = valorMostradoRanking.get()[8:10]
        texto = "TÍTULO:\n" + noticias.iloc[int(posicion)].copy()[1] + "\n"
        texto += "-"*60+"\n"
        texto += "ENTRADILLA:\n" + noticias.iloc[int(posicion)].copy()[2] + "\n"
        texto += "-"*60+"\n"
        texto += "ETIQUETAS:\n" + noticias.iloc[int(posicion)].copy()[6] + "\n"
        texto += "-"*60+"\n"
        texto += "NOTICIA:\n" + noticias.iloc[int(posicion)].copy()[3]
        contenedorNoticia.delete('1.0', END)
        contenedorNoticia.insert(END, texto)

def sorensenEtiquetas(arrA, arrB): # Calcular la similitud de dos arrays mediante Sorensen-Dice   
    coincidencias = 0
    etsA = 0 # Numero de elementos del primer array
    etsB = 0 # Numero de elementos del segundo array
    for i in range(len(arrA)):
        if(arrA[i] == "1"):
            etsA += 1
        if(arrB[i] == "1"): 
            etsB += 1
        if(arrA[i] == "1" and arrB[i] == "1"):
            coincidencias += 1
    coeficiente = (2*coincidencias)/(etsA+etsB) # Formula del coeficiente de Sorensen-Dice
    return coeficiente

def Buscar(valorMostradoNoticias, valorMostradoFiltrar, valorMostradoTOPN, valorMostradoRanking, self):
    if(valorMostradoNoticias.get() != "No hay noticias"):
        medioDelOriginal = noticias.iloc[int(valorMostradoNoticias.get()[8:10])][4]
        etiquetasBase = noticias.iloc[int(valorMostradoNoticias.get()[8:10])][10] # Obtener las etiquetas de la noticia seleccionada
        # ---------- Listar todas las candidatas ----------
        if(valorMostradoFiltrar.get() == "Todos"):
            df_seleccionados = noticias.copy()
        else:
            df_seleccionados = noticias[noticias["Noticiario"] == valorMostradoFiltrar.get().replace(" ", "")].copy()     
        # ---------- Ordenar por similitud ----------
        superLista = []
        for i in df_seleccionados["Etiquetas_vector"]:
            superLista.append(sorensenEtiquetas(i.replace(" ", "").split(","), etiquetasBase.replace(" ", "").split(",")))
        df_seleccionados["Similitud"] = superLista
        df_seleccionados = df_seleccionados.sort_values(by="Similitud", ascending=False)

        opcionesRanking = []
        for i in range(int(valorMostradoTOPN.get())):
            opcionesRanking.append("Noticia " + str("%02d" % df_seleccionados.iloc[i]["ID"]) + " (" + str(round(df_seleccionados.iloc[i]["Similitud"]*100, 3)) + "%)")
        if(valorMostradoFiltrar.get().replace(" ", "") == medioDelOriginal or valorMostradoFiltrar.get() == "Todos"):
            valorMostradoRanking.set(opcionesRanking[1]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        else:
            valorMostradoRanking.set(opcionesRanking[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableRanking = OptionMenu(self, valorMostradoRanking, *opcionesRanking) # Crear el desplegable
        desplegableRanking.grid(row=11, column=1, padx=(0, 20), pady=(20, 20), sticky="w") # Ubicar el desplegable

## Controlador de la ventana 1

In [9]:
class ComparacionSorensen(tk.Frame):
    def __init__(self, master):
        tk.Frame.__init__(self, master)
        tk.Frame.configure(self,bg='#EEEEEE')

        labelTitulo = Label(self, text="COMPARADOR DE NOTICIAS POR SUS ETIQUETAS - MÉTODO SORENSEN DICE", bg=("#DDDDFF")).grid(row=0, column=0, columnspan=4, sticky="ew", pady=(20, 0))
        
        labelCategoriaSeleccion = Label(self, text="Seleccionar noticia de referencia:").grid(row=1, column=0, sticky="w", padx=(30, 0)) # Crear y ubicar el texto

        labelMedioSeleccion = Label(self, text="Medio:").grid(row=2, column=0, sticky="w", padx=(30, 20)) # Crear y ubicar el texto
        opcionesMedio = ["El Mundo", "El Pais", "20 Minutos"] # Opciones que se mostrarán en el desplegable del medio
        valorMostradoMedio = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoMedio.set(opcionesMedio[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableMedio = OptionMenu(self, valorMostradoMedio, *opcionesMedio) # Crear el desplegable
        desplegableMedio.grid(row=2, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

        labelCategoriaSeleccion = Label(self, text="Categoría:").grid(row=3, column=0, sticky="w", padx=(30, 20)) # Crear y ubicar el texto
        opcionesCategoria = ["Salud", "Tecnologia", "Ciencia"] # Opciones que se mostrarán en el desplegable de la categoría
        valorMostradoCategoria = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoCategoria.set(opcionesCategoria[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableCategoria = OptionMenu(self, valorMostradoCategoria, *opcionesCategoria) # Crear el desplegable
        desplegableCategoria.grid(row=3, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

        labelPreview = Label(self, text="Preview:").grid(row=1, column=2, sticky="sw", padx=20, pady=(20, 0)) # Crear y ubicar el texto
        contenedorPreview = scrolledtext.ScrolledText(self, wrap="word", font=("Comic Sans", 9), width=50, height=35, padx=5) # Crear el cuadro de texto de varias filas
        contenedorPreview.grid(row=2, column=2, rowspan=12, padx=(20, 0), pady=(0, 20)) # Ubicar el cuadro de texto de varias filas

        df_seleccionados = pd.DataFrame()

        botonAplicar = Button(self, text="Aplicar", command=lambda:Aplicar(valorMostradoMedio, valorMostradoCategoria, valorMostradoNoticias, self)).grid(row=4, column=0, padx=(30, 20), pady=(10, 10), columnspan=2, sticky="ew") # Crear y ubicar el botón

        labelNoticiaSeleccion = Label(self, text="Encontradas:").grid(row=5, column=0, sticky="w", padx=(30, 0)) # Crear y ubicar el texto
        opcionesNoticias = ["No hay noticias"] # Opciones que se mostrarán en el desplegable de las noticias
        valorMostradoNoticias = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoNoticias.set(opcionesNoticias[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableNoticias = OptionMenu(self, valorMostradoNoticias, *opcionesNoticias) # Crear el desplegable
        desplegableNoticias.grid(row=5, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

        botonLeer = Button(self, text="Leer", command=lambda:Leer(valorMostradoNoticias, contenedorPreview)).grid(row=6, column=0, padx=(30, 20), pady=(10, 10), columnspan=2, sticky="ew") # Crear y ubicar el botón

        labelTOPNSeleccion = Label(self, text="TOP-N:").grid(row=7, column=0, sticky="w", padx=(30, 20)) # Crear y ubicar el texto
        opcionesTOPN = [2, 3, 4, 5, 6, 7, 8, 9, 10] # Opciones que se mostrarán en el desplegable del TOP-N
        valorMostradoTOPN = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoTOPN.set(opcionesTOPN[3]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableTOPN = OptionMenu(self, valorMostradoTOPN, *opcionesTOPN) # Crear el desplegable
        desplegableTOPN.grid(row=7, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

        labelFiltrar = Label(self, text="Mostrar de:").grid(row=8, column=0, sticky="w", padx=(30, 20)) # Crear y ubicar el texto
        opcionesFiltrar = ["Todos", "El Mundo", "El Pais", "20 Minutos"] # Opciones que se mostrarán en el desplegable de Filtrar
        valorMostradoFiltrar = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoFiltrar.set(opcionesFiltrar[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableFiltrar = OptionMenu(self, valorMostradoFiltrar, *opcionesFiltrar) # Crear el desplegable
        desplegableFiltrar.grid(row=8, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

        botonBuscar = Button(self, text="Buscar", command=lambda:Buscar(valorMostradoNoticias, valorMostradoFiltrar, valorMostradoTOPN, valorMostradoRanking, self)).grid(row=9, column=0, padx=(30, 20), pady=(10, 10), columnspan=2, sticky="ew") # Crear y ubicar el botón

        labelSeleccion = Label(self, text="Seleccionar noticia para leer:").grid(row=10,column=0, columnspan=4, sticky="w", padx=30, pady=(20, 20)) # Crear y ubicar el texto

        labelRanking = Label(self, text="Ranking:").grid(row=11, column=0, padx=(20, 0), pady=(20, 20), sticky="e") # Crear y ubicar el texto
        opcionesRanking = ["No hay noticias"] # Opciones que se mostrarán en el desplegable del ranking
        valorMostradoRanking = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoRanking.set("No hay noticias") # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableRanking = OptionMenu(self, valorMostradoRanking, *["No hay noticias"]) # Crear el desplegable
        desplegableRanking.grid(row=11, column=1, padx=(0, 20), pady=(20, 20), sticky="w") # Ubicar el desplegable

        botonVerRecom = Button(self, text="Ver recomendacion", command=lambda:VerRecom(valorMostradoRanking, contenedorNoticia, self)).grid(row=12, column=0, padx=(30, 20), pady=(10, 10), columnspan=2, sticky="ew") # Crear y ubicar el botón

        labelNoticia = Label(self, text="Texto de la noticia recomendada:").grid(row=1, column=3, sticky="sw", padx=20) # Crear y ubicar el texto
        contenedorNoticia = scrolledtext.ScrolledText(self, wrap="word", font=("Comic Sans", 9), width=50, height=35, padx=5) # Crear el cuadro de texto de varias filas
        contenedorNoticia.grid(row=2, column=3, rowspan=12, padx=(20, 20), pady=(0, 20)) # Ubicar el cuadro de texto de varias filas
        
        botonVolver = Button(self, text="Volver", command=lambda: master.cambiarFrame(VentanaPrincipal), bg="#DDDDFF").grid(row=13, column=0, columnspan=2, padx=(30, 20), pady=(10, 10))

## Funciones de los botones de la ventana 2 - Búsqueda por Query (Coseno)

In [10]:
def stringToVector(miString):
    miString = miString.replace(" ", "").replace("[", "").replace("]", "").split(",")
    resultado = []
    for t in miString:
        resultado.append(float(t))
    return resultado
        
def similitudCoseno(array1, array2):
    #Comprobamos que ambas listas son del mismo tamaño
    if len(array1) != len(array2):
        diferenciaArrays = len(array1) - len(array2)
        for i in range(diferenciaArrays):
            array2 = np.append(array2, 0)
    numerador = 0
    valoresRaizArray1 = 0
    valoresRaizArray2 = 0
    #Fórmula Teorema Similitud del Coseno 
    for i in range(len(array1)):
        numerador += (array1[i] * array2[i])
        valoresRaizArray1 += array1[i]**2
        valoresRaizArray2 += array2[i]**2
    raizArray1 = valoresRaizArray1**(0.5)
    raizArray2 = valoresRaizArray2**(0.5)
    denominador = raizArray1 * raizArray2
    resultado = numerador/denominador
    return resultado

def VaciarContenedorNoticia2(contenedorNoticia2, self):
    contenedorNoticia2 = scrolledtext.ScrolledText(self, wrap="word", font=("Comic Sans", 9), width=80, height=20, padx=5) # Crear el cuadro de texto de varias filas
    contenedorNoticia2.insert(END, "")
    contenedorNoticia2.grid(row=3, column=2, rowspan=6, padx=(20, 20), pady=(0, 20)) # Ubicar el cuadro de texto de varias filas

def BuscarNoticias(contenedorNoticia2, valorMostradoFiltrar, cuadroConsulta, valorMostradoRanking2, valorMostradoN, desplegableRanking, self):
    VaciarContenedorNoticia2(contenedorNoticia2, self)
    # Buscar las noticias que cumplan los parametros
    df_seleccionados = noticias.copy()
    if(valorMostradoFiltrar.get() != "Todos"):
        df_seleccionados = df_seleccionados[df_seleccionados["Noticiario"] == valorMostradoFiltrar.get().replace(" ", "")]
        df_seleccionados = df_seleccionados.reset_index()
    
    if(cuadroConsulta.get()!=""): # La formulas pueden dar errores si la consulta tiene 0 palabras
        similitudes = []
        vectorQuery = textToVector(cuadroConsulta.get(), dicc)
        for i in range(len(vectorQuery)):
            vectorQuery[i] = vectorQuery[i] * math.log(len(noticias)/int(diccIDF[i])) # Aplicar formula TF-IDF de los apuntes       
        for i in range(len(df_seleccionados)):
            vectorFila = df_seleccionados["TextosIDF"][i]
            vectorFila = stringToVector(vectorFila)
            similitudes.append(similitudCoseno(vectorQuery, vectorFila))
        df_seleccionados["Similitud"] = similitudes
        df_seleccionados = df_seleccionados.sort_values(by="Similitud", ascending=False)
        df_seleccionados = df_seleccionados.reset_index()
        
        rankingSimilitudes = []
        for i in range(int(valorMostradoN.get())):
            rankingSimilitudes.append(df_seleccionados["Similitud"][i])
        indexes = []
        for i in range(int(valorMostradoN.get())):
            indexes.append(df_seleccionados["ID"][i])
        for i in range(len(indexes)):
            indexes[i] = "Noticia " + str(indexes[i]) + " (" + str("{:.2f}".format(rankingSimilitudes[i]*100)) + "%)"     
        
        valorMostradoRanking2.set(indexes[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableRanking = OptionMenu(self, valorMostradoRanking2, *indexes) # Crear el desplegable
        desplegableRanking.grid(row=6, column=1, padx=(0, 20), pady=(20, 10), sticky="sw") # Ubicar el desplegable

## Controlador de la ventana 2

In [11]:
class PageTwo(tk.Frame):
    def __init__(self, master):
        tk.Frame.__init__(self, master)
        tk.Frame.configure(self,bg='#EEEEEE')
        
        labelTitulo = Label(self, text="BÚSQUEDA DE NOTICIAS POR QUERY - MÉTODO DEL COSENO", bg=("#CCFFCC")).grid(row=0, column=0, columnspan=4, sticky="ew", pady=(20, 0))

        labelConsulta = Label(self, text="Consulta:").grid(row=1, column=0, padx=10, pady=20, sticky="e") # Crear y ubicar el texto
        cuadroConsulta = Entry(self)
        cuadroConsulta.grid(row=1, column=1, padx=(10, 30), pady=20, columnspan=2, sticky="ew") # Crear y ubicar el cuadro de texto

        labelTopN = Label(self, text="TOP-N:").grid(row=3, column=0, padx=(20, 0), sticky="e") # Crear y ubicar el texto
        opcionesN = [2, 3, 4, 5, 6, 7, 8, 9, 10, 20] # Opciones que se mostrarán en el desplegable de TOP-N
        valorMostradoN = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoN.set(opcionesN[3]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableN = OptionMenu(self, valorMostradoN, *opcionesN) # Crear el desplegable
        desplegableN.grid(row=3, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

        labelFiltrar = Label(self, text="Noticiario:").grid(row=4, column=0, padx=(20, 0), sticky="e") # Crear y ubicar el texto
        opcionesFiltrar = ["Todos", "El Mundo", "El Pais", "20 Minutos"] # Opciones que se mostrarán en el desplegable de Filtrar
        valorMostradoFiltrar = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoFiltrar.set(opcionesFiltrar[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableFiltrar = OptionMenu(self, valorMostradoFiltrar, *opcionesFiltrar) # Crear el desplegable
        desplegableFiltrar.grid(row=4, column=1, padx=(0, 20), sticky="w") # Ubicar el desplegable

        botonBuscar = Button(self, text="Buscar", command=lambda:BuscarNoticias(contenedorNoticia2, valorMostradoFiltrar, cuadroConsulta, valorMostradoRanking2, valorMostradoN, desplegableRanking, self)).grid(row=5, column=0, columnspan=2, padx=20, pady=10, sticky="ew") # Crear y ubicar el botón

        labelRanking = Label(self, text="Ranking:").grid(row=6, column=0, padx=(20, 0), pady=(20, 10), sticky="se") # Crear y ubicar el texto
        opcionesRanking = ["No hay noticias"] # Opciones que se mostrarán en el desplegable del ranking
        valorMostradoRanking2 = StringVar(self) # Para recoger el dato seleccionado
        valorMostradoRanking2.set(opcionesRanking[0]) # Por defecto se mostrará y se escogerá la opción indicada en el enunciado
        desplegableRanking = OptionMenu(self, valorMostradoRanking2, *opcionesRanking) # Crear el desplegable
        desplegableRanking.grid(row=6, column=1, padx=(0, 20), pady=(20, 10), sticky="sw") # Ubicar el desplegable

        labelNoticia = Label(self, text="Texto de la noticia:").grid(row=2, column=2, sticky="w", padx=20, pady=(20, 0)) # Crear y ubicar el texto
        contenedorNoticia2 = scrolledtext.ScrolledText(self, wrap="word", font=("Comic Sans", 9), width=80, height=20, padx=5) # Crear el cuadro de texto de varias filas
        contenedorNoticia2.grid(row=3, column=2, rowspan=6, padx=(20, 20), pady=(0, 20)) # Ubicar el cuadro de texto de varias filas
        
        botonLeer = Button(self, text="Leer noticia", command=lambda:Leer(valorMostradoRanking2, contenedorNoticia2)).grid(row=7, column=0, columnspan=2, padx=20, pady=10, sticky="ew") # Crear y ubicar el botón

        botonVolver = Button(self, text="Volver", command=lambda: master.cambiarFrame(VentanaPrincipal), bg="#CCFFCC").grid(row=8, column=0, columnspan=2, padx=(30, 20), pady=(10, 20))

## Controlador de la tercera ventana

In [12]:
class PageThree(tk.Frame):
    def __init__(self, master):
        tk.Frame.__init__(self, master)
        tk.Frame.configure(self,bg='#EEEEEE')
        labelTitulo = Label(self, text="TERCERA PANTALLA - AÚN NO SÉ DE QUÉ VA", bg=("#FFFFCC")).grid(row=0, column=0, columnspan=4, sticky="ew", pady=(20, 0))
        botonVolver = Button(self, text="Volver", command=lambda: master.cambiarFrame(VentanaPrincipal), bg="#FFFFCC").grid(row=8, column=0, columnspan=2, padx=(30, 20), pady=(10, 20))

## Gestión de la ventana principal y del cambio entre ventanas

In [15]:
 class Aplicacion(tk.Tk):
    def __init__(self):
        tk.Tk.__init__(self)
        self._frame = None
        self.title("Sistemas inteligentes - Grupo 5")
        self.cambiarFrame(VentanaPrincipal)

    def cambiarFrame(self, frame_class):
        new_frame = frame_class(self)
        if self._frame is not None:
            self._frame.destroy()
        self._frame = new_frame
        self._frame.grid()

class VentanaPrincipal(tk.Frame):
    def __init__(self, master):
        tk.Frame.__init__(self, master)
        labelTitulo = tk.Label(self, text="Ventana Principal")
        labelTitulo.grid(row=0, column=0, padx=(60, 60), pady=(10, 10), sticky="ew")
        botonSorensen = tk.Button(self, text="Comparación por etiquetas: Sorensen-Dice", command=lambda: master.cambiarFrame(ComparacionSorensen), bg="#DDDDFF")
        botonSorensen.grid(row=1, column=0, padx=(60, 60), pady=(10, 10), sticky="ew")
        botonQuery = tk.Button(self, text="Búsqueda por Query: Coseno", command=lambda: master.cambiarFrame(PageTwo), bg="#CCFFCC")
        botonQuery.grid(row=2, column=0, padx=(60, 60), pady=(10, 10), sticky="ew")
        boton3 = tk.Button(self, text="La que nos falta: ni idea", command=lambda: master.cambiarFrame(PageThree), bg="#FFFFCC")
        boton3.grid(row=3, column=0, padx=(60, 60), pady=(10, 20), sticky="ew")
        labelSeparador = tk.Label(self, text="-"*60)
        labelSeparador.grid(row=4, column=0, padx=(60, 60), pady=(10, 10), sticky="ew")
        botonSalir = Button(self, text="Salir", command=master.destroy)
        botonSalir.grid(row=5, column=0, padx=(60, 60), pady=(10, 20), sticky="ew")

if __name__ == "__main__":
    app = Aplicacion()
    app.mainloop()

TÍTULO:
Covid hoy, última hora en directo | España suma 34.380 nuevos casos y 310 fallecidos; la incidencia baja a 1.142
------------------------------------------------------------
ENTRADILLA:
Actualmente hay 11.438 pacientes ingresados por Covid-19 en toda España y 1.459 en una UCI
------------------------------------------------------------
ETIQUETAS:
Coronavirus, Covid 19, Vacunas
------------------------------------------------------------
NOTICIA:
 El Ministerio de Sanidad ha registrado este martes, con datos aportados por las comunidades autónomas, 34.380 nuevos casos de coronavirus, lo que eleva a 10.707.286 la cifra total de personas contagiadas de Covid-19 desde el inicio de la pandemia. Respecto a la incidencia media actual de contagios en España en los últimos 14 días, el informe muestra que sigue reduciéndose, situándose en los 1.142,13 casos por cada 100.000 habitantes, en comparación con los 1.244,44 notificado el lunes por el departamento dirigido por Carolina Darias. E