# Extracci√≥n de caracter√≠sticas

La extracci√≥n de caracter√≠sticas consiste en extraer toda la informaci√≥n posible y relevante de las reviews de cada estaci√≥n. Esto nos permitir√° dar recomendaciones de las rutas m√°s personalizadas al poder aplicar filtros con la informaci√≥n que consigamos obtener a trav√©s de las reviews.

## Imports necesarios

In [52]:
import nltk
from nltk.tokenize import word_tokenize 
nltk.download('punkt_tab')
from nltk.corpus import stopwords
nltk.download("stopwords")
import spacy
from collections import defaultdict, Counter
import stanza
stanza.download("es")  # Descargar el modelo en espa√±ol
from deep_translator import GoogleTranslator
from nltk.corpus import wordnet as wn
from unidecode import unidecode

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\evano\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\evano\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 426kB [00:00, 20.3MB/s]                    
2025-04-27 13:55:36 INFO: Downloaded file to C:\Users\evano\stanza_resources\resources.json
2025-04-27 13:55:36 INFO: Downloading default packages for language: es (Spanish) ...
2025-04-27 13:55:38 INFO: File exists: C:\Users\evano\stanza_resources\es\default.zip
2025-04-27 13:55:44 INFO: Finished downloading models and saved to C:\Users\evano\stanza_resources


## Implementaci√≥n de m√©todos para extracci√≥n de caracter√≠sticas

### N-gramas

Para la extracci√≥n de caracter√≠sticas vamos a emplear n-gramas. Un n-grama es una secuencia de n palabras consecutivas en un texto. Esto nos va a permitir poder sacar la infomaci√≥n relevante de las rese√±as al poder aplicar distintos n-gramas y ver sus relaciones.

Vamos primero a probar con unas rese√±as de prueba para ver como de bien funcionan los n-gramas:

In [2]:
reviews = [
    "La estaci√≥n de metro es moderna y limpia, pero los trenes son lentos.",
    "A veces hay demasiada gente y el servicio es malo.",
    "El metro de Madrid es r√°pido y eficiente, aunque algunas estaciones est√°n sucias.",
    "Buena conexi√≥n con otras l√≠neas, pero los horarios nunca son confiables."
]

Para asegurarnos de conseguir la informaci√≥n m√°s relevante vamos a eliminar de nuestras reviews de prueba todas las stopwords

Eliminamos las stopwords en espa√±ol de las reviews de prueba

In [3]:
#Obtenemos las stopwords en espa√±ol
spanishStopwords = list(stopwords.words("spanish"))

# Eliminar stopwords de cada review
filteredReviews = [
    " ".join([word for word in word_tokenize(review.lower()) if word not in spanishStopwords and word.isalnum()])
    for review in reviews
]

# Imprimir resultado
print(filteredReviews)

['estaci√≥n metro moderna limpia trenes lentos', 'veces demasiada gente servicio malo', 'metro madrid r√°pido eficiente aunque estaciones sucias', 'buena conexi√≥n l√≠neas horarios nunca confiables']


Una vez eliminadas las stopwords procedemos a usar los n-gramas para poder analizarlas y extraer las caracter√≠sticas. 
Para que sea lo m√°s fiable posible vamos a usar n-gramas de 2 a 5, es decir, desde bigramas hasta pentagramas, para obtener una precisi√≥n que sea la mejor posible. Si solo tenemos bigramas nos vamos a dejar informaci√≥n relevante pero si usamos n-gramas muy grandes la precisi√≥n tambi√©n se ver√≠a reducida, por lo que se opt√≥ por usar n-gramas de 2 a 5.

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

# Crear un vectorizador de ngramas
vectorizer = CountVectorizer(ngram_range=(2, 5))

# Aplicar a las rese√±as
X = vectorizer.fit_transform(filteredReviews)

# Ver n-gramas encontrados
ngramas = vectorizer.get_feature_names_out()
print("ngramas encontrados:", ngramas)

# Ver la matriz de frecuencia
print("Matriz de ngramas:\n", X.toarray())

ngramas encontrados: ['aunque estaciones' 'aunque estaciones sucias' 'buena conexi√≥n'
 'buena conexi√≥n l√≠neas' 'buena conexi√≥n l√≠neas horarios'
 'buena conexi√≥n l√≠neas horarios nunca' 'conexi√≥n l√≠neas'
 'conexi√≥n l√≠neas horarios' 'conexi√≥n l√≠neas horarios nunca'
 'conexi√≥n l√≠neas horarios nunca confiables' 'demasiada gente'
 'demasiada gente servicio' 'demasiada gente servicio malo'
 'eficiente aunque' 'eficiente aunque estaciones'
 'eficiente aunque estaciones sucias' 'estaciones sucias' 'estaci√≥n metro'
 'estaci√≥n metro moderna' 'estaci√≥n metro moderna limpia'
 'estaci√≥n metro moderna limpia trenes' 'gente servicio'
 'gente servicio malo' 'horarios nunca' 'horarios nunca confiables'
 'limpia trenes' 'limpia trenes lentos' 'l√≠neas horarios'
 'l√≠neas horarios nunca' 'l√≠neas horarios nunca confiables'
 'madrid r√°pido' 'madrid r√°pido eficiente'
 'madrid r√°pido eficiente aunque'
 'madrid r√°pido eficiente aunque estaciones' 'metro madrid'
 'metro madrid r√°pido' '

Una vez obtenidos los n-gramas de las reviews filtradas sin los stopwords lo que vamos a hacer es quedarnos de cada n-grama con el sustantivo y su adjetivo adyacente m√°s cercano. Esto es debido a que en espa√±ol los adjetivos calificativos suelen ir al lado o muy cerca del sustantivo al que califica. De esta manera podremos sacar todas las caracter√≠sticas.

Nos descargamos e importamos las librer√≠as necesarias para ello. En este caso, hacemos uso de la librer√≠a spaCy de python para poder saber la categor√≠a gramatical de las palabras en espa√±ol:

In [5]:
nlp = spacy.load("es_core_news_sm")

In [6]:
# Crear el mapa: {sustantivo: {(adjetivo))}}
caracteristicasNGramas = defaultdict(set)

for ngrama in ngramas:
    doc = nlp(ngrama)
    sustantivoActual = None
    for token in doc:
        if token.pos_ == "NOUN":
            sustantivoActual = token.lemma_.lower()
        elif token.pos_ == "ADJ" and sustantivoActual:
            caracteristicasNGramas[sustantivoActual].add(token.lemma_.lower())

print(caracteristicasNGramas)

defaultdict(<class 'set'>, {'estaci√≥n': {'sucio'}, 'conexi√≥n': {'horario', 'confiable', 'l√≠nea'}, 'gente': {'malo', 'servicio'}, 'servicio': {'malo'}, 'moderna': {'limpio'}, 'horario': {'confiable'}, 'tren': {'lento'}, 'l√≠nea': {'horario', 'confiable'}, 'metro': {'r√°pido', 'moderno', 'eficiente'}})


Se puede apreciar como para las reviews de ejemplo que hemos utilizado hay incongruencias, es decir, se registra que los trenes son lentos pero que el metro es r√°pido. Adem√°s, la librer√≠a interpreta algunas palabras como sustantivos o como adjetivos que no son.

### Librer√≠as con redes neuronales

Con los n-gramas solo puedes ver las palabras que tengan cerca. Esto en la mayoria de casos es lo que buscas y necesitas pero sin embargo en otras ocasiones un adjetivo al final de la oraci√≥n puede referirse a un sustantivo del principio o un adjetivo cerca de un sustantivo puede referirse a otro sustantivo, y esto con los n-gramas no se puede ver. Para ello, haremos uso de las distinntas librer√≠as de python para realizar un an√°lisis m√°s exahustivo de cada review y poder tener resultados m√°s precisos.

El uso de estas librer√≠as va a ser muy similar al de los n-gramas. Vamos a sacar los distintos adjetivos que esten relacionados con los sustantivos correspondientes. De esta manera se ahorra tiempo ya que podemos hacerlo evitando la repetici√≥n de los n-gramas.

#### SpaCy

La primera libre√≠a que vamos a utilizar es la de spaCy, previamente utilizada para saber que clase de palabra era cada una en las reviews. Sin embargo, esta librer√≠a no solo es capaz de saber la clase gramatical de las palabras sino que adem√°s es capaz de decirte con que palabra esta relacionada, que es justo lo que necesitamos saber para extraer las caracter√≠sticas de las distintas reviews.

In [7]:
reviews = [
    "La estaci√≥n de metro es moderna y limpia, pero los trenes son lentos.",
    "A veces hay demasiada gente y el servicio es malo.",
    "El metro de Madrid es r√°pido y eficiente, aunque algunas estaciones est√°n sucias.",
    "Buena conexi√≥n con otras l√≠neas, pero los horarios nunca son confiables.",
    "La estacion es muy fea y est√° muy mal cuidada",
    "Los horarios son muy utiles"
]

In [8]:
nlp = spacy.load("es_core_news_md")

In [9]:
def collect_forms(adj):
    """
    Gather all adjective variants:
      1) If there are no advmods ‚Üí base lemma ("limpio")
      2) If there are >=1 advmods ‚Üí join them all + lemma
         e.g. ["muy","mal"] + "cuidada" ‚Üí "muy mal cuidada"
      3) Recursively include any conjunct ADJ (dep=="conj")
         only if that conjunct has NO of its own subject
    """
    # 1) get all ADV modifiers in document order
    advs = sorted(
        [c for c in adj.children if c.dep_ == "advmod" and c.pos_ == "ADV"],
        key=lambda c: c.i
    )
    adv_lemmas = [c.lemma_.lower() for c in advs]
    base = adj.lemma_.lower()

    forms = set()
    if adv_lemmas:
        forms.add(" ".join(adv_lemmas + [base]))
    else:
        forms.add(base)

    # 2) propagate any simple conjunctions
    for child in adj.children:
        if child.dep_ == "conj" and child.pos_ == "ADJ":
            # only if that conjunct has no own noun subject
            if not any(c.dep_ == "nsubj" and c.pos_ == "NOUN"
                       for c in child.children):
                forms |= collect_forms(child)

    return forms

def find_noun(adj):
    """
    Given an ADJ token, locate its corresponding NOUN (if any) by:
      ‚Äì direct modifier: dep_=="amod" ‚Üí head NOUN
      ‚Äì predicative: child dep_=="nsubj" ‚Üí that NOUN
      ‚Äì coordination: dep_=="conj" ‚Üí recurse to head ADJ
      ‚Äì copular chains: dep_ in {"acomp","attr"} on a VERB ‚Üí its nsubj NOUN
    """
    # a) direct modifier
    if adj.dep_ == "amod" and adj.head.pos_ == "NOUN":
        return adj.head

    # b) predicative adjective
    for child in adj.children:
        if child.dep_ == "nsubj" and child.pos_ == "NOUN":
            return child

    # c) coordinated adjective: inherit from head ADJ
    if adj.dep_ == "conj" and adj.head.pos_ == "ADJ":
        return find_noun(adj.head)

    # d) in case of acomp/attr on a verb
    if adj.dep_ in {"acomp", "attr"} and adj.head.pos_ == "VERB":
        for child in adj.head.children:
            if child.dep_ == "nsubj" and child.pos_ == "NOUN":
                return child

    return None

def extract_aspects(reviews):
    """
    Returns: defaultdict(set) mapping noun ‚Üí set of adjectival phrases.
    """
    nlp = spacy.load("es_core_news_sm")
    aspects = defaultdict(set)

    for doc in nlp.pipe(reviews, batch_size=20):
        for token in doc:
            # only care about ADJ tokens
            if token.pos_ != "ADJ":
                continue
            noun = find_noun(token)
            if noun:
                aspects[noun.lemma_.lower()] |= collect_forms(token)

    return aspects

In [10]:
caracteristicasSpacy = extract_aspects(reviews)

#### Stanza

La otra librer√≠a que vamos a utilizar es stanza que es una librer√≠a de python desarrollada por Standford. Esta librer√≠a es muy similar a la de spaCy, la cual, tambi√©n permite saber la clase gramatical a la cual pertenece la palabra y con que palabra en la oraci√≥n esta relacionada. 

In [11]:
nlp = stanza.Pipeline("es", processors="tokenize,mwt,pos,lemma,ner,depparse")

2025-04-27 13:02:04 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 426kB [00:00, 11.0MB/s]                    
2025-04-27 13:02:04 INFO: Downloaded file to C:\Users\evano\stanza_resources\resources.json
2025-04-27 13:02:05 INFO: Loading these models for language: es (Spanish):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |
| depparse  | combined_charlm   |
| ner       | conll02           |

2025-04-27 13:02:05 INFO: Using device: cpu
2025-04-27 13:02:05 INFO: Loading: tokenize
2025-04-27 13:02:10 INFO: Loading: mwt
2025-04-27 13:02:10 INFO: Loading: pos
2025-04-27 13:02:13 INFO: Loading

##### Procesar cada review

In [12]:
def processReviewsStanza(reviews):

    caracteristicasStanza = defaultdict(set)
    
    for review in reviews:
        doc = nlp(review)
        for sentence in doc.sentences:
            for word in sentence.words:
                if word.upos == "NOUN":
                    sustantivo = word.lemma.lower()
                    headWord = sentence.words[word.head - 1]
                    if headWord.upos == "ADJ":
                        adjetivo = headWord.lemma.lower()
                        caracteristicasStanza[sustantivo].add(adjetivo)
                elif word.upos == "ADJ":
                    adjetivo = word.lemma.lower()
                    headWord = sentence.words[word.head - 1]
                    if headWord.upos == "NOUN":
                        sustantivo = headWord.lemma.lower()
                        caracteristicasStanza[sustantivo].add(adjetivo)

    return caracteristicasStanza

In [13]:

caracteristicasStanza = processReviewsStanza(reviews)

### Comparaci√≥n de resultados

Vamos a ver que resultados sacan cada opci√≥n previamente explicadas y compararlas entre s√≠. De esta manera nos quedaremos con el que mejor resultados de para utilizarlo con todas y cada una de las reviews de las distintas estaciones de metro que tenemos.

In [14]:
print("Las caracteristicas de los n-gramas \n")
print(caracteristicasNGramas)
print("\n")
print("Las caracteristicas de spacy \n")
print(caracteristicasSpacy)
print("\n")
print("Las caracteristicas de stanza \n")
print(caracteristicasStanza)

Las caracteristicas de los n-gramas 

defaultdict(<class 'set'>, {'estaci√≥n': {'sucio'}, 'conexi√≥n': {'horario', 'confiable', 'l√≠nea'}, 'gente': {'malo', 'servicio'}, 'servicio': {'malo'}, 'moderna': {'limpio'}, 'horario': {'confiable'}, 'tren': {'lento'}, 'l√≠nea': {'horario', 'confiable'}, 'metro': {'r√°pido', 'moderno', 'eficiente'}})


Las caracteristicas de spacy 

defaultdict(<class 'set'>, {'estaci√≥n': {'sucio', 'moderno', 'limpio'}, 'servicio': {'malo'}, 'metro': {'r√°pido', 'eficiente'}, 'conexi√≥n': {'buen'}, 'horario': {'nunca confiable', 'mucho util'}})


Las caracteristicas de stanza 

defaultdict(<class 'set'>, {'estaci√≥n': {'sucia', 'moderno'}, 'tren': {'lento'}, 'servicio': {'malo'}, 'metro': {'r√°pido'}, 'conexi√≥n': {'confiable', 'buena'}, 'horario': {'confiable', 'util'}, 'estacion': {'feo'}})


Podemos observar como con los n-gramas parece que se sacan m√°s caracter√≠sticas que con las librer√≠as. Sin embargo, si lo analizamos m√°s profundamente podemos ver como con los n-gramas se a√±aden palabras que no son sustantivos o que no son adjetivos o que no tienen ninguna relevancia. Esto demuestra que los resultados con las librer√≠as son m√°s precisas. Sin embargo, las librer√≠as alguna caracter√≠stica como que la estaci√≥n esta limpia tambi√©n se la ha saltado. 

Entre las dos librer√≠as usadas vemos como dan resultados exactamente iguales, por lo que nos quedaremos con spacy debido a que podemos ver los hijos de una palabra y la palabra con la que esta relacionada. Esto cuando haya m√°s reviews y m√°s largas da m√°s seguridad en que se van a sacar el m√°ximo de caracter√≠sticas posibles aunque se pierdan algunas como ya hemos podido ver anteriormente. 

Por todo esto la librer√≠a que vamos a usar para extraer todas las psoibles caracter√≠sticas va a ser spacy.

## Obtenci√≥n de todas las caracter√≠sticas de las reviews

Una vez realizada la comparaci√≥n nos quedaremos con la librer√≠a spacy que es la que mejor resultados obtuvo. A continuaci√≥n realizamos la extracci√≥n de las caracteristicas para cada una de las distintas estaciones de metro.

Para ello vamos a realizar otra pasada a las reviews y contando su frecuencia para despu√©s ver si son relevantes o no

Funci√≥n auxiliar para contar la frecuencia:

In [None]:
def collect_forms(adj):
    """
    Gather all adjective variants:
      1) If there are no advmods ‚Üí base lemma ("limpio")
      2) If there are >=1 advmods ‚Üí join them all + lemma
         e.g. ["muy","mal"] + "cuidada" ‚Üí "muy mal cuidada"
      3) Recursively include any conjunct ADJ (dep=="conj")
         only if that conjunct has NO of its own subject
    """
    # 1) get all ADV modifiers in document order
    advs = sorted(
        [c for c in adj.children if c.dep_ == "advmod" and c.pos_ == "ADV"],
        key=lambda c: c.i
    )
    adv_lemmas = [c.lemma_.lower() for c in advs]
    base = adj.lemma_.lower()

    forms = set()
    if adv_lemmas:
        forms.add(" ".join(adv_lemmas + [base]))
    else:
        forms.add(base)

    # 2) propagate any simple conjunctions
    for child in adj.children:
        if child.dep_ == "conj" and child.pos_ == "ADJ":
            # only if that conjunct has no own noun subject
            if not any(c.dep_ == "nsubj" and c.pos_ == "NOUN"
                       for c in child.children):
                forms |= collect_forms(child)

    return forms

def find_noun(adj):
    """
    Dado un ADJ (o participio), localiza su NOUN.
    """
    # a) modificador directo
    if adj.dep_ == "amod" and adj.head.pos_ == "NOUN":
        return adj.head

    # b) predicativo: atributo de un verbo/AUX copulativo
    if adj.dep_ in {"acomp", "attr"} and adj.head.pos_ in {"VERB", "AUX"}:   # ‚Üê CAMBIO 1
        for child in adj.head.children:
            if child.dep_ == "nsubj" and child.pos_ == "NOUN":
                return child

    # c) coordenado
    if adj.dep_ == "conj" and adj.head.pos_ == "ADJ":
        return find_noun(adj.head)

    # d) participio como acl
    if adj.dep_ == "acl" and adj.head.pos_ == "NOUN":
        return adj.head

    # e) predicativo con subj propio
    for child in adj.children:
        if child.dep_ == "nsubj" and child.pos_ == "NOUN":
            return child
    
    # f) adjetivo que es la ra√≠z (p. ej. ‚ÄúLos trenes son LENTOS‚Äù)
    if adj.dep_ == "ROOT":
        for child in adj.children:
            if child.dep_ == "nsubj" and child.pos_ == "NOUN":
                return child
    
    up = adj
    while up.dep_ != "ROOT":
        up = up.head
        if up.pos_ == "NOUN":
            return up

    return None


def extract_aspects(reviews):
    """
    Returns: defaultdict(set) mapping noun ‚Üí set of adjectival phrases.
    """
    nlp = spacy.load("es_core_news_sm")
    aspects = defaultdict(Counter)

    for doc in nlp.pipe(reviews, batch_size=20):
        for token in doc:
            if not (token.pos_ == "ADJ" or "Part" in token.morph.get("VerbForm")):
                continue
            if token.dep_ == "conj" and token.head.pos_ == "ADJ":
                continue
            noun = find_noun(token)
            if noun:
                for form in collect_forms(token):
                    noun_key = unidecode(noun.lemma_.lower())
                    aspects[noun_key][form] += 1

    return aspects

In [60]:
results = extract_aspects(reviews)

üî∏  NO NOUN: fea ROOT ADJ ‚Üí head: fea ROOT


In [62]:
reviews

['La estaci√≥n de metro es moderna y limpia, pero los trenes son lentos.',
 'A veces hay demasiada gente y el servicio es malo.',
 'El metro de Madrid es r√°pido y eficiente, aunque algunas estaciones est√°n sucias.',
 'Buena conexi√≥n con otras l√≠neas, pero los horarios nunca son confiables.',
 'La estacion es muy fea y est√° muy mal cuidada',
 'Los horarios son muy utiles']

In [63]:
results

defaultdict(collections.Counter,
            {'estacion': Counter({'moderno': 1, 'limpio': 1, 'sucio': 1}),
             'servicio': Counter({'malo': 1}),
             'metro': Counter({'r√°pido': 1, 'eficiente': 1}),
             'conexion': Counter({'buen': 1}),
             'horario': Counter({'nunca confiable': 1, 'mucho util': 1})})

In [18]:
# Agrega un adjetivo con su frecuencia al sustantivo correspondiente en el diccionario.
def addAdjective(sustantivo, adjetivo):
    for adj, freq in caracteristicas[sustantivo]:
        if adj == adjetivo:
            caracteristicas[sustantivo].remove((adj, freq))
            caracteristicas[sustantivo].add((adj, freq + 1))
            return
    caracteristicas[sustantivo].add((adjetivo, 1))

In [24]:
nlp = spacy.load("es_core_news_sm")
caracteristicas = defaultdict(set)

# Procesar cada review
for review in reviews:
    doc = nlp(review)
    for token in doc:
        if token.pos_ == "ADJ":
            adjetivo = token.lemma_.lower()
            for child in token.children:
                if child.pos_ == "NOUN":
                    sustantivo = child.lemma_.lower()
                    addAdjective(sustantivo, adjetivo)
            if token.head.pos_ == "NOUN":
                sustantivo = token.head.lemma_.lower()
                addAdjective(sustantivo, adjetivo)
        elif token.pos_ == "NOUN":
            sustantivo = token.lemma_.lower()
            if token.head.pos_== "ADJ":
                adjetivo = token.head.lemma_
                addAdjective(sustantivo, adjetivo)

print(caracteristicas) 

defaultdict(<class 'set'>, {'estaci√≥n': {('sucio', 2), ('moderno', 2)}, 'tren': {('lento', 2)}, 'servicio': {('malo', 2)}, 'metro': {('r√°pido', 2)}, 'conexi√≥n': {('confiable', 1), ('buen', 1)}, 'horario': {('confiable', 2)}})


Como puede haber discrepancias entre las caracteristicas que hemos sacado debido a la variabilidad de todas las reviews solo se van a quedar los que no tengan antonimos para un mismo sustantivo o el antonimo que mayor frecuencia tenga. Por ejemplo, si tenemos que el metro esta limpio con una frecuencia de 7 y que el metro esta sucio con una frecuencia de 5, se quedar√≠a que el metro esta limpio.

Sin embargo, para poder sacar los antonimos de la mejor manera posible vamos a traducirlos al ingles y luego de vuelta al espa√±ol debido a que en ingles esta mucho mejor optimizado y falla mucho menos que en espa√±ol.

In [61]:
# Traducir palabra al ingles
def traducir(palabra, sr, tg):
    traduccion = GoogleTranslator(source=sr, target=tg).translate(palabra)
    return traduccion

In [63]:
# Obtener todos los antonimos
def getAntonimos(palabra):
    antonimos = set()
    for sentido in wn.synsets(palabra, pos=wn.ADJ):  # todos los significados de la palabra como adjetivo
        for lema in sentido.lemmas(): # cada sin√≥nimo dentro de ese significado
            for antonimo in lema.antonyms():  # para cada sin√≥nimo, se busca sus ant√≥nimos
                antonimos.add(antonimo.name()) # se a√±ade el nombre del ant√≥nimo al set
    return antonimos

In [67]:
# Quitar los antonimos que tengan menor frecuencia
def quitarAntonimos(diccionario):
    for sustantivo, adjs in diccionario.items():
        lista = list(adjs) # los pasamos a lista para poder iterar
        nuevosAdjs = set() # adjetivos que van a quedar despu√©s del filtro
        procesados = set() # para no comparar un adjetivo m√°s de una vez

        for i, (adj1, freq1) in enumerate(lista):
            if adj1 in procesados:
                continue # si fue comparado se salta

            antonimosIngles = getAntonimos(traducir(adj1,'es','en')) # traducimos las palabras para sacar mejor los antonimos
            antonimos = [traducir(ant, 'en', 'es').lower() for ant in antonimosIngles]
            emparejado = False

            for j in range(i + 1, len(lista)):
                adj2, freq2 = lista[j]
                if adj2 in procesados: # si fue comparado se salta
                    continue
                    
                if adj2 in antonimos: # se guarda el de mayor frecuencia
                    if freq1 > freq2: 
                        nuevosAdjs.add((adj1, freq1))
                    elif freq1 < freq2:
                        nuevosAdjs.add((adj2, freq2))
                        
                    procesados.update([adj1, adj2])
                    emparejado = True
                    break

            if not emparejado: # si no ten√≠a ning√∫n ant√≥nimo en la lista se agrega tal cual
                nuevosAdjs.add((adj1, freq1))
                procesados.add(adj1)

        diccionario[sustantivo] = nuevosAdjs     

In [68]:
aux = {'estaci√≥n': {('sucio', 2), ('moderno', 2)}, 'tren': {('lento', 2)}, 'servicio': {('malo', 2)}, 'conexi√≥n': {('confiable', 1), ('buen', 1)}, 'horario': {('confiable', 2)}, "metro": {("limpio", 7), ("r√°pido", 4), ("lento", 2), ("sucio",5)}}

quitarAntonimos(aux)
print(aux)

{'estaci√≥n': {('sucio', 2), ('moderno', 2)}, 'tren': {('lento', 2)}, 'servicio': {('malo', 2)}, 'conexi√≥n': {('confiable', 1), ('buen', 1)}, 'horario': {('confiable', 2)}, 'metro': {('limpio', 7), ('r√°pido', 4)}}


Una vez hemos quitado los antonimos con menos frecuencia, es decir, caracteristicas irrelevantes, vamos a a√±adir y guardar las caracter√≠sticas sin la frecuencia.

In [66]:
caracteristicasFinal = {}

def quitarFrecuencias(dicF, dic):
    for sustantivo, adjetivos in dicF.items():
        dic[sustantivo] = {adj for adj, _ in adjetivos}
    return dic

caracteristicasFinal = quitarFrecuencias(aux, caracteristicasFinal)
print(caracteristicasFinal)

{'estaci√≥n': {'sucio', 'moderno'}, 'tren': {'lento'}, 'servicio': {'malo'}, 'metro': {'limpio', 'r√°pido'}, 'conexi√≥n': {'buen', 'confiable'}, 'horario': {'confiable'}}
