# ¡Bienvenidos a la última clase!
Objetivo de hoy

* Usar diccionarios léxicos para detectar palabras clave
* Hacer un mini análisis de sentimiento
* Implementar un sencillo Wordscore

Estos métodos son más primitivos, pero sirven como un buen benchmark y pensar cómo explorar algunas bases de datos

# Diccionarios
* Es una lista o mapa de palabras clave asociadas a categorías o temas.
* Permite contar o marcar cuándo aparece una palabra de interés.
* Útil para: detección de tópicos, análisis de fit, flags de calidad, etc.

In [3]:
# Definimos un diccionario: categoría → lista de palabras clave
dicc_temas = {
    "fantasia":      ["dragón", "princesa", "hechizo"],
    "ciencia_ficcion":["ovni", "extraterrestre", "futuro"]
}

# Función que cuenta apariciones de cada categoría
def buscar_temas(texto, dicc): # a esta funcion le suministro el texto, y el diccionario con categorias y palabras
    conteo = {cat: 0 for cat in dicc} #para cada categoria, arranca con un 0
    for palabra in texto.lower().split(): # parte el texto en palabras
        w = palabra.strip(".,!?¡¿") # tambien remueve signos de puntuacion
        for cat, claves in dicc.items():
            if w in claves:
                conteo[cat] += 1 # suma de a uno cada vez que encuentra una palbra en alguna de las categorias
    return conteo


In [4]:
# Probamos con un texto ridículo
texto = "¡El dragón lanza un hechizo al lado de la princesa!"
print(buscar_temas(texto, dicc_temas))
# → {'fantasia': 2, 'ciencia_ficcion': 0}

{'fantasia': 3, 'ciencia_ficcion': 0}


# Sentimientos

Algunas palabras son positivas, otras negativas

In [25]:
sent_dict = {
    "bueno": 1, "genial": 1, "rico": 1,
    "malo": -1, "horrible": -1, "feo": -1
}

2
-2


In [28]:
def sentiment(texto):
    return sum(sent_dict.get(w.strip(".,!?"), 0) for w in texto.lower().split()) # parte el texto, y para cada palabra mira el puntaje en el diccionario

In [29]:
print(sentiment("¡Este pastel es genial y rico!"))
print(sentiment("El jugo está horrible y feo"))


2
-2


# WordScores
* Objetivo: Hay dos colecciones de documentos (textos de izquierda y textos de derecha, o pro y anti-aborto, etc.)
* Las palabras más asociadas a cada corpus obtienen puntajes positivos o negativos.
* Burguesía, oligarquía vs. valores o derecho vs. vida

In [17]:
# Ejemplo: corpus “pizza” vs corpus “brócoli”

docs_pizza = [
    "Amo la pizza con mucho queso",
    "La pizza es vida y felicidad",
    "¿Quién no ama la pizza?",
    "Antes de ir al baile como pizza muzzarella"
]
docs_brocoli = [
    "El brócoli es verde y saludable",
    "No me gusta el brócoli amargo",
    "Brócoli al vapor no es divertido",
    "El bróccoli es salud"
]

In [18]:
from collections import Counter

def freqs(docs):
    return Counter(" ".join(docs).lower().split()) # Cuenta la ocurrencia de cada palabra en cada conjunto de diccionarios

In [19]:
f_p = freqs(docs_pizza)
f_b = freqs(docs_brocoli)
total_p, total_b = sum(f_p.values()), sum(f_b.values())

In [20]:
wordscore = {}
for w in set(f_p) | set(f_b):
    wp = f_p[w] / total_p
    wb = f_b[w] / total_b
    wordscore[w] = wp - wb # calcula la diferencia entre las frecuencias relativas para cada palabra. ese es su puntaje. Muy positivo => Pizza; Muy negativo => Broccoli

In [21]:
# Mostrar las 5 palabras con mayor |puntaje|
for w, s in sorted(wordscore.items(), key=lambda x: -abs(x[1]))[:5]:
    print(w, round(s, 3))


brócoli -0.136
el -0.136
la 0.12
pizza 0.12
es -0.096


In [22]:
def score_text(texto):
    palabras = texto.lower().split()
    return sum(wordscore.get(w, 0) for w in palabras) / len(palabras)

print(score_text("Me encanta la pizza con queso"))     # >0
print(score_text("Prefiero el brócoli al vapor"))      # <0


0.045757575757575754
-0.06472727272727272
