# ¡Bienvenidos a la última clase!
Objetivo de la primera hora

* Usar diccionarios léxicos para detectar palabras clave
* Hacer un mini análisis de sentimiento
* Implementar un sencillo Wordscore

Estos métodos son más primitivos, pero sirven como un buen benchmark y pensar cómo explorar algunas bases de datos

# Diccionarios
* Es una lista o mapa de palabras clave asociadas a categorías o temas.
* Permite contar o marcar cuándo aparece una palabra de interés.
* Útil para: detección de tópicos, análisis de fit, flags de calidad, etc.

In [2]:
# Populismo

In [5]:
# Definimos un diccionario: categoría → lista de palabras clave
dicc_temas = {
    "fantasia":      ["dragón", "princesa", "hechizo"], # por qué no dragona? o príncipe?
    "ciencia_ficcion":["ovni", "extraterrestre", "futuro"],
    "accion" : ['incendio', 'explosión']
}

# Función que cuenta apariciones de cada categoría
def buscar_temas(texto, dicc): # a esta funcion le suministro el texto, y el diccionario con categorias y palabras
    conteo = {cat: 0 for cat in dicc} #para cada categoria (para key del diccionario), arranca con un 0
    for palabra in texto.lower().split(): # parte el texto en palabras
        w = palabra.strip(".,!?¡¿") # tambien remueve signos de puntuacion
        ### Una linea que reemplace 'é' por la 'e'...
        for cat, claves in dicc.items(): #claves es la lista dentro de cada key
            if w in claves: # si encuentra a la palabra del text dentro de una catagoria
                conteo[cat] += 1 # suma de a uno cada vez que encuentra una palbra en alguna de las categorias
    return conteo

In [8]:
# Probamos con un texto ridículo
texto = "¡El dragon lanza un hechizo al lado de la princesa! Hubo una explosión."
print(buscar_temas(texto, dicc_temas))

{'fantasia': 2, 'ciencia_ficcion': 0, 'accion': 1}


In [7]:
# Tarea
## Ver cuántas veces CFK mencionó a Mujica (Mujica, Pepe), Hugo Chavez (Chavez, @chavezcandanga) y a Maduro en sus tuits
## Identificar todos los tuits relacionados a migracion: migratorias => 'aves migratorias'.

# Sentimientos

Algunas palabras son positivas, otras negativas

In [9]:
# Defino qué palabras son positivas, y cuáles son las negativas.
sent_dict = {
    "bueno": 1, "genial": 1, "rico": 1, "aceptable": 0.5,
    "malo": -1, "horrible": -1, "feo": -1
}

In [12]:
def sentiment(texto):
    return sum(sent_dict.get(w.strip(".,!?"), 0) for w in texto.lower().split())/len(texto.lower().split()) # parte el texto, y para cada palabra mira el puntaje en el diccionario

In [16]:
print(sentiment("¡Este pastel es genial y rico! Vamo arriba Peñarol"))
print(sentiment("El jugo está horrible y feo"))
print(sentiment("El jugo no está horrible y no está feo"))


0.2222222222222222
-0.3333333333333333
-0.2222222222222222


In [None]:
# 1) Esta función no está considerando el largo del texto => Dividir el puntaje por el largo del texto (esto es algo a tener en cuenta).
# 2) ¿Por qué está rico y no rica? => Utilizar stemming, utilizar ric
# 3) Hay un problema con las negaciones => Usar embeddings (redes neuronales, deep learning)

# WordScores
* Objetivo: Hay dos colecciones de documentos (textos de izquierda y textos de derecha, o pro y anti-aborto, etc.)
* Las palabras más asociadas a cada corpus obtienen puntajes positivos o negativos.
* Burguesía, oligarquía vs. valores o derecho vs. vida

* Este el método data-driven que les voy a mostrar.
* Hay pila de métodos data-driven. El tema es que la mayoría de ellos utilizan ML.

Izquierda vs. Derecha
* Computar la frecuencia relativa de cada palabra en el corpus de la izquierda y computar la frecuencia relativa de cada palabra en el corpus de la derecha
* Comparar estas frecuencias

In [17]:
# Ejemplo: corpus “pizza” vs corpus “brócoli”

docs_pizza = [
    "Amo la pizza con mucho queso",
    "La pizza es vida y felicidad",
    "¿Quién no ama la pizza?",
    "Antes de ir al baile como pizza muzzarella"
]
docs_brocoli = [
    "El brócoli es verde y saludable",
    "No me gusta el brócoli amargo",
    "Brócoli al vapor no es divertido",
    "El bróccoli es salud"
]

In [18]:
from collections import Counter

def freqs(docs):
    return Counter(" ".join(docs).lower().split()) # Cuenta la ocurrencia de cada palabra en cada conjunto de diccionarios

In [19]:
f_p = freqs(docs_pizza)
f_b = freqs(docs_brocoli)
total_p, total_b = sum(f_p.values()), sum(f_b.values())

In [21]:
total_p

25

In [22]:
wordscore = {}
for w in set(f_p) | set(f_b):
    wp = f_p[w] / total_p
    wb = f_b[w] / total_b
    wordscore[w] = wp - wb # calcula la diferencia entre las frecuencias relativas para cada palabra. ese es su puntaje. Muy positivo => Pizza; Muy negativo => Broccoli
    # asignando numeros positivos a la pizza, y negativos al broccoli

In [23]:
wordscore

{'vida': 0.04,
 'amargo': -0.045454545454545456,
 'con': 0.04,
 'al': -0.005454545454545455,
 'gusta': -0.045454545454545456,
 'pizza?': 0.04,
 'bróccoli': -0.045454545454545456,
 'queso': 0.04,
 'verde': -0.045454545454545456,
 'muzzarella': 0.04,
 'y': -0.005454545454545455,
 'la': 0.12,
 'ir': 0.04,
 'me': -0.045454545454545456,
 'saludable': -0.045454545454545456,
 'brócoli': -0.13636363636363635,
 'felicidad': 0.04,
 '¿quién': 0.04,
 'de': 0.04,
 'antes': 0.04,
 'pizza': 0.12,
 'mucho': 0.04,
 'divertido': -0.045454545454545456,
 'el': -0.13636363636363635,
 'es': -0.09636363636363635,
 'como': 0.04,
 'vapor': -0.045454545454545456,
 'amo': 0.04,
 'salud': -0.045454545454545456,
 'ama': 0.04,
 'baile': 0.04,
 'no': -0.05090909090909091}

In [25]:
# Mostrar las 5 palabras con mayor |puntaje|
for w, s in sorted(wordscore.items(), key=lambda x: -abs(x[1]))[:5]:
    print(w, round(s, 3))


brócoli -0.136
el -0.136
la 0.12
pizza 0.12
es -0.096


In [27]:
def score_text(texto):
    palabras = texto.lower().split()
    return sum(wordscore.get(w, 0) for w in palabras) / len(palabras)

print(score_text("Me encanta la pizza con queso"))     # >0
print(score_text("Prefiero el brócoli al vapor"))      # <0
print(score_text("El brócoli es verde y saludable"))           # >0


0.045757575757575754
-0.06472727272727272
-0.07757575757575756
