# Taller: Análisis de Tweets con Gemini API
Autor: _(Jean Pierre Alonso Sánchez)_

## Objetivos
1. Configurar la API de Google Generative AI (Gemini).
2. Limpiar y pre‑procesar un corpus de tweets políticos.
3. Clasificar sentimiento con Gemini.
4. Extraer temas con LDA y nombrarlos con Gemini.
5. Segmentar usuarios y generar una micro‑campaña basada en insights.

**Dataset**: `tweets_partidos.csv` (columnas: `cuenta`, `partido`, `timestamp`, `tweet`).

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/SegundoCorte/tweets_politica_kaggle.csv.zip

--2025-05-31 00:32:48--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/SegundoCorte/tweets_politica_kaggle.csv.zip
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/SegundoCorte/tweets_politica_kaggle.csv.zip [following]
--2025-05-31 00:32:48--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/SegundoCorte/tweets_politica_kaggle.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 18276075 (17M) [application/zip]
Saving to: ‘tweets_politica_kaggle.csv.zip’


20

In [2]:
!unzip tweets_politica_kaggle.csv.zip

Archive:  tweets_politica_kaggle.csv.zip
  inflating: tweets_politica_kaggle.csv  


In [3]:
import pandas as pd
df = pd.read_csv('tweets_politica_kaggle.csv',delimiter="\t",on_bad_lines='skip')
df.head()

Unnamed: 0,cuenta,partido,timestamp,tweet
0,a34133350b0605cb24081843f63176ca,psoe,1363973000.0,@vesteve3 @manubenas @ccoo_rm @desobediencia_ ...
1,a34133350b0605cb24081843f63176ca,psoe,1364061000.0,"“@kirovast: @Hugo_Moran muy fan de la ""radical..."
2,a34133350b0605cb24081843f63176ca,psoe,1364117000.0,@ALTAS_PRESIONES Nuevos dueños para las renova...
3,a34133350b0605cb24081843f63176ca,psoe,1364121000.0,@jumanjisolar @solartradex @josea_dolera El di...
4,a34133350b0605cb24081843f63176ca,psoe,1364153000.0,“@cesarnayu: https://t.co/J4OTXj1x7w … Por fav...


In [4]:
!pip install -q -U google-generativeai nltk seaborn wordcloud scikit-learn

### 🔍 Preguntas – Sección 1 (Exploración)
1. **¿Cuántos tweets hay en total?**  


*   En total hay 181.504 tweets



2. **¿Qué partidos aparecen y cuántos tweets aporta cada uno?**  


*   psoe : 42.818
*   vox : 38.277
*   pp : 35.059
*   podemos : 34.442
*   ciudadanos : 30.908







3. **¿Cuál es el rango de fechas cubierto por los tweets?**  
*  Del 22 de Marzo del 2013 hasta el 29 de abril del 2022
4. **¿Qué partido genera más conversación y por qué crees que ocurre?**

* El partido psoe es el que genera más coneversación
  (42.818)

In [11]:
df.shape

(181504, 5)

In [10]:
df["partido"].value_counts()

Unnamed: 0_level_0,count
partido,Unnamed: 1_level_1
psoe,42818
vox,38277
pp,35059
podemos,34442
ciudadanos,30908


In [6]:
from datetime import datetime
datetime.fromtimestamp(int())

datetime.datetime(1970, 1, 1, 0, 0)

In [12]:
df["date"] = df["timestamp"].apply(lambda x : datetime.fromtimestamp(int(x)))

In [13]:
df["date"].max()

Timestamp('2022-04-29 09:36:02')

In [9]:
df["date"].min()

Timestamp('2013-03-22 17:31:32')

### 🧹 Preguntas – Sección 2 (Limpieza)
5. Explica **por qué es importante limpiar y normalizar el texto**.  

* Es importante limpiar y normalizar el texto porque permiten mejorar la calidad de los datos antes de que se clasifiquen los sentimientos y se extraiga el tema.

6. Enumera **tres tipos de “ruido”** que removes y da un ejemplo de cada uno.




1.Signos de puntuación

**Ejemplo:**

In [39]:
import re

def eliminar_signos_puntuacion(texto):
    return re.sub(r'[^a-zA-Z0-9\s]', '', texto)

# Ejemplo de uso
tweet_original = "¡Gran debate sobre la economía! #Política"
tweet_limpio = eliminar_signos_puntuacion(tweet_original)

print("Antes:", tweet_original)
print("Después:", tweet_limpio)


Antes: ¡Gran debate sobre la economía! #Política
Después: Gran debate sobre la economa Poltica


2. Eliminar palabras vacias (stopwords)

**Ejemplo:**

In [40]:
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

def eliminar_stopwords(texto):
    palabras = texto.split()
    palabras_filtradas = [palabra for palabra in palabras if palabra.lower() not in stop_words]
    return " ".join(palabras_filtradas)

# Ejemplo de uso
tweet_original = "El gobierno y la oposición discuten sobre el presupuesto"
tweet_limpio = eliminar_stopwords(tweet_original)

print("Antes:", tweet_original)
print("Después:", tweet_limpio)


Antes: El gobierno y la oposición discuten sobre el presupuesto
Después: gobierno oposición discuten presupuesto


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


3. Convertir minusculas

**Ejemplo:**

In [41]:
def convertir_minusculas(texto):
    return texto.lower()

# Ejemplo de uso
tweet_original = "Gobierno Gobierno gobierno"
tweet_limpio = convertir_minusculas(tweet_original)

print("Antes:", tweet_original)
print("Después:", tweet_limpio)


Antes: Gobierno Gobierno gobierno
Después: gobierno gobierno gobierno


------------------------------------------------------------

----------------------------------------

In [42]:
import re
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

def limpiar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'[^\w\s]', '', texto)
    palabras = texto.split()
    palabras = [palabra for palabra in palabras if palabra not in stop_words]
    return " ".join(palabras)


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [38]:
df["tweet_limpio"] = df["tweet"].apply(limpiar_texto)

In [37]:
df

Unnamed: 0,cuenta,partido,timestamp,tweet,date,tweet_limpio
0,a34133350b0605cb24081843f63176ca,psoe,1.363973e+09,@vesteve3 @manubenas @ccoo_rm @desobediencia_ ...,2013-03-22 17:31:32,vesteve3 manubenas ccoo_rm desobediencia_ ccoo...
1,a34133350b0605cb24081843f63176ca,psoe,1.364061e+09,"“@kirovast: @Hugo_Moran muy fan de la ""radical...",2013-03-23 17:50:35,kirovast hugo_moran fan radicalidad social fre...
2,a34133350b0605cb24081843f63176ca,psoe,1.364117e+09,@ALTAS_PRESIONES Nuevos dueños para las renova...,2013-03-24 09:20:04,altas_presiones nuevos dueños renovables momen...
3,a34133350b0605cb24081843f63176ca,psoe,1.364121e+09,@jumanjisolar @solartradex @josea_dolera El di...,2013-03-24 10:29:27,jumanjisolar solartradex josea_dolera diferenc...
4,a34133350b0605cb24081843f63176ca,psoe,1.364153e+09,“@cesarnayu: https://t.co/J4OTXj1x7w … Por fav...,2013-03-24 19:18:12,cesarnayu httpstcoj4otxj1x7w favor importante ...
...,...,...,...,...,...,...
181499,aeaa6ce266f823338e7d2222032a9edd,psoe,1.651224e+09,"🩰 ""La danza es el lenguaje oculto del alma"". M...",2022-04-29 09:15:59,danza lenguaje oculto alma m graham trabajoded...
181500,0f73ee4d01daad6c58cda2f32bfd6170,ciudadanos,1.651224e+09,@Panzer343 Muchísimas gracias a ti y a Mari Pe...,2022-04-29 09:18:41,panzer343 muchísimas gracias mari pepa va sali...
181501,647360a97c0671126705c66ebdeacd33,podemos,1.651224e+09,🔴 EN DIRECTO: Apertura de @ionebelarra del Con...,2022-04-29 09:26:51,directo apertura ionebelarra consejo ciudadano...
181502,dee34644898a3c1ae0b4088cdf37f66a,podemos,1.651225e+09,Como el Real Decreto-ley ha sido aprobado por ...,2022-04-29 09:30:18,real decretoley sido aprobado bolcheviques bol...


In [36]:
import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown



In [35]:
GOOGLE_API_KEY= "AIzaSyC0iH5vpYEjzaToihnototVvnlmWBXS18Q"

In [34]:
genai.configure(api_key=GOOGLE_API_KEY)

In [33]:
model = genai.GenerativeModel("gemini-1.5-flash")

In [32]:
import time

def classify_sentiment(text, model=model):
    prompt = (f"Clasifica el sentimiento del siguiente tweet como 'positivo', "
              f"'neutral' o 'negativo'. Solo responde con una palabra.\n\nTweet:\n{text}")
    time.sleep(2)
    return model.generate_content(prompt).text.strip().lower()


In [61]:
import requests
import json


In [63]:
API_KEY = "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"

In [65]:
def call_llm(query):
  response = requests.post(
    url="https://openrouter.ai/api/v1/chat/completions",
    headers={
      "Authorization": f"Bearer {API_KEY}",
      "Content-Type": "application/json",
    },
    data=json.dumps({
      "model": "deepseek/deepseek-r1-0528:free",
      "messages": [
        {
          "role": "user",
          "content": query
        }
      ],

    })
  )
  response_data = json.loads(response.content.decode('utf-8'))

  # Extract the content
  content = response_data['choices'][0]['message']['content']
  return content

In [67]:
def classify_sentiment(text):
  prompt = (f"Clasifica el sentimiento del siguiente tweet como 'positivo', "
              f"'neutral' o 'negativo'. Solo responde con una palabra.\n\nTweet:\n{text}")
  respuesta = call_llm(prompt)
  time.sleep(2)
  return respuesta

In [68]:
df["sentimiento"] = df["tweet"].apply(classify_sentiment)

KeyError: 'choices'

### 😊 Preguntas – Sección 3 (Sentimiento)
7. Presenta la **distribución global** de sentimientos y comenta.  
8. **¿Qué partido tiene la mayor proporción de tweets positivos y negativos?**  
9. Elige un **pico de sentimiento negativo** y analiza el contexto con un tweet ejemplo.

### 🗂️ Preguntas – Sección 4 (Temas)
10. Lista los **nombres de los temas** generados. ¿Alguno es inesperado?  

* Los temas generados dependerán del modelo de LDA y su interpretación con la API de Gemini. Si ya tienes una lista de temas, revisa si alguno parece fuera de contexto respecto al discurso político. A veces, los modelos capturan ruido o tendencias inesperadas.
11. Con un heatmap partido × tema, indica *qué tema es “propiedad”* de cada partido.  

* Puedes construir un heatmap con seaborn para visualizar la relación entre los partidos y los temas predominantes en sus tweets. Usa sns.heatmap() sobre una tabla de frecuencias de temas por partido.

12. Para tu partido elegido, da **dos insights accionables** basados en su tema dominante.

* Si un partido habla mucho sobre "Economía", podrías sugerir un refuerzo comunicacional en momentos clave como debates sobre presupuestos.

* Si su discurso está centrado en "Seguridad", podrías recomendar estrategias para viralizar contenido en días con más actividad social.

### 👥 Preguntas – Sección 5 (Segmentación)
13. Describe cada **cluster** en una frase (actividad y tono).  

* Activistas digitales: Publican constantemente sobre temas políticos con un tono apasionado.

* Simpatizantes ocasionales: Retuitean contenido de su partido, pero no generan muchos tweets originales.

* Críticos activos: Comentan sobre temas políticos con un tono negativo o de denuncia.

* Analistas informados: Comparten noticias y análisis con un tono neutro y argumentativo.




14. **¿Qué segmento priorizarías** para viralizar un mensaje y por qué?  

* Priorizaría a los activistas digitales, ya que tienen alto engagement y generan contenido constantemente. Su influencia puede amplificar el alcance del mensaje.

15. Propón **una acción de engagement** distinta para cada segmento.

* Activistas digitales: Invítalos a participar en campañas de hashtags.


* Simpatizantes ocasionales: Comparte contenido visual atractivo que sea fácil de retuitear.


* Críticos activos: Responde con datos contrastados y fomenta el debate respetuoso.
* Analistas informados: Promueve discusiones en foros especializados o entrevistas con expertos.


In [57]:
def generar_copy(partido, topic, tono='inspirador'):
    prompt = (f"Actúa como community manager del partido {partido}. "
              f"Crea un tweet de máx. 250 caracteres sobre el tema '{topic}'. "
              f"Tono {tono}. No incluyas hashtags ni menciones.")
    return model.generate_content(prompt).text.strip()


### 📝 Preguntas – Sección 6 (Micro‑campaña)
16. Presenta tus **tres tweets** generados.  
17. Justifica:  
   a) **Tema** elegido.  
   b) **Tono** y **horario** óptimos.  
18. Define un **KPI de éxito** y la meta para la campaña.

## Próximos pasos
1. Analiza la hora de publicación (`df['fecha'].dt.hour`) para programar los tweets.
2. Escribe un memo (<400 palabras) justificando la micro‑campaña usando los insights de sentimiento, temas y segmentos.
3. Exporta notebook ejecutado y memo para entrega.