# Trabajo Fin de M√°ster  
## An√°lisis de sentimientos en noticias financieras mediante Aprendizaje Autom√°tico y Procesamiento del Lenguaje Natural  


*   ### Autor: Pablo Bay√≥n Gala
*   ### Universidad: Universidad Internacional de La Rioja
*   ### M√°ster: M√°ster Universitario en Inteligencia Artificial  
*   ### Fecha: Septiembre 2025


---


¬© 2025 Pablo Bay√≥n Gala.

Este cuaderno contiene el c√≥digo y los experimentos realizados para el desarrollo del Trabajo Fin de M√°ster, en el que se implementan y comparan distintos modelos de Procesamiento del Lenguaje Natural aplicados al an√°lisis de sentimiento en textos financieros.

Se distribuye bajo la **GNU General Public License v3.0 (GPL v3)**.

Para m√°s detalles sobre la licencia: [https://www.gnu.org/licenses/gpl-3.0.html](https://www.gnu.org/licenses/gpl-3.0.html)


# Preprocesamiento de los datos

El preprocesamiento de datos siguiente lo voy a estructurar en forma de pipeline diferenciando dos tipos:

1. Por un lado, los tres modelos basados en arquitectura Transformers (FinBERT, DistilRoBERTa con fine-tuning y BERTweet) ya incluyen un tokenizador preentrenado junto con el modelo. Dicho tokenizador espera el texto en bruto (con may√∫sculas, tildes, hashtags, etc.) porque su preentrenamiento se realiz√≥ con texto real provenientes de noticias / tweets. Para estos modelos, se implementa una limpieza ligera para no alterar el lenguaje natural. Su flujo de limpieza consiste en los siguientes pasos:
  * Eliminaci√≥n de duplicados
  *	Eliminaci√≥n de tweets vac√≠os
  *	Eliminaci√≥n de URLs

2. Por otro lado, el modelo basado en diccionarios y reglas (VADER) requiere un preprocesamiento m√°s profundo. Su flujo de limpieza se basa en los siguientes pasos:
  *	Eliminaci√≥n de duplicados
  *	Eliminaci√≥n de tweets vac√≠os
  *	Eliminaci√≥n de URLs
  *	Eliminaci√≥n de menciones (@usuario)
  *	Eliminaci√≥n de hashtags
  *	Eliminaci√≥n de espacios adicionales

In [None]:
""" Pipeline de preprocesamiento para modelos basados en Transformers """
def limpieza_transformers(texto):

  # Eliminamos URLs
  texto = re.sub(r"(http[s]?://\S+)|(www\.\S+)", "", texto)

  return texto

""" Pipeline de preprocesamiento para VADER """
def limpieza_vader(texto):

  # Eliminamos menciones
  texto = re.sub('@[^\s]+','',texto)
  # Eliminamos hashtags (manteniendo la palabra del hashtag)
  texto = re.sub(r'#','',texto)
  # Eliminamos URLs
  texto = re.sub(r"(http[s]?://\S+)|(www\.\S+)", "", texto)
  # Reemplazamos m√∫ltiples espacios seguidos por un solo espacio
  texto = re.sub(r'\s+', ' ', texto, flags=re.I)

  return texto

# Evaluaci√≥n de mis modelos PLN a partir de los conjuntos de datos etiquetados

## Dataset sobre titulares de noticias financieras
**Labeled Stock News Headlines**

URL: https://www.kaggle.com/datasets/johoetter/labeled-stock-news-headlines

In [None]:
import pandas as pd

# Cargo el dataset
df_Stock_News_Headlines = pd.read_csv('stock_news.csv')

df_Stock_News_Headlines.head()

In [None]:
df_Stock_News_Headlines.shape

In [None]:
df_Stock_News_Headlines.info()

In [None]:
import matplotlib.pyplot as plt

# Datos
counts = df_Stock_News_Headlines['label'].value_counts()
labels = counts.index

# Paleta de colores agradable (pastel o profesional)
colors = plt.cm.Pastel1(range(len(labels)))

# Gr√°fico
fig, ax = plt.subplots(figsize=(6, 6))
wedges, texts, autotexts = ax.pie(
    counts,
    labels=labels,
    autopct='%1.1f%%',
    startangle=90,
    colors=colors,
    textprops={'fontsize': 12, 'color': 'black'}
)

# Mejorar visibilidad de porcentajes
for autotext in autotexts:
    autotext.set_color('black')
    autotext.set_fontweight('bold')

# T√≠tulo con formato profesional
ax.set_title(
    "Distribuci√≥n de sentimiento en dataset original",
    fontsize=12,
    fontweight='bold',
    pad=20
)

# Mantener el pastel como c√≠rculo perfecto
ax.axis('equal')

# Quitar el borde de las etiquetas para un look limpio
plt.setp(texts, fontweight='medium')

plt.show()

In [None]:
# BALANCEAMOS EL DATASET
# Comprobamos distribuci√≥n inicial
print("Distribuci√≥n original:")
print(df_Stock_News_Headlines['label'].value_counts(normalize=True) * 100)

# Determinamos tama√±o de la clase minoritaria (Negative)
min_class = "Negative"
min_count = df_Stock_News_Headlines[df_Stock_News_Headlines['label'] == min_class].shape[0]
print(f"\nTama√±o de la clase minoritaria ({min_class}): {min_count}")

# Tomamos todos los textos de la clase minoritaria
df_min = df_Stock_News_Headlines[df_Stock_News_Headlines['label'] == min_class]

# Submuestreamos aleatoriamente las otras clases para igualar tama√±o
balanced_parts = [df_min]  # empezamos con la clase minoritaria

for label in ["Positive", "Neutral"]:
    df_label = df_Stock_News_Headlines[df_Stock_News_Headlines['label'] == label].sample(
        n=min_count,
        random_state=42
    )
    balanced_parts.append(df_label)

# Combinamos en un dataset balanceado
df_Stock_News_Headlines_balanceado = pd.concat(balanced_parts).sample(frac=1, random_state=42).reset_index(drop=True)

# Comprobamos distribuci√≥n final
print("\nDistribuci√≥n balanceada:")
print(df_Stock_News_Headlines_balanceado['label'].value_counts())

# Guardamos el dataset balanceado
df_Stock_News_Headlines_balanceado.to_excel("stock_news_balanced.xlsx", index=False)

print("\nDataset balanceado guardado correctamente.")

In [None]:
df_Stock_News_Headlines_balanceado.shape

### 1. Modelo FinBERT

In [None]:
!pip install transformers

In [None]:
import pandas as pd
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TextClassificationPipeline

# Cargar FinBERT desde Hugging Face
model_name = "ProsusAI/finbert"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Crear el pipeline de FinBERT
finbert = TextClassificationPipeline(model=model, tokenizer=tokenizer, return_all_scores=False, truncation=True)

# Aplicar FinBERT a cada titular
df_Stock_News_Headlines_balanceado['FinBERT_sentiment'] = df_Stock_News_Headlines_balanceado['headline'].apply(lambda x: finbert(x)[0]['label'])
df_Stock_News_Headlines_balanceado['confidence'] = df_Stock_News_Headlines_balanceado['headline'].apply(lambda x: finbert(x)[0]['score'])

# Mostrar resultados
print(df_Stock_News_Headlines_balanceado)
df_Stock_News_Headlines_balanceado.to_excel("LSNH_balanceado_FinBERT.xlsx", index=False)

In [None]:
# 1. Vemos la arquitectura de alto nivel del modelo
print(model)

In [None]:
# 2. Accedemos a la configuraci√≥n del modelo
print(model.config)

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
df_Stock_News_Headlines["label"] = df_Stock_News_Headlines["label"].str.lower().str.strip()
df_Stock_News_Headlines["sentiment"] = df_Stock_News_Headlines["sentiment"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(df_Stock_News_Headlines["label"], df_Stock_News_Headlines["sentiment"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_df_Stock_News_Headlines = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_df_Stock_News_Headlines)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(df_Stock_News_Headlines["label"], df_Stock_News_Headlines["sentiment"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Noticias - Balanceado)")
plt.show()

### 2. Modelo DistilRoBERTa + Fine-tuning

In [None]:
import pandas as pd
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification

# Cargar el modelo desde Hugging Face
model_name = "mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Creamos el pipeline con el modelo
sentiment_model = pipeline(
    "sentiment-analysis",
    model="mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis"
)

# Funci√≥n para analizar sentimiento
def analyze_sentiment(text):
    result = sentiment_model(text)[0]
    return pd.Series([result['label'], result['score']])

# Aplicar an√°lisis a los titulares
df_Stock_News_Headlines_balanceado[['DistilRoBERTa_sentiment', 'confidence']] = df_Stock_News_Headlines_balanceado['headline'].apply(analyze_sentiment)

print(df_Stock_News_Headlines_balanceado)
df_Stock_News_Headlines_balanceado.to_excel("LSNH_balanceado_DistilRoBERTa.xlsx", index=False)

In [None]:
# 1. Vemos la arquitectura de alto nivel del modelo
print(model)

In [None]:
# 2. Accedemos a la configuraci√≥n del modelo
print(model.config)

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
df_Stock_News_Headlines_balanceado["label"] = df_Stock_News_Headlines_balanceado["label"].str.lower().str.strip()
df_Stock_News_Headlines_balanceado["DistilRoBERTa_sentiment"] = df_Stock_News_Headlines_balanceado["DistilRoBERTa_sentiment"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(df_Stock_News_Headlines_balanceado["label"], df_Stock_News_Headlines_balanceado["DistilRoBERTa_sentiment"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_df_Stock_News_Headlines_balanceado = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_df_Stock_News_Headlines_balanceado)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(df_Stock_News_Headlines_balanceado["label"], df_Stock_News_Headlines_balanceado["DistilRoBERTa_sentiment"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Noticias - Balanceado)")
plt.show()

### 3. Modelo BERTweet

In [None]:
# Importar el modelo y tokenizer de BERTweet
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import torch.nn.functional as F
from tqdm import tqdm

# Modelo fine-tuned para an√°lisis de sentimiento
MODEL_NAME = "finiteautomata/bertweet-base-sentiment-analysis" # Este modelo ya est√° afinado espec√≠ficamente para clasificaci√≥n de sentimiento en tweets
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)

# Creamos una funci√≥n para predecir sentimiento
def predict_sentiment(tweet: str) -> str:
    inputs = tokenizer(tweet, return_tensors="pt", truncation=True)
    with torch.no_grad():
        logits = model(**inputs).logits
        probs = F.softmax(logits, dim=1)
        label_id = torch.argmax(probs, dim=1).item()

    labels = model.config.id2label
    return labels[label_id]

# Lo aplico a mis tweets en formato original (sin preprocesado) porque el modelo de Hugging Face est√° entrenado para interpretar todo (emojis, menciones, etc.) como se√±ales de sentimiento
tqdm.pandas() # Para mostrar una barra de progreso
# Convierto los valores a cadenas y reemplazo los NaN por texto vac√≠o
df_Stock_News_Headlines_balanceado['headline'] = df_Stock_News_Headlines_balanceado['headline'].fillna('').astype(str)
# Creamos una nueva columna llamada bertweet_sentiment con etiquetas como NEG, NEU, POS llamando a la funci√≥n anterior
df_Stock_News_Headlines_balanceado['BERTweet_sentiment'] = df_Stock_News_Headlines_balanceado['headline'].progress_apply(predict_sentiment)

# Guardamos los resultados
df_Stock_News_Headlines_balanceado.to_excel("LSNH_balanceado_BERTweet.xlsx", index=False)
df_Stock_News_Headlines_balanceado.head()

In [None]:
# 1. Vemos la arquitectura de alto nivel del modelo
print(model)

In [None]:
# 2. Accedemos a la configuraci√≥n del modelo
print(model.config)

In [None]:
# Tengo que mapear la etiqueta de sentiminto generada por mi modelo
def map_labels(label):
    if label == "POS":
        return "POSITIVE"
    elif label == "NEG":
        return "NEGATIVE"
    else:
        return "NEUTRAL"

df_Stock_News_Headlines_balanceado["BERTweet_sentiment_mapped"] = df_Stock_News_Headlines_balanceado["BERTweet_sentiment"].apply(map_labels)

df_Stock_News_Headlines_balanceado.head()

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
df_Stock_News_Headlines_balanceado["label"] = df_Stock_News_Headlines_balanceado["label"].str.lower().str.strip()
df_Stock_News_Headlines_balanceado["BERTweet_sentiment_mapped"] = df_Stock_News_Headlines_balanceado["BERTweet_sentiment_mapped"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(df_Stock_News_Headlines_balanceado["label"], df_Stock_News_Headlines_balanceado["BERTweet_sentiment_mapped"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_df_Stock_News_Headlines_balanceado = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_df_Stock_News_Headlines_balanceado)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(df_Stock_News_Headlines_balanceado["label"], df_Stock_News_Headlines_balanceado["BERTweet_sentiment_mapped"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Noticias - Balanceado)")
plt.show()

### 4. Modelo VADER

In [None]:
# Instalo librer√≠as necesarias
!pip install pyspellchecker
!pip install scattertext
!pip install nltk
!pip install -U kaleido

In [None]:
# Import Data Preprocessing and Wrangling libraries
import re
from tqdm.notebook import tqdm
import pandas as pd
import numpy as np
from datetime import datetime
import dateutil.parser

# Import NLP Libraries
import nltk
from spellchecker import SpellChecker
from nltk.sentiment.vader import SentimentIntensityAnalyzer as SIA

# Import Visualization Libraries
import plotly.offline as pyo
import plotly.express as px
import plotly.io as pio
import plotly.graph_objects as go
import matplotlib.pyplot as plt
from plotly.subplots import make_subplots
import seaborn as sns
import scattertext as st
from IPython.display import IFrame
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from nltk.corpus import stopwords
import random

# Downloading periphrals
nltk.download('vader_lexicon')
nltk.download('stopwords')

import warnings
warnings.filterwarnings('ignore')

In [None]:
# Inicializo herramientas

# Para visualizaciones con seaborn
sns.set_style('darkgrid')

# An√°lisis de sentimiento con VADER
sia = SIA()

# Corrector ortogr√°fico (puede ayudar antes del an√°lisis de sentimiento)
spell = SpellChecker()

# Para mostrar gr√°ficos Plotly en notebooks
pyo.init_notebook_mode()

In [None]:
""" Aplicamos pipeline de preprocesamiento para VADER (limpieza m√°s profunda)"""

# Se crea una copia del DataFrame original df_tweets para no modificarlo directamente
data = df_Stock_News_Headlines_balanceado.copy()
# Se a√±ade una columna original_tweet con el texto sin procesar a modo de backup para comparar
data['original_headline'] = df_Stock_News_Headlines_balanceado['headline']
# Reemplaza los valores nulos (NaN) en la columna "text" por cadenas vac√≠as '' y convierte todo el contenido de la columna "text" a tipo string.
# Esto sirve para evitar que el modelo falle al encontrarse con un NaN y para garantizar que todo se maneje como string.
data['headline'] = data['headline'].fillna('').astype(str)

# Aplica la funci√≥n de limpieza a la columna "text"
data['headline'] = data['headline'].apply(limpieza_vader)
# Eliminamos duplicados
data.drop_duplicates(subset=["headline"], inplace=True)
# Reseteamos el √≠ndice por si se ha eliminado alguna fila
data.reset_index(drop=True, inplace=True)

data.head()

In [None]:
import textwrap

# Ancho m√°ximo de cada l√≠nea (ejemplo: 80 caracteres)
width = 80

print("="*80)
print("headline ANTES de preprocesamiento:")
print("="*80)
print(textwrap.fill(data.original_headline[0], width=width))  # Aqu√≠ hace el salto de l√≠nea
print("\n" + "="*80)
#print(data.original_tweet[0])
print("headline DESPU√âS de preprocesamiento:")
print(80*"=")
print(textwrap.fill(data.headline[0], width=width))  # Tambi√©n aqu√≠
#print(data.text[0])

In [None]:
# Esta funci√≥n convierte un valor de sentimiento (entre -1 y 1, generado por VADER) en una etiqueta categ√≥rica
def label_sentiment(x:float):
    if x < -0.05 : return 'negative'  # negative si es muy bajo
    if x > 0.05 : return 'positive'   # positive si es alto
    return 'neutral'                  # neutral si est√° entre ambos umbrales

# EXTRACCI√ìN DE CARACTER√çSTICAS del texto
# Extrae todas las palabras de cada tweet usando regex, eliminando puntuaci√≥n.
data['words'] = data.headline.apply(lambda x:re.findall(r'\w+', x ))
# Usa SpellChecker para detectar palabras mal escritas
data['errors'] = data.words.apply(spell.unknown)
# Cuenta cu√°ntos errores ortogr√°ficos y cu√°ntas palabras hay por tweet
data['errors_count'] = data.errors.apply(len)
data['words_count'] = data.words.apply(len)
# Longitud del tweet (en caracteres)
data['sentence_length'] = data.headline.apply(len)

# An√°lisis de sentimiento para cada tweet
# Aplica VADER (SentimentIntensityAnalyzer = SIA) a cada tweet para obtener el sentimiento compuesto (compound score), que va de -1 (negativo) a 1 (positivo).
data['compound'] = [sia.polarity_scores(x)['compound'] for x in tqdm(data['headline'])] # Se usa tqdm para mostrar una barra de progreso
# Clasifica el sentimiento num√©rico (compound) en positive, neutral o negative con la funci√≥n definida al inicio.
data['VADER_sentiment'] = data['compound'].apply(label_sentiment);

data.head()

In [None]:
# Guardamos los resultados
data.to_excel("LSNH_balanceado_VADER.xlsx", index=False)

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
data["label"] = data["label"].str.lower().str.strip()
data["VADER_sentiment"] = data["VADER_sentiment"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(data["label"], data["VADER_sentiment"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_data = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_data)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(data["label"], data["VADER_sentiment"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Noticias - Balanceado)")
plt.show()

## Dataset sobre tweets de car√°cter financiero
**Financial Tweets Sentiment**

URL: https://huggingface.co/datasets/TimKoornstra/financial-tweets-sentiment

In [None]:
import pandas as pd

# Cargar el dataset
df_financial_tweets_sentiment = pd.read_parquet("train-00000-of-00001.parquet")

df_financial_tweets_sentiment.head()

In [None]:
df_financial_tweets_sentiment.shape

In [None]:
df_financial_tweets_sentiment.info()

In [None]:
# Realizo un mapeo de etiquetas para visualizar mejor los datos
def map_labels(label):
    if label == 1:
        return "Bullish"   # Bullish
    elif label == 2:
        return "Bearish"   # Bearish
    else:
        return "Neutral"    # Neutral

df_financial_tweets_sentiment["sentiment_mapped"] = df_financial_tweets_sentiment["sentiment"].apply(map_labels)

df_financial_tweets_sentiment.head()

In [None]:
import matplotlib.pyplot as plt

# Datos
counts = df_financial_tweets_sentiment['sentiment_mapped'].value_counts()
labels = counts.index

# Paleta de colores agradable (pastel o profesional)
colors = plt.cm.Pastel1(range(len(labels)))

# Gr√°fico
fig, ax = plt.subplots(figsize=(6, 6))
wedges, texts, autotexts = ax.pie(
    counts,
    labels=labels,
    autopct='%1.1f%%',
    startangle=90,
    colors=colors,
    textprops={'fontsize': 12, 'color': 'black'}
)

# Mejorar visibilidad de porcentajes
for autotext in autotexts:
    autotext.set_color('black')
    autotext.set_fontweight('bold')

# T√≠tulo con formato profesional
ax.set_title(
    "Distribuci√≥n de sentimiento en dataset original",
    fontsize=12,
    fontweight='bold',
    pad=20
)

# Mantener el pastel como c√≠rculo perfecto
ax.axis('equal')

# Quitar el borde de las etiquetas para un look limpio
plt.setp(texts, fontweight='medium')

plt.show()

In [None]:
# BALANCEO EL DATASET
# Comprobamos distribuci√≥n inicial
print("Distribuci√≥n original:")
print(df_financial_tweets_sentiment['sentiment_mapped'].value_counts(normalize=True) * 100)

# Determinamos tama√±o de la clase minoritaria (Bearish)
min_class = "Bearish"
min_count = df_financial_tweets_sentiment[df_financial_tweets_sentiment['sentiment_mapped'] == min_class].shape[0]
print(f"\nTama√±o de la clase minoritaria ({min_class}): {min_count}")

# Tomamos todos los textos de la clase minoritaria
df_min = df_financial_tweets_sentiment[df_financial_tweets_sentiment['sentiment_mapped'] == min_class]

# Submuestreamos aleatoriamente las otras clases para igualar tama√±o
balanced_parts = [df_min]  # empezamos con la clase minoritaria

for label in ["Bullish", "Neutral"]:
    df_label = df_financial_tweets_sentiment[df_financial_tweets_sentiment['sentiment_mapped'] == label].sample(
        n=min_count,
        random_state=42
    )
    balanced_parts.append(df_label)

# Combinamos en un dataset balanceado
df_financial_tweets_sentiment_balanceado = pd.concat(balanced_parts).sample(frac=1, random_state=42).reset_index(drop=True)

# Comprobamos distribuci√≥n final
print("\nDistribuci√≥n balanceada:")
print(df_financial_tweets_sentiment_balanceado['sentiment_mapped'].value_counts())

# Guardamos el dataset balanceado
df_financial_tweets_sentiment_balanceado.to_excel("Dataset_financial_tweets_sentiment_balanced.xlsx", index=False)

print("\nDataset balanceado guardado correctamente.")

In [None]:
# Realizo un mapeo de etiquetas antes de comparar, para as√≠ usar exactamente el mismo formato que generan mis modelos
def map_labels(label):
    if label == 1:
        return "POSITIVE"   # Bullish
    elif label == 2:
        return "NEGATIVE"   # Bearish
    else:
        return "NEUTRAL"    # Neutral

df_financial_tweets_sentiment_balanceado["sentiment_mapped"] = df_financial_tweets_sentiment_balanceado["sentiment"].apply(map_labels)

df_financial_tweets_sentiment_balanceado.head()

### 1. Modelo FinBERT

In [None]:
import pandas as pd
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TextClassificationPipeline

# Cargar FinBERT desde Hugging Face
model_name = "ProsusAI/finbert"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Crear el pipeline de FinBERT
finbert = TextClassificationPipeline(model=model, tokenizer=tokenizer, return_all_scores=False, truncation=True)

# Aplicar FinBERT a cada titular
df_financial_tweets_sentiment_balanceado['FinBERT_sentiment'] = df_financial_tweets_sentiment_balanceado['tweet'].apply(lambda x: finbert(x)[0]['label'])
df_financial_tweets_sentiment_balanceado['confidence'] = df_financial_tweets_sentiment_balanceado['tweet'].apply(lambda x: finbert(x)[0]['score'])

# Mostrar resultados
print(df_financial_tweets_sentiment_balanceado)
df_financial_tweets_sentiment_balanceado.to_excel("FTS_balanceado_FinBERT.xlsx", index=False)

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
df_financial_tweets_sentiment_balanceado["sentiment_mapped"] = df_financial_tweets_sentiment_balanceado["sentiment_mapped"].str.lower().str.strip()
df_financial_tweets_sentiment_balanceado["FinBERT_sentiment"] = df_financial_tweets_sentiment_balanceado["FinBERT_sentiment"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(df_financial_tweets_sentiment_balanceado["sentiment_mapped"], df_financial_tweets_sentiment_balanceado["FinBERT_sentiment"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_df_financial_tweets_sentiment_balanceado = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_df_financial_tweets_sentiment_balanceado)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(df_financial_tweets_sentiment_balanceado["sentiment_mapped"], df_financial_tweets_sentiment_balanceado["FinBERT_sentiment"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Tweets - Balanceado)")
plt.show()

### 2. Modelo DistilRoBERTa + Fine-tuning

In [None]:
import pandas as pd
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification

# Cargar el modelo desde Hugging Face
model_name = "mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Creamos el pipeline con el modelo
sentiment_model = pipeline(
    "sentiment-analysis",
    model="mrm8488/distilroberta-finetuned-financial-news-sentiment-analysis",
    truncation=True  # distilroberta solo admite secuencias de m√°ximo 512 tokens, pero en tus datos (tweet) hay textos m√°s largos (587 tokens en alg√∫n tweet). Eso dispara el RuntimeError en la capa de embeddings y da error en la ejecuci√≥n. SOLUCI√ìN: Truncar cualquier texto m√°s largo al m√°ximo permitido.
)

# Funci√≥n para analizar sentimiento
def analyze_sentiment(text):
    result = sentiment_model(text)[0]
    return pd.Series([result['label'], result['score']])

# Aplicar an√°lisis a los titulares
df_financial_tweets_sentiment_balanceado[['DistilRoBERTa_sentiment', 'confidence']] = df_financial_tweets_sentiment_balanceado['tweet'].apply(analyze_sentiment)

print(df_financial_tweets_sentiment_balanceado)
df_financial_tweets_sentiment_balanceado.to_excel("FTS_balanceado_DistilRoBERTa.xlsx", index=False)

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
df_financial_tweets_sentiment_balanceado["sentiment_mapped"] = df_financial_tweets_sentiment_balanceado["sentiment_mapped"].str.lower().str.strip()
df_financial_tweets_sentiment_balanceado["DistilRoBERTa_sentiment"] = df_financial_tweets_sentiment_balanceado["DistilRoBERTa_sentiment"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(df_financial_tweets_sentiment_balanceado["sentiment_mapped"], df_financial_tweets_sentiment_balanceado["DistilRoBERTa_sentiment"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_df_financial_tweets_sentiment_balanceado = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_df_financial_tweets_sentiment_balanceado)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(df_financial_tweets_sentiment_balanceado["sentiment_mapped"], df_financial_tweets_sentiment_balanceado["DistilRoBERTa_sentiment"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Tweets - Balanceado)")
plt.show()

### 3. Modelo BERTweet

In [None]:
# Importar el modelo y tokenizer de BERTweet
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import torch.nn.functional as F
from tqdm import tqdm

# Modelo fine-tuned para an√°lisis de sentimiento
MODEL_NAME = "finiteautomata/bertweet-base-sentiment-analysis" # Este modelo ya est√° afinado espec√≠ficamente para clasificaci√≥n de sentimiento en tweets
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)

# Creamos una funci√≥n para predecir sentimiento
def predict_sentiment(tweet: str) -> str:
    inputs = tokenizer(tweet, return_tensors="pt", truncation=True)
    with torch.no_grad():
        logits = model(**inputs).logits
        probs = F.softmax(logits, dim=1)
        label_id = torch.argmax(probs, dim=1).item()

    labels = model.config.id2label
    return labels[label_id]

# Lo aplico a mis tweets en formato original (sin preprocesado) porque el modelo de Hugging Face est√° entrenado para interpretar todo (emojis, menciones, etc.) como se√±ales de sentimiento
tqdm.pandas() # Para mostrar una barra de progreso
# Convierto los valores a cadenas y reemplazo los NaN por texto vac√≠o
df_financial_tweets_sentiment_balanceado['tweet'] = df_financial_tweets_sentiment_balanceado['tweet'].fillna('').astype(str)
# Creamos una nueva columna llamada bertweet_sentiment con etiquetas como NEG, NEU, POS llamando a la funci√≥n anterior
df_financial_tweets_sentiment_balanceado['BERTweet_sentiment'] = df_financial_tweets_sentiment_balanceado['tweet'].progress_apply(predict_sentiment)

# Guardamos los resultados
df_financial_tweets_sentiment_balanceado.to_excel("FTS_balanceado_BERTweet.xlsx", index=False)
df_financial_tweets_sentiment_balanceado.head()

In [None]:
# Tengo que mapear la etiqueta de sentiminto generada por mi modelo
def map_labels(label):
    if label == "POS":
        return "POSITIVE"
    elif label == "NEG":
        return "NEGATIVE"
    else:
        return "NEUTRAL"

df_financial_tweets_sentiment_balanceado["BERTweet_sentiment_mapped"] = df_financial_tweets_sentiment_balanceado["BERTweet_sentiment"].apply(map_labels)

df_financial_tweets_sentiment_balanceado.head()

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
df_financial_tweets_sentiment_balanceado["sentiment_mapped"] = df_financial_tweets_sentiment_balanceado["sentiment_mapped"].str.lower().str.strip()
df_financial_tweets_sentiment_balanceado["BERTweet_sentiment_mapped"] = df_financial_tweets_sentiment_balanceado["BERTweet_sentiment_mapped"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(df_financial_tweets_sentiment_balanceado["sentiment_mapped"], df_financial_tweets_sentiment_balanceado["BERTweet_sentiment_mapped"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_df_financial_tweets_sentiment_balanceado = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_df_financial_tweets_sentiment_balanceado)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(df_financial_tweets_sentiment_balanceado["sentiment_mapped"], df_financial_tweets_sentiment_balanceado["BERTweet_sentiment_mapped"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Tweets - Balanceado)")
plt.show()

### 4. Modelo VADER

In [None]:
# Instalamos las librer√≠as necesarias
!pip install pyspellchecker
!pip install scattertext
!pip install nltk
!pip install -U kaleido

In [None]:
# Import Data Preprocessing and Wrangling libraries
import re
from tqdm.notebook import tqdm
import pandas as pd
import numpy as np
from datetime import datetime
import dateutil.parser

# Import NLP Libraries
import nltk
from spellchecker import SpellChecker
from nltk.sentiment.vader import SentimentIntensityAnalyzer as SIA

# Import Visualization Libraries
import plotly.offline as pyo
import plotly.express as px
import plotly.io as pio
import plotly.graph_objects as go
import matplotlib.pyplot as plt
from plotly.subplots import make_subplots
import seaborn as sns
import scattertext as st
from IPython.display import IFrame
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from nltk.corpus import stopwords
import random

# Downloading periphrals
nltk.download('vader_lexicon')
nltk.download('stopwords')

import warnings
warnings.filterwarnings('ignore')

In [None]:
# Inicializamos las herramientas

# Para visualizaciones con seaborn
sns.set_style('darkgrid')

# An√°lisis de sentimiento con VADER
sia = SIA()

# Corrector ortogr√°fico (puede ayudar antes del an√°lisis de sentimiento)
spell = SpellChecker()

# Para mostrar gr√°ficos Plotly en notebooks
pyo.init_notebook_mode()

In [None]:
""" Aplicamos pipeline de preprocesamiento para modelo VADER (limpieza m√°s profunda)"""

# Se crea una copia del DataFrame original df_tweets para no modificarlo directamente
data = df_financial_tweets_sentiment_balanceado.copy()
# Se a√±ade una columna original_tweet con el texto sin procesar a modo de backup para comparar
data['original_tweet'] = df_financial_tweets_sentiment_balanceado['tweet']
# Reemplaza los valores nulos (NaN) en la columna "text" por cadenas vac√≠as '' y convierte todo el contenido de la columna "text" a tipo string.
# Esto sirve para evitar que el modelo falle al encontrarse con un NaN y para garantizar que todo se maneje como string.
data['tweet'] = data['tweet'].fillna('').astype(str)


# Aplica la funci√≥n de limpieza a la columna "text"
data['tweet'] = data['tweet'].apply(limpieza_vader)
# Eliminamos duplicados
data.drop_duplicates(subset=["tweet"], inplace=True)
# Reseteamos el √≠ndice por si se ha eliminado alguna fila
data.reset_index(drop=True, inplace=True)

data.head()

In [None]:
import textwrap

# Ancho m√°ximo de cada l√≠nea (ejemplo: 80 caracteres)
width = 80

print("="*80)
print("tweet ANTES de preprocesamiento:")
print("="*80)
print(textwrap.fill(data.original_tweet[0], width=width))  # Aqu√≠ hace el salto de l√≠nea
print("\n" + "="*80)
#print(data.original_tweet[0])
print("tweet DESPU√âS de preprocesamiento:")
print(80*"=")
print(textwrap.fill(data.tweet[0], width=width))  # Tambi√©n aqu√≠
#print(data.text[0])

In [None]:
# Esta funci√≥n convierte un valor de sentimiento (entre -1 y 1, generado por VADER) en una etiqueta categ√≥rica
def label_sentiment(x:float):
    if x < -0.05 : return 'negative'  # negative si es muy bajo
    if x > 0.05 : return 'positive'   # positive si es alto
    return 'neutral'                  # neutral si est√° entre ambos umbrales

# EXTRACCI√ìN DE CARACTER√çSTICAS del texto
# Extrae todas las palabras de cada tweet usando regex, eliminando puntuaci√≥n.
data['words'] = data.tweet.apply(lambda x:re.findall(r'\w+', x ))
# Usa SpellChecker para detectar palabras mal escritas
data['errors'] = data.words.apply(spell.unknown)
# Cuenta cu√°ntos errores ortogr√°ficos y cu√°ntas palabras hay por tweet
data['errors_count'] = data.errors.apply(len)
data['words_count'] = data.words.apply(len)
# Longitud del tweet (en caracteres)
data['sentence_length'] = data.tweet.apply(len)

# An√°lisis de sentimiento para cada tweet
# Aplica VADER (SentimentIntensityAnalyzer = SIA) a cada tweet para obtener el sentimiento compuesto (compound score), que va de -1 (negativo) a 1 (positivo).
data['compound'] = [sia.polarity_scores(x)['compound'] for x in tqdm(data['tweet'])] # Se usa tqdm para mostrar una barra de progreso
# Clasifica el sentimiento num√©rico (compound) en positive, neutral o negative con la funci√≥n definida al inicio.
data['VADER_sentiment'] = data['compound'].apply(label_sentiment);

data.head()

In [None]:
# Guardamos los resultados
data.to_excel("FTS_balanceado_VADER.xlsx", index=False)

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

# Asegurarse de que las etiquetas est√©n en el mismo formato (ej. capitalizaci√≥n)
data["sentiment_mapped"] = data["sentiment_mapped"].str.lower().str.strip()
data["VADER_sentiment"] = data["VADER_sentiment"].str.lower().str.strip()

# Calcular matriz de confusi√≥n
cm = confusion_matrix(data["sentiment_mapped"], data["VADER_sentiment"], labels=["positive", "negative", "neutral"])

# Mostrar como DataFrame
cm_data = pd.DataFrame(cm, index=["True_Positive", "True_Negative", "True_Neutral"],
                        columns=["Pred_Positive", "Pred_Negative", "Pred_Neutral"])

print("Matriz de confusi√≥n:")
print(cm_data)

# Reporte de m√©tricas
print("\nReporte de clasificaci√≥n:")
print(classification_report(data["sentiment_mapped"], data["VADER_sentiment"], digits=3))

# Visualizaci√≥n con heatmap
plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=["Pred_Positive", "Pred_Negative", "Pred_Neutral"],
            yticklabels=["True_Positive", "True_Negative", "True_Neutral"])
plt.xlabel("PREDICCIONES")
plt.ylabel("VALORES REALES")
plt.title("Matriz de Confusi√≥n (Dataset Tweets - Balanceado)")
plt.show()

## Visualizaci√≥n comparativa de modelos

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# M√©tricas
metrics = ["Accuracy", "F1 Negative", "F1 Neutral", "F1 Pos", "F1 Macro", "Eficiencia Computacional"]

# ---------- Datos Titulares Original ----------
FinBERT_tit =       [0.557, 0.643, 0.577, 0.487, 0.569, 8]    # 8 min
DistilRoBERTa_tit = [0.545, 0.626, 0.563, 0.483, 0.558, 2]    # 2 min
BERTweet_tit =      [0.503, 0.626, 0.519, 0.427, 0.524, 42]   # 42 min
VADER_tit =         [0.430, 0.404, 0.396, 0.471, 0.424, 0.05] # 3 seg ‚âà 0.05 min

# ---------- Datos Tweets Original ----------
FinBERT_tw =       [0.464, 0.498, 0.507, 0.374, 0.460, 11]   # 11 min
DistilRoBERTa_tw = [0.502, 0.519, 0.527, 0.456, 0.501, 4]    # 4 min
BERTweet_tw =      [0.512, 0.542, 0.522, 0.483, 0.516, 73]   # 73 min
VADER_tw =         [0.451, 0.436, 0.420, 0.487, 0.448, 0.12] # 7 seg ‚âà 0.12 min

# Normalizar e invertir coste ‚Üí eficiencia
# Extraer todos los tiempos
time_values = [
    FinBERT_tit[-1], DistilRoBERTa_tit[-1], BERTweet_tit[-1], VADER_tit[-1],
    FinBERT_tw[-1], DistilRoBERTa_tw[-1], BERTweet_tw[-1], VADER_tw[-1]
]

# Normalizaci√≥n logar√≠tmica + min-max
log_times = [np.log(t + 1) for t in time_values]
min_log, max_log = min(log_times), max(log_times)

for model in [FinBERT_tit, DistilRoBERTa_tit, BERTweet_tit, VADER_tit,
              FinBERT_tw, DistilRoBERTa_tw, BERTweet_tw, VADER_tw]:
    model[-1] = ((max_log - np.log(model[-1] + 1)) / (max_log - min_log)) + 0.1


# √Ångulos radar
angles = np.linspace(0, 2 * np.pi, len(metrics), endpoint=False).tolist()
angles += angles[:1]

def close_values(values):
    return values + values[:1]

# Funci√≥n para dibujar cada radar
def plot_radar(ax, title, models):
    ax.set_xticks(angles[:-1])
    ax.set_xticklabels(metrics)
    ax.set_title(title, size=18, y=1.08)

    for name, values in models.items():
        vals = close_values(values)
        ax.plot(angles, vals, label=name)
        ax.fill(angles, vals, alpha=0.1)

# Crear la figura con dos subplots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 7), subplot_kw=dict(polar=True))

# Radar Titulares Original
plot_radar(ax1, "News_O", {
    "FinBERT": FinBERT_tit,
    "DistilRoBERTa": DistilRoBERTa_tit,
    "BERTweet": BERTweet_tit,
    "VADER": VADER_tit
})

# Radar Tweets Original
plot_radar(ax2, "Tweet_O", {
    "FinBERT": FinBERT_tw,
    "DistilRoBERTa": DistilRoBERTa_tw,
    "BERTweet": BERTweet_tw,
    "VADER": VADER_tw
})

# Eliminar duplicados en la leyenda
handles, labels = fig.axes[0].get_legend_handles_labels()
by_label = dict(zip(labels, handles))
fig.legend(by_label.values(), by_label.keys(), loc="upper center", bbox_to_anchor=(0.5, 1.1), ncol=1)

plt.show()

# Recolecci√≥n de datos desde diferentes fuentes

## 1. PyGoogleNews para obtenci√≥n de titulares de noticias

In [None]:
!pip install feedparser
!pip install dateparser
!pip install plotly
import pygooglenews   # Importo mi m√≥dulo pygooglenews.py

In [None]:
import pandas as pd
from pygooglenews import GoogleNews  # Importo la clase GoogleNews de mi m√≥dulo pygooglenews.py
import datetime  # Para manejo de fechas
import time  # Para pausar entre solicitudes

# Crea un objeto buscador de noticias para consultar noticias desde Google News
gn = GoogleNews()

# Esta funci√≥n busca noticias relacionadas con un t√©rmino (por ejemplo: "Tesla OR TSLA")
# entre una determinada fecha, dividiendo la b√∫squeda en bloques de 30 d√≠as para evitar l√≠mites
# en la cantidad de resultados que Google News devuelve de una sola vez.
def get_news(search):
  stories = []  # Lista

  start_date = datetime.date(2025,8,27)
  end_date = datetime.date(2025,8,29)
  delta = datetime.timedelta(days=1) # Con esta l√≠nea recorro el a√±o d√≠a a d√≠a para mejorar la precisi√≥n diaria, realizando 365 consultas a Google News (OJO con los bloqueos por el exceso de peticiones).
  date = start_date

  while date <= end_date:
        try:
            print(f"Buscando noticias del {date}...")
            result = gn.search(
                search,
                from_=date.strftime('%Y-%m-%d'),
                to_=(date + delta).strftime('%Y-%m-%d')
            )

            newsitems = result['entries']

            for item in newsitems:
                story = {
                    'title': item.title,
                    'published': datetime.datetime.strptime(item.published, '%a, %d %b %Y %X GMT')
                }
                stories.append(story)

        except Exception as e:
            print(f"Error en {date}: {e}")

        # Esperar 2 segundos antes de la siguiente petici√≥n
        time.sleep(2)
        date += delta

  return stories

# Convertimos la lista de diccionarios stories en un DataFrame,
# a la par que llamamos a la funci√≥n get_news con el ‚Äú[Nombre Compa√±ia] OR [Ticker]‚Äù como par√°metro.
# Ticker = etiqueta de cotizaci√≥n con el que opera en bolsa.
df = pd.DataFrame(get_news('Amazon OR AMZN'))

# Agregar columna con solo la fecha
df['date'] = df['published'].dt.date

# Mostrar cantidad de noticias por d√≠a
news_per_day = df.groupby('date').size()
print(news_per_day)

In [None]:
# Se guardan los resultados de las noticias recolectadas
df.to_excel("noticias_PyGoogleNews.xlsx", index=False)

In [None]:
# Estas l√≠neas es por si queremos filtrar un d√≠a concreto de noticias
df['date'] = df['published'].dt.date
df = df[df['date'] == datetime.date(2025, 8, 28)]

In [None]:
df.head()

In [None]:
df.shape

In [None]:
import pandas as pd
import plotly.graph_objects as go

# Preparar los datos
df['date'] = df['published'].dt.date
news_per_day = df.groupby('date').size().reset_index()
news_per_day.columns = ['date', 'count']
news_per_day['rolling_7'] = news_per_day['count'].rolling(window=7).mean()

# Crear figura
fig = go.Figure()

# L√≠nea principal (noticias por d√≠a)
fig.add_trace(go.Scatter(
    x=news_per_day['date'],
    y=news_per_day['count'],
    mode='lines',
    name='Noticias por d√≠a',
    line=dict(color='royalblue')
))

# Media m√≥vil de 7 d√≠as
fig.add_trace(go.Scatter(
    x=news_per_day['date'],
    y=news_per_day['rolling_7'],
    mode='lines',
    name='Media m√≥vil (7 d√≠as)',
    line=dict(color='orange', dash='dash')
))

# Picos de noticias (top 5 d√≠as con m√°s noticias)
top_days = news_per_day.nlargest(5, 'count')
fig.add_trace(go.Scatter(
    x=top_days['date'],
    y=top_days['count'],
    mode='markers+text',
    name='Picos de noticias',
    marker=dict(color='red', size=10),
    text=top_days['date'].astype(str),
    textposition='top center'
))

# =====================
# üîπ Anotaciones de eventos relevantes (ejemplo: resultados financieros)
# =====================
eventos = {
    "2025-02-26": "Resultados Q4 2024",
    "2025-05-28": "Resultados Q1 2025",
    #"2025-07-23": "Resultados Q2 2025",
    #"2024-10-23": "Resultados Q3 2024",
    "2025-01-27": "Ca√≠da del 17% por noticia DeepSeek",
    "2025-03-18": "Conferencia anual GPU Technology Conference",
    #"2025-06-06": "Enfrentamiento p√∫blico entre Elon Musk y Trump",
    #"2025-07-07": "Anuncio de Elon Musk sobre la creaci√≥n del nuevo partido pol√≠tico llamado America Party"
}
for fecha, texto in eventos.items():
    fig.add_annotation(
        x=fecha,
        y=news_per_day.loc[news_per_day['date'] == pd.to_datetime(fecha).date(), 'count'].values[0],
        text=texto,
        showarrow=True,
        arrowhead=2,
        ax=40, ay=-40,
        bgcolor="white"
    )

"""# =====================
# üîπ Sombreado de un periodo de inter√©s (ejemplo: semana de alta cobertura)
# =====================
fig.add_vrect(
    x0="2024-05-10", x1="2024-05-20",
    fillcolor="lightgrey", opacity=0.3,
    layer="below", line_width=0,
    annotation_text="Alta cobertura",
    annotation_position="top left"
)"""

# Est√©tica del gr√°fico
fig.update_layout(
    title='Cobertura diaria de noticias sobre NVIDIA (2025)',
    xaxis_title='Fecha',
    yaxis_title='Cantidad de noticias',
    hovermode='x unified',
    template='plotly_white',
    width=1000,
    height=500,
    legend=dict(
        orientation="h",
        yanchor="bottom", y=-0.3,
        xanchor="center", x=0.5
    )
)

fig.show()

## 2. Financial Modeling Prep (FMP) para obtenci√≥n de titulares de √∫ltimas noticias

FMP es la abreviatura de Financial Modeling Prep, una plataforma que ofrece una API financiera robusta y flexible para acceder a datos burs√°tiles y econ√≥micos en tiempo real e hist√≥ricos. Es ampliamente utilizada por desarrolladores, analistas financieros, investigadores y estudiantes para integrar informaci√≥n financiera en aplicaciones, hojas de c√°lculo y modelos de an√°lisis.

Su API en versi√≥n gratuita solo permite:


*   √öltimas 200 noticias financieras de las empresas que sean.
*   NO permite filtrar por empresa o por fecha.
*   Variedad de endpoints para poder hacer distintas peticiones (no solo noticias), como datos t√©cnicos financieros, datos de empresa espec√≠fica, etc. --> Ver todo los tipos en "https://site.financialmodelingprep.com/developer/docs/stable"

In [None]:
import requests
import pandas as pd

API_KEY = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXX'  # Reemplaza con tu API key real
tickers = 'TSLA'   # Al buscar noticias en la versi√≥n free no me permite filtrar por empresa
limit = 500  # El l√≠mite m√°ximo de √∫ltimas noticias que me devuelve la API versi√≥n gratuita es 200

# Existen mucha variedad de endpoints: datos financieros, datos de empresa espec√≠fica, noticias...
# La URL siguiente hace referencia al √∫nico endpoint de noticias que me permite la versi√≥n gratis (200 noticias m√°ximo)
url = f'https://financialmodelingprep.com/stable/fmp-articles?page=0&limit={limit}&apikey={API_KEY}'


response = requests.get(url)

if response.status_code == 200:
    data = response.json()

    # Convertir a DataFrame
    df_news = pd.DataFrame(data)
    print(df_news)
else:
    print("Error:", response.status_code, response.text)

In [None]:
# Guardamos las noticias recientes extra√≠das
df_news.to_excel("ultimas_noticias_FMP.xlsx", index=False)

In [None]:
df_news.head()

In [None]:
# Filtro los 200 art√≠culos por el ticker deseado
TICKER = 'TSLA'  # Ticker que quiera filtrar
FECHA_MINIMA = '2025-08-04'  # Fecha (incluida) a partir de la cual quiero obtener las noticias

# Convierto la columna 'date' a formato datetime
df_news['date'] = pd.to_datetime(df_news['date'])

# Filtro si la columna 'tickers' contiene ese s√≠mbolo. Tambi√©n filtro por fecha
df_FMP = df_news[
    (df_news['tickers'].apply(lambda x: TICKER in x if isinstance(x, list) else TICKER in str(x))) &
    (df_news['date'] >= pd.to_datetime(FECHA_MINIMA))
]

df_FMP.head()

## 3. YFinance para obtenci√≥n de datos financieros

In [None]:
!pip install yfinance

In [None]:
import yfinance as yf

df_precio = yf.download('AMZN', start = '2025-08-27', end = '2025-08-29', group_by='ticker')

# yfinance devuelve por defecto columnas anidadas (MultiIndex en columnas). Hay que realizar los siguientes pasos para eliminar el MultiIndex y obtener un dataframe normal
# 1. Resetear √≠ndice para tener 'Date' como columna
df_precio.reset_index(inplace=True)

# 2. Aplanar columnas (eliminar MultiIndex)
df_precio.columns = [col[1] if isinstance(col, tuple) else col for col in df_precio.columns]

# 3. Renombrar columna de fecha (si no se llama 'Date')
if 'Date' not in df_precio.columns:
    df_precio.rename(columns={df_precio.columns[0]: 'Date'}, inplace=True)

df_precio.head()

In [None]:
df_precio.shape

In [None]:
df_precio.info()

## 4. API Twitter/X para obtenci√≥n de tweets y captar ruido social

### 4.1. Tweets relacionados con alguna compa√±√≠a o activo financiero

In [None]:
!pip install tweepy # Biblioteca de Python para interactuar con la API de Twitter

In [None]:
import tweepy

# Pega aqu√≠ tu Bearer Token
BEARER_TOKEN = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"

# Conexi√≥n con el cliente Tweepy
client = tweepy.Client(bearer_token=BEARER_TOKEN)

# Define la consulta: por ejemplo, tweets que mencionen "Tesla", en ingl√©s, excluyendo retweets
query = 'Tesla lang:en -is:retweet'

# B√∫squeda de hasta 10 tweets recientes
tweets = client.search_recent_tweets(query=query, max_results=10)

# Mostrar texto de tweets
if tweets.data:
    for tweet in tweets.data:
        print(tweet.text)
else:
    print("No se encontraron tweets")

### 4.2. Tweets recientes publicados por un usuario espec√≠fico

In [None]:
import tweepy

# Tus credenciales de la API de Twitter/X
BEARER_TOKEN = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'

# Configurar cliente de tweepy con autenticaci√≥n Bearer Token
client = tweepy.Client(bearer_token=BEARER_TOKEN)

# Nombre de usuario sin '@'
username = "elonmusk"

# Obtener user ID del usuario
user = client.get_user(username=username)
user_id = user.data.id

# Obtener tweets recientes del usuario (m√°ximo 10)
tweets = client.get_users_tweets(id=user_id, max_results=10)

# Imprimir texto y fecha de los tweets
for tweet in tweets.data:
    print(tweet.created_at, "-", tweet.text)

## 5. Reddit para obtenci√≥n de posts como fuente alternativa de sentimiento minorista

In [None]:
!pip install praw  # Biblioteca de Python para interactuar con la API de Reddit

In [None]:
import praw
import datetime

# Configura tu app en https://www.reddit.com/prefs/apps para obtener client_id, client_secret y user_agent
reddit = praw.Reddit(
    client_id='XXXXXXXXXXXXXXXXXXXXXXXX',
    client_secret='XXXXXXXXXXXXXXXXXXXXXXXX',
    user_agent='XXXXXXXXXXXXXXXXXXXXXXXX'  # Es un identificador para que Reddit sepa qui√©n hace la petici√≥n, puede ser cualquier texto descriptivo.
)

# Elige un subreddit, por ejemplo r/WallStreetBets o r/investing
subreddit = reddit.subreddit('wallstreetbets')

# Lista para almacenar los datos
posts_data = []

# Obtener los 500 posts m√°s recientes --> Devuelve como m√°ximo los 1.000 aproximadamente m√°s recientes
for post in subreddit.new(limit=500):
    posts_data.append({
        'title': post.title,
        'text': post.selftext,
        'created': datetime.datetime.fromtimestamp(post.created_utc),
        'url': post.url
    })

# Convertimos a DataFrame
df_reddit = pd.DataFrame(posts_data)

# Mostramos los primeros resultados
print(df_reddit.head())

In [None]:
df_reddit.head()

In [None]:
df_reddit.shape

# Resultados y Estudios

## 1.	Titulares de noticias por compa√±√≠a y periodo espec√≠fico vs Precio de acciones

En la obtenci√≥n de datos seleccionamos previamente:

1.   Una compa√±√≠a espec√≠fica.
2.   Un rango de fechas espec√≠fico.

In [None]:
# Asignamos un valor num√©rico al sentimiento
sentiment_map = {'positive': 1, 'neutral': 0, 'negative': -1}
df['sentiment_score'] = df['sentiment'].map(sentiment_map)

# Agrupamos por fecha (media diaria del sentimiento)
df_sentiment_daily = df.groupby('date')['sentiment_score'].mean().reset_index()

# Convertimos la columna "published", que es de tipo objeto a tipo datetime
df_sentiment_daily['date'] = pd.to_datetime(df_sentiment_daily['date'])

df_sentiment_daily.head()

In [None]:
# JOIN: Unimos sentimiento con precios por fecha
df_merged = pd.merge(df_precio, df_sentiment_daily, left_on='Date', right_on='date', how='left')

# Rellenar d√≠as sin noticias con 0 (neutral)
df_merged['sentiment_score'] = df_merged['sentiment_score'].fillna(0)

# Crear la columna de retorno diario
df_merged['daily_return'] = df_merged['Close'].pct_change()

df_merged.head()

In [None]:
df_sentiment_daily.shape

In [None]:
df_merged.shape

In [None]:
# 1. Correlaci√≥n num√©rica
correlation = df_merged[['sentiment_score', 'daily_return']].corr()
print(correlation)

In [None]:
# 2. La correlaci√≥n con desfase de 1 d√≠a es muy √∫til porque mide si el sentimiento de hoy tiene alg√∫n poder predictivo sobre el retorno de ma√±ana.

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Crear columna con el retorno del d√≠a siguiente (desfase de 1 d√≠a)
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
df_merged['daily_return_lag1'] = df_merged['daily_return'].shift(-1)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Calcular correlaci√≥n de Pearson entre sentimiento actual y retorno del d√≠a siguiente
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
corr_lag1 = df_merged[['sentiment_score', 'daily_return_lag1']].corr().iloc[0,1]

print(f"Correlaci√≥n (sentimiento_t vs. retorno_t+1): {corr_lag1:.4f}")

In [None]:
# 3. Gr√°fico de dispersi√≥n (scatter plot)
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_merged, x='sentiment_score', y='daily_return')
plt.title('Correlaci√≥n entre sentimiento de noticias y retorno diario de TSLA')
plt.xlabel('Sentimiento promedio (DistilRoBERTa)')
plt.ylabel('Retorno diario (%)')
plt.axhline(0, color='gray', linestyle='--')
plt.grid(True)
plt.show()

In [None]:
# 4. Gr√°fico combinado en el tiempo
import matplotlib.pyplot as plt
import numpy as np
import matplotlib.patches as mpatches

# Copia del dataframe para no modificar el original
df_plot = df_merged.copy()

# Media m√≥vil de 7 d√≠as para suavizar el sentimiento
df_plot['sentiment_rolling'] = df_plot['sentiment_score'].rolling(7).mean()

# Crear figura y ejes
fig, ax1 = plt.subplots(figsize=(14, 7))

# --- Eje 1: Precio de cierre ---
ax1.plot(df_plot['Date'], df_plot['Close'], color='blue', label='Precio de cierre')
ax1.set_ylabel('Precio de acci√≥n (USD)', color='blue')
ax1.tick_params(axis='y', labelcolor='blue')

# --- Eje 2: Sentimiento ---
ax2 = ax1.twinx()

# Dibujar el sentimiento diario con colores (verde si >0, rojo si <0)
colors = np.where(df_plot['sentiment_score'] >= 0, 'green', 'red')
ax2.bar(df_plot['Date'], df_plot['sentiment_score'],
        color=colors, alpha=0.3, width=1.0)

# A√±adir l√≠nea suavizada (media m√≥vil 7 d√≠as)
ax2.plot(df_plot['Date'], df_plot['sentiment_rolling'],
         color='orange', linestyle='--', linewidth=2, label='Sentimiento (media m√≥vil 7 d√≠as)')

ax2.set_ylabel('Sentimiento promedio (sentiment_score)', color='red')
ax2.tick_params(axis='y', labelcolor='red')

# --- Leyenda manual para diferenciar positivo y negativo ---
pos_patch = mpatches.Patch(color='green', alpha=0.3, label='Sentimiento positivo')
neg_patch = mpatches.Patch(color='red', alpha=0.3, label='Sentimiento negativo')

# --- T√≠tulo y est√©tica ---
plt.title('Evoluci√≥n del precio de NVDA y sentimiento de titulares de noticias (2025)', fontsize=14, fontweight='bold')
fig.tight_layout()

# Leyendas combinadas
lines_labels = [ax.get_legend_handles_labels() for ax in [ax1, ax2]]
lines, labels = [sum(lol, []) for lol in zip(*lines_labels)]
# A√±adir parches personalizados
lines += [pos_patch, neg_patch]
labels += [pos_patch.get_label(), neg_patch.get_label()]

ax1.legend(lines, labels, loc='lower right')

plt.show()

In [None]:
# 5. Agrupaci√≥n semanal para mostrar c√≥mo evoluciona el sentimiento semanal frente al precio semanal

# Agrupar semanalmente promediando valores num√©ricos
df_weekly = df_merged.set_index('Date').resample('W').mean(numeric_only=True).reset_index()

# Calcular correlaci√≥n semanal
correlacion_semanal = df_weekly[['sentiment_score', 'daily_return']].corr().iloc[0, 1]
print(f"üìÖ Correlaci√≥n semanal entre sentimiento y retorno: {correlacion_semanal:.4f}")

In [None]:
# 6. Vamos a comprobar si el sentimiento de la semana anterior predice el retorno de la semana actual.
# Esto es muy √∫til para evaluar si el sentimiento anticipa movimientos de precio.
# Para ello aplicamos un desfase (lag).

# Crear una nueva columna con el sentimiento de la semana anterior
df_weekly['sentiment_lag1'] = df_weekly['sentiment_score'].shift(1)

# Calcular correlaci√≥n entre sentimiento lag y retorno actual
correlacion_lag1 = df_weekly[['sentiment_lag1', 'daily_return']].corr().iloc[0, 1]
print(f"üìä Correlaci√≥n con desfase 1 semana: {correlacion_lag1:.4f}")

In [None]:
# 7. An√°lisis comparativo MISMO D√çA

import pandas as pd
import matplotlib.pyplot as plt

# Asegurarse de que el DataFrame est√© ordenado por fecha
df_merged = df_merged.sort_values(by='Date')

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Filtrar d√≠as por sentimiento y direcci√≥n del precio
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
positivos = df_merged[df_merged['sentiment_score'] > 0]
negativos = df_merged[df_merged['sentiment_score'] < 0]

subidas_positivas = positivos[positivos['daily_return'] > 0]
bajadas_negativas = negativos[negativos['daily_return'] < 0]

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Calcular porcentajes de coincidencia
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
porcentaje_pos = len(subidas_positivas) / len(positivos) * 100 if len(positivos) > 0 else 0
porcentaje_neg = len(bajadas_negativas) / len(negativos) * 100 if len(negativos) > 0 else 0

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Crear tabla de resultados
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_resultados = pd.DataFrame({
    'Sentimiento': ['Positivo', 'Negativo'],
    'D√≠as totales': [len(positivos), len(negativos)],
    'Mov. esperado': [len(subidas_positivas), len(bajadas_negativas)],
    '% coincidencia': [porcentaje_pos, porcentaje_neg]
})

print(tabla_resultados)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Gr√°fico de barras visual
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
plt.figure(figsize=(8,5))
colores = ['green', 'red']
plt.bar(tabla_resultados['Sentimiento'], tabla_resultados['% coincidencia'], color=colores, alpha=0.7)
plt.ylabel('% d√≠as en que el precio se movi√≥ seg√∫n el sentimiento')
plt.title('Relaci√≥n entre sentimiento de noticias y movimiento del precio')
plt.ylim(0, 100)

# A√±adir etiquetas de porcentaje encima de las barras
for i, val in enumerate(tabla_resultados['% coincidencia']):
    plt.text(i, val + 2, f"{val:.1f}%", ha='center', fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# 8. An√°lisis comparativo D√çA SIGUIENTE

import pandas as pd
import matplotlib.pyplot as plt

# Asegurarse de que el DataFrame est√© ordenado por fecha
df_merged = df_merged.sort_values(by='Date')

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Desfase de 1 d√≠a: el sentimiento de hoy frente al retorno de ma√±ana
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
df_merged['daily_return_next'] = df_merged['daily_return'].shift(-1)

# Filtrar d√≠as por sentimiento y direcci√≥n del precio al d√≠a siguiente
positivos = df_merged[df_merged['sentiment_score'] > 0]
negativos = df_merged[df_merged['sentiment_score'] < 0]

subidas_positivas = positivos[positivos['daily_return_next'] > 0]
bajadas_negativas = negativos[negativos['daily_return_next'] < 0]

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Calcular porcentajes de coincidencia
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
porcentaje_pos = len(subidas_positivas) / len(positivos) * 100 if len(positivos) > 0 else 0
porcentaje_neg = len(bajadas_negativas) / len(negativos) * 100 if len(negativos) > 0 else 0

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Crear tabla de resultados
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_resultados = pd.DataFrame({
    'Sentimiento': ['Positivo', 'Negativo'],
    'D√≠as totales': [len(positivos), len(negativos)],
    'Mov. esperado': [len(subidas_positivas), len(bajadas_negativas)],
    '% coincidencia': [porcentaje_pos, porcentaje_neg]
})

print(tabla_resultados)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Gr√°fico de barras visual
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
plt.figure(figsize=(8,5))
colores = ['green', 'red']
plt.bar(tabla_resultados['Sentimiento'], tabla_resultados['% coincidencia'], color=colores, alpha=0.7)
plt.ylabel('% d√≠as en que el precio se movi√≥ seg√∫n el sentimiento (d√≠a siguiente)')
plt.title('Relaci√≥n entre sentimiento de noticias y movimiento del precio al d√≠a siguiente')
plt.ylim(0, 100)

# A√±adir etiquetas de porcentaje encima de las barras
for i, val in enumerate(tabla_resultados['% coincidencia']):
    plt.text(i, val + 2, f"{val:.1f}%", ha='center', fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# 9. An√°lisis comparativo SENTIMIENTOS EXTREMOS (> 0.2 √≥ < -0.2)

import pandas as pd
import matplotlib.pyplot as plt

# Asegurarse de que el DataFrame est√© ordenado por fecha
df_merged = df_merged.sort_values(by='Date')

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Desfase de 1 d√≠a
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
df_merged['daily_return_next'] = df_merged['daily_return'].shift(-1)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Funci√≥n para calcular coincidencia seg√∫n umbrales de sentimiento extremo
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
def porcentaje_coincidencia_extremo(df, sentiment_col, return_col, umbral_pos=0.2, umbral_neg=-0.2):
    positivos = df[df[sentiment_col] > umbral_pos]
    negativos = df[df[sentiment_col] < umbral_neg]

    subidas_positivas = positivos[positivos[return_col] > 0]
    bajadas_negativas = negativos[negativos[return_col] < 0]

    porcentaje_pos = len(subidas_positivas) / len(positivos) * 100 if len(positivos) > 0 else 0
    porcentaje_neg = len(bajadas_negativas) / len(negativos) * 100 if len(negativos) > 0 else 0

    tabla = pd.DataFrame({
        'Sentimiento': ['Muy positivo', 'Muy negativo'],
        'D√≠as totales': [len(positivos), len(negativos)],
        'Mov. esperado': [len(subidas_positivas), len(bajadas_negativas)],
        '% coincidencia': [porcentaje_pos, porcentaje_neg]
    })
    return tabla

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# 1. Coincidencia mismo d√≠a
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_mismo_dia_extremo = porcentaje_coincidencia_extremo(df_merged, 'sentiment_score', 'daily_return')
tabla_mismo_dia_extremo['Escenario'] = 'Mismo d√≠a'

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# 2. Coincidencia d√≠a siguiente
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_dia_siguiente_extremo = porcentaje_coincidencia_extremo(df_merged, 'sentiment_score', 'daily_return_next')
tabla_dia_siguiente_extremo['Escenario'] = 'D√≠a siguiente'

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Combinar tablas
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_completa_extremo = pd.concat([tabla_mismo_dia_extremo, tabla_dia_siguiente_extremo], ignore_index=True)
print(tabla_completa_extremo)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Gr√°fico comparativo
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
plt.figure(figsize=(10,6))

anchura = 0.35
x = range(len(tabla_mismo_dia_extremo))

# Barras mismo d√≠a
plt.bar([i - anchura/2 for i in x],
        tabla_mismo_dia_extremo['% coincidencia'],
        width=anchura,
        color=['green','red'],
        alpha=0.7,
        label='Mismo d√≠a')

# Barras d√≠a siguiente
plt.bar([i + anchura/2 for i in x],
        tabla_dia_siguiente_extremo['% coincidencia'],
        width=anchura,
        color=['darkgreen','darkred'],
        alpha=0.7,
        label='D√≠a siguiente')

plt.xticks(ticks=x, labels=tabla_mismo_dia_extremo['Sentimiento'])
plt.ylabel('% d√≠as en que el precio se movi√≥ seg√∫n el sentimiento extremo')
plt.title('Relaci√≥n entre sentimientos extremos y movimiento del precio de las acciones')
plt.ylim(0, 100)
plt.legend()

# A√±adir etiquetas de porcentaje encima de las barras
for i, val in enumerate(tabla_mismo_dia_extremo['% coincidencia']):
    plt.text(i - anchura/2, val + 2, f"{val:.1f}%", ha='center', fontsize=10)
for i, val in enumerate(tabla_dia_siguiente_extremo['% coincidencia']):
    plt.text(i + anchura/2, val + 2, f"{val:.1f}%", ha='center', fontsize=10)

plt.tight_layout()
plt.show()

## 2.	Tweets con car√°cter financiero por compa√±√≠a y periodo espec√≠fico vs Precio de acciones

In [2]:
# Cargo el dataset con los tweets recolectados sobre Tesla y periodo del 01-01-2022 a 01-10-2022
import pandas as pd

df = pd.read_excel('Tweets_Recolectados_Tesla.xlsx')

In [None]:
# Analizamos el sentimiento con el modelo BERTweet, pero podr√≠amos haber usado cualquier otro
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import torch.nn.functional as F
from tqdm import tqdm

# Modelo fine-tuned para an√°lisis de sentimiento
MODEL_NAME = "finiteautomata/bertweet-base-sentiment-analysis" # Este modelo ya est√° afinado espec√≠ficamente para clasificaci√≥n de sentimiento en tweets
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)

# Creamos una funci√≥n para predecir sentimiento
def predict_sentiment(tweet: str) -> str:
    inputs = tokenizer(tweet, return_tensors="pt", truncation=True)
    with torch.no_grad():
        logits = model(**inputs).logits
        probs = F.softmax(logits, dim=1)
        label_id = torch.argmax(probs, dim=1).item()

    labels = model.config.id2label
    return labels[label_id]

# Lo aplico a mis tweets en formato original (sin preprocesado) porque el modelo de Hugging Face est√° entrenado para interpretar todo (emojis, menciones, etc.) como se√±ales de sentimiento
tqdm.pandas() # Para mostrar una barra de progreso
# Convierto los valores a cadenas y reemplazo los NaN por texto vac√≠o
df['Tweet'] = df['Tweet'].fillna('').astype(str)
# Creamos una nueva columna llamada bertweet_sentiment con etiquetas como NEG, NEU, POS llamando a la funci√≥n anterior
df['bertweet_sentiment'] = df['Tweet'].progress_apply(predict_sentiment)

df.head()

In [None]:
# Guardamos el resultado
df.to_excel("analisis_sentimiento_BERTweet.xlsx", index=False)

In [None]:
# Asignamos un valor num√©rico al sentimiento
sentiment_map = {'POS': 1, 'NEU': 0, 'NEG': -1}
df['sentiment_score'] = df['bertweet_sentiment'].map(sentiment_map)

# Agrupamos por fecha (media diaria del sentimiento)
df_sentiment_daily = df.groupby('date')['sentiment_score'].mean().reset_index()

df_sentiment_daily.head()

In [None]:
df_sentiment_daily.shape

In [None]:
df_merged.shape

In [None]:
# JOIN: Unimos sentimiento con precios por fecha
df_merged = pd.merge(df_precio, df_sentiment_daily, left_on='Date', right_on='date', how='left')

# Rellenar d√≠as sin tweets con 0 (neutral)
df_merged['sentiment_score'] = df_merged['sentiment_score'].fillna(0)

# Crear la columna de retorno diario
df_merged['daily_return'] = df_merged['Close'].pct_change()
df_merged.head()

In [None]:
# 1. Correlaci√≥n num√©rica
correlation = df_merged[['sentiment_score', 'daily_return']].corr()
print(correlation)

In [None]:
# 2. La correlaci√≥n con desfase de 1 d√≠a es muy √∫til porque mide si el sentimiento de hoy tiene alg√∫n poder predictivo sobre el retorno de ma√±ana.

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Crear columna con el retorno del d√≠a siguiente (desfase de 1 d√≠a)
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
df_merged['daily_return_lag1'] = df_merged['daily_return'].shift(-1)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Calcular correlaci√≥n de Pearson entre sentimiento actual y retorno del d√≠a siguiente
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
corr_lag1 = df_merged[['sentiment_score', 'daily_return_lag1']].corr().iloc[0,1]

print(f"Correlaci√≥n (sentimiento_t vs. retorno_t+1): {corr_lag1:.4f}")

In [None]:
# 3. Diagrama de dispersi√≥n para ver la forma de la relaci√≥n
import seaborn as sns
import matplotlib.pyplot as plt

sns.regplot(data=df_merged, x='sentiment_score', y='daily_return')
plt.title('Sentiment Score de tweets vs Daily Return (Tesla)')
plt.show()

In [None]:
# 4. Gr√°fico combinado en el tiempo
import matplotlib.pyplot as plt
import numpy as np
import matplotlib.patches as mpatches

# Copia del dataframe para no modificar el original
df_plot = df_merged.copy()

# Media m√≥vil de 7 d√≠as para suavizar el sentimiento
df_plot['sentiment_rolling'] = df_plot['sentiment_score'].rolling(7).mean()

# Crear figura y ejes
fig, ax1 = plt.subplots(figsize=(14, 7))

# --- Eje 1: Precio de cierre ---
ax1.plot(df_plot['Date'], df_plot['Close'], color='blue', label='Precio de cierre')
ax1.set_ylabel('Precio de acci√≥n (USD)', color='blue')
ax1.tick_params(axis='y', labelcolor='blue')

# --- Eje 2: Sentimiento ---
ax2 = ax1.twinx()

# Dibujar el sentimiento diario con colores (verde si >0, rojo si <0)
colors = np.where(df_plot['sentiment_score'] >= 0, 'green', 'red')
ax2.bar(df_plot['Date'], df_plot['sentiment_score'],
        color=colors, alpha=0.3, width=1.0)

# A√±adir l√≠nea suavizada (media m√≥vil 7 d√≠as)
ax2.plot(df_plot['Date'], df_plot['sentiment_rolling'],
         color='orange', linestyle='--', linewidth=2, label='Sentimiento (media m√≥vil 7 d√≠as)')

ax2.set_ylabel('Sentimiento promedio (sentiment_score)', color='red')
ax2.tick_params(axis='y', labelcolor='red')

# --- Leyenda manual para diferenciar positivo y negativo ---
pos_patch = mpatches.Patch(color='green', alpha=0.3, label='Sentimiento positivo')
neg_patch = mpatches.Patch(color='red', alpha=0.3, label='Sentimiento negativo')

# --- T√≠tulo y est√©tica ---
plt.title('Evoluci√≥n del precio de TSLA y sentimiento de tweets (2022)', fontsize=14, fontweight='bold')
fig.tight_layout()

# Leyendas combinadas
lines_labels = [ax.get_legend_handles_labels() for ax in [ax1, ax2]]
lines, labels = [sum(lol, []) for lol in zip(*lines_labels)]
# A√±adir parches personalizados
lines += [pos_patch, neg_patch]
labels += [pos_patch.get_label(), neg_patch.get_label()]

ax1.legend(lines, labels, loc='lower right')

plt.show()

In [None]:
# 5. Agrupaci√≥n semanal para mostrar c√≥mo evoluciona el sentimiento semanal frente al precio semanal

# Agrupar semanalmente promediando valores num√©ricos
df_weekly = df_merged.set_index('Date').resample('W').mean(numeric_only=True).reset_index()

# Calcular correlaci√≥n semanal
correlacion_semanal = df_weekly[['sentiment_score', 'daily_return']].corr().iloc[0, 1]
print(f"üìÖ Correlaci√≥n semanal entre sentimiento y retorno: {correlacion_semanal:.4f}")

In [None]:
# 6. Vamos a comprobar si el sentimiento de la semana anterior predice el retorno de la semana actual.
# Esto es muy √∫til para evaluar si el sentimiento anticipa movimientos de precio.
# Para ello aplicamos un desfase (lag).

# Crear una nueva columna con el sentimiento de la semana anterior
df_weekly['sentiment_lag1'] = df_weekly['sentiment_score'].shift(1)

# Calcular correlaci√≥n entre sentimiento lag y retorno actual
correlacion_lag1 = df_weekly[['sentiment_lag1', 'daily_return']].corr().iloc[0, 1]
print(f"üìä Correlaci√≥n con desfase 1 semana: {correlacion_lag1:.4f}")

In [None]:
# 7. An√°lisis comparativo MISMO D√çA y D√çA SIGUIENTE

import pandas as pd
import matplotlib.pyplot as plt

# Asegurarse de que el DataFrame est√© ordenado por fecha
df_merged = df_merged.sort_values(by='Date')

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Desfase de 1 d√≠a
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
df_merged['daily_return_next'] = df_merged['daily_return'].shift(-1)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Funci√≥n para calcular porcentaje de coincidencia
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
def porcentaje_coincidencia(df, sentiment_col, return_col):
    positivos = df[df[sentiment_col] > 0]
    negativos = df[df[sentiment_col] < 0]

    subidas_positivas = positivos[positivos[return_col] > 0]
    bajadas_negativas = negativos[negativos[return_col] < 0]

    porcentaje_pos = len(subidas_positivas) / len(positivos) * 100 if len(positivos) > 0 else 0
    porcentaje_neg = len(bajadas_negativas) / len(negativos) * 100 if len(negativos) > 0 else 0

    tabla = pd.DataFrame({
        'Sentimiento': ['Positivo', 'Negativo'],
        'D√≠as totales': [len(positivos), len(negativos)],
        'Mov. esperado': [len(subidas_positivas), len(bajadas_negativas)],
        '% coincidencia': [porcentaje_pos, porcentaje_neg]
    })
    return tabla

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# 1. Coincidencia mismo d√≠a
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_mismo_dia = porcentaje_coincidencia(df_merged, 'sentiment_score', 'daily_return')
tabla_mismo_dia['Escenario'] = 'Mismo d√≠a'

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# 2. Coincidencia d√≠a siguiente
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_dia_siguiente = porcentaje_coincidencia(df_merged, 'sentiment_score', 'daily_return_next')
tabla_dia_siguiente['Escenario'] = 'D√≠a siguiente'

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Combinar tablas
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_completa = pd.concat([tabla_mismo_dia, tabla_dia_siguiente], ignore_index=True)
print(tabla_completa)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Gr√°fico comparativo
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
plt.figure(figsize=(10,6))

anchura = 0.35
x = range(len(tabla_mismo_dia))

# Barras mismo d√≠a
plt.bar([i - anchura/2 for i in x],
        tabla_mismo_dia['% coincidencia'],
        width=anchura,
        color=['green','red'],
        alpha=0.7,
        label='Mismo d√≠a')

# Barras d√≠a siguiente
plt.bar([i + anchura/2 for i in x],
        tabla_dia_siguiente['% coincidencia'],
        width=anchura,
        color=['darkgreen','darkred'],
        alpha=0.7,
        label='D√≠a siguiente')

plt.xticks(ticks=x, labels=tabla_mismo_dia['Sentimiento'])
plt.ylabel('% d√≠as en que el precio se movi√≥ seg√∫n el sentimiento')
plt.title('Comparaci√≥n de coincidencia entre sentimiento y movimiento del precio')
plt.ylim(0, 100)
plt.legend()

# A√±adir etiquetas de porcentaje encima de las barras
for i, val in enumerate(tabla_mismo_dia['% coincidencia']):
    plt.text(i - anchura/2, val + 2, f"{val:.1f}%", ha='center', fontsize=10)
for i, val in enumerate(tabla_dia_siguiente['% coincidencia']):
    plt.text(i + anchura/2, val + 2, f"{val:.1f}%", ha='center', fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# 8. An√°lisis comparativo SENTIMIENTO EXTREMO

import pandas as pd
import matplotlib.pyplot as plt

# Asegurarse de que el DataFrame est√© ordenado por fecha
df_merged = df_merged.sort_values(by='Date')

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Desfase de 1 d√≠a
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
df_merged['daily_return_next'] = df_merged['daily_return'].shift(-1)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Funci√≥n para calcular coincidencia seg√∫n umbrales de sentimiento extremo
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
def porcentaje_coincidencia_extremo(df, sentiment_col, return_col, umbral_pos=0.2, umbral_neg=-0.2):
    positivos = df[df[sentiment_col] > umbral_pos]
    negativos = df[df[sentiment_col] < umbral_neg]

    subidas_positivas = positivos[positivos[return_col] > 0]
    bajadas_negativas = negativos[negativos[return_col] < 0]

    porcentaje_pos = len(subidas_positivas) / len(positivos) * 100 if len(positivos) > 0 else 0
    porcentaje_neg = len(bajadas_negativas) / len(negativos) * 100 if len(negativos) > 0 else 0

    tabla = pd.DataFrame({
        'Sentimiento': ['Muy positivo', 'Muy negativo'],
        'D√≠as totales': [len(positivos), len(negativos)],
        'Mov. esperado': [len(subidas_positivas), len(bajadas_negativas)],
        '% coincidencia': [porcentaje_pos, porcentaje_neg]
    })
    return tabla

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# 1. Coincidencia mismo d√≠a
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_mismo_dia_extremo = porcentaje_coincidencia_extremo(df_merged, 'sentiment_score', 'daily_return')
tabla_mismo_dia_extremo['Escenario'] = 'Mismo d√≠a'

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# 2. Coincidencia d√≠a siguiente
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_dia_siguiente_extremo = porcentaje_coincidencia_extremo(df_merged, 'sentiment_score', 'daily_return_next')
tabla_dia_siguiente_extremo['Escenario'] = 'D√≠a siguiente'

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Combinar tablas
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabla_completa_extremo = pd.concat([tabla_mismo_dia_extremo, tabla_dia_siguiente_extremo], ignore_index=True)
print(tabla_completa_extremo)

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# Gr√°fico comparativo
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
plt.figure(figsize=(10,6))

anchura = 0.35
x = range(len(tabla_mismo_dia_extremo))

# Barras mismo d√≠a
plt.bar([i - anchura/2 for i in x],
        tabla_mismo_dia_extremo['% coincidencia'],
        width=anchura,
        color=['green','red'],
        alpha=0.7,
        label='Mismo d√≠a')

# Barras d√≠a siguiente
plt.bar([i + anchura/2 for i in x],
        tabla_dia_siguiente_extremo['% coincidencia'],
        width=anchura,
        color=['darkgreen','darkred'],
        alpha=0.7,
        label='D√≠a siguiente')

plt.xticks(ticks=x, labels=tabla_mismo_dia_extremo['Sentimiento'])
plt.ylabel('% d√≠as en que el precio se movi√≥ seg√∫n el sentimiento extremo')
plt.title('Relaci√≥n entre sentimientos extremos y movimiento del precio de las acciones')
plt.ylim(0, 100)
plt.legend()

# A√±adir etiquetas de porcentaje encima de las barras
for i, val in enumerate(tabla_mismo_dia_extremo['% coincidencia']):
    plt.text(i - anchura/2, val + 2, f"{val:.1f}%", ha='center', fontsize=10)
for i, val in enumerate(tabla_dia_siguiente_extremo['% coincidencia']):
    plt.text(i + anchura/2, val + 2, f"{val:.1f}%", ha='center', fontsize=10)

plt.tight_layout()
plt.show()

## 3.	Tweets por usuario espec√≠fico vs Precio de acciones

**Elon Musk Tweets 2010 to 2025**

URL: https://www.kaggle.com/datasets/dadalyndell/elon-musk-tweets-2010-to-2025-march?select=all_musk_posts.csv

In [None]:
import pandas as pd

# Cargo el dataset con los tweets de Elon Musk entre el periodo de 2010 a 04/2025
df_tweets_ElonMusk = pd.read_csv('all_musk_posts.csv')

In [None]:
df_tweets_ElonMusk.head()

In [None]:
df_tweets_ElonMusk.shape

In [None]:
df_tweets_ElonMusk.info()

In [None]:
################################################################################
#                B√∫squeda de nulos por columnas del Dataframe                  #
################################################################################

# Para poder encontrar el total de valores nulos haremos un tratamiento por columnas y, sumando dicho valor, obtendremos el total de nulos en cada columna
nulosPorColumna = df_tweets_ElonMusk.isnull().sum()

#Mostramos el resultado en una tabla
print("N√∫mero de valores nulos por columna:\n" + str(nulosPorColumna))

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Visualizamos los valores nulos con Heatmap para una representaci√≥n gr√°fica de los valores nulos
# Elegimos el color verde para representar que las columnas contienen un valor y en color rojo la representaci√≥n de los valores nulos
sns.heatmap(df_tweets_ElonMusk.isnull(), cbar=False, cmap='RdYlGn_r')
plt.show()

In [None]:
""" Para calcular el engagement_score, la mejor pr√°ctica es asumir que los valores nulos son ceros,
porque si no hay datos de interacci√≥n es probable que no haya habido interacciones o no se registraron. """
# Relleno con ceros
cols_to_fill = ['retweetCount', 'replyCount', 'likeCount', 'quoteCount', 'viewCount', 'bookmarkCount']
df_tweets_ElonMusk[cols_to_fill] = df_tweets_ElonMusk[cols_to_fill].fillna(0)

nulosPorColumna = df_tweets_ElonMusk.isnull().sum()
print("N√∫mero de valores nulos por columna:\n" + str(nulosPorColumna))

In [None]:
# Calculamos el engagement de cada tweet

def calcula_engagement_score(row):
    # Filtro los tweets originales creados por Elon Musk (no me interesan los que √©l retuitea)
    if row['isRetweet']:
        return 0

    return round(
        2 * row['retweetCount'] +
        1.5 * row['replyCount'] +
        1.2 * row['likeCount'] +
        0.001 * row['viewCount'],
        2
    )

# Aplica la funci√≥n a cada fila del DataFrame
df_tweets_ElonMusk['engagement_score'] = df_tweets_ElonMusk.apply(calcula_engagement_score, axis=1)

df_tweets_ElonMusk.head()

In [None]:
# Filtro los tweets m√°s influyentes
# Por ejemplo, ordeno por engagement_score de mayor a menor
df_tweets_ElonMusk_ordenado = df_tweets_ElonMusk.sort_values(by='engagement_score', ascending=False)

# Muestro los 10 tweets con m√°s engagement
df_tweets_ElonMusk_ordenado[['createdAt', 'fullText', 'engagement_score']].head(10)

In [None]:
# Filtramos por palabras clave por empresa/activo para buscar patrones con el movimiento del precio de acciones
keywords_tsla = ['tesla', 'tsla']
keywords_btc = ['bitcoin', 'btc']
keywords_doge = ['doge', 'dogecoin']

# Busca menciones relacionadas
tsla_tweets = df_tweets_ElonMusk_ordenado[df_tweets_ElonMusk_ordenado['fullText'].str.lower().str.contains('|'.join(keywords_tsla))]
btc_tweets = df_tweets_ElonMusk_ordenado[df_tweets_ElonMusk_ordenado['fullText'].str.lower().str.contains('|'.join(keywords_btc))]
doge_tweets = df_tweets_ElonMusk_ordenado[df_tweets_ElonMusk_ordenado['fullText'].str.lower().str.contains('|'.join(keywords_doge))]

In [None]:
doge_tweets[['engagement_score', 'fullText', 'createdAt']].head()

In [None]:
doge_tweets.shape

In [None]:
# Convertimos la columna "createdAt", que es de tipo objeto a tipo datetime
doge_tweets['createdAt'] = pd.to_datetime(doge_tweets['createdAt'])

# Crear nueva columna 'date' con solo la fecha (sin hora)
doge_tweets['date'] = doge_tweets['createdAt'].dt.date

# Convertimos la columna "date", que es de tipo objeto a tipo datetime
doge_tweets['date'] = pd.to_datetime(doge_tweets['date'])

doge_tweets.info()

In [None]:
# Agrupamos los engagement_score por fecha (por si hay varios tweets el mismo d√≠a) y se acumula el engagement_score diario
df_engagement_daily = doge_tweets.groupby('date')['engagement_score'].sum().reset_index()

df_engagement_daily.head(10)

In [None]:
df_engagement_daily.shape

In [None]:
df_merged.shape

In [None]:
# JOIN: Unimos engagement con precios por fecha
df_merged = pd.merge(df_precio, df_engagement_daily, left_on='Date', right_on='date', how='left')

# Rellenar d√≠as sin tweets publicados por ElonMusk relacionados con DOGE con 0 (engagement nulo)
df_merged['engagement_score'] = df_merged['engagement_score'].fillna(0)

# Crear la columna de retorno diario
df_merged['daily_return'] = df_merged['Close'].pct_change()
df_merged.head()

In [None]:
# 1. Correlaci√≥n num√©rica
correlation = df_merged[['engagement_score', 'daily_return']].corr()
print(correlation)

In [None]:
# 2. Gr√°fico de dispersi√≥n (scatter plot)
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_merged, x='engagement_score', y='daily_return')
plt.title('Correlaci√≥n entre engagement_score de tweets de Elon Musk y retorno diario de DOGE')
plt.xlabel('engagement_score tweets')
plt.ylabel('Retorno diario (%)')
plt.axhline(0, color='gray', linestyle='--')
plt.grid(True)
plt.show()

In [None]:
# 3. Gr√°fico combinado en el tiempo
import matplotlib.pyplot as plt
import numpy as np

# Copia del dataframe para no modificar el original
df_plot = df_merged.copy()

# Media m√≥vil de 7 d√≠as para suavizar el engagement
df_plot['engagement_rolling'] = df_plot['engagement_score'].rolling(7).mean()

# Crear figura y ejes
fig, ax1 = plt.subplots(figsize=(14, 7))

# --- Eje 1: Precio de cierre ---
ax1.plot(df_plot['Date'], df_plot['Close'], color='#1f77b4', linewidth=2, label='Precio de cierre')
ax1.set_ylabel('Precio de acci√≥n (USD)', color='#1f77b4', fontsize=12)
ax1.tick_params(axis='y', labelcolor='#1f77b4')
ax1.grid(axis='x', linestyle='--', alpha=0.3)

# --- Eje 2: Engagement ---
ax2 = ax1.twinx()

# L√≠nea de engagement diario m√°s visible
ax2.plot(df_plot['Date'], df_plot['engagement_score'],
         color='red', linewidth=1.5, alpha=0.3, label='Engagement')

# L√≠nea de media m√≥vil discontinua
ax2.plot(df_plot['Date'], df_plot['engagement_rolling'],
         color='#ff7f0e', linestyle='--', linewidth=2.5, label='Engagement (media m√≥vil 7 d√≠as)')

ax2.set_ylabel('Engagement score', color='red', fontsize=12)
ax2.tick_params(axis='y', labelcolor='red')

# --- T√≠tulo y est√©tica ---
plt.title('Evoluci√≥n del precio de Dogecoin vs engagement de tweets de Elon Musk relacionados con la criptomoneda',
          fontsize=16, fontweight='bold', pad=20)

fig.tight_layout()

# Leyendas combinadas
lines_labels = [ax.get_legend_handles_labels() for ax in [ax1, ax2]]
lines, labels = [sum(lol, []) for lol in zip(*lines_labels)]
ax1.legend(lines, labels, loc='upper center', frameon=True, fontsize=11, facecolor='white', edgecolor='gray')

plt.show()

In [None]:
# 4. Agrupaci√≥n semanal para mostrar c√≥mo evoluciona el engagement semanal frente al precio semanal

# Agrupar semanalmente promediando valores num√©ricos
df_weekly = df_merged.set_index('Date').resample('W').mean(numeric_only=True).reset_index()

# Calcular correlaci√≥n semanal
correlacion_semanal = df_weekly[['engagement_score', 'daily_return']].corr().iloc[0, 1]
print(f"üìÖ Correlaci√≥n semanal entre engagement y retorno: {correlacion_semanal:.4f}")

In [None]:
# 5. Vamos a comprobar si el engagement de la semana anterior predice el retorno de la semana actual.
# Esto es muy √∫til para evaluar si el engagement anticipa movimientos de precio.
# Para ello aplicamos un desfase (lag).

# Crear una nueva columna con el engagement de la semana anterior
df_weekly['engagement_lag1'] = df_weekly['engagement_score'].shift(1)

# Calcular correlaci√≥n entre engagement lag y retorno actual
correlacion_lag1 = df_weekly[['engagement_lag1', 'daily_return']].corr().iloc[0, 1]
print(f"üìä Correlaci√≥n con desfase 1 semana: {correlacion_lag1:.4f}")

In [None]:
# 6. Calcular variaci√≥n de precio (d√≠a siguiente)
df_merged['next_day_price'] = df_merged['Close'].shift(-1)
df_merged['price_change'] = df_merged['next_day_price'] - df_merged['Close']

# Correlaci√≥n
corr = df_merged[['engagement_score', 'price_change']].corr()
print(corr)

In [None]:
# 7. Calcular variaci√≥n de precio a 2 d√≠as despu√©s
df_merged['price_change_2d'] = df_merged['Close'].shift(-2) - df_merged['Close']
print(df_merged[['engagement_score', 'price_change_2d']].corr())

In [None]:
# 8. A veces, tweets con mucho engagement aumentan la volatilidad, no necesariamente la direcci√≥n:
df = df_merged.copy()

# Asegurar orden temporal
df = df.sort_values("Date").reset_index(drop=True)

# Volatilidad: rango intrad√≠a (High-Low) / Close
df["volatility"] = (df["High"] - df["Low"]) / df["Close"]

# Seleccionar columnas de inter√©s para el c√°lculo de la correlaci√≥n
corr_df = df[['engagement_score', 'volatility', 'Volume']]

# Correlaci√≥n de Pearson
corr_matrix = corr_df.corr()
print(corr_matrix)