Martín Camilo Rodríguez Murcia  martin241514@gmail.com


# **Entendimiento del Negocio**
---

### **1.1. Trasfondo del Negocio**

#**¿Quién es el cliente o los beneficiarios del proyecto? ¿En qué dominio se encuentran (marketing, medicina, entre otros)?**

   El proyecto está orientado hacia el **sector financiero**, y los principales beneficiarios serían empresas que operan en este campo. Entre estos se incluyen **instituciones financieras**, como bancos, firmas de inversión, gestores de activos y corredores de bolsa, que dependen del análisis de información de redes sociales para tomar decisiones informadas en tiempo real. También se benefician **analistas de mercado**, quienes monitorean las opiniones y el sentimiento general del público y de expertos sobre eventos económicos y movimientos de acciones.

   Además, **plataformas de noticias financieras** o **agencias de inteligencia de mercado** podrían utilizar los resultados del proyecto para mejorar sus servicios de análisis y ofrecer reportes más detallados sobre el sentimiento que se percibe en torno a ciertos eventos o activos financieros. Finalmente, **empresas de tecnología** que desarrollan productos o servicios relacionados con el procesamiento de lenguaje natural (NLP) en el dominio financiero serían otros beneficiarios, ya que este proyecto podría mejorar su capacidad de ofrecer soluciones avanzadas de análisis.

#**¿Qué problemas del negocio o del dominio estamos tratando de solucionar?**

   En el contexto financiero, uno de los grandes desafíos es la **interpretación de datos no estructurados**, como los que se encuentran en redes sociales, específicamente en tweets. Los tweets son una fuente rica de información, pero suelen ser cortos, ambiguos, a menudo contienen jerga o referencias internas, y es difícil analizar el tono y el sentimiento que subyace en ellos. En particular, este proyecto busca abordar el problema de **clasificación y análisis de sentimientos** en torno a tweets financieros, donde los mercados pueden verse afectados por el sentimiento público en redes sociales.

   El objetivo es **clasificar los tweets financieros no solo por su contenido, sino también por el tipo de sentimiento (positivo, negativo, neutral)** que expresan sobre temas o eventos económicos específicos. Esto es fundamental para ayudar a los **inversores y analistas de mercados** a **identificar tendencias tempranas** y anticiparse a posibles movimientos en el mercado basados en la percepción y el estado de ánimo de los actores del mercado. En otras palabras, este proyecto pretende mejorar la capacidad de las organizaciones financieras para **entender el estado del mercado en tiempo real**, usando redes sociales como fuente de información relevante, permitiendo una **toma de decisiones más informada** y reduciendo el riesgo asociado a interpretaciones incorrectas del sentimiento del mercado.

### **1.2. Alcance**


#**¿Qué solución de procesamiento de lenguaje natural tratamos de implementar?**

   Estamos implementando una solución de **análisis de sentimientos** y **clasificación de texto** en el contexto de tweets financieros. Utilizaremos modelos de procesamiento de lenguaje natural (NLP) para identificar, analizar y categorizar automáticamente el sentimiento detrás de cada tweet relacionado con temas financieros. El objetivo principal es que, dado un conjunto de tweets, la solución pueda **clasificar cada uno en términos de sentimientos** (positivo, negativo o neutral), y posiblemente en subcategorías relacionadas con tipos de eventos financieros, tales como ganancias, crisis o fluctuaciones de mercado.

   Para lograr esto, se entrenarán modelos con dos datasets: uno especializado en **análisis de sentimientos** en tweets y otro en la **clasificación de tweets financieros**. La solución combinará técnicas de NLP como **modelos preentrenados** (como BERT o RoBERTa) y algoritmos de aprendizaje supervisado para clasificar y extraer el sentimiento predominante en tiempo real. Esto proporcionará una herramienta precisa y adaptable para interpretar el tono general de las discusiones financieras en las redes sociales.

#**¿Qué se hará?**

   El proyecto consistirá en las siguientes fases:

   - **Preprocesamiento de datos**: Limpieza y normalización de los datasets para garantizar que los modelos puedan procesar de manera eficiente los tweets, lo que incluirá la eliminación de ruido como menciones, hashtags irrelevantes y enlaces.

   - **Entrenamiento del modelo**: Entrenar y ajustar los modelos de procesamiento de lenguaje natural con los datasets mencionados, para que puedan aprender a distinguir no solo el contenido financiero, sino también el tono emocional detrás de cada tweet.

   - **Clasificación de tweets financieros**: Utilizar el dataset de clasificación de tweets financieros para categorizar cada tweet en función de su temática o evento financiero relevante.

   - **Análisis de sentimientos**: Implementar modelos de análisis de sentimientos para identificar si el sentimiento detrás de cada tweet es positivo, negativo o neutral, generando un resultado final que clasifique tanto el contenido financiero como el sentimiento subyacente.

   - **Validación y pruebas**: Validar la precisión de los modelos y realizar ajustes con base en los resultados para asegurar que el producto final sea robusto y confiable.


#**¿De qué forma el cliente o beneficiario utilizará el producto del proyecto?**

   El entregable será un **colaboratory** que incluirá un análisis de sentimientos detallado para cada categoría de tweets dentro de la base de datos de tweets financieros. Además, se proporcionará un **modelo preentrenado** que permitirá a los usuarios analizar el sentimiento de **tweets externos** o nuevos tweets que no estén en la base de datos, simplemente ingresando el texto en la herramienta.

   Los beneficiarios podrán usar este colaboratory para:

   - **Realizar análisis de sentimiento personalizado**: Podrán ingresar tweets específicos o textos financieros para obtener un análisis de sentimientos en tiempo real, lo que les ayudará a evaluar rápidamente el tono de las conversaciones sobre un tema financiero particular.
   
   - **Obtener insights detallados por categoría**: A través del análisis categorizado de los tweets financieros, los usuarios podrán identificar cómo se distribuye el sentimiento dentro de diferentes categorías.

   - **Automatizar el monitoreo del sentimiento del mercado**: Esta herramienta también podría servir como base para desarrollar soluciones más avanzadas que monitoreen continuamente las conversaciones en redes sociales, ofreciendo análisis automáticos basados en los datos más recientes del mercado.



# Entendimiento y Preparación del Corpus
---


## **1. Análisis Exploratorio de los Textos**


### **1.1. Resumen General de los Textos**

- ¿Cuántos documentos tiene el corpus?
- ¿En qué idioma se encuentran?
- ¿Qué tamaño en MB tiene el corpus?
- ¿Hay alguna relación entre distintos documentos del corpus?

In [None]:
!pip install kaggle
!pip install datasets ## Es la librería de Hugging Face

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Descargar el dataset de "Twitter Financial News" desde Kaggle y extraerlo
!kaggle datasets download sulphatet/twitter-financial-news --unzip

In [None]:
# Importar Pandas y cargar el dataset en un DataFrame
import pandas as pd

# Cargar el dataset en un DataFrame (ajusta el nombre del archivo CSV si es necesario)
df = pd.read_csv('valid_data.csv')

# Mostrar las primeras filas del DataFrame
df.head()

# Cargar el dataset en un DataFrame (ajusta el nombre del archivo CSV si es necesario)
df = pd.read_csv('train_data.csv')

# Mostrar las primeras filas del DataFrame
df.head()

In [None]:
from datasets import load_dataset
dataset = load_dataset("cardiffnlp/tweet_eval", "emotion")

In [None]:
df_train = dataset['train'].to_pandas()
df_train.head()
df_test = dataset['validation'].to_pandas()
df_test.head()

In [None]:
# Importar Pandas y cargar el dataset en un DataFrame
import pandas as pd

# Cargar los datasets de validación y entrenamiento
df_valid_data = pd.read_csv('valid_data.csv')
df_train_data = pd.read_csv('train_data.csv')

# Cargar el dataset de Huggingface (TweetEval)
from datasets import load_dataset
dataset = load_dataset("cardiffnlp/tweet_eval", "sentiment")

# Convertir en DataFrames de pandas
df_train_hugginface = dataset['train'].to_pandas()
df_test_hugginface = dataset['validation'].to_pandas()

# List of dataframes to analyze
dfs = [df_valid_data, df_train_data, df_train_hugginface, df_test_hugginface]

¿Cuántos documentos tiene el corpus?

In [None]:
for i, df in enumerate(dfs, 1):
    print(f"DataFrame {i} tiene {len(df)} documentos.")


¿En qué idioma se encuentran?
Puedes hacer una detección simple de idioma utilizando la librería langdetect o langid, pero generalmente, los datasets de noticias financieras y de Twitter suelen estar en inglés. Podemos hacer una prueba rápida:

In [None]:
!pip install langdetect
from langdetect import detect

def detect_languages(df, text_column):
    # Detect the language of a few sample rows
    sample_texts = df[text_column].sample(5, random_state=1)
    languages = [detect(text) for text in sample_texts]
    print(f"Idiomas detectados en el DataFrame: {set(languages)}")

# Asumiendo que las columnas de texto varían por dataset, se puede adaptar
detect_languages(df_valid_data, 'text')  # Cambia 'text' por el nombre de la columna que contenga texto
detect_languages(df_train_data, 'text')
detect_languages(df_train_hugginface, 'text')
detect_languages(df_test_hugginface, 'text')


¿Qué tamaño en MB tiene el corpus?
Para obtener el tamaño del archivo en MB:

In [None]:
def get_dataframe_size(df):
    # Calcular el tamaño en MB de un DataFrame
    size_mb = df.memory_usage(deep=True).sum() / (1024 * 1024)
    return round(size_mb, 2)

# Imprimir el tamaño en MB de cada DataFrame
print(f"df_valid_data tiene un tamaño de {get_dataframe_size(df_valid_data)} MB.")
print(f"df_train_data tiene un tamaño de {get_dataframe_size(df_train_data)} MB.")
print(f"df_train_hugginface tiene un tamaño de {get_dataframe_size(df_train_hugginface)} MB.")
print(f"df_test_hugginface tiene un tamaño de {get_dataframe_size(df_test_hugginface)} MB.")



¿Hay alguna relación entre distintos documentos del corpus?
Esto depende del tipo de análisis que quieras hacer. Si deseas ver relaciones basadas en contenido, podrías hacer análisis de similitud textual, pero para empezar, podríamos ver si hay duplicados en los datasets.

In [None]:
for i, df in enumerate(dfs, 1):
    print(f"DataFrame {i} tiene {df.duplicated().sum()} documentos duplicados.")


### **1.2. Resumen de la Calidad de los Textos**

- ¿Hay datos faltantes o documentos vacíos?
- ¿Existen documentos ilegibles o con problemas de codificación?
- ¿Hay mezcla de idiomas en el corpus?, ¿qué se puede hacer al respecto?

¿Hay datos faltantes o documentos vacíos?
Para verificar si hay valores faltantes o documentos vacíos:

In [None]:
for i, df in enumerate(dfs, 1):
    print(f"DataFrame {i} tiene {df.isnull().sum().sum()} valores faltantes.")


¿Existen documentos ilegibles o con problemas de codificación?
Una forma de verificar problemas de codificación es intentar decodificar todo el corpus. Si hay caracteres extraños, podemos detectarlo revisando si hay caracteres no ASCII:

In [None]:
def check_encoding_issues(df, text_column):
    issues = df[text_column].apply(lambda x: not all(ord(char) < 128 for char in str(x)))
    print(f"Documentos con problemas de codificación: {issues.sum()}")

check_encoding_issues(df_valid_data, 'text')
check_encoding_issues(df_train_data, 'text')
check_encoding_issues(df_train_hugginface, 'text')
check_encoding_issues(df_test_hugginface, 'text')


¿Hay mezcla de idiomas en el corpus? ¿Qué se puede hacer al respecto?
La mezcla de idiomas puede detectarse usando el código de detección de idiomas previamente mencionado. Si detectamos una mezcla, podríamos filtrar los documentos que no están en el idioma deseado (por ejemplo, inglés), sin embargo todo el documento está en el mismo idioma así que no será problema

### **1.3. Tipos de variables**
---

- ¿El corpus tiene una variable objetivo a estimar?, de ser así, ¿es una variable continúa o categórica?
- Analice la distribución de las etiquetas, identifique si hay desbalanceo de datos.
- Analice los documentos, y determine cuál es la distribución de la longitud de los documentos a nivel carácter o palabra.
- ¿El conjunto de datos cuenta con otras variables adicionales?, de ser así, debe analizar cuáles se incorporarán en el modelo y hacer un análisis descriptivo de las mismas.

¿El corpus tiene una variable objetivo a estimar?, de ser así, ¿es una variable continúa o categórica?

-	[Tweet eval de Hugging Face](https://huggingface.co/datasets/cardiffnlp/tweet_eval?row=23): Este dataset tiene como variable objetivo el sentimiento del Tweet (positivo, negativo o neutro) siendo una variable categórica ya que intenta clasificar cada tweet en una categoría específica de sentimiento.

-	[Twitter Financial News](https://www.kaggle.com/datasets/sulphatet/twitter-financial-news): En este dataset se tienene 2 variables objetivo, la primera es en la que está enfocada el proyecto que al igual que la anterior es el sentimiento del Tweet (positivo, negativo o neutro) que como fue mencionado es una variable de tipo categórico y por otro lado una variable propia del dataset que corresponde al área financiera a la que pertenece el tweet; esta variable es también de tipo categórico ya que busca clasificar el tweet en una de las siguientes categorías:
      0.	Analyst Update
      1.	Fed | Central Banks
      2.	Company | Produc News
      3.	Treasuries | Corporate Debt
      4.	Dividend
      5.	Earnings
      6.	Energy | Oil
      7.	Financials
      8.	Currencies
      9.	General News | Opinion
      10.	Gold | Metals | Materials
      11.	IPO
      12.	Legal | Regulation
      13.	M&A | Investments
      14.	Macro
      15.	Markets
      16.	Politics
      17.	Porsonnel Change
      18.	Stock Commentary
      19.	Stock Movement



Analice la distribución de las etiquetas, identifique si hay desbalanceo de datos. Para esta sección se utlizará el siguiente código:

In [None]:
labels1 = {
    0 : "Analyst Update",

    1: "Fed | Central Banks",

    2: "Company | Product News",

    3: "Treasuries | Corporate Debt",

    4: "Dividend",

    5: "Earnings",

    6: "Energy | Oil",

    7: "Financials",

    8: "Currencies",

    9: "General News | Opinion",

    10: "Gold | Metals | Materials",

    11: "IPO",

    12: "Legal | Regulation",

    13: "M&A | Investments",

    14: "Macro",

    15: "Markets",

    16: "Politics",

    17: "Personnel Change",

    18: "Stock Commentary",

    19: "Stock Movement"
    }

count_train_1 = df_train_data['label'].replace(labels1).value_counts().sort_index()
count_valid_1 = df_valid_data['label'].replace(labels1).value_counts().sort_index()

print("Distribución de etiquetas en el conjunto de entrenamiento:")
display(count_train_1)

print("\nDistribución de etiquetas en el conjunto de validación:")
display(count_valid_1)

In [None]:
import matplotlib.pyplot as plt
fig, axes = plt.subplots(1, 2, figsize=(12, 6))  # 1 fila, 2 columnas y tamaño de la figura

# Gráfico 1: Distribución del conjunto de entrenamiento
count_train_1.plot(kind='bar', ax=axes[0], color='skyblue', title='Distribución de etiquetas en el conjunto de entrenamiento')

# Gráfico 2: Distribución del conjunto de validación
count_valid_1.plot(kind='bar', ax=axes[1], color='lightgreen', title='Distribución de etiquetas en el conjunto de validación')

# Ajustar el espaciado entre los subplots
plt.tight_layout()

# Mostrar los gráficos
plt.show()


In [None]:
count_train_hf = df_train_hugginface['label'].replace({0: 'negativo', 1: 'neutro', 2: 'positivo'}).value_counts().sort_index()
count_test_hf = df_test_hugginface['label'].replace({0: 'negativo', 1: 'neutro', 2: 'positivo'}).value_counts().sort_index()
print("Distribución de etiquetas en el conjunto de entrenamiento:")
display(count_train_hf)

print("\nDistribución de etiquetas en el conjunto de pruebas:")
display(count_test_hf)


In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 6))  # 1 fila, 2 columnas y tamaño de la figura

# Gráfico 1: Distribución del conjunto de entrenamiento
count_train_hf.plot(kind='bar', ax=axes[0], color='skyblue', title='Distribución de etiquetas en el conjunto de entrenamiento')

# Gráfico 2: Distribución del conjunto de validación
count_test_hf.plot(kind='bar', ax=axes[1], color='lightgreen', title='Distribución de etiquetas en el conjunto de pruebas')

# Ajustar el espaciado entre los subplots
plt.tight_layout()

# Mostrar los gráficos
plt.show()


cómo se puede ver en los histogramas ambos datasets están claramente desbalanceados; sin embargo se mantiene la distribución entre los slices de pruebas y los de entrenamiento

Analice los documentos, y determine cuál es la distribución de la longitud de los documentos a nivel carácter o palabra.

In [None]:
def analyze_length(text):
    num_words = len(text.split(" "))
    return len(text), num_words


In [None]:
df_train_hugginface['length_characters'], df_train_hugginface['length_words'] = zip(*df_train_hugginface['text'].apply(analyze_length))
df_test_hugginface['length_characters'], df_test_hugginface['length_words'] = zip(*df_test_hugginface['text'].apply(analyze_length))
df_train_data['length_characters'], df_train_data['length_words'] = zip(*df_train_data['text'].apply(analyze_length))
df_valid_data['length_characters'], df_valid_data['length_words'] = zip(*df_valid_data['text'].apply(analyze_length))

In [None]:
# También puedes calcular la distribución con .describe() para obtener un resumen estadístico
print("\nDistribución de longitud de caracteres:")
print(df_train_hugginface['length_characters'].describe())

print("\nDistribución de longitud de palabras:")
print(df_train_hugginface['length_words'].describe())

In [None]:
# También puedes calcular la distribución con .describe() para obtener un resumen estadístico
print("\nDistribución de longitud de caracteres:")
print(df_test_hugginface['length_characters'].describe())

print("\nDistribución de longitud de palabras:")
print(df_test_hugginface['length_words'].describe())

In [None]:
# También puedes calcular la distribución con .describe() para obtener un resumen estadístico
print("\nDistribución de longitud de caracteres:")
print(df_train_data['length_characters'].describe())

print("\nDistribución de longitud de palabras:")
print(df_train_data['length_words'].describe())

In [None]:
# También puedes calcular la distribución con .describe() para obtener un resumen estadístico
print("\nDistribución de longitud de caracteres:")
print(df_valid_data['length_characters'].describe())

print("\nDistribución de longitud de palabras:")
print(df_valid_data['length_words'].describe())

¿El conjunto de datos cuenta con otras variables adicionales?, de ser así, debe analizar cuáles se incorporarán en el modelo y hacer un análisis descriptivo de las mismas. Para ambos datasets las otras variables que se tienen son las relacionadas con el texto, es decir las que son relacionadas a la tokenización del texto y el cálculo de los embeddings.


### **1.4. Relación Entre Variables**
---

- Analice si existe alguna relación entre las variables. Puede utilizar medidas de correlación o visualizaciones.
- Identifique si hay redundancia entre las variables para una posterior eliminación o selección.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
sns.boxplot(x='label', y='length_words', data=df_test_hugginface)
plt.title('Distribución de Longitud del Texto por Categoría en TweetEval')
plt.xlabel('Categoría')
plt.ylabel('Longitud del Texto')
plt.show()

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(x='label', y='length_words', data=df_train_hugginface)
plt.title('Distribución de Longitud del Texto por Categoría en TweetEval')
plt.xlabel('Categoría')
plt.ylabel('Longitud del Texto')
plt.show()

Para el dataset de hugging face se puede ver que la longitud del texto en palabras no tiene correlación con las categorías de clasificación, pero se puede ver un ligero aumento en la cantidad de palablas cuando se trata de un sentimiento negativo. Pero al ver que no es un dato significativo esta variable se va a descartar.

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(x='label', y='length_words', data=df_train_data)
plt.title('Distribución de Longitud del Texto por Categoría en TweetEval')
plt.xlabel('Categoría')
plt.ylabel('Longitud del Texto')
plt.show()

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(x='label', y='length_words', data=df_valid_data)
plt.title('Distribución de Longitud del Texto por Categoría en TweetEval')
plt.xlabel('Categoría')
plt.ylabel('Longitud del Texto')
plt.show()

Al igual que con le otro dataset, en este no existe una correlación entre la longitud de los tweets y la clase a la que pertenecen ya que los valores son muy disparejos y no muestran una distribución significativa. Esto tiene sentido por el tipo de clasificación que se hace a los textos que se relaciona directamente con su contenido e información y no sobre su tamaño o uso de palabras. Dado que los datasets solo contienen los textos y los labels de clasificación, se realizaron análisis únicamente sobre el tamaño de los testos, pero como se pudo observar no tienen una relación significativa.

## **2. Limpieza de los Textos**

La selección de las técnicas de preprocesamiento del corpus puede variar en cada conjunto de datos. Recuerde que puede aplicar (no necesariamente todas) las técnicas generales vistas en el curso, tales como:

- Tokenizacion
- Normalización de textos.
- Limpieza con expresiones regulares.
- Lematización.
- Filtrado de palabras.
- Modificaciones en la grafía.

In [None]:
!pip install kaggle
!pip install datasets ## Es la librería de Hugging Face

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
!mkdir -p ~/.kaggle
!cp /content/drive/MyDrive/LenguajeNatural/Entrega1/kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json


In [None]:
# Descargar el dataset de "Twitter Financial News" desde Kaggle y extraerlo
!kaggle datasets download sulphatet/twitter-financial-news --unzip

In [None]:
# Importar Pandas y cargar el dataset en un DataFrame
import pandas as pd

# Cargar el dataset en un DataFrame (ajusta el nombre del archivo CSV si es necesario)
valid_df = pd.read_csv('valid_data.csv')

# Mostrar las primeras filas del DataFrame
valid_df.head()

In [None]:
# Cargar el dataset en un DataFrame (ajusta el nombre del archivo CSV si es necesario)
train_df = pd.read_csv('train_data.csv')

# Mostrar las primeras filas del DataFrame
train_df.head()

In [None]:
### FUNCION DE PREPROCESAMIENTO

def prepro(df, nlp):
  # Primero separaremos el corpus (text) de los labels:
  corpus = df["text"]
  label = df["label"]
  # Ahora vamos a eliminar enlaces, menciones, hashtags, puntuacion y espacios duplicados:
  corpus = corpus.apply(lambda x: re.sub(r"http\S+", "", x))
  corpus = corpus.apply(lambda x: re.sub(r"@\w+|#\w+", "", x))
  corpus = corpus.apply(lambda x: re.sub(r"[^\w\s]", "", x))
  corpus = corpus.apply(lambda x: re.sub(r"\s{2,}", "", x))
  # Pasamos todo a minusculas y normalizamos
  corpus = corpus.apply(unidecode).str.lower()
  # eliminacion de stopwords
  nostop = corpus.apply(lambda x: list(filter(lambda token: not token.is_stop, nlp(x))))
  # lematizamos
  lema = nostop.apply(lambda x: [token.lemma_ for token in x])
  # volvemos a unir cada documento
  clean = lema.apply(lambda x: ' '.join(x))
  # creamos el dataframe con los datos limpios:
  df_clean = pd.DataFrame()

  df_clean["text"] = clean
  df_clean["label"] = label

  return df_clean

In [None]:
import re
!pip install unidecode
from unidecode import unidecode
import spacy
spacy.cli.download("en_core_web_sm") # pipeline para inglés
nlp = spacy.load('en_core_web_sm')

In [None]:
train_df_clean = prepro(train_df, nlp)

In [None]:
valid_df_clean = prepro(valid_df, nlp)

In [None]:
# guardamos
train_df_clean.to_csv('train_df_clean.csv', index=False)
valid_df_clean.to_csv('valid_df_clean.csv', index=False)

In [None]:
## ahora para la base de datos de hugging face

In [None]:
from datasets import load_dataset

In [None]:
#Se descarga el dataset de hugging face
dataset = load_dataset("cardiffnlp/tweet_eval", "emotion")

In [None]:
hugging_train = dataset['train'].to_pandas()
hugging_train.head()

In [None]:
hugging_test = dataset['validation'].to_pandas()
hugging_test.head()

In [None]:
hugging_train_clean = prepro(hugging_train, nlp)

In [None]:
hugging_test_clean = prepro(hugging_test, nlp)

In [None]:
# guardamos
hugging_train_clean.to_csv('hugging_train_clean.csv', index=False)
hugging_test_clean.to_csv('hugging_test_clean.csv', index=False)

In [None]:
hugging_test_clean.head()

## **1. Selección del Embedding**

Seleccione el tipo de **embedding** que considere más apropiado para su problema. Recuerde las siguientes consideraciones:

- **Bolsas de palabras**: son útiles para representar documentos completos. Funcionan bien con corpus pequeños (<10000 documentos).
- **TF-IDF**: permite obtener una representación ponderada de documentos completos; es una alternativa a las bolsas de palabras.
- **Bolsas de N-grams**: a nivel de carácter son útiles para representar palabras o segmentos cortos de texto, funcionan bien con corpus pequeños (<10000 documentos).
- **Word2Vec**: permite representar palabras de forma semántica, requiere corpus grandes para un buen resultado (>10000 documentos).
- **FastText**: permite representar palabras o segmentos cortos de texto, funcionan bien con corpus grandes (>10000 documentos). Es una alternativa a word2vec que puede representar palabras fuera del vocabulario.
- **Doc2Vec**: permite representar documentos completos de forma semántica. Funciona bien con corpus grandes (>10000 documentos).

Justifique la selección del embedding:

#Selección del Embedding: Word2Vec
La selección de Word2Vec como tipo de embedding para el análisis de sentimientos en tuits financieros está basada en varias consideraciones que lo hacen adecuado para este tipo de tarea:

##Captura del Significado Semántico:

Word2Vec es particularmente efectivo para capturar las relaciones semánticas y sintácticas entre palabras en un corpus específico. Dado que el corpus con el que estamos trabajando está compuesto exclusivamente por tuits financieros, es crucial que el embedding pueda aprender y reflejar el contexto financiero particular en el que se usan las palabras. Esto permitirá que palabras como “ganancia”, “pérdida”, “acciones” y “mercado” tengan una representación precisa en función de su uso dentro del contexto financiero, en lugar de un uso general.
Además, Word2Vec utiliza dos arquitecturas clave (CBOW y Skip-gram), que son particularmente útiles para capturar el contexto de las palabras en oraciones cortas, como los tuits, asegurando que el embedding refleje correctamente las relaciones de las palabras dentro del lenguaje financiero.
Adecuado para Corpus Grande:

Contamos con una base de datos suficientemente grande de más de 10,000 documentos. Word2Vec es un modelo que muestra su mayor eficacia cuando se aplica a corpus grandes, ya que puede aprender mejor las relaciones semánticas en el contexto. Modelos como Word2Vec tienden a ser más precisos a medida que la cantidad de datos crece, lo que hace que sea la elección óptima para nuestro proyecto. Dado que nuestra base de datos es lo suficientemente extensa, podemos aprovechar al máximo el potencial de Word2Vec para generar embeddings ricos y detallados.
##Rendimiento Computacional:

Word2Vec es conocido por su eficiencia computacional en comparación con otros métodos más avanzados como Doc2Vec. La estructura más simple de Word2Vec permite que el entrenamiento y la inferencia sean más rápidos y menos demandantes en cuanto a recursos computacionales. Esto es especialmente útil cuando se trabaja con corpus grandes como el nuestro, donde se necesita un balance entre la precisión semántica y la eficiencia del modelo.
Al ser más rápido, Word2Vec facilita la experimentación iterativa, permitiendo ajustes y entrenamientos frecuentes sin requerir largos tiempos de espera, lo cual es beneficioso para el desarrollo ágil del proyecto.
##Transferencia de Conocimiento:

Word2Vec puede aprovechar embeddings preentrenados, lo que significa que, en caso de que existan embeddings preentrenados en contextos financieros, podríamos utilizar estos vectores iniciales y ajustarlos con nuestro corpus específico de tuits financieros. Esto permite que el modelo empiece con un conocimiento sólido del lenguaje general y lo refine según las particularidades del dominio financiero, acelerando el entrenamiento y mejorando la calidad de los embeddings finales.
##Capacidad de Explicar Relación de Palabras:

Uno de los aspectos más valiosos de Word2Vec es su capacidad para explicar relaciones semánticas entre palabras a través de operaciones vectoriales. Por ejemplo, en el dominio financiero, podríamos explorar analogías como: “acciones” está relacionado con “mercado” de la misma manera que “bonos” está relacionado con “renta fija”. Esta capacidad de manipulación y análisis semántico profundo es clave en la comprensión de los sentimientos en el mercado financiero, ya que permite medir de manera efectiva las correlaciones entre términos clave.

## **2. Implementación del Embedding**
---

Implemente la estrategia de embedding a partir del conjunto de datos pre-procesado. Recuerde que:

- `sklearn`: permite implementar bolsas de palabras, TF-IDF y bolsas de N-grams a partir del módulo `sklearn.feature_extraction.text`.
- `gensim`: permite implementar word2vec, fasttext y doc2vec desde `gensim.models`.
- `spacy`: permite representar textos con embeddings pre-entrenados con el atributo `vector`.

In [None]:
!pip install gensim

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
base_path = '/content/drive/MyDrive/LenguajeNatural/Entrega2/bases_preprocesadas/'

train_df = pd.read_csv(base_path + 'train_df_clean.csv')
valid_df = pd.read_csv(base_path + 'valid_df_clean.csv')
hugging_train_df = pd.read_csv(base_path + 'hugging_train_clean.csv')
hugging_test_df = pd.read_csv(base_path + 'hugging_test_clean.csv')

In [None]:
train_text = train_df.text.apply(lambda x: str(x).split(' '))
valid_text = valid_df.text.apply(lambda x: str(x).split(' '))
hugging_train_text = hugging_train_df.text.apply(lambda x: str(x).split(' '))
hugging_test_text = hugging_test_df.text.apply(lambda x: str(x).split(' '))

full_texts = pd.concat([train_text, valid_text, hugging_train_text, hugging_test_text])

In [None]:
import gensim
from gensim.models import Word2Vec
model = Word2Vec(sentences=full_texts, vector_size=100, window=5, min_count=1, workers=4)
model.train(full_texts, total_examples=len(full_texts), epochs=50)

In [None]:
word_vector = model.wv['netflix']
similar_words = model.wv.most_similar('netflix')

In [None]:
print(similar_words)

## **3. Exploración del Embedding**
---

Puede explorar la representación obtenida por medio de distintas técnicas de visualización o métricas:

- **Análisis de Correlaciones**: si tiene una variable objetivo, puede evaluar correlaciones entre los embeddings y dicha variable.
- **Nubes de palabras**: puede utilizar gráficos de tipo `wordcloud` para visualizar representaciones basadas en conteos
- **Distribuciones**: puede calcular histogramas o gráficos de densidad para mostrar la distribución de embeddings semánticos.

 Este código genera una nube de palabras basada en las palabras más similares a una palabra clave, en este caso 'netflix'. Utiliza las frecuencias de similitud (las puntuaciones de similitud generadas por el modelo Word2Vec) para determinar el tamaño relativo de cada palabra en la nube. Las palabras más similares aparecerán más grandes en la nube de palabras.

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

def plot_wordcloud(similar_words):
    wordcloud = WordCloud(background_color='white', width=800, height=400)

    # Convertir las palabras y sus similitudes en un diccionario
    word_freq = {word: sim for word, sim in similar_words}

    # Generar la nube de palabras
    wordcloud.generate_from_frequencies(word_freq)

    # Mostrar la nube de palabras
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

# Obtener las palabras similares a 'netflix'
similar_words = model.wv.most_similar('netflix')

# Graficar la nube de palabras
plot_wordcloud(similar_words)


Este código visualiza las palabras más similares a 'netflix' utilizando PCA (Análisis de Componentes Principales), una técnica de reducción de dimensionalidad que toma los vectores de palabras y los proyecta en un espacio bidimensional. Cada punto en el gráfico representa una palabra, y las posiciones reflejan la similitud entre los vectores de las palabras.

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

def plot_pca_words(model, word, top_n=10):
    # Obtener las palabras similares
    similar_words = model.wv.most_similar(word, topn=top_n)
    words = [word] + [w[0] for w in similar_words]

    # Obtener los vectores de las palabras
    word_vectors = [model.wv[w] for w in words]

    # Aplicar PCA para reducir a 2 dimensiones
    pca = PCA(n_components=2)
    pca_result = pca.fit_transform(word_vectors)

    # Graficar
    plt.figure(figsize=(10, 5))
    plt.scatter(pca_result[:, 0], pca_result[:, 1])

    for i, w in enumerate(words):
        plt.annotate(w, (pca_result[i, 0], pca_result[i, 1]))

    plt.title(f"PCA de las palabras más similares a '{word}'")
    plt.show()

# Visualizar las palabras similares a 'netflix'
plot_pca_words(model, 'netflix', top_n=10)


Este código utiliza t-SNE (Stochastic Neighbor Embedding), otra técnica de reducción de dimensionalidad, para visualizar las palabras más similares a 'netflix'. Al igual que el PCA, el objetivo de t-SNE es proyectar los vectores en un espacio bidimensional, pero t-SNE es especialmente útil para preservar las relaciones locales entre los datos, es decir, la proximidad entre las palabras similares.

In [None]:
from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt

def plot_tsne_words(model, word, top_n=10):
    # Obtener las palabras similares
    similar_words = model.wv.most_similar(word, topn=top_n)
    words = [word] + [w[0] for w in similar_words]

    # Obtener los vectores de las palabras
    word_vectors = np.array([model.wv[w] for w in words])  # Convertir a un array de numpy

    # Ajustar la perplexity para que sea menor que el número de muestras
    tsne = TSNE(n_components=2, random_state=42, perplexity=min(5, len(words)-1))
    tsne_result = tsne.fit_transform(word_vectors)

    # Graficar
    plt.figure(figsize=(10, 5))
    plt.scatter(tsne_result[:, 0], tsne_result[:, 1])

    for i, w in enumerate(words):
        plt.annotate(w, (tsne_result[i, 0], tsne_result[i, 1]))

    plt.title(f"t-SNE de las palabras más similares a '{word}'")
    plt.show()

# Visualizar las palabras similares a 'netflix'
plot_tsne_words(model, 'netflix', top_n=10)




Este código calcula las distancias coseno entre la palabra 'netflix' y sus 10 palabras más similares. Luego, muestra un histograma de la distribución de estas distancias. La distancia coseno mide cuán similares son dos vectores, donde un valor de 0 indica vectores muy similares (idénticos), y un valor de 1 indica vectores completamente diferentes.

In [None]:
from scipy.spatial.distance import cosine
import numpy as np
import matplotlib.pyplot as plt

def plot_cosine_similarity_distribution(model, word, top_n=10):
    # Obtener las palabras similares
    similar_words = model.wv.most_similar(word, topn=top_n)
    words = [w[0] for w in similar_words]

    # Obtener el vector de la palabra principal
    word_vector = model.wv[word]

    # Calcular las distancias coseno
    cosine_distances = [cosine(word_vector, model.wv[w]) for w in words]

    # Graficar el histograma
    plt.figure(figsize=(10, 5))
    plt.hist(cosine_distances, bins=10, color='skyblue', edgecolor='black')
    plt.title(f"Distribución de distancias coseno de '{word}' con palabras similares")
    plt.xlabel("Distancia coseno")
    plt.ylabel("Frecuencia")
    plt.show()

# Visualizar la distribución de distancias coseno
plot_cosine_similarity_distribution(model, 'netflix', top_n=10)


Este código extiende la funcionalidad de t-SNE para visualizar las palabras similares de múltiples términos (en este caso 'netflix', 'hulu', y 'amazon'). Se obtienen las palabras similares para cada término, y luego se aplican las técnicas de reducción de dimensionalidad para visualizar todas las relaciones en el mismo gráfico.

In [None]:
from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt

def plot_tsne_multiple_words(model, words, top_n=10):
    all_words = []
    word_vectors = []

    # Obtener las palabras similares para cada término
    for word in words:
        similar_words = model.wv.most_similar(word, topn=top_n)
        words_similar = [w[0] for w in similar_words]
        all_words.extend([word] + words_similar)
        word_vectors.extend([model.wv[word]] + [model.wv[w] for w in words_similar])

    # Convertir la lista de vectores a un numpy array
    word_vectors = np.array(word_vectors)

    # Ajustar la perplexity para t-SNE (debe ser menor que el número de muestras)
    tsne = TSNE(n_components=2, random_state=42, perplexity=min(5, len(all_words)-1))
    tsne_result = tsne.fit_transform(word_vectors)

    # Graficar
    plt.figure(figsize=(10, 5))
    plt.scatter(tsne_result[:, 0], tsne_result[:, 1])

    for i, w in enumerate(all_words):
        plt.annotate(w, (tsne_result[i, 0], tsne_result[i, 1]))

    plt.title(f"t-SNE de las palabras más similares a {', '.join(words)}")
    plt.show()

# Visualizar la relación de múltiples palabras
plot_tsne_multiple_words(model, ['netflix', 'hulu', 'amazon'], top_n=5)




# Modelamiento y Evaluación
---

## **1. Tipo de Modelamiento**


Para el  proyecto vamos a utilizar un modelo de clasificación. El objetivo que tenemos es categorizar un conjunto de tweets según la emoción que representa e identifica a cada uno. Adicionalmente en nuestro dataset tenemos los datos ya con las respectivas etiquetas de emoción de modo que usaremos esta información en un modelo supervisado.

## **2. Implementación del modelo**

A continuación encuentra los pasos que puede seguir para la implementación de un modelo:

In [None]:
!pip install gensim

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
base_path = '/content/drive/MyDrive/LenguajeNatural/Entrega2/bases_preprocesadas/'

train_df = pd.read_csv(base_path + 'train_df_clean.csv')
valid_df = pd.read_csv(base_path + 'valid_df_clean.csv')
hugging_train_df = pd.read_csv(base_path + 'hugging_train_clean.csv')
hugging_test_df = pd.read_csv(base_path + 'hugging_test_clean.csv')

In [None]:
### dejamos una sola base de datos para los tuits financieros y otra para la base de hugging face

financial = pd.concat([train_df, valid_df])
hugging = pd.concat([hugging_train_df, hugging_test_df])

In [None]:
## entrenamos word2vect con la base de hugging

hugging_text = hugging.text.apply(lambda x: str(x).split(' '))

import gensim
from gensim.models import Word2Vec

model = Word2Vec(sentences=hugging_text, vector_size=100, window=5, min_count=1, workers=4)

In [None]:
### funcion para vectorizar los tuits de ambas bases de datos

import numpy as np

def vector_tuits(tweet, model):
    words = str(tweet).split()
    vectors = [model.wv[word] for word in words if word in model.wv]
    return np.mean(vectors, axis=0) if vectors else np.zeros(100)

In [None]:
## y vectorizamos

X_train = np.array([vector_tuits(tweet, model) for tweet in hugging['text']])
X_test = np.array([vector_tuits(tweet, model) for tweet in financial['text']])
y_train = hugging['label']

### **2.1. Importar Modelo**

Seleccione la librería de NLP que utilizará para el modelo e impórtelo:

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV

### **2.2. Entrenamiento del Modelo y Selección de Hiperparámetros**

Si está utilizando un modelo que requiere entrenamiento, deberá entrenarlo y seleccionar un conjunto de hiperparámetros válido para el mismo:

In [None]:

from scipy.stats import randint

### definimos el modelos base

base = RandomForestClassifier(random_state=42)

### espacio de busqueda de hiperparametros

parame = {
    'n_estimators': randint(100, 500),
    'max_depth': randint(10, 50),
    'min_samples_split': randint(2, 11),
    'min_samples_leaf': randint(1, 5),
    'bootstrap': [True, False]
}

## random search

random_search = RandomizedSearchCV(estimator=base, param_distributions=parame,
                                   n_iter=25, cv=2, n_jobs=-1, verbose=2, scoring='accuracy', random_state=42)

random_search.fit(X_train, y_train)

In [None]:
### los mejores parametros son:

print(random_search.best_params_)

In [None]:
## el mejor puntaje en validacion cruzada es

print(random_search.best_score_)

In [None]:
## ajustamos el modelo con los mejores hiperparametros

model_final = random_search.best_estimator_

## **3. Evaluación o Aplicación del modelo**
---


In [None]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, roc_auc_score
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Larger and balanced test set
X_test_extended = [
    # Negative sentiments
    "The economy is suffering and stocks are falling.",
    "Inflation has reached historic levels.",
    "The investment climate is pessimistic, many are selling.",
    "Retail sales have declined, which is concerning.",
    "Cryptocurrencies are losing value rapidly.",
    "Concerns about debt are affecting the market.",
    "Interest rates could rise soon.",
    "Recent economic data is worrying.",
    "Geopolitical tensions are causing instability.",
    "Consumer expectations are negative.",
    # Add more negative examples...

    # Neutral sentiments
    "Interest rates are remaining stable.",
    "Economic reports are mixed and generate uncertainty.",
    "Companies are facing supply chain challenges.",
    "Regulatory changes are affecting the market.",
    "Weather conditions are impacting crops.",
    "Growth projections are uncertain.",
    "Public spending is increasing, but the reaction is varied.",
    "Employment data has shown slight improvements.",
    "Inflation expectations are high.",
    "Mergers and acquisitions are on the rise.",
    # Add more neutral examples...

    # Positive sentiments
    "The market is rising and investors are happy.",
    "Earnings reports exceeded expectations.",
    "Analysts are optimistic about the market's future.",
    "Sales have increased and optimism is growing.",
    "Technology stocks have performed well.",
    "Company dividends have risen.",
    "Sustainable initiatives are gaining traction.",
    "Economic growth is solid.",
    "Foreign investments are increasing.",
    "Consumers are spending more, which is positive.",
    # Add more positive examples...
]

# Corresponding labels (0 for negative, 1 for neutral, 2 for positive)
y_test_extended = [
    0, 0, 0, 0, 0, 0, 0, 0, 0, 0,  # negatives
    # Add more negative labels...

    1, 1, 1, 1, 1, 1, 1, 1, 1, 1,  # neutrals
    # Add more neutral labels...

    2, 2, 2, 2, 2, 2, 2, 2, 2, 2,  # positives
    # Add more positive labels...
]

# Create the DataFrame
test_df = pd.DataFrame({
    'text': X_test_extended,
    'label': y_test_extended
})

# Extract texts and labels from the test set
X_test = test_df['text']
y_test = test_df['label']

# Vectorize the test set using the already defined function
def vector_tweets(tweet, model):
    words = str(tweet).split()
    vectors = [model.wv[word] for word in words if word in model.wv]
    return np.mean(vectors, axis=0) if vectors else np.zeros(100)

# Vectorize the test set
X_test_vectorized = np.array([vector_tweets(tweet, model) for tweet in X_test])

# Make predictions
y_pred_numeric = model_final.predict(X_test_vectorized)

# Clipping of predictions to ensure they are within the expected range
y_pred_numeric = np.clip(y_pred_numeric, 0, 2)

# Check that the lengths match
print(f"Length of y_test: {len(y_test)}")
print(f"Length of y_pred: {len(y_pred_numeric)}")

# Calculate and display metrics
accuracy = accuracy_score(y_test, y_pred_numeric)
precision = precision_score(y_test, y_pred_numeric, average='weighted')
recall = recall_score(y_test, y_pred_numeric, average='weighted')
f1 = f1_score(y_test, y_pred_numeric, average='weighted')

print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1 Score: {f1:.4f}")

# Detailed classification report
print("\nClassification Report:")
print(classification_report(y_test, y_pred_numeric, target_names=['Negative', 'Neutral', 'Positive']))

# Visualization of the confusion matrix
cm = confusion_matrix(y_test, y_pred_numeric, labels=[0, 1, 2])
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Negative', 'Neutral', 'Positive'])
disp.plot(cmap=plt.cm.Blues)
plt.title("Confusion Matrix")
plt.show()


## **Créditos**

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*