In [1]:
import pandas as pd
import matplotlib.pyplot as plt

Este notebook está diseñado para **combinar y unificar dos archivos de posts con sus sentimientos generados por el LLM** (`posts_with_sentiment_cryptobert.csv` y `posts_news_with_sentiment_cryptobert.csv`) en un solo dataset.  
El flujo de trabajo es el siguiente:

1. **Carga ambos archivos CSV** desde la carpeta `pre_cleaning`.
2. **Concatena los DataFrames** en uno solo, unificando todos los posts.
3. **Convierte la columna de fechas** (`Created At`) al formato de fecha y hora en ambos archivos y en el DataFrame combinado.
4. **Muestra la cantidad de posts por año** en cada archivo y en el combinado para análisis exploratorio.
5. **Guarda el DataFrame combinado** como un nuevo archivo CSV sobrescribiendo o creando `tweets_with_sentiment_cryptobert.csv`.

Este proceso asegura que todos los posts con sentimiento estén **unificados, con fechas correctamente formateadas y listos para análisis posteriores**.

In [None]:
# Cargar el CSV
df1 = pd.read_csv("../data/pre_cleaning/posts_with_sentiment_cryptobert.csv")
df2 = pd.read_csv("../data/pre_cleaning/posts_news_with_sentiment_cryptobert.csv")


In [3]:
combinado = pd.concat([df1, df2], ignore_index=True)

In [4]:
df1['Created At'] = pd.to_datetime(df1['Created At'], errors='coerce')
print(df1['Created At'].dt.year.value_counts().sort_index())

Created At
2020    7557
2021    8776
2022    9201
2023    6854
2024    6849
2025    5600
Name: count, dtype: int64


In [5]:
df2['Created At'] = pd.to_datetime(df2['Created At'], errors='coerce')
print(df2['Created At'].dt.year.value_counts().sort_index())

Created At
2020    7557
2021    8776
2022    9201
2023    6854
2024    6849
2025    5600
Name: count, dtype: int64


In [6]:
combinado['Created At'] = pd.to_datetime(combinado['Created At'], errors='coerce')
print(combinado['Created At'].dt.year.value_counts().sort_index())

Created At
2020    15114
2021    17552
2022    18402
2023    13708
2024    13698
2025    11200
Name: count, dtype: int64


In [7]:
combinado.to_csv("../data/pre_cleaning/tweets_with_sentiment_cryptobert.csv", index=False)