In [21]:
import pandas as pd

Este notebook está diseñado para **limpiar, depurar y preparar el archivo de posts crudos** (`raw_posts.csv`) antes de su análisis.  
El flujo de trabajo es el siguiente:

1. **Carga el archivo CSV** de posts crudos desde la carpeta `pre_cleaning`.
2. **Limpia los nombres de las columnas** para evitar errores por espacios.
3. **Convierte la columna de fechas** (`Created At`) al formato de fecha y hora.
4. **Elimina la primera columna** que corresponde a un indice de la recolecta de posts
5. **Cuenta y muestra la cantidad de filas duplicadas** antes de la limpieza.
6. **Elimina los duplicados** del DataFrame.
7. **Elimina los registros de años no deseados**
8. **Ordena los posts por fecha ascendente** para mantener el orden cronológico.
9. **Verifica y muestra que ya no quedan duplicados**.
10. **Guarda el DataFrame limpio y ordenado** sobrescribiendo el archivo original.

Este proceso asegura que el dataset de posts esté **libre de duplicados, filtrado por años relevantes y correctamente ordenado**, listo para etapas posteriores de análisis o procesamiento.

In [None]:
# Cargar el archivo CSV
df = pd.read_csv("../data/pre_cleaning/raw_posts.csv")
df['Created At'] = pd.to_datetime(df['Created At'], errors='coerce')

  df['Created At'] = pd.to_datetime(df['Created At'], errors='coerce')


Eliminar columna 0 (tweet counts)

In [25]:
df = df.drop(df.columns[0], axis=1)

In [None]:
# Limpiar nombres de columnas
df.columns = df.columns.str.strip()

In [23]:
# Mostrar cuántos duplicados hay
print("Duplicados antes:", df.duplicated().sum())


Duplicados antes: 0


In [24]:
# Eliminar duplicados
df_sin_duplicados = df.drop_duplicates()

# Ordenar por la columna 'Username'
df_ordenado = df_sin_duplicados.sort_values(by="Username", ascending=True)

# Verificar si quedan duplicados
print("Duplicados después:", df_ordenado.duplicated().sum())


Duplicados después: 0


In [26]:
df

Unnamed: 0,Username,Text,Created At,Retweets,Likes
0,Anthony Pompliano 🌪,[NEW POST] We Should Not Normalize Economic Wa...,2022-03-01 14:15:41+00:00,62,510
1,Anthony Pompliano 🌪,New episode with Head of Facebook Financial @d...,2021-09-01 11:40:00+00:00,16,95
2,Anthony Pompliano 🌪,Good morning! Let’s get after it relentlessly ...,2021-09-01 11:14:58+00:00,30,643
3,Anthony Pompliano 🌪,Another day in the stock market....another S&a...,2021-09-01 17:47:44+00:00,124,1966
4,Anthony Pompliano 🌪,Today is a packed episode of The Best Business...,2021-09-01 15:00:11+00:00,17,150
...,...,...,...,...,...
448,nic carter,"@K__Zalew let me understand this cause, ya kno...",2021-03-01 17:27:11+00:00,14,339
449,nic carter,Very positive to see fossil fuel BTC mining sq...,2021-03-01 13:31:14+00:00,4,79
450,nic carter,@jnordvig @CNBCJou Bitcoin supply schedule unc...,2021-03-01 13:29:31+00:00,1,81
451,nic carter,So many initiatives and new sources of data co...,2021-07-01 13:49:33+00:00,15,554


Eliminar fechas de años determinados

In [27]:
df = df[~df['Created At'].dt.year.isin([2023])]

In [28]:
print(df['Created At'].dt.year.value_counts().sort_index())

Created At
2020    107
2021    209
2022    137
Name: count, dtype: int64


In [29]:
# Organizar por fecha ascendente
df = df.sort_values(by='Created At', ascending=True)

In [None]:
# Guardar el DataFrame limpio y ordenado
df_ordenado.to_csv("../data/pre_cleaning/raw_posts.csv", index=False)