In [1]:
import pandas as pd
import numpy as np

In [2]:
# Cargar dataset original
df = pd.read_csv('spotify_christmas_streams_kworb_2017_2025.csv')
df_dirty = df.copy()

np.random.seed(42) # Semilla para reproducibilidad

In [3]:
# Datos Faltantes (Missing Data)
mask_missing = np.random.rand(len(df_dirty)) < 0.05
df_dirty.loc[mask_missing, 'streams'] = np.nan

In [4]:
# Duplicados
duplicates = df_dirty.sample(n=10, random_state=42)
df_dirty = pd.concat([df_dirty, duplicates], ignore_index=True)

In [5]:
# Outliers (Valores extremos)
# Asignamos valores absurdos a filas aleatorias
valid_indices = df_dirty.index
outlier_indices = np.random.choice(valid_indices, 2, replace=False)
df_dirty.loc[outlier_indices[0], 'streams'] = 9999999999 
df_dirty.loc[outlier_indices[1], 'streams'] = -5000

In [6]:
# Inconsistencia de Formatos (Fechas)
# Convertimos algunas fechas a DD/MM/YYYY
date_indices = np.random.choice(df_dirty.index, 5, replace=False)
df_dirty['date'] = df_dirty['date'].astype(str)
for idx in date_indices:
    try:
        ts = pd.to_datetime(df_dirty.loc[idx, 'date'])
        df_dirty.loc[idx, 'date'] = ts.strftime('%d/%m/%Y')
    except: pass

In [7]:
# Errores Tipográficos
# Cambiamos 'Mariah Carey' por un error común
mariah_indices = df_dirty[df_dirty['artist'] == 'Mariah Carey'].index
if len(mariah_indices) > 0:
    typo_indices = np.random.choice(mariah_indices, 5, replace=False)
    df_dirty.loc[typo_indices, 'artist'] = 'Maria Careey'

In [8]:
# Categorías Extra
# 'Thurs' en lugar de 'Thursday'
thurs_indices = np.random.choice(df_dirty[df_dirty['day_of_week'] == 'Thursday'].index, 5)
df_dirty.loc[thurs_indices, 'day_of_week'] = 'Thurs'

In [9]:
# Tipos de Datos y Puntuación Extra
# Convertimos streams a string y añadimos texto
df_dirty['streams'] = df_dirty['streams'].astype(object)
txt_indices = np.random.choice(df_dirty.index, 5, replace=False)
for idx in txt_indices:
    val = df_dirty.loc[idx, 'streams']
    if pd.notna(val):
        df_dirty.loc[idx, 'streams'] = f"{int(val)} streams"

In [10]:
# Encabezados Incorrectos
df_dirty.rename(columns={'streams': 'play_count', 'artist': 'performer'}, inplace=True)

In [11]:
# Espacios en Blanco (Whitespace)
track_indices = np.random.choice(df_dirty.index, 10, replace=False)
for idx in track_indices:
    df_dirty.loc[idx, 'track'] = f" {df_dirty.loc[idx, 'track']}  "

In [12]:
# Tipos Mixtos (Week of Year)
week_indices = np.random.choice(df_dirty.index, 5, replace=False)
df_dirty['week_of_year'] = df_dirty['week_of_year'].astype(object)
for idx in week_indices:
    df_dirty.loc[idx, 'week_of_year'] = f"Week {df_dirty.loc[idx, 'week_of_year']}"

In [13]:
# Guardar el "Desastre"
df_dirty.to_csv('dirty_spotify_data.csv', index=False)
print("Dataset sucio generado: 'dirty_spotify_data.csv'")

Dataset sucio generado: 'dirty_spotify_data.csv'


# Reporte de Generación de Errores 

**Objetivo:**
Simular un entorno de datos corruptos partiendo del archivo `spotify_christmas_streams_kworb_2017_2025.csv` para entrenar procesos de limpieza de datos.

**Errores Introducidos (Data Dirtying):**
Se inyectaron 10 tipos de errores programáticos usando Python/Pandas:

1.  **Datos Faltantes:** Se eliminó el 5% de los valores en la columna clave `streams` (NaN).
2.  **Duplicados:** Se inyectaron 10 filas duplicadas aleatorias.
3.  **Outliers:** Se insertaron valores imposibles en `streams` (ej. 9,999,999,999 y -5000).
4.  **Inconsistencia de Fechas:** Se mezclaron formatos, convirtiendo algunas fechas al formato `DD/MM/YYYY` (string) mientras otras se mantuvieron en ISO.
5.  **Errores Tipográficos:** Se alteró el nombre de "Mariah Carey" a "Maria Careey" en registros aleatorios.
6.  **Categorías Extra:** Se introdujo la abreviatura no estándar "Thurs" en lugar de "Thursday".
7.  **Tipos de Datos Incorrectos:** Se contaminó la columna numérica `streams` añadiendo texto (ej. "15000 streams"), convirtiéndola en objeto (string).
8.  **Encabezados Incorrectos:** Se renombraron columnas a términos no estándar: `streams` $\to$ `play_count` y `artist` $\to$ `performer`.
9.  **Espacios (Whitespace):** Se añadieron espacios en blanco al inicio y final de los nombres de las canciones (`track`).
10. **Tipos Mixtos:** Se añadió el prefijo "Week " en la columna numérica `week_of_year`.

**Resultado:**
* **Archivo generado:** `dirty_spotify_data.csv`