Práctica de ensuciar datos

In [None]:
# Importar librerías
import pandas as pd
import numpy as np
import random

In [None]:
# Cargar los datos desde una URL
url = 'https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/SolarPrediction.csv'
datos = pd.read_csv(url)
muestra_aleatoria = datos.head(3000)

datos_limpios = muestra_aleatoria

datos_limpios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   UNIXTime                3000 non-null   int64  
 1   Data                    3000 non-null   object 
 2   Time                    3000 non-null   object 
 3   Radiation               3000 non-null   float64
 4   Temperature             3000 non-null   int64  
 5   Pressure                3000 non-null   float64
 6   Humidity                3000 non-null   int64  
 7   WindDirection(Degrees)  3000 non-null   float64
 8   Speed                   3000 non-null   float64
 9   TimeSunRise             3000 non-null   object 
 10  TimeSunSet              3000 non-null   object 
dtypes: float64(4), int64(3), object(4)
memory usage: 257.9+ KB


In [None]:
# Crear funciones para ensuciar datos

# Introducir valores nulos en algunas columnas de manera aleatoria
def introduce_nulls(df, column_name, fraction=0.10):
    df.loc[df.sample(frac=fraction).index, column_name] = np.nan

# Añadir valores atípicos (outliers) en una columna específica
def add_outliers(df, column_name, factor=10, fraction=0.05):
    outliers_idx = df.sample(frac=fraction).index
    df.loc[outliers_idx, column_name] *= factor

# Añadir ruido aleatorio a una columna numérica
def add_noise(df, column_name, noise_factor=0.05):
    noise = np.random.normal(0, noise_factor, size=df[column_name].shape)
    df[column_name] += noise

# Cambiar formato de fechas de manera inconsistente
def corrupt_dates(df, column_name):
    date_formats = ["%d/%m/%Y", "%Y-%m-%d", "%m-%d-%Y"]
    corrupted_dates = df[column_name].apply(lambda x: pd.to_datetime(x).strftime(random.choice(date_formats)))
    df[column_name] = corrupted_dates

# Introducir errores en datos categóricos (por ejemplo, cambiar TimeSunRise o TimeSunSet)
def introduce_categorical_errors(df, column_name, fraction=0.1):
    unique_values = df[column_name].unique()
    df.loc[df.sample(frac=fraction).index, column_name] = random.choice(unique_values)


In [None]:
# Ensuciar los datos
datos_sucios = datos_limpios

introduce_nulls(datos_sucios, 'Radiation', 0.13)  # 10% de valores nulos en la columna Radiation
add_outliers(datos_sucios, 'Radiation', 10, 0.06)  # Valores atípicos en el 6% de la columna Radiation

introduce_nulls(datos_sucios, 'Temperature', 0.08)  # 8% de valores nulos en la columna Temperature
add_outliers(datos_sucios, 'Temperature', 10, 0.05)  # Valores atípicos en el 5% de la columna Temperature

introduce_nulls(datos_sucios, 'Humidity', 0.11)  # 11% de valores nulos en la columna Humidity
add_outliers(datos_sucios, 'Humidity', 10, 0.03)  # Valores atípicos en el 3% de la columna Humidity

introduce_nulls(datos_sucios, 'Speed', 0.04)  # 4% de valores nulos en la columna Speed

introduce_nulls(datos_sucios, 'Pressure', 0.02)  # 2% de valores nulos en la columna Radiation
add_noise(datos_sucios, 'Pressure', 0.05)  # Añadir ruido en la columna Pressure

corrupt_dates(datos_sucios, 'Data')  # Corromper el formato de las fechas en la columna Data

introduce_categorical_errors(datos_sucios, 'TimeSunSet', 0.1)  # Introducir errores en la columna TimeSunSet

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[column_name] += noise
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[column_name] = corrupted_dates


In [None]:
from google.colab import files

# Guardar el archivo CSV en Colab
datos_sucios.to_csv('datos_ensuciados.csv', index=False)

# Descargar el archivo CSV a tu computadora local
files.download('datos_ensuciados.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
datos_limpios.info()
datos_sucios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   UNIXTime                3000 non-null   int64  
 1   Data                    3000 non-null   object 
 2   Time                    3000 non-null   object 
 3   Radiation               2610 non-null   float64
 4   Temperature             2760 non-null   float64
 5   Pressure                2940 non-null   float64
 6   Humidity                2670 non-null   float64
 7   WindDirection(Degrees)  3000 non-null   float64
 8   Speed                   2880 non-null   float64
 9   TimeSunRise             3000 non-null   object 
 10  TimeSunSet              3000 non-null   object 
dtypes: float64(6), int64(1), object(4)
memory usage: 257.9+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 11 columns):
 #   Column                  Non-