<a href="https://colab.research.google.com/github/remilio2084/ATENEA/blob/main/Ejercicio_3_Transformaci%C3%B3n_de_datos_con_Pandas_Reemplazo_de_valores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np

print("Iniciando el proceso de reemplazo de valores específicos...\n")

# 1. Crear un dataset con 8 columnas que contenga información al azar
# y que algunos campos contengan valores incorrectos o inconsistentes.
print("1. Creando un dataset de ejemplo con valores erróneos/inconsistentes:")

# Definimos los datos con algunas inserciones de valores incorrectos
data = {
    'ID_Transaccion': np.arange(101, 111),
    'Monto': np.random.choice([100.50, 250.75, 50.00, -10.00, 'N/A', 300.20, 80.15, 'ERROR'], 10),
    'Metodo_Pago': np.random.choice(['Tarjeta', 'Efectivo', 'Online', 'Desconocido', 'NA'], 10),
    'Fecha_Compra': pd.to_datetime(np.random.choice(['2023-01-10', '2023/02/20', '2023-Mar-05', 'INVALID_DATE', '2023-04-12'], 10)),
    'Cantidad_Articulos': np.random.choice([1, 2, 3, 0, 999], 10), # 999 como valor erróneo
    'Region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste', 'Sin Asignar'], 10),
    'Calificacion_Cliente': np.random.choice([1, 2, 3, 4, 5, -1], 10), # -1 como valor erróneo
    'Comentarios': np.random.choice(['Ok', 'Problema', 'Sin Info', 'na', 'Good'], 10)
}

# Creamos el DataFrame
df = pd.DataFrame(data)

# Introducir más valores erróneos/inconsistentes intencionalmente
df.loc[1, 'Monto'] = 'N/A'
df.loc[4, 'Metodo_Pago'] = 'desconocido'
df.loc[7, 'Fecha_Compra'] = '2023-08-XX' # Fecha inválida
df.loc[3, 'Cantidad_Articulos'] = -5     # Cantidad negativa
df.loc[6, 'Comentarios'] = 'VACIO'
df.loc[9, 'Monto'] = 'Cero'


print("\n--- Dataset Original con Valores Incorrectos/Inconsistentes ---")
print(df)
print("\n--- Conteo de Valores Específicos Antes del Reemplazo ---")
print("Valores en 'Monto':\n", df['Monto'].value_counts(dropna=False))
print("\nValores en 'Metodo_Pago':\n", df['Metodo_Pago'].value_counts(dropna=False))
print("\nValores en 'Cantidad_Articulos':\n", df['Cantidad_Articulos'].value_counts(dropna=False))
print("\nValores en 'Calificacion_Cliente':\n", df['Calificacion_Cliente'].value_counts(dropna=False))
print("\nValores en 'Comentarios':\n", df['Comentarios'].value_counts(dropna=False))


# 2. Para el dataset que formulaste, escribe el codigo python que permita
# reemplazar los valores erróneos por valores correctos usando replace() en las columnas que creaste.
print("\n2. Reemplazando valores erróneos/inconsistentes usando df.replace()...\n")

# Creamos una copia del DataFrame para no modificar el original directamente
df_cleaned = df.copy()

# Reemplazar valores inconsistentes en la columna 'Monto'
# Convertimos 'Monto' a tipo numérico después de reemplazar los strings no numéricos con NaN
# Esto es un patrón común: limpiar primero, luego convertir tipo de dato
df_cleaned['Monto'] = df_cleaned['Monto'].replace(['N/A', 'ERROR', 'Cero'], np.nan)
df_cleaned['Monto'] = pd.to_numeric(df_cleaned['Monto'], errors='coerce') # 'coerce' convierte errores a NaN
df_cleaned.loc[df_cleaned['Monto'] < 0, 'Monto'] = np.nan # Reemplazar montos negativos con NaN

# Reemplazar valores inconsistentes en la columna 'Metodo_Pago'
df_cleaned['Metodo_Pago'] = df_cleaned['Metodo_Pago'].replace({
    'Desconocido': 'Otro',
    'desconocido': 'Otro',
    'NA': 'No Especificado'
})

# Reemplazar valores erróneos en 'Cantidad_Articulos' y 'Calificacion_Cliente'
# Aquí reemplazamos valores atípicos (negativos o muy altos) con NaN
df_cleaned['Cantidad_Articulos'] = df_cleaned['Cantidad_Articulos'].replace(999, np.nan)
df_cleaned.loc[df_cleaned['Cantidad_Articulos'] < 0, 'Cantidad_Articulos'] = np.nan

df_cleaned['Calificacion_Cliente'] = df_cleaned['Calificacion_Cliente'].replace(-1, np.nan)

# Reemplazar valores inconsistentes en 'Fecha_Compra'
# Primero, intentamos convertir a formato de fecha, los errores serán NaT (Not a Time)
# Luego, reemplazamos 'INVALID_DATE' y '2023-08-XX' (que se convertirán a NaT) por un valor específico si es necesario,
# o simplemente se quedarán como NaT para su posterior tratamiento (ej. imputación, eliminación).
df_cleaned['Fecha_Compra'] = pd.to_datetime(df_cleaned['Fecha_Compra'], errors='coerce')

# Reemplazar valores inconsistentes en 'Comentarios'
df_cleaned['Comentarios'] = df_cleaned['Comentarios'].replace({
    'Sin Info': 'N/A',
    'na': 'N/A',
    'VACIO': 'N/A'
})


print("\n--- Dataset Después del Reemplazo de Valores ---")
print(df_cleaned)

# 3. En el codigo se debe comprobar que los datos los valores erróneos han sido correctamente reemplazados.
print("\n3. Comprobando que los valores erróneos han sido correctamente reemplazados...\n")

print("--- Conteo de Valores Específicos Después del Reemplazo ---")
print("Valores en 'Monto':\n", df_cleaned['Monto'].value_counts(dropna=False))
print("\nValores en 'Metodo_Pago':\n", df_cleaned['Metodo_Pago'].value_counts(dropna=False))
print("\nValores en 'Cantidad_Articulos':\n", df_cleaned['Cantidad_Articulos'].value_counts(dropna=False))
print("\nValores en 'Calificacion_Cliente':\n", df_cleaned['Calificacion_Cliente'].value_counts(dropna=False))
print("\nValores en 'Comentarios':\n", df_cleaned['Comentarios'].value_counts(dropna=False))
print("\nValores en 'Fecha_Compra':\n", df_cleaned['Fecha_Compra'].value_counts(dropna=False))


# Verificación final de la ausencia de los valores originales "malos"
print("\n--- Verificación de la Ausencia de Valores Erróneos Originales ---")

# Lista de valores que esperábamos reemplazar en 'Monto'
bad_values_monto = ['N/A', 'ERROR', 'Cero']
if not df_cleaned['Monto'].astype(str).isin(bad_values_monto).any():
    print(f"✔️ Valores {bad_values_monto} eliminados/reemplazados de 'Monto'.")
else:
    print(f"❌ Aún quedan valores {bad_values_monto} en 'Monto'.")

# Lista de valores que esperábamos reemplazar en 'Metodo_Pago'
bad_values_metodo = ['Desconocido', 'desconocido', 'NA']
if not df_cleaned['Metodo_Pago'].isin(bad_values_metodo).any():
    print(f"✔️ Valores {bad_values_metodo} eliminados/reemplazados de 'Metodo_Pago'.")
else:
    print(f"❌ Aún quedan valores {bad_values_metodo} en 'Metodo_Pago'.")

# Valores que esperábamos reemplazar en 'Cantidad_Articulos'
if not ((df_cleaned['Cantidad_Articulos'] == 999) | (df_cleaned['Cantidad_Articulos'] < 0)).any():
    print("✔️ Valores 999 y negativos eliminados/reemplazados de 'Cantidad_Articulos'.")
else:
    print("❌ Aún quedan valores 999 o negativos en 'Cantidad_Articulos'.")

# Valores que esperábamos reemplazar en 'Calificacion_Cliente'
if not (df_cleaned['Calificacion_Cliente'] == -1).any():
    print("✔️ Valor -1 eliminado/reemplazado de 'Calificacion_Cliente'.")
else:
    print("❌ Aún queda el valor -1 en 'Calificacion_Cliente'.")

# Valores que esperábamos reemplazar en 'Comentarios'
bad_values_comentarios = ['Sin Info', 'na', 'VACIO']
if not df_cleaned['Comentarios'].isin(bad_values_comentarios).any():
    print(f"✔️ Valores {bad_values_comentarios} eliminados/reemplazados de 'Comentarios'.")
else:
    print(f"❌ Aún quedan valores {bad_values_comentarios} en 'Comentarios'.")

# Para fechas, una buena verificación es ver si quedan valores que no sean NaT o fechas válidas.
# La conversión con errors='coerce' ya maneja esto, dejando NaT para inválidos.
if df_cleaned['Fecha_Compra'].isnull().sum() > 0:
    print("✔️ Las fechas inválidas en 'Fecha_Compra' se han convertido a NaT (o ya eran NaT).")
else:
    print("Considerar si todas las fechas son válidas o si se esperaba algún NaT.")

print("\nProceso de reemplazo de valores completado.")