# 0. CONFIGURACI√ìN INICIAL Y DATOS

In [None]:
# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np

# Verificaci√≥n de versiones instaladas
print(f"¬°Pandas importado!\n\tLa versi√≥n de Pandas es: {pd.__version__}")
print(f"¬°NumPy importado!\n\tLa versi√≥n de NumPy es: {np.__version__}")

In [None]:
# Cargar todos los datos directo desde un CSV
df = pd.read_csv("datos_wrangling.csv")
df

# 1. CONCEPTOS FUNDAMENTALES

In [None]:
print("=== DATA WRANGLING - CONCEPTOS FUNDAMENTALES ===")
print("El Data Wrangling es el proceso de transformar y estructurar datos")
print("para que sean adecuados para el an√°lisis.")
print()

# Ejemplo b√°sico de transformaci√≥n de datos
print("--- Ejemplo de transformaci√≥n de datos ---")

print("Datos originales:")
print(df)
print("\nTipos de datos originales:")
print(df.dtypes)

# 2. MUESTREO ALEATORIO Y PERMUTACI√ìN

In [None]:
#Copia del DataFrame
df_muestreo = df.copy()

# Muestreo aleatorio de 5 filas
muestra = df_muestreo.sample(n=5)
print("Muestreo de 5 filas espec√≠ficas:")
muestra

In [None]:
# Muestreo del 20% de los datos
muestra_porcentaje = df_muestreo.sample(frac=0.2)
print(f"Muestreo del 20% de los datos ({len(muestra_porcentaje)} filas):")
muestra_porcentaje

In [None]:
# La permutaci√≥n permite reorganizar aleatoriamente los datos en un orden diferente, lo cual es √∫til en validaciones cruzadas o en experimentos donde se desea eliminar el sesgo del orden original de los datos.

# Permutaci√≥n aleatoria de todas las filas
df_permutado = df_muestreo.sample(frac=1).reset_index(drop=True)
print("Permutaci√≥n completa del dataset:")
df_permutado.head()

In [None]:
# Comparaci√≥n: primeras 5 filas antes y despu√©s de la permutaci√≥n
print("Dataset original (primeras 5 filas):")
df_muestreo[['nombre', 'categoria', 'precio']].head()

In [None]:
print("Dataset permutado (primeras 5 filas):")
df_permutado[['nombre', 'categoria', 'precio']].head()

# 3. ORDENAMIENTO DE LOS DATOS

In [None]:
# El ordenamiento de los datos permite organizar la informaci√≥n seg√∫n valores espec√≠ficos. En Pandas, se puede ordenar de forma ascendente o descendente con sort_values().

# Ordenar por la columna 'precio' de forma ascendente
df_ordenado = df.sort_values('precio')

# El ordenamiento no va a ser el esperado porque hay datos con el caracter $, Python interpreta Strings
print("Ordenado por 'precio' (ascendente):")
df_ordenado[['nombre', 'categoria', 'precio', 'ventas']].head()

In [None]:
# Ordenar de forma descendente
df_desc = df_ordenado.sort_values('precio', ascending=False)
print("Ordenado por 'precio' (descendente):")
df_desc[['nombre', 'categoria', 'precio', 'ventas']].head()

In [None]:
# Tambi√©n es posible ordenar por m√∫ltiples columnas, estableciendo prioridades en el ordenamiento.

# Ordenar primero por 'categoria' y luego por 'precio'
df_multi = df_ordenado.sort_values(['categoria', 'precio'], ascending=[True, False])
print("Ordenado por 'categoria' (ascendente) y luego por 'precio' (descendente):")
df_multi[['nombre', 'categoria', 'precio', 'ventas']].head(10)

# 4. TRANSFORMACI√ìN DE DATOS

In [None]:
# Transformaci√≥n de fechas - maneja m√∫ltiples formatos autom√°ticamente
df['fecha'] = pd.to_datetime(df['fecha'], format='mixed', errors='coerce')
print("Fechas transformadas:")
print(df['fecha'].head(8))

In [None]:
# Transformaci√≥n de precios - limpiar s√≠mbolos y convertir a num√©rico
df['precio'] = df['precio'].astype(str).str.replace('[$‚Ç¨]', '', regex=True)
df['precio'] = df['precio'].str.replace(',', '', regex=True)
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

print("Precios transformados:")
print(df['precio'].head(8))

In [None]:
# Verificar las transformaciones
print("Tipos de datos despu√©s de la transformaci√≥n:")
print(df[['fecha', 'precio']].dtypes)
print(f"\nFechas v√°lidas: {df['fecha'].notna().sum()} de {len(df)}")
print(f"Precios v√°lidos: {df['precio'].notna().sum()} de {len(df)}")

In [None]:
# Mostrar datos limpios
print("Datos transformados (primeras 8 filas):")
df[['nombre', 'fecha', 'precio']].head(8)

# 5. REORDENAMIENTO

In [None]:
# El ordenamiento de los datos permite organizar la informaci√≥n seg√∫n valores espec√≠ficos. En Pandas, se puede ordenar de forma ascendente o descendente con sort_values().

# Ordenar por la columna 'precio' de forma ascendente
df_ordenado = df.sort_values('precio')

# Ahora si el ordenamiento funcionar√° bien porque la columna 'precio' solo posee num√©ricos
print("Ordenado por 'precio' (ascendente):")
df_ordenado[['nombre', 'categoria', 'precio', 'ventas']].head()

# 6. DETECCI√ìN Y ELIMINACI√ìN DE DUPLICADOS

In [None]:
# Detecci√≥n y eliminaci√≥n de registros duplicados
print("=== DETECCI√ìN Y ELIMINACI√ìN DE REGISTROS DUPLICADOS ===")
print("Proceso de 4 etapas: Identificaci√≥n ‚Üí An√°lisis ‚Üí Eliminaci√≥n ‚Üí Verificaci√≥n")

In [None]:
# IDENTIFICACI√ìN - Detectar registros duplicados
print("--- 1. IDENTIFICACI√ìN ---")
duplicados = df.duplicated()
print(f"Registros duplicados encontrados: {duplicados.sum()}")
print(f"Filas duplicadas (True/False):")
print(duplicados.head())

In [None]:
# AN√ÅLISIS - Ver las filas duplicadas
print("--- 2. AN√ÅLISIS ---")
filas_duplicadas = df[df.duplicated()]
print(f"Filas que son duplicados completos:")
filas_duplicadas

In [None]:
# Tambi√©n detectar duplicados por columnas espec√≠ficas
duplicados_email = df.duplicated(subset=['email'])
print(f"Duplicados por email: {duplicados_email.sum()}")

In [None]:
# ELIMINACI√ìN - Remover duplicados (conserva la primera ocurrencia)
print("--- 3. ELIMINACI√ìN ---")
df_sin_duplicados = df.drop_duplicates()
print(f"Filas antes: {len(df)}")
print(f"Filas despu√©s: {len(df_sin_duplicados)}")
print(f"Duplicados eliminados: {len(df) - len(df_sin_duplicados)}")

In [None]:
# VERIFICACI√ìN - Confirmar que los datos est√°n limpios
print("--- 4. VERIFICACI√ìN ---")
verificacion = df_sin_duplicados.duplicated().sum()
print(f"Duplicados restantes: {verificacion}")
print("‚úì Datos limpios y sin redundancias" if verificacion == 0 else "‚ö† A√∫n hay duplicados")

# 7. REEMPLAZO DE VALORES

In [None]:
# Reemplazo de valores
print("=== REEMPLAZO DE VALORES ===")
print("Correcci√≥n de valores incorrectos, mal escritos o inconsistentes")

In [None]:
# REEMPLAZO SIMPLE
print("--- REEMPLAZO SIMPLE ---")
print("Valores √∫nicos en 'categoria' antes del reemplazo:")
print(df['categoria'].value_counts(dropna=False))

In [None]:
# Reemplazar un valor espec√≠fico
df['categoria'] = df['categoria'].replace('Electronicos', 'Electr√≥nicos')
df['categoria']

In [None]:
# Reemplazar m√∫ltiples valores usando diccionario
df['estado'] = df['estado'].replace({
    'Actvo': 'Activo',
    'activo': 'Activo',
    'ACTIVO': 'Activo',
    'INACTIVO': 'Inactivo',
    'inactivo': 'Inactivo'
})
df['estado']

In [None]:
print("Valores en 'estado' despu√©s del reemplazo:")
print(df['estado'].value_counts(dropna=False))

In [None]:
# REEMPLAZO CON EXPRESIONES REGULARES
print("--- REEMPLAZO CON EXPRESIONES REGULARES ---")
print("Formatos de tel√©fono antes del reemplazo:")
print(df['telefono'].head(8))

In [None]:
# Limpiar TODOS los separadores primero
df['telefono'] = df['telefono'].str.replace(r'[.\s-]', '', regex=True)

# Formatear n√∫meros de 7 d√≠gitos: XXXXXXX ‚Üí XXX-XXXX
df['telefono'] = df['telefono'].str.replace(
    r'^(\d{2})(\d{5})$',
    r'(\1) \2',
    regex=True
)

df['telefono']

In [None]:
# Estandarizar categor√≠as con regex (may√∫sculas/min√∫sculas)
print("--- ESTANDARIZACI√ìN DE CATEGOR√çAS ---")
# Primera letra may√∫scula
df['categoria'] = df['categoria'].str.title()

print("Categor√≠as estandarizadas:")
print(df['categoria'].value_counts(dropna=False))

In [None]:
# Reemplazar valores nulos y problem√°ticos
print("--- REEMPLAZO DE VALORES PROBLEM√ÅTICOS ---")
# Reemplazar valores que representan nulos
df = df.replace(['null', 'n/a', '#N/A', 'N/A'], pd.NA)

print("Valores nulos por columna despu√©s del reemplazo:")
print(df.isnull().sum())
print()

# 8. CONVERSI√ìN DE COLUMNAS (TIPOS)

In [192]:
# Conversi√≥n de edad a num√©rico
print("Convertir columna 'edad' a num√©rico:")
df['edad'] = pd.to_numeric(df['edad'], errors='coerce')
print("‚úì Edades convertidas")

Convertir columna 'edad' a num√©rico:
‚úì Edades convertidas


In [193]:
# Conversi√≥n de ingresos a num√©rico
print("Convertir columna 'ingreso' a num√©rico:")
df['ingreso'] = pd.to_numeric(df['ingreso'], errors='coerce')
print("‚úì Ingresos convertidos")

Convertir columna 'ingreso' a num√©rico:
‚úì Ingresos convertidos


In [194]:
# Conversi√≥n de categor√≠a a tipo category (optimiza memoria)
print("Convertir columna 'estado' a categoria:")
df['estado'] = df['estado'].astype('category')
print("‚úì Estados convertidos a categor√≠a")

Convertir columna 'estado' a categoria:
‚úì Estados convertidos a categor√≠a


# 9. VOLVER A ELIMINAR DUPLICADOS

In [195]:
# === DETECCI√ìN Y ELIMINACI√ìN DE DUPLICADOS ===
print("=== DETECCI√ìN Y ELIMINACI√ìN DE REGISTROS DUPLICADOS ===")
print("Proceso de 4 etapas: Identificaci√≥n ‚Üí An√°lisis ‚Üí Eliminaci√≥n ‚Üí Verificaci√≥n")
print()

# 1. IDENTIFICACI√ìN
print("--- 1. IDENTIFICACI√ìN ---")
duplicados = df.duplicated()
print(f"Registros duplicados encontrados: {duplicados.sum()}")
print()

# 2. AN√ÅLISIS
print("--- 2. AN√ÅLISIS ---")
filas_duplicadas = df[df.duplicated()]
print(f"Filas que son duplicados completos:")
print(filas_duplicadas[['nombre', 'categoria', 'precio']])
print()

# 3. ELIMINACI√ìN
print("--- 3. ELIMINACI√ìN ---")
df_sin_duplicados = df.drop_duplicates()
print(f"Filas antes: {len(df)}")
print(f"Filas despu√©s: {len(df_sin_duplicados)}")
print(f"Duplicados eliminados: {len(df) - len(df_sin_duplicados)}")
print()

# 4. VERIFICACI√ìN
print("--- 4. VERIFICACI√ìN ---")
verificacion = df_sin_duplicados.duplicated().sum()
print(f"Duplicados restantes: {verificacion}")
print("‚úì Datos limpios y sin redundancias" if verificacion == 0 else "‚ö† A√∫n hay duplicados")
print()

=== DETECCI√ìN Y ELIMINACI√ìN DE REGISTROS DUPLICADOS ===
Proceso de 4 etapas: Identificaci√≥n ‚Üí An√°lisis ‚Üí Eliminaci√≥n ‚Üí Verificaci√≥n

--- 1. IDENTIFICACI√ìN ---
Registros duplicados encontrados: 3

--- 2. AN√ÅLISIS ---
Filas que son duplicados completos:
             nombre categoria  precio
8       Carlos Ruiz      Ropa     NaN
15  Alberto S√°nchez    Viajes  2500.0
21  Alberto S√°nchez    Viajes  2500.0

--- 3. ELIMINACI√ìN ---
Filas antes: 23
Filas despu√©s: 20
Duplicados eliminados: 3

--- 4. VERIFICACI√ìN ---
Duplicados restantes: 0
‚úì Datos limpios y sin redundancias



In [197]:
# Estandarizar categor√≠as
df['categoria'] = df['categoria'].str.title()
print("Categor√≠as estandarizadas:")
print(df['categoria'].value_counts(dropna=False))
print()

# REEMPLAZO DE VALORES PROBLEM√ÅTICOS
print("--- REEMPLAZO DE VALORES PROBLEM√ÅTICOS ---")
# Reemplazar valores que representan nulos
df = df.replace(['null', 'n/a', '#N/A', 'N/A'], pd.NA)

print("Valores nulos por columna despu√©s del reemplazo:")
print(df.isnull().sum())

Categor√≠as estandarizadas:
categoria
Viajes          4
Ropa            3
Electr√≥nicos    2
NaN             2
Hogar           2
Deportes        2
Libros          2
Salud           2
M√∫sica          2
Tecnolog√≠a      1
Arte            1
Name: count, dtype: int64

--- REEMPLAZO DE VALORES PROBLEM√ÅTICOS ---
Valores nulos por columna despu√©s del reemplazo:
nombre       2
categoria    2
precio       4
ventas       1
objetivo     1
fecha        1
estado       2
email        1
telefono     1
edad         2
ingreso      3
dtype: int64


# 10. MANEJO DE VALORES PERDIDOS (NULOS) M√ÅS IMPUTACI√ìN

In [198]:
# IMPUTACI√ìN
print("--- IMPUTACI√ìN ---")
print("Reemplazar valores faltantes con valores estimados o calculados")

# Crear una copia para imputaci√≥n
df_imputado = df.copy()

--- 4. IMPUTACI√ìN ---
Reemplazar valores faltantes con valores estimados o calculados


In [217]:
# Imputar edad con la mediana
if df_imputado['edad'].isnull().sum() > 0:
    nulos_edad = df_imputado['edad'].isnull().sum()
    mediana_edad = df_imputado['edad'].median()
    df_imputado['edad'] = df_imputado['edad'].fillna(mediana_edad)
    print(f"‚úì Edad: {nulos_edad} valores imputados con mediana ({mediana_edad})")

In [216]:
# Imputar ingresos con la mediana
if df_imputado['ingreso'].isnull().sum() > 0:
    nulos_ingreso = df_imputado['ingreso'].isnull().sum()
    mediana_ingreso = df_imputado['ingreso'].median()
    df_imputado['ingreso'] = df_imputado['ingreso'].fillna(mediana_ingreso)
    print(f"‚úì Ingresos: {nulos_ingreso} valores imputados con mediana ({mediana_ingreso})")

In [203]:
# Imputar categor√≠a con la moda (valor m√°s frecuente)
if df_imputado['categoria'].isnull().sum() > 0:
    nulos_categoria = df_imputado['categoria'].isnull().sum()
    moda_categoria = df_imputado['categoria'].mode()[0]
    df_imputado['categoria'] = df_imputado['categoria'].fillna(moda_categoria)
    print(f"‚úì Categor√≠a: {nulos_categoria} valores imputados con moda ('{moda_categoria}')")

‚úì Categor√≠a: 2 valores imputados con moda ('Viajes')


In [215]:
# Imputar ventas con 0 (valor espec√≠fico para este caso de negocio)
if df_imputado['ventas'].isnull().sum() > 0:
    ventas_nulas = df_imputado['ventas'].isnull().sum()
    df_imputado['ventas'] = df_imputado['ventas'].fillna(0)
    print(f"‚úì Ventas: {ventas_nulas} valores imputados con 0")

In [214]:
# Imputar precios con la media de la categor√≠a
if df_imputado['precio'].isnull().sum() > 0:
    precios_nulos = df_imputado['precio'].isnull().sum()
    # Calcular precio promedio por categor√≠a
    precio_por_categoria = df_imputado.groupby('categoria')['precio'].mean()

    # Funci√≥n para imputar precio basado en categor√≠a
    def imputar_precio(row):
        if pd.isnull(row['precio']) and not pd.isnull(row['categoria']):
            return precio_por_categoria.get(row['categoria'], df_imputado['precio'].mean())
        return row['precio']

    df_imputado['precio'] = df_imputado.apply(imputar_precio, axis=1)
    print(f"‚úì Precios: {precios_nulos} valores imputados con promedio por categor√≠a")

‚úì Precios: 1 valores imputados con promedio por categor√≠a


In [210]:
if df_imputado['nombre'].isnull().sum() > 0:
    nombres_nulos = df_imputado['nombre'].isnull().sum()
    df_imputado['nombre'] = df_imputado['nombre'].fillna('Cliente An√≥nimo')
    print(f"‚úì Nombres: {nombres_nulos} valores imputados con 'Cliente An√≥nimo'")

In [213]:
# VERIFICACI√ìN FINAL
print("--- VERIFICACI√ìN FINAL ---")
print("Estado despu√©s del manejo de valores nulos:")
print("Valores nulos restantes:")
nulos_finales = df_imputado.isnull().sum()
print(nulos_finales)
print()

total_nulos = nulos_finales.sum()
if total_nulos == 0:
    print("üéâ ¬°Perfecto! No quedan valores nulos en el dataset")
else:
    print(f"‚ö†Ô∏è  Quedan {total_nulos} valores nulos por manejar")
print()

--- VERIFICACI√ìN FINAL ---
Estado despu√©s del manejo de valores nulos:
Valores nulos restantes:
nombre       0
categoria    0
precio       1
ventas       0
objetivo     1
fecha        1
estado       2
email        1
telefono     1
edad         0
ingreso      0
dtype: int64

‚ö†Ô∏è  Quedan 7 valores nulos por manejar

