In [None]:
# Importación de librerías necesarias
import pandas as pd
import numpy as np

# Verificación de versiones instaladas
print(f"¡Pandas importado!\n\tLa versión de Pandas es: {pd.__version__}")
print(f"¡NumPy importado!\n\tLa versión de NumPy es: {np.__version__}")

In [None]:
df = pd.read_csv("datos_wrangling.csv")
df

In [None]:
print("=== DATA WRANGLING - CONCEPTOS FUNDAMENTALES ===")
print("El Data Wrangling es el proceso de transformar y estructurar datos")
print("para que sean adecuados para el análisis.")
print()

# Ejemplo básico de transformación de datos
print("--- Ejemplo de transformación de datos ---")

print("Datos originales:")
print(df)
print("\nTipos de datos originales:")
print(df.dtypes)

In [None]:
#Copia del DataFrame
df_muestreo = df.copy()

# Muestreo aleatorio de 5 filas
muestra = df_muestreo.sample(n=5)
print("Muestreo de 5 filas específicas:")
muestra

In [None]:
print("=== DATA WRANGLING - CONCEPTOS FUNDAMENTALES ===")
print("El Data Wrangling es el proceso de transformar y estructurar datos")
print("para que sean adecuados para el análisis.")
print()

# Ejemplo básico de transformación de datos
print("--- Ejemplo de transformación de datos ---")

print("Datos originales:")
print(df)
print("\nTipos de datos originales:")
print(df.dtypes)
2. MUESTREO ALEATORIO Y PERMUTACIÓN
#Copia del DataFrame
df_muestreo = df.copy()

# Muestreo aleatorio de 5 filas
muestra = df_muestreo.sample(n=5)
print("Muestreo de 5 filas específicas:")
muestra
# Muestreo del 20% de los datos
muestra_porcentaje = df_muestreo.sample(frac=0.2)
print(f"Muestreo del 20% de los datos ({len(muestra_porcentaje)} filas):")
muestra_porcentaje
# La permutación permite reorganizar aleatoriamente los datos en un orden diferente, lo cual es útil en validaciones cruzadas o en experimentos donde se desea eliminar el sesgo del orden original de los datos.

# Permutación aleatoria de todas las filas
df_permutado = df_muestreo.sample(frac=1).reset_index(drop=True)
print("Permutación completa del dataset:")
df_permutado.head()
# Comparación: primeras 5 filas antes y después de la permutación
print("Dataset original (primeras 5 filas):")
df_muestreo[['nombre', 'categoria', 'precio']].head()
print("Dataset permutado (primeras 5 filas):")
df_permutado[['nombre', 'categoria', 'precio']].head()
3. ORDENAMIENTO DE LOS DATOS
# El ordenamiento de los datos permite organizar la información según valores específicos. En Pandas, se puede ordenar de forma ascendente o descendente con sort_values().

# Ordenar por la columna 'precio' de forma ascendente
df_ordenado = df.sort_values('precio')

# El ordenamiento no va a ser el esperado porque hay datos con el caracter $, Python interpreta Strings
print("Ordenado por 'precio' (ascendente):")
df_ordenado[['nombre', 'categoria', 'precio', 'ventas']].head()
# Ordenar de forma descendente
df_desc = df_ordenado.sort_values('precio', ascending=False)
print("Ordenado por 'precio' (descendente):")
df_desc[['nombre', 'categoria', 'precio', 'ventas']].head()
# También es posible ordenar por múltiples columnas, estableciendo prioridades en el ordenamiento.

# Ordenar primero por 'categoria' y luego por 'precio'
df_multi = df_ordenado.sort_values(['categoria', 'precio'], ascending=[True, False])
print("Ordenado por 'categoria' (ascendente) y luego por 'precio' (descendente):")
df_multi[['nombre', 'categoria', 'precio', 'ventas']].head(10)
4. TRANSFORMACIÓN DE DATOS
# Transformación de fechas - maneja múltiples formatos automáticamente
df['fecha'] = pd.to_datetime(df['fecha'], format='mixed', errors='coerce')
print("Fechas transformadas:")
print(df['fecha'].head(8))
# Transformación de precios - limpiar símbolos y convertir a numérico
df['precio'] = df['precio'].astype(str).str.replace('[$€]', '', regex=True)
df['precio'] = df['precio'].str.replace(',', '', regex=True)
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

print("Precios transformados:")
print(df['precio'].head(8))
# Verificar las transformaciones
print("Tipos de datos después de la transformación:")
print(df[['fecha', 'precio']].dtypes)
print(f"\nFechas válidas: {df['fecha'].notna().sum()} de {len(df)}")
print(f"Precios válidos: {df['precio'].notna().sum()} de {len(df)}")
# Mostrar datos limpios
print("Datos transformados (primeras 8 filas):")
df[['nombre', 'fecha', 'precio']].head(8)
5. REORDENAMIENTO
# El ordenamiento de los datos permite organizar la información según valores específicos. En Pandas, se puede ordenar de forma ascendente o descendente con sort_values().

# Ordenar por la columna 'precio' de forma ascendente
df_ordenado = df.sort_values('precio')

# Ahora si el ordenamiento funcionará bien porque la columna 'precio' solo posee numéricos
print("Ordenado por 'precio' (ascendente):")
df_ordenado[['nombre', 'categoria', 'precio', 'ventas']].head()
6. DETECCIÓN Y ELIMINACIÓN DE DUPLICADOS
# Detección y eliminación de registros duplicados
print("=== DETECCIÓN Y ELIMINACIÓN DE REGISTROS DUPLICADOS ===")
print("Proceso de 4 etapas: Identificación → Análisis → Eliminación → Verificación")
# IDENTIFICACIÓN - Detectar registros duplicados
print("--- 1. IDENTIFICACIÓN ---")
duplicados = df.duplicated()
print(f"Registros duplicados encontrados: {duplicados.sum()}")
print(f"Filas duplicadas (True/False):")
print(duplicados.head())
# ANÁLISIS - Ver las filas duplicadas
print("--- 2. ANÁLISIS ---")
filas_duplicadas = df[df.duplicated()]
print(f"Filas que son duplicados completos:")
filas_duplicadas
# También detectar duplicados por columnas específicas
duplicados_email = df.duplicated(subset=['email'])
print(f"Duplicados por email: {duplicados_email.sum()}")
# ELIMINACIÓN - Remover duplicados (conserva la primera ocurrencia)
print("--- 3. ELIMINACIÓN ---")
df_sin_duplicados = df.drop_duplicates()
print(f"Filas antes: {len(df)}")
print(f"Filas después: {len(df_sin_duplicados)}")
print(f"Duplicados eliminados: {len(df) - len(df_sin_duplicados)}")
# VERIFICACIÓN - Confirmar que los datos están limpios
print("--- 4. VERIFICACIÓN ---")
verificacion = df_sin_duplicados.duplicated().sum()
print(f"Duplicados restantes: {verificacion}")
print("✓ Datos limpios y sin redundancias" if verificacion == 0 else "⚠ Aún hay duplicados")
7. REEMPLAZO DE VALORES
# Reemplazo de valores
print("=== REEMPLAZO DE VALORES ===")
print("Corrección de valores incorrectos, mal escritos o inconsistentes")
# REEMPLAZO SIMPLE
print("--- REEMPLAZO SIMPLE ---")
print("Valores únicos en 'categoria' antes del reemplazo:")
print(df['categoria'].value_counts(dropna=False))
# Reemplazar un valor específico
df['categoria'] = df['categoria'].replace('Electronicos', 'Electrónicos')
df['categoria']
# Reemplazar múltiples valores usando diccionario
df['estado'] = df['estado'].replace({
    'Actvo': 'Activo',
    'activo': 'Activo',
    'ACTIVO': 'Activo',
    'INACTIVO': 'Inactivo',
    'inactivo': 'Inactivo'
})
df['estado']
print("Valores en 'estado' después del reemplazo:")
print(df['estado'].value_counts(dropna=False))
# REEMPLAZO CON EXPRESIONES REGULARES
print("--- REEMPLAZO CON EXPRESIONES REGULARES ---")
print("Formatos de teléfono antes del reemplazo:")
print(df['telefono'].head(8))
# Limpiar TODOS los separadores primero
df['telefono'] = df['telefono'].str.replace(r'[.\s-]', '', regex=True)

# Formatear números de 7 dígitos: XXXXXXX → XXX-XXXX
df['telefono'] = df['telefono'].str.replace(
    r'^(\d{2})(\d{5})$',
    r'(\1) \2',
    regex=True
)

df['telefono']
# Estandarizar categorías con regex (mayúsculas/minúsculas)
print("--- ESTANDARIZACIÓN DE CATEGORÍAS ---")
# Primera letra mayúscula
df['categoria'] = df['categoria'].str.title()

print("Categorías estandarizadas:")
print(df['categoria'].value_counts(dropna=False))
# Reemplazar valores nulos y problemáticos
print("--- REEMPLAZO DE VALORES PROBLEMÁTICOS ---")
# Reemplazar valores que representan nulos
df = df.replace(['null', 'n/a', '#N/A', 'N/A'], pd.NA)

print("Valores nulos por columna después del reemplazo:")
print(df.isnull().sum())
print()
8. CONVERSIÓN DE COLUMNAS (TIPOS)
# Conversión de edad a numérico
print("Convertir columna 'edad' a numérico:")
df['edad'] = pd.to_numeric(df['edad'], errors='coerce')
print("✓ Edades convertidas")
Convertir columna 'edad' a numérico:
✓ Edades convertidas
# Conversión de ingresos a numérico
print("Convertir columna 'ingreso' a numérico:")
df['ingreso'] = pd.to_numeric(df['ingreso'], errors='coerce')
print("✓ Ingresos convertidos")
Convertir columna 'ingreso' a numérico:
✓ Ingresos convertidos
# Conversión de categoría a tipo category (optimiza memoria)
print("Convertir columna 'estado' a categoria:")
df['estado'] = df['estado'].astype('category')
print("✓ Estados convertidos a categoría")
Convertir columna 'estado' a categoria:
✓ Estados convertidos a categoría
9. VOLVER A ELIMINAR DUPLICADOS
# === DETECCIÓN Y ELIMINACIÓN DE DUPLICADOS ===
print("=== DETECCIÓN Y ELIMINACIÓN DE REGISTROS DUPLICADOS ===")
print("Proceso de 4 etapas: Identificación → Análisis → Eliminación → Verificación")
print()

# 1. IDENTIFICACIÓN
print("--- 1. IDENTIFICACIÓN ---")
duplicados = df.duplicated()
print(f"Registros duplicados encontrados: {duplicados.sum()}")
print()

# 2. ANÁLISIS
print("--- 2. ANÁLISIS ---")
filas_duplicadas = df[df.duplicated()]
print(f"Filas que son duplicados completos:")
print(filas_duplicadas[['nombre', 'categoria', 'precio']])
print()

# 3. ELIMINACIÓN
print("--- 3. ELIMINACIÓN ---")
df_sin_duplicados = df.drop_duplicates()
print(f"Filas antes: {len(df)}")
print(f"Filas después: {len(df_sin_duplicados)}")
print(f"Duplicados eliminados: {len(df) - len(df_sin_duplicados)}")
print()

# 4. VERIFICACIÓN
print("--- 4. VERIFICACIÓN ---")
verificacion = df_sin_duplicados.duplicated().sum()
print(f"Duplicados restantes: {verificacion}")
print("✓ Datos limpios y sin redundancias" if verificacion == 0 else "⚠ Aún hay duplicados")
print()
=== DETECCIÓN Y ELIMINACIÓN DE REGISTROS DUPLICADOS ===
Proceso de 4 etapas: Identificación → Análisis → Eliminación → Verificación

--- 1. IDENTIFICACIÓN ---
Registros duplicados encontrados: 3

--- 2. ANÁLISIS ---
Filas que son duplicados completos:
             nombre categoria  precio
8       Carlos Ruiz      Ropa     NaN
15  Alberto Sánchez    Viajes  2500.0
21  Alberto Sánchez    Viajes  2500.0

--- 3. ELIMINACIÓN ---
Filas antes: 23
Filas después: 20
Duplicados eliminados: 3

--- 4. VERIFICACIÓN ---
Duplicados restantes: 0
✓ Datos limpios y sin redundancias

# Estandarizar categorías
df['categoria'] = df['categoria'].str.title()
print("Categorías estandarizadas:")
print(df['categoria'].value_counts(dropna=False))
print()

# REEMPLAZO DE VALORES PROBLEMÁTICOS
print("--- REEMPLAZO DE VALORES PROBLEMÁTICOS ---")
# Reemplazar valores que representan nulos
df = df.replace(['null', 'n/a', '#N/A', 'N/A'], pd.NA)

print("Valores nulos por columna después del reemplazo:")
print(df.isnull().sum())
Categorías estandarizadas:
categoria
Viajes          4
Ropa            3
Electrónicos    2
NaN             2
Hogar           2
Deportes        2
Libros          2
Salud           2
Música          2
Tecnología      1
Arte            1
Name: count, dtype: int64

--- REEMPLAZO DE VALORES PROBLEMÁTICOS ---
Valores nulos por columna después del reemplazo:
nombre       2
categoria    2
precio       4
ventas       1
objetivo     1
fecha        1
estado       2
email        1
telefono     1
edad         2
ingreso      3
dtype: int64
10. MANEJO DE VALORES PERDIDOS (NULOS) MÁS IMPUTACIÓN
# IMPUTACIÓN
print("--- IMPUTACIÓN ---")
print("Reemplazar valores faltantes con valores estimados o calculados")

# Crear una copia para imputación
df_imputado = df.copy()
--- 4. IMPUTACIÓN ---
Reemplazar valores faltantes con valores estimados o calculados
# Imputar edad con la mediana
if df_imputado['edad'].isnull().sum() > 0:
    nulos_edad = df_imputado['edad'].isnull().sum()
    mediana_edad = df_imputado['edad'].median()
    df_imputado['edad'] = df_imputado['edad'].fillna(mediana_edad)
    print(f"✓ Edad: {nulos_edad} valores imputados con mediana ({mediana_edad})")
# Imputar ingresos con la mediana
if df_imputado['ingreso'].isnull().sum() > 0:
    nulos_ingreso = df_imputado['ingreso'].isnull().sum()
    mediana_ingreso = df_imputado['ingreso'].median()
    df_imputado['ingreso'] = df_imputado['ingreso'].fillna(mediana_ingreso)
    print(f"✓ Ingresos: {nulos_ingreso} valores imputados con mediana ({mediana_ingreso})")
# Imputar categoría con la moda (valor más frecuente)
if df_imputado['categoria'].isnull().sum() > 0:
    nulos_categoria = df_imputado['categoria'].isnull().sum()
    moda_categoria = df_imputado['categoria'].mode()[0]
    df_imputado['categoria'] = df_imputado['categoria'].fillna(moda_categoria)
    print(f"✓ Categoría: {nulos_categoria} valores imputados con moda ('{moda_categoria}')")
✓ Categoría: 2 valores imputados con moda ('Viajes')
# Imputar ventas con 0 (valor específico para este caso de negocio)
if df_imputado['ventas'].isnull().sum() > 0:
    ventas_nulas = df_imputado['ventas'].isnull().sum()
    df_imputado['ventas'] = df_imputado['ventas'].fillna(0)
    print(f"✓ Ventas: {ventas_nulas} valores imputados con 0")
# Imputar precios con la media de la categoría
if df_imputado['precio'].isnull().sum() > 0:
    precios_nulos = df_imputado['precio'].isnull().sum()
    # Calcular precio promedio por categoría
    precio_por_categoria = df_imputado.groupby('categoria')['precio'].mean()

    # Función para imputar precio basado en categoría
    def imputar_precio(row):
        if pd.isnull(row['precio']) and not pd.isnull(row['categoria']):
            return precio_por_categoria.get(row['categoria'], df_imputado['precio'].mean())
        return row['precio']

    df_imputado['precio'] = df_imputado.apply(imputar_precio, axis=1)
    print(f"✓ Precios: {precios_nulos} valores imputados con promedio por categoría")
✓ Precios: 1 valores imputados con promedio por categoría
if df_imputado['nombre'].isnull().sum() > 0:
    nombres_nulos = df_imputado['nombre'].isnull().sum()
    df_imputado['nombre'] = df_imputado['nombre'].fillna('Cliente Anónimo')
    print(f"✓ Nombres: {nombres_nulos} valores imputados con 'Cliente Anónimo'")
# VERIFICACIÓN FINAL
print("--- VERIFICACIÓN FINAL ---")
print("Estado después del manejo de valores nulos:")
print("Valores nulos restantes:")
nulos_finales = df_imputado.isnull().sum()
print(nulos_finales)
print()

total_nulos = nulos_finales.sum()
if total_nulos == 0:
    print("🎉 ¡Perfecto! No quedan valores nulos en el dataset")
else:
    print(f"⚠️  Quedan {total_nulos} valores nulos por manejar")
print()