**Configuración inicial**

In [1]:
# Importación de librerías necesarias
import pandas as pd
import numpy as np

# Verificación de versiones instaladas
print(f"¡Pandas importado!\n\tLa versión de Pandas es: {pd.__version__}")
print(f"¡NumPy importado!\n\tLa versión de NumPy es: {np.__version__}")

¡Pandas importado!
	La versión de Pandas es: 2.2.2
¡NumPy importado!
	La versión de NumPy es: 1.26.4


In [3]:
# Cargar todos los datos directo desde un CSV
df = pd.read_csv("datos_wrangling.csv")
df.head()

Unnamed: 0,nombre,categoria,precio,ventas,objetivo,fecha,estado,email,telefono,edad,ingreso
0,Juan Pérez,Electrónicos,$1250.50,15.0,20.0,2023-01-15,activo,juan.perez@email.com,555-1234,28,45000.0
1,María García,,$850.00,12.0,10.0,15/02/2023,ACTIVO,maria.garcia@gmail.com,555.5678,35,52000.0
2,Pedro López,Electronicos,1100.00,25.0,30.0,2023/03/10,inactivo,pedro@email,5551234,42,
3,Ana Martínez,Ropa,450.75,,15.0,2023-04-20,activo,ana.martinez@hotmail.com,555-9876,29,38000.0
4,Carlos Ruiz,ROPA,,18.0,20.0,20/05/2023,Activo,carlos.ruiz@email.com,555 1111,abc,41000.0


**Conceptos Fundamentales**

In [4]:
print("=== DATA WRANGLING - CONCEPTOS FUNDAMENTALES ===")
print("El Data Wrangling es el proceso de transformar y estructurar datos")
print("para que sean adecuados para el análisis.")
print()

# Ejemplo básico de transformación de datos
print("--- Ejemplo de transformación de datos ---")

print("Datos originales:")
print(df)
print("\nTipos de datos originales:")
print(df.dtypes)

=== DATA WRANGLING - CONCEPTOS FUNDAMENTALES ===
El Data Wrangling es el proceso de transformar y estructurar datos
para que sean adecuados para el análisis.

--- Ejemplo de transformación de datos ---
Datos originales:
              nombre     categoria    precio  ventas  objetivo       fecha  \
0         Juan Pérez  Electrónicos  $1250.50    15.0      20.0  2023-01-15   
1       María García           NaN   $850.00    12.0      10.0  15/02/2023   
2        Pedro López  Electronicos   1100.00    25.0      30.0  2023/03/10   
3       Ana Martínez          Ropa    450.75     NaN      15.0  2023-04-20   
4        Carlos Ruiz          ROPA       NaN    18.0      20.0  20/05/2023   
5                NaN         Hogar    320.25     8.0      12.0  2023-06-15   
6      Roberto Silva         Hogar        $0    22.0      25.0  2023/07/30   
7      Elena Vásquez      Deportes   $780.90    14.0      18.0  30/08/2023   
8        Carlos Ruiz          ROPA       NaN    18.0      20.0  20/05/2023   


**Muestreo aleatorio y permutación**

In [6]:
#Copia del DataFrame
df_muestreo = df.copy()

# Muestreo aleatorio de 5 filas
muestra = df_muestreo.sample(n=5)
print("Muestreo de 5 filas específicas:")
muestra

Muestreo de 5 filas específicas:


Unnamed: 0,nombre,categoria,precio,ventas,objetivo,fecha,estado,email,telefono,edad,ingreso
12,Alberto Sánchez,Viajes,2500.00,30.0,35.0,2024/07/10,activo,alberto.sanchez@gmail.com,555-5555,37,85000.0
4,Carlos Ruiz,ROPA,,18.0,20.0,20/05/2023,Activo,carlos.ruiz@email.com,555 1111,abc,41000.0
9,José Hernández,deportes,1500,35.0,30.0,2023-09-12,activo,jose.hernandez@hotmail,555-5555,55,78000.0
7,Elena Vásquez,Deportes,$780.90,14.0,18.0,30/08/2023,,elena.vasquez@email.com,5554444,27,
2,Pedro López,Electronicos,1100.00,25.0,30.0,2023/03/10,inactivo,pedro@email,5551234,42,


In [7]:
# Muestreo del 20% de los datos
muestra_porcentaje = df_muestreo.sample(frac=0.2)
print(f"Muestreo del 20% de los datos ({len(muestra_porcentaje)} filas):")
muestra_porcentaje

Muestreo del 20% de los datos (5 filas):


Unnamed: 0,nombre,categoria,precio,ventas,objetivo,fecha,estado,email,telefono,edad,ingreso
6,Roberto Silva,Hogar,$0,22.0,25.0,2023/07/30,activo,roberto.silva@gmail.com,555-3333,48,65000.0
11,,Libros,125.50,5.0,8.0,2023-11-20,activo,fernando.luna@gmail.com,555-7777,39,35000.0
17,Francisco Gil,Arte,,7.0,10.0,2024-03-15,activo,francisco.gil@hotmail.com,555.1111,28,33000.0
3,Ana Martínez,Ropa,450.75,,15.0,2023-04-20,activo,ana.martinez@hotmail.com,555-9876,29,38000.0
19,Raúl Mendoza,Música,$1200.00,-5.0,22.0,2024-05-20,inactivo,raul.mendoza@email,555-3333,250,62000.0


In [8]:
# La permutación permite reorganizar aleatoriamente los datos en un orden diferente, lo cual es útil en validaciones cruzadas o en experimentos donde se desea eliminar el sesgo del orden original de los datos.

# Permutación aleatoria de todas las filas
df_permutado = df_muestreo.sample(frac=1).reset_index(drop=True)
print("Permutación completa del dataset:")
df_permutado.head()

Permutación completa del dataset:


Unnamed: 0,nombre,categoria,precio,ventas,objetivo,fecha,estado,email,telefono,edad,ingreso
0,Alberto Sánchez,Viajes,2500.00,30.0,35.0,2024/07/10,activo,alberto.sanchez@gmail.com,555-5555,37,85000.0
1,Francisco Gil,Arte,,7.0,10.0,2024-03-15,activo,francisco.gil@hotmail.com,555.1111,28,33000.0
2,Roberto Silva,Hogar,$0,22.0,25.0,2023/07/30,activo,roberto.silva@gmail.com,555-3333,48,65000.0
3,,Libros,125.50,5.0,8.0,2023-11-20,activo,fernando.luna@gmail.com,555-7777,39,35000.0
4,Pedro López,Electronicos,1100.00,25.0,30.0,2023/03/10,inactivo,pedro@email,5551234,42,


In [9]:
# Comparación: primeras 5 filas antes y después de la permutación
print("Dataset original (primeras 5 filas):")
df_muestreo[['nombre', 'categoria', 'precio']].head()

Dataset original (primeras 5 filas):


Unnamed: 0,nombre,categoria,precio
0,Juan Pérez,Electrónicos,$1250.50
1,María García,,$850.00
2,Pedro López,Electronicos,1100.00
3,Ana Martínez,Ropa,450.75
4,Carlos Ruiz,ROPA,


In [10]:
print("Dataset permutado (primeras 5 filas):")
df_permutado[['nombre', 'categoria', 'precio']].head()

Dataset permutado (primeras 5 filas):


Unnamed: 0,nombre,categoria,precio
0,Alberto Sánchez,Viajes,2500.00
1,Francisco Gil,Arte,
2,Roberto Silva,Hogar,$0
3,,Libros,125.50
4,Pedro López,Electronicos,1100.00


In [11]:
# El ordenamiento de los datos permite organizar la información según valores específicos. En Pandas, se puede ordenar de forma ascendente o descendente con sort_values().

# Ordenar por la columna 'precio' de forma ascendente
df_ordenado = df.sort_values('precio')

# El ordenamiento no va a ser el esperado porque hay datos con el caracter $, Python interpreta Strings
print("Ordenado por 'precio' (ascendente):")
df_ordenado[['nombre', 'categoria', 'precio', 'ventas']].head()

Ordenado por 'precio' (ascendente):


Unnamed: 0,nombre,categoria,precio,ventas
6,Roberto Silva,Hogar,$0,22.0
19,Raúl Mendoza,Música,$1200.00,-5.0
0,Juan Pérez,Electrónicos,$1250.50,15.0
14,Miguel Torres,Salud,$675.30,11.0
7,Elena Vásquez,Deportes,$780.90,14.0


In [12]:
# Ordenar de forma descendente
df_desc = df_ordenado.sort_values('precio', ascending=False)
print("Ordenado por 'precio' (descendente):")
df_desc[['nombre', 'categoria', 'precio', 'ventas']].head()

Ordenado por 'precio' (descendente):


Unnamed: 0,nombre,categoria,precio,ventas
20,Patricia Jiménez,música,580.9,21.0
3,Ana Martínez,Ropa,450.75,
18,Claudia Ruiz,,445.8,13.0
5,,Hogar,320.25,8.0
21,Alberto Sánchez,Viajes,2500.0,30.0


In [13]:
# También es posible ordenar por múltiples columnas, estableciendo prioridades en el ordenamiento.

# Ordenar primero por 'categoria' y luego por 'precio'
df_multi = df_ordenado.sort_values(['categoria', 'precio'], ascending=[True, False])
print("Ordenado por 'categoria' (ascendente) y luego por 'precio' (descendente):")
df_multi[['nombre', 'categoria', 'precio', 'ventas']].head(10)

Ordenado por 'categoria' (ascendente) y luego por 'precio' (descendente):


Unnamed: 0,nombre,categoria,precio,ventas
17,Francisco Gil,Arte,,7.0
7,Elena Vásquez,Deportes,$780.90,14.0
2,Pedro López,Electronicos,1100.00,25.0
0,Juan Pérez,Electrónicos,$1250.50,15.0
5,,Hogar,320.25,8.0
6,Roberto Silva,Hogar,$0,22.0
11,,Libros,125.50,5.0
19,Raúl Mendoza,Música,$1200.00,-5.0
4,Carlos Ruiz,ROPA,,18.0
8,Carlos Ruiz,ROPA,,18.0


**Transformación de datos**

In [14]:
# Transformación de fechas - maneja múltiples formatos automáticamente
df['fecha'] = pd.to_datetime(df['fecha'], format='mixed', errors='coerce')
print("Fechas transformadas:")
print(df['fecha'].head(8))

Fechas transformadas:
0   2023-01-15
1   2023-02-15
2   2023-03-10
3   2023-04-20
4   2023-05-20
5   2023-06-15
6   2023-07-30
7   2023-08-30
Name: fecha, dtype: datetime64[ns]


In [15]:
# Transformación de precios - limpiar símbolos y convertir a numérico
df['precio'] = df['precio'].astype(str).str.replace('[$€]', '', regex=True)
df['precio'] = df['precio'].str.replace(',', '', regex=True)
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

print("Precios transformados:")
print(df['precio'].head(8))

Precios transformados:
0    1250.50
1     850.00
2    1100.00
3     450.75
4        NaN
5     320.25
6       0.00
7     780.90
Name: precio, dtype: float64


In [16]:
# Verificar las transformaciones
print("Tipos de datos después de la transformación:")
print(df[['fecha', 'precio']].dtypes)
print(f"\nFechas válidas: {df['fecha'].notna().sum()} de {len(df)}")
print(f"Precios válidos: {df['precio'].notna().sum()} de {len(df)}")

Tipos de datos después de la transformación:
fecha     datetime64[ns]
precio           float64
dtype: object

Fechas válidas: 22 de 23
Precios válidos: 19 de 23


In [17]:
# Mostrar datos limpios
print("Datos transformados (primeras 8 filas):")
df[['nombre', 'fecha', 'precio']].head(8)

Datos transformados (primeras 8 filas):


Unnamed: 0,nombre,fecha,precio
0,Juan Pérez,2023-01-15,1250.5
1,María García,2023-02-15,850.0
2,Pedro López,2023-03-10,1100.0
3,Ana Martínez,2023-04-20,450.75
4,Carlos Ruiz,2023-05-20,
5,,2023-06-15,320.25
6,Roberto Silva,2023-07-30,0.0
7,Elena Vásquez,2023-08-30,780.9


**Reordenamiento**

In [18]:
# El ordenamiento de los datos permite organizar la información según valores específicos. En Pandas, se puede ordenar de forma ascendente o descendente con sort_values().

# Ordenar por la columna 'precio' de forma ascendente
df_ordenado = df.sort_values('precio')

# Ahora si el ordenamiento funcionará bien porque la columna 'precio' solo posee numéricos
print("Ordenado por 'precio' (ascendente):")
df_ordenado[['nombre', 'categoria', 'precio', 'ventas']].head()

Ordenado por 'precio' (ascendente):


Unnamed: 0,nombre,categoria,precio,ventas
6,Roberto Silva,Hogar,0.0,22.0
11,,Libros,125.5,5.0
5,,Hogar,320.25,8.0
18,Claudia Ruiz,,445.8,13.0
3,Ana Martínez,Ropa,450.75,


**Detección y eliminación de duplicados**

In [19]:
# Detección y eliminación de registros duplicados
print("=== DETECCIÓN Y ELIMINACIÓN DE REGISTROS DUPLICADOS ===")
print("Proceso de 4 etapas: Identificación → Análisis → Eliminación → Verificación")

=== DETECCIÓN Y ELIMINACIÓN DE REGISTROS DUPLICADOS ===
Proceso de 4 etapas: Identificación → Análisis → Eliminación → Verificación


In [20]:
# IDENTIFICACIÓN - Detectar registros duplicados
print("--- 1. IDENTIFICACIÓN ---")
duplicados = df.duplicated()
print(f"Registros duplicados encontrados: {duplicados.sum()}")
print(f"Filas duplicadas (True/False):")
print(duplicados.head())

--- 1. IDENTIFICACIÓN ---
Registros duplicados encontrados: 3
Filas duplicadas (True/False):
0    False
1    False
2    False
3    False
4    False
dtype: bool


In [21]:
# ANÁLISIS - Ver las filas duplicadas
print("--- 2. ANÁLISIS ---")
filas_duplicadas = df[df.duplicated()]
print(f"Filas que son duplicados completos:")
filas_duplicadas

--- 2. ANÁLISIS ---
Filas que son duplicados completos:


Unnamed: 0,nombre,categoria,precio,ventas,objetivo,fecha,estado,email,telefono,edad,ingreso
8,Carlos Ruiz,ROPA,,18.0,20.0,2023-05-20,Activo,carlos.ruiz@email.com,555 1111,abc,41000.0
15,Alberto Sánchez,Viajes,2500.0,30.0,35.0,2024-07-10,activo,alberto.sanchez@gmail.com,555-5555,37,85000.0
21,Alberto Sánchez,Viajes,2500.0,30.0,35.0,2024-07-10,activo,alberto.sanchez@gmail.com,555-5555,37,85000.0


In [22]:
# También detectar duplicados por columnas específicas
duplicados_email = df.duplicated(subset=['email'])
print(f"Duplicados por email: {duplicados_email.sum()}")

Duplicados por email: 3


In [23]:
# ELIMINACIÓN - Remover duplicados (conserva la primera ocurrencia)
print("--- 3. ELIMINACIÓN ---")
df_sin_duplicados = df.drop_duplicates()
print(f"Filas antes: {len(df)}")
print(f"Filas después: {len(df_sin_duplicados)}")
print(f"Duplicados eliminados: {len(df) - len(df_sin_duplicados)}")

--- 3. ELIMINACIÓN ---
Filas antes: 23
Filas después: 20
Duplicados eliminados: 3


In [24]:
# VERIFICACIÓN - Confirmar que los datos están limpios
print("--- 4. VERIFICACIÓN ---")
verificacion = df_sin_duplicados.duplicated().sum()
print(f"Duplicados restantes: {verificacion}")
print("✓ Datos limpios y sin redundancias" if verificacion == 0 else "⚠ Aún hay duplicados")

--- 4. VERIFICACIÓN ---
Duplicados restantes: 0
✓ Datos limpios y sin redundancias


**Reemplazo de valores**

In [25]:
# Reemplazo de valores
print("=== REEMPLAZO DE VALORES ===")
print("Corrección de valores incorrectos, mal escritos o inconsistentes")

=== REEMPLAZO DE VALORES ===
Corrección de valores incorrectos, mal escritos o inconsistentes


In [26]:
# REEMPLAZO SIMPLE
print("--- REEMPLAZO SIMPLE ---")
print("Valores únicos en 'categoria' antes del reemplazo:")
print(df['categoria'].value_counts(dropna=False))

--- REEMPLAZO SIMPLE ---
Valores únicos en 'categoria' antes del reemplazo:
categoria
Viajes          3
ROPA            2
Hogar           2
NaN             2
Electrónicos    1
libros          1
música          1
Música          1
Arte            1
SALUD           1
Salud           1
Libros          1
Tecnología      1
deportes        1
Deportes        1
Ropa            1
Electronicos    1
viajes          1
Name: count, dtype: int64


In [27]:
# Reemplazar un valor específico
df['categoria'] = df['categoria'].replace('Electronicos', 'Electrónicos')
df['categoria']

0     Electrónicos
1              NaN
2     Electrónicos
3             Ropa
4             ROPA
5            Hogar
6            Hogar
7         Deportes
8             ROPA
9         deportes
10      Tecnología
11          Libros
12          Viajes
13          libros
14           Salud
15          Viajes
16           SALUD
17            Arte
18             NaN
19          Música
20          música
21          Viajes
22          viajes
Name: categoria, dtype: object

In [28]:
# Reemplazar múltiples valores usando diccionario
df['estado'] = df['estado'].replace({
    'Actvo': 'Activo',
    'activo': 'Activo',
    'ACTIVO': 'Activo',
    'INACTIVO': 'Inactivo',
    'inactivo': 'Inactivo'
})
df['estado']

0       Activo
1       Activo
2     Inactivo
3       Activo
4       Activo
5     Inactivo
6       Activo
7          NaN
8       Activo
9       Activo
10    Inactivo
11      Activo
12      Activo
13      Activo
14    Inactivo
15      Activo
16      Activo
17      Activo
18      Activo
19    Inactivo
20         NaN
21      Activo
22      Activo
Name: estado, dtype: object

In [29]:
print("Valores en 'estado' después del reemplazo:")
print(df['estado'].value_counts(dropna=False))

Valores en 'estado' después del reemplazo:
estado
Activo      16
Inactivo     5
NaN          2
Name: count, dtype: int64


In [30]:
# REEMPLAZO CON EXPRESIONES REGULARES
print("--- REEMPLAZO CON EXPRESIONES REGULARES ---")
print("Formatos de teléfono antes del reemplazo:")
print(df['telefono'].head(8))

--- REEMPLAZO CON EXPRESIONES REGULARES ---
Formatos de teléfono antes del reemplazo:
0    555-1234
1    555.5678
2     5551234
3    555-9876
4    555 1111
5    555-2222
6    555-3333
7     5554444
Name: telefono, dtype: object


In [31]:
# Limpiar TODOS los separadores primero
df['telefono'] = df['telefono'].str.replace(r'[.\s-]', '', regex=True)

# Formatear números de 7 dígitos: XXXXXXX → XXX-XXXX
df['telefono'] = df['telefono'].str.replace(
    r'^(\d{2})(\d{5})$',
    r'(\1) \2',
    regex=True
)

df['telefono']

0     (55) 51234
1     (55) 55678
2     (55) 51234
3     (55) 59876
4     (55) 51111
5     (55) 52222
6     (55) 53333
7     (55) 54444
8     (55) 51111
9     (55) 55555
10           NaN
11    (55) 57777
12    (55) 55555
13    (55) 58888
14    (55) 59999
15    (55) 55555
16    (55) 50000
17    (55) 51111
18    (55) 52222
19    (55) 53333
20    (55) 54444
21    (55) 55555
22    (55) 56666
Name: telefono, dtype: object

In [32]:
# Estandarizar categorías con regex (mayúsculas/minúsculas)
print("--- ESTANDARIZACIÓN DE CATEGORÍAS ---")
# Primera letra mayúscula
df['categoria'] = df['categoria'].str.title()

print("Categorías estandarizadas:")
print(df['categoria'].value_counts(dropna=False))

--- ESTANDARIZACIÓN DE CATEGORÍAS ---
Categorías estandarizadas:
categoria
Viajes          4
Ropa            3
Electrónicos    2
NaN             2
Hogar           2
Deportes        2
Libros          2
Salud           2
Música          2
Tecnología      1
Arte            1
Name: count, dtype: int64


In [33]:
# Reemplazar valores nulos y problemáticos
print("--- REEMPLAZO DE VALORES PROBLEMÁTICOS ---")
# Reemplazar valores que representan nulos
df = df.replace(['null', 'n/a', '#N/A', 'N/A'], pd.NA)

print("Valores nulos por columna después del reemplazo:")
print(df.isnull().sum())
print()

--- REEMPLAZO DE VALORES PROBLEMÁTICOS ---
Valores nulos por columna después del reemplazo:
nombre       2
categoria    2
precio       4
ventas       1
objetivo     1
fecha        1
estado       2
email        1
telefono     1
edad         0
ingreso      3
dtype: int64



**Conversión de columnas (tipos)**

In [34]:
# Conversión de edad a numérico
print("Convertir columna 'edad' a numérico:")
df['edad'] = pd.to_numeric(df['edad'], errors='coerce')
print("✓ Edades convertidas")

Convertir columna 'edad' a numérico:
✓ Edades convertidas


In [35]:
# Conversión de ingresos a numérico
print("Convertir columna 'ingreso' a numérico:")
df['ingreso'] = pd.to_numeric(df['ingreso'], errors='coerce')
print("✓ Ingresos convertidos")

Convertir columna 'ingreso' a numérico:
✓ Ingresos convertidos


In [36]:
# Conversión de categoría a tipo category (optimiza memoria)
print("Convertir columna 'estado' a categoria:")
df['estado'] = df['estado'].astype('category')
print("✓ Estados convertidos a categoría")

Convertir columna 'estado' a categoria:
✓ Estados convertidos a categoría


**Volver a eliminar duplicados**

In [37]:
# === DETECCIÓN Y ELIMINACIÓN DE DUPLICADOS ===
print("=== DETECCIÓN Y ELIMINACIÓN DE REGISTROS DUPLICADOS ===")
print("Proceso de 4 etapas: Identificación → Análisis → Eliminación → Verificación")
print()

# 1. IDENTIFICACIÓN
print("--- 1. IDENTIFICACIÓN ---")
duplicados = df.duplicated()
print(f"Registros duplicados encontrados: {duplicados.sum()}")
print()

# 2. ANÁLISIS
print("--- 2. ANÁLISIS ---")
filas_duplicadas = df[df.duplicated()]
print(f"Filas que son duplicados completos:")
print(filas_duplicadas[['nombre', 'categoria', 'precio']])
print()

# 3. ELIMINACIÓN
print("--- 3. ELIMINACIÓN ---")
df_sin_duplicados = df.drop_duplicates()
print(f"Filas antes: {len(df)}")
print(f"Filas después: {len(df_sin_duplicados)}")
print(f"Duplicados eliminados: {len(df) - len(df_sin_duplicados)}")
print()

# 4. VERIFICACIÓN
print("--- 4. VERIFICACIÓN ---")
verificacion = df_sin_duplicados.duplicated().sum()
print(f"Duplicados restantes: {verificacion}")
print("✓ Datos limpios y sin redundancias" if verificacion == 0 else "⚠ Aún hay duplicados")
print()

=== DETECCIÓN Y ELIMINACIÓN DE REGISTROS DUPLICADOS ===
Proceso de 4 etapas: Identificación → Análisis → Eliminación → Verificación

--- 1. IDENTIFICACIÓN ---
Registros duplicados encontrados: 3

--- 2. ANÁLISIS ---
Filas que son duplicados completos:
             nombre categoria  precio
8       Carlos Ruiz      Ropa     NaN
15  Alberto Sánchez    Viajes  2500.0
21  Alberto Sánchez    Viajes  2500.0

--- 3. ELIMINACIÓN ---
Filas antes: 23
Filas después: 20
Duplicados eliminados: 3

--- 4. VERIFICACIÓN ---
Duplicados restantes: 0
✓ Datos limpios y sin redundancias



In [38]:
# Estandarizar categorías
df['categoria'] = df['categoria'].str.title()
print("Categorías estandarizadas:")
print(df['categoria'].value_counts(dropna=False))
print()

# REEMPLAZO DE VALORES PROBLEMÁTICOS
print("--- REEMPLAZO DE VALORES PROBLEMÁTICOS ---")
# Reemplazar valores que representan nulos
df = df.replace(['null', 'n/a', '#N/A', 'N/A'], pd.NA)

print("Valores nulos por columna después del reemplazo:")
print(df.isnull().sum())

Categorías estandarizadas:
categoria
Viajes          4
Ropa            3
Electrónicos    2
NaN             2
Hogar           2
Deportes        2
Libros          2
Salud           2
Música          2
Tecnología      1
Arte            1
Name: count, dtype: int64

--- REEMPLAZO DE VALORES PROBLEMÁTICOS ---
Valores nulos por columna después del reemplazo:
nombre       2
categoria    2
precio       4
ventas       1
objetivo     1
fecha        1
estado       2
email        1
telefono     1
edad         2
ingreso      3
dtype: int64


**Manejo de valores perdidos (nulos) más imputación**

In [39]:
# IMPUTACIÓN
print("--- IMPUTACIÓN ---")
print("Reemplazar valores faltantes con valores estimados o calculados")

# Crear una copia para imputación
df_imputado = df.copy()

--- IMPUTACIÓN ---
Reemplazar valores faltantes con valores estimados o calculados


In [40]:
# Imputar edad con la mediana
if df_imputado['edad'].isnull().sum() > 0:
    nulos_edad = df_imputado['edad'].isnull().sum()
    mediana_edad = df_imputado['edad'].median()
    df_imputado['edad'] = df_imputado['edad'].fillna(mediana_edad)
    print(f"✓ Edad: {nulos_edad} valores imputados con mediana ({mediana_edad})")

✓ Edad: 2 valores imputados con mediana (35.0)


In [41]:
# Imputar ingresos con la mediana
if df_imputado['ingreso'].isnull().sum() > 0:
    nulos_ingreso = df_imputado['ingreso'].isnull().sum()
    mediana_ingreso = df_imputado['ingreso'].median()
    df_imputado['ingreso'] = df_imputado['ingreso'].fillna(mediana_ingreso)
    print(f"✓ Ingresos: {nulos_ingreso} valores imputados con mediana ({mediana_ingreso})")

✓ Ingresos: 3 valores imputados con mediana (46500.0)


In [42]:
# Imputar categoría con la moda (valor más frecuente)
if df_imputado['categoria'].isnull().sum() > 0:
    nulos_categoria = df_imputado['categoria'].isnull().sum()
    moda_categoria = df_imputado['categoria'].mode()[0]
    df_imputado['categoria'] = df_imputado['categoria'].fillna(moda_categoria)
    print(f"✓ Categoría: {nulos_categoria} valores imputados con moda ('{moda_categoria}')")

✓ Categoría: 2 valores imputados con moda ('Viajes')


In [43]:
# Imputar ventas con 0 (valor específico para este caso de negocio)
if df_imputado['ventas'].isnull().sum() > 0:
    ventas_nulas = df_imputado['ventas'].isnull().sum()
    df_imputado['ventas'] = df_imputado['ventas'].fillna(0)
    print(f"✓ Ventas: {ventas_nulas} valores imputados con 0")

✓ Ventas: 1 valores imputados con 0


In [44]:
# Imputar precios con la media de la categoría
if df_imputado['precio'].isnull().sum() > 0:
    precios_nulos = df_imputado['precio'].isnull().sum()
    # Calcular precio promedio por categoría
    precio_por_categoria = df_imputado.groupby('categoria')['precio'].mean()

    # Función para imputar precio basado en categoría
    def imputar_precio(row):
        if pd.isnull(row['precio']) and not pd.isnull(row['categoria']):
            return precio_por_categoria.get(row['categoria'], df_imputado['precio'].mean())
        return row['precio']

    df_imputado['precio'] = df_imputado.apply(imputar_precio, axis=1)
    print(f"✓ Precios: {precios_nulos} valores imputados con promedio por categoría")

✓ Precios: 4 valores imputados con promedio por categoría


In [45]:
if df_imputado['nombre'].isnull().sum() > 0:
    nombres_nulos = df_imputado['nombre'].isnull().sum()
    df_imputado['nombre'] = df_imputado['nombre'].fillna('Cliente Anónimo')
    print(f"✓ Nombres: {nombres_nulos} valores imputados con 'Cliente Anónimo'")

✓ Nombres: 2 valores imputados con 'Cliente Anónimo'


In [46]:
# VERIFICACIÓN FINAL
print("--- VERIFICACIÓN FINAL ---")
print("Estado después del manejo de valores nulos:")
print("Valores nulos restantes:")
nulos_finales = df_imputado.isnull().sum()
print(nulos_finales)
print()

total_nulos = nulos_finales.sum()
if total_nulos == 0:
    print("🎉 ¡Perfecto! No quedan valores nulos en el dataset")
else:
    print(f"⚠️  Quedan {total_nulos} valores nulos por manejar")
print()

--- VERIFICACIÓN FINAL ---
Estado después del manejo de valores nulos:
Valores nulos restantes:
nombre       0
categoria    0
precio       1
ventas       0
objetivo     1
fecha        1
estado       2
email        1
telefono     1
edad         0
ingreso      0
dtype: int64

⚠️  Quedan 7 valores nulos por manejar

