In [1]:
# Crear un dataset de ejemplo
import pandas as pd
import numpy as np

# Fijar una semilla aleatoria para reproducibilidad
np.random.seed(42)

# Crear un DataFrame
df = pd.DataFrame({
    "producto": ["Laptop", "Mouse", "Teclado", "Monitor", "Mouse", "Teclado", "Monitor", "Laptop"] * 3,
    "precio": np.random.uniform(10, 1000, 24).round(2),
    "cantidad": np.random.randint(1, 50, 24),
    "categoria": ["Tecnología"] * 24,
    "mes": np.random.choice(["Enero", "Febrero", 'Marzo', 'Abril', 'junio', 'julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre'] * 2),
    "vendedor": np.random.choice(["Juan", "María", "Pedro"], 24)
})

df

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor
0,Laptop,380.79,47,Tecnología,julio,María
1,Mouse,951.21,44,Tecnología,julio,María
2,Teclado,734.67,3,Tecnología,julio,María
3,Monitor,602.67,37,Tecnología,julio,María
4,Mouse,164.46,7,Tecnología,julio,María
5,Teclado,164.43,21,Tecnología,julio,María
6,Monitor,67.5,9,Tecnología,julio,María
7,Laptop,867.51,39,Tecnología,julio,Juan
8,Laptop,605.1,18,Tecnología,julio,Pedro
9,Mouse,710.99,4,Tecnología,julio,María


In [2]:
#Primeras y ultimas filas
df.head()  #Primera 5 filas
df.tail()  #Ultimas 3 filas


Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor
19,Monitor,298.32,44,Tecnología,julio,Juan
20,Mouse,615.73,8,Tecnología,julio,María
21,Teclado,148.1,47,Tecnología,julio,Juan
22,Monitor,299.22,35,Tecnología,julio,Juan
23,Laptop,372.7,14,Tecnología,julio,María


In [3]:
#Estadisticas descriptivas
df.describe() #Solo columnas numericas
#df.describe(include='all')   #Todas las columnas

Unnamed: 0,precio,cantidad
count,24.0,24.0
mean,445.760417,23.125
std,288.420401,15.845209
min,30.38,2.0
25%,191.18,8.75
50%,376.745,20.5
75%,639.545,37.5
max,970.21,47.0


In [4]:
#Seleccione una columna (Serie)
df['producto']

#Seleccione Multiples columnas (Dataframe)
df[['producto', 'precio']]

#Seleccione Primeras 5 filas (slicing)
df.iloc[:5]

#Seleccione las 5 primeras filas y las columnas producto y precio
df.iloc[:5, :2]


Unnamed: 0,producto,precio
0,Laptop,380.79
1,Mouse,951.21
2,Teclado,734.67
3,Monitor,602.67
4,Mouse,164.46


Filtrado de datos

In [5]:
#Muestre solo los productos de tipo laptop
df[df['producto'] == 'Laptop']

#Forma 1 de filtrado
#Muestre solo las laptops cuyo precio sea mayo a $100 y tengan mas de 10 unidades
df[(df['producto'] == 'laptop') & (df['precio'] > 100) & (df['cantidad'] > 10)]

#Filtrado 2
#son nombres de variables que contiene el df
name_product = df['producto'] == 'Laptop'
price_product = df['precio'] > 100
quantity_product = df['cantidad'] >10
df[name_product & price_product & quantity_product]

#Filtrado 3
filter = df[df['producto'] == 'Laptop']
filter = filter[filter['precio'] > 100]
filter = filter[filter['cantidad'] > 10]
filter


#Muestre los datos de solo el mes de Enero y Febrero
df[df['mes'].isin(['Enero', 'Febrero'])] #Identificar si existe isin

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor


Analisis Exploratorio

In [6]:
#Valores unicos
df['producto'].unique()
df['producto'].nunique() #Cantidad de valores unicos


#Conteo de valores
df['producto'].count()
df.isnull()





Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


Valores Nulos


In [7]:
df.isnull()
df.isnull().sum() #Total por columna
df.isnull().sum().sum()   #Total general

#Procentaje de valores nulos
(df.isnull)

In [8]:
#Conteo de valores nulos por columna
df.isnull().sum()

#Total de valores nulos en el dataframe
df.isnull().sum().sum()

#Porcentaje de valores nulos
(df.isnull().sum() / len(df)) * 100


Unnamed: 0,0
producto,0.0
precio,0.0
cantidad,0.0
categoria,0.0
mes,0.0
vendedor,0.0


In [9]:
#Elimina filas con valores nulos
df.dropna()

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor
0,Laptop,380.79,47,Tecnología,julio,María
1,Mouse,951.21,44,Tecnología,julio,María
2,Teclado,734.67,3,Tecnología,julio,María
3,Monitor,602.67,37,Tecnología,julio,María
4,Mouse,164.46,7,Tecnología,julio,María
5,Teclado,164.43,21,Tecnología,julio,María
6,Monitor,67.5,9,Tecnología,julio,María
7,Laptop,867.51,39,Tecnología,julio,Juan
8,Laptop,605.1,18,Tecnología,julio,Pedro
9,Mouse,710.99,4,Tecnología,julio,María


In [11]:
# Aplica un descuento del 10% si el precio es mayor a 500, de lo contrario aplica un 5%.
df['Descuento'] = df['precio'].apply(lambda precio: precio * 0.10 if precio > 500 else precio * 0.05)

# Clasifica el producto como 'Caro' si el precio es mayor a 500, de lo contrario como 'Barato'.
df['Tipo'] = df['precio'].apply(lambda precio: 'Caro' if precio > 500 else 'Barato')

# Muestra el DataFrame con las nuevas columnas 'Descuento' y 'Tipo'.
df

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo
0,Laptop,380.79,47,Tecnología,julio,María,19.0395,Barato
1,Mouse,951.21,44,Tecnología,julio,María,95.121,Caro
2,Teclado,734.67,3,Tecnología,julio,María,73.467,Caro
3,Monitor,602.67,37,Tecnología,julio,María,60.267,Caro
4,Mouse,164.46,7,Tecnología,julio,María,8.223,Barato
5,Teclado,164.43,21,Tecnología,julio,María,8.2215,Barato
6,Monitor,67.5,9,Tecnología,julio,María,3.375,Barato
7,Laptop,867.51,39,Tecnología,julio,Juan,86.751,Caro
8,Laptop,605.1,18,Tecnología,julio,Pedro,60.51,Caro
9,Mouse,710.99,4,Tecnología,julio,María,71.099,Caro


In [12]:
#Precio promedio por producto
df.groupby('producto')['precio'].mean()


Unnamed: 0_level_0,precio
producto,Unnamed: 1_level_1
Laptop,454.811667
Monitor,404.655
Mouse,634.336667
Teclado,289.238333


In [14]:
#Cantidad total vendida por producto
df.groupby('producto')['cantidad'].sum()

Unnamed: 0_level_0,cantidad
producto,Unnamed: 1_level_1
Laptop,166
Monitor,141
Mouse,119
Teclado,129


In [15]:
#Cantidad promedio vendida por producto cada mes
df.groupby(['mes', 'producto'])['cantidad'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,cantidad
mes,producto,Unnamed: 2_level_1
julio,Laptop,27.666667
julio,Monitor,23.5
julio,Mouse,19.833333
julio,Teclado,21.5


In [16]:
# Agrupa el DataFrame por la columna 'producto'
# Luego aplica múltiples funciones de agregación a las columnas 'precio' y 'cantidad'.
df.groupby('producto').agg({
    'precio': ['mean', 'max', 'min'], # Calcula la media, el máximo y el mínimo del precio para cada producto
    'cantidad': 'sum' # Calcula la suma de la cantidad para cada producto
})

Unnamed: 0_level_0,precio,precio,precio,cantidad
Unnamed: 0_level_1,mean,max,min,sum
producto,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Laptop,454.811667,867.51,191.57,166
Monitor,404.655,970.21,67.5,141
Mouse,634.336667,951.21,164.46,119
Teclado,289.238333,734.67,30.38,129


In [17]:
# Ordena el DataFrame por la columna 'precio' de forma ascendente (por defecto).
df.sort_values('precio')
# Ordena el DataFrame por la columna 'precio' de forma descendente.
df.sort_values('precio', ascending=False)

# Ordena el DataFrame primero por 'mes' de forma ascendente y luego por 'precio' de forma descendente dentro de cada mes.
df.sort_values(['mes', 'precio'], ascending=[True, False])

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo
11,Monitor,970.21,14,Tecnología,julio,María,97.021,Caro
1,Mouse,951.21,44,Tecnología,julio,María,95.121,Caro
7,Laptop,867.51,39,Tecnología,julio,Juan,86.751,Caro
12,Mouse,834.12,9,Tecnología,julio,María,83.412,Caro
2,Teclado,734.67,3,Tecnología,julio,María,73.467,Caro
9,Mouse,710.99,4,Tecnología,julio,María,71.099,Caro
20,Mouse,615.73,8,Tecnología,julio,María,61.573,Caro
8,Laptop,605.1,18,Tecnología,julio,Pedro,60.51,Caro
3,Monitor,602.67,37,Tecnología,julio,María,60.267,Caro
17,Mouse,529.51,47,Tecnología,julio,María,52.951,Caro


In [18]:
# Identifica filas duplicadas en el DataFrame, devolviendo una Serie booleana.
df.duplicated()
# Cuenta el número total de filas duplicadas en el DataFrame.
df.duplicated().sum()

# Elimina filas duplicadas del DataFrame. Por defecto, mantiene la primera ocurrencia.
df.drop_duplicates()
# Elimina filas duplicadas basándose solo en las columnas 'producto' y 'mes'.
df.drop_duplicates(subset=['producto', 'mes'])

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo
0,Laptop,380.79,47,Tecnología,julio,María,19.0395,Barato
1,Mouse,951.21,44,Tecnología,julio,María,95.121,Caro
2,Teclado,734.67,3,Tecnología,julio,María,73.467,Caro
3,Monitor,602.67,37,Tecnología,julio,María,60.267,Caro


In [19]:
# Convierte la columna 'precio' a tipo de dato float32 para optimizar memoria y rendimiento en cálculos numéricos.
df['precio'] = df['precio'].astype('float32')
# Convierte la columna 'mes' a tipo de dato 'category' para mejorar la eficiencia de almacenamiento y operaciones en columnas con un número limitado de valores únicos.
df['mes'] = df['mes'].astype('category')

In [20]:
# Crea una nueva columna llamada 'fecha' y asigna a todas las filas el valor de fecha '2024-01-01'.
# pd.to_datetime() convierte la cadena de texto a un objeto datetime de pandas.
df['fecha'] = pd.to_datetime('2024-01-01')

Uso de apply

In [24]:
def clasificacion_precio(precio):
    if precio < 100:
        return 'Bajo'
    elif precio < 500:
        return 'Medio'
    else:
        return 'Alto'

df['clasificacion_precio'] = df['precio'].apply(clasificacion_precio)
df

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio
0,Laptop,380.790009,47,Tecnología,julio,María,19.0395,Barato,2024-01-01,Medio
1,Mouse,951.210022,44,Tecnología,julio,María,95.121,Caro,2024-01-01,Alto
2,Teclado,734.669983,3,Tecnología,julio,María,73.467,Caro,2024-01-01,Alto
3,Monitor,602.669983,37,Tecnología,julio,María,60.267,Caro,2024-01-01,Alto
4,Mouse,164.460007,7,Tecnología,julio,María,8.223,Barato,2024-01-01,Medio
5,Teclado,164.429993,21,Tecnología,julio,María,8.2215,Barato,2024-01-01,Medio
6,Monitor,67.5,9,Tecnología,julio,María,3.375,Barato,2024-01-01,Bajo
7,Laptop,867.51001,39,Tecnología,julio,Juan,86.751,Caro,2024-01-01,Alto
8,Laptop,605.099976,18,Tecnología,julio,Pedro,60.51,Caro,2024-01-01,Alto
9,Mouse,710.98999,4,Tecnología,julio,María,71.099,Caro,2024-01-01,Alto


In [25]:
df['Descuento'] = df['precio'].apply(lambda precio: 0.1 * precio)
df

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio
0,Laptop,380.790009,47,Tecnología,julio,María,38.079001,Barato,2024-01-01,Medio
1,Mouse,951.210022,44,Tecnología,julio,María,95.121002,Caro,2024-01-01,Alto
2,Teclado,734.669983,3,Tecnología,julio,María,73.466998,Caro,2024-01-01,Alto
3,Monitor,602.669983,37,Tecnología,julio,María,60.266998,Caro,2024-01-01,Alto
4,Mouse,164.460007,7,Tecnología,julio,María,16.446001,Barato,2024-01-01,Medio
5,Teclado,164.429993,21,Tecnología,julio,María,16.442999,Barato,2024-01-01,Medio
6,Monitor,67.5,9,Tecnología,julio,María,6.75,Barato,2024-01-01,Bajo
7,Laptop,867.51001,39,Tecnología,julio,Juan,86.751001,Caro,2024-01-01,Alto
8,Laptop,605.099976,18,Tecnología,julio,Pedro,60.509998,Caro,2024-01-01,Alto
9,Mouse,710.98999,4,Tecnología,julio,María,71.098999,Caro,2024-01-01,Alto


In [30]:
df['Tipo'] = df['precio'].apply(lambda precio: 'barato' if precio > 100 else 'Caro')
df

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio,Dataset
0,Laptop,380.790009,47,Tecnología,julio,María,38.079001,barato,2024-01-01,Medio,barato
1,Mouse,951.210022,44,Tecnología,julio,María,95.121002,barato,2024-01-01,Alto,barato
2,Teclado,734.669983,3,Tecnología,julio,María,73.466998,barato,2024-01-01,Alto,barato
3,Monitor,602.669983,37,Tecnología,julio,María,60.266998,barato,2024-01-01,Alto,barato
4,Mouse,164.460007,7,Tecnología,julio,María,16.446001,barato,2024-01-01,Medio,barato
5,Teclado,164.429993,21,Tecnología,julio,María,16.442999,barato,2024-01-01,Medio,barato
6,Monitor,67.5,9,Tecnología,julio,María,6.75,Caro,2024-01-01,Bajo,Caro
7,Laptop,867.51001,39,Tecnología,julio,Juan,86.751001,barato,2024-01-01,Alto,barato
8,Laptop,605.099976,18,Tecnología,julio,Pedro,60.509998,barato,2024-01-01,Alto,barato
9,Mouse,710.98999,4,Tecnología,julio,María,71.098999,barato,2024-01-01,Alto,barato


In [31]:
df["Estado"] = df['Estado'].replace({
    'Activo': 'Activo',
    'Desactivado': 'Desactivado'
})

KeyError: 'Estado'

In [32]:
# Primero, creamos una columna de ejemplo llamada 'Estado'
# Puedes reemplazar esta lógica con cómo se debería generar realmente la columna 'Estado' en tu caso
df['Estado'] = np.random.choice(['Activo', 'Desactivado', 'Pendiente'], size=len(df))

# Ahora, podemos usar replace en la columna 'Estado'
df["Estado"] = df['Estado'].replace({
    'Activo': 'Activo',
    'Desactivado': 'Desactivado'
    # Si quieres reemplazar 'Pendiente' por otro valor, añádelo aquí
    # 'Pendiente': 'Inactivo'
})

# Muestra el DataFrame con la columna 'Estado' actualizada
df

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio,Dataset,Estado
0,Laptop,380.790009,47,Tecnología,julio,María,38.079001,barato,2024-01-01,Medio,barato,Pendiente
1,Mouse,951.210022,44,Tecnología,julio,María,95.121002,barato,2024-01-01,Alto,barato,Activo
2,Teclado,734.669983,3,Tecnología,julio,María,73.466998,barato,2024-01-01,Alto,barato,Desactivado
3,Monitor,602.669983,37,Tecnología,julio,María,60.266998,barato,2024-01-01,Alto,barato,Activo
4,Mouse,164.460007,7,Tecnología,julio,María,16.446001,barato,2024-01-01,Medio,barato,Activo
5,Teclado,164.429993,21,Tecnología,julio,María,16.442999,barato,2024-01-01,Medio,barato,Activo
6,Monitor,67.5,9,Tecnología,julio,María,6.75,Caro,2024-01-01,Bajo,Caro,Activo
7,Laptop,867.51001,39,Tecnología,julio,Juan,86.751001,barato,2024-01-01,Alto,barato,Pendiente
8,Laptop,605.099976,18,Tecnología,julio,Pedro,60.509998,barato,2024-01-01,Alto,barato,Activo
9,Mouse,710.98999,4,Tecnología,julio,María,71.098999,barato,2024-01-01,Alto,barato,Activo


In [33]:
salario = df.where(df['precio'] > 100, "No aplica")
salario

TypeError: Cannot setitem on a Categorical with a new category (No aplica), set the categories first

In [34]:
# Guarda el DataFrame original para no modificarlo directamente si no es deseado
df_temp = df.copy()

# Convierte la columna 'mes' a tipo 'object' temporalmente si es categórica
if pd.api.types.is_categorical_dtype(df_temp['mes']):
    df_temp['mes'] = df_temp['mes'].astype('object')

# Aplica where - ahora debería funcionar sin el error de tipo categórico
salario = df_temp.where(df_temp['precio'] > 100, "No aplica")

# Muestra el resultado
salario

  if pd.api.types.is_categorical_dtype(df_temp['mes']):


Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio,Dataset,Estado
0,Laptop,380.790009,47,Tecnología,julio,María,38.079001,barato,2024-01-01 00:00:00,Medio,barato,Pendiente
1,Mouse,951.210022,44,Tecnología,julio,María,95.121002,barato,2024-01-01 00:00:00,Alto,barato,Activo
2,Teclado,734.669983,3,Tecnología,julio,María,73.466998,barato,2024-01-01 00:00:00,Alto,barato,Desactivado
3,Monitor,602.669983,37,Tecnología,julio,María,60.266998,barato,2024-01-01 00:00:00,Alto,barato,Activo
4,Mouse,164.460007,7,Tecnología,julio,María,16.446001,barato,2024-01-01 00:00:00,Medio,barato,Activo
5,Teclado,164.429993,21,Tecnología,julio,María,16.442999,barato,2024-01-01 00:00:00,Medio,barato,Activo
6,No aplica,No aplica,No aplica,No aplica,No aplica,No aplica,No aplica,No aplica,No aplica,No aplica,No aplica,No aplica
7,Laptop,867.51001,39,Tecnología,julio,Juan,86.751001,barato,2024-01-01 00:00:00,Alto,barato,Pendiente
8,Laptop,605.099976,18,Tecnología,julio,Pedro,60.509998,barato,2024-01-01 00:00:00,Alto,barato,Activo
9,Mouse,710.98999,4,Tecnología,julio,María,71.098999,barato,2024-01-01 00:00:00,Alto,barato,Activo


In [37]:
# Agrupar por categoria
df.groupby('producto')['precio'].mean()
df.groupby('producto')['cantidad'].sum()

# Agregar por multiples columnas
df.groupby(['mes', 'producto'])['precio'].mean()

  df.groupby(['mes', 'producto'])['precio'].mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,precio
mes,producto,Unnamed: 2_level_1
julio,Laptop,454.811676
julio,Monitor,404.654999
julio,Mouse,634.33667
julio,Teclado,289.238312


In [44]:
df.dropna() # Elimina filas con algun nulo
df.dropna(subset=['precio']) # elimina SOLO SI PRECIO null
# Rellenar
# Para evitar el error con la columna categórica, rellenamos columnas específicas
df['precio'] = df['precio'].fillna(df['precio'].mean()) # Rellena los nulos de 'precio' con la media
# Si tuvieras nulos en otras columnas, podrías rellenarlas de forma similar o con un valor constante si no son categóricas
# df['otra_columna'] = df['otra_columna'].fillna('valor_constante')

# Si quisieras rellenar nulos en *todas* las columnas (excepto las categóricas de forma global con un valor no existente),
# tendrías que manejar las columnas categóricas por separado o convertirlas temporalmente.
# Una forma más segura es rellenar columnas específicas.

# Ejemplo de cómo podrías rellenar nulos en columnas no categóricas:
# for col in df.select_dtypes(exclude=['category']).columns:
#     if df[col].isnull().any():
#         df[col] = df[col].fillna(df[col].mean() if df[col].dtype in ['float32', 'float64', 'int64'] else df[col].mode()[0])

# Muestra el DataFrame después de rellenar
df

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio,Dataset,Estado
0,Laptop,380.790009,47,Tecnología,julio,María,38.079001,barato,2024-01-01,Medio,barato,Pendiente
1,Mouse,951.210022,44,Tecnología,julio,María,95.121002,barato,2024-01-01,Alto,barato,Activo
2,Teclado,734.669983,3,Tecnología,julio,María,73.466998,barato,2024-01-01,Alto,barato,Desactivado
3,Monitor,602.669983,37,Tecnología,julio,María,60.266998,barato,2024-01-01,Alto,barato,Activo
4,Mouse,164.460007,7,Tecnología,julio,María,16.446001,barato,2024-01-01,Medio,barato,Activo
5,Teclado,164.429993,21,Tecnología,julio,María,16.442999,barato,2024-01-01,Medio,barato,Activo
6,Monitor,67.5,9,Tecnología,julio,María,6.75,Caro,2024-01-01,Bajo,Caro,Activo
7,Laptop,867.51001,39,Tecnología,julio,Juan,86.751001,barato,2024-01-01,Alto,barato,Pendiente
8,Laptop,605.099976,18,Tecnología,julio,Pedro,60.509998,barato,2024-01-01,Alto,barato,Activo
9,Mouse,710.98999,4,Tecnología,julio,María,71.098999,barato,2024-01-01,Alto,barato,Activo


In [39]:
# Multiples Agregaciones
df.groupby('producto').agg({
    'precio': ['mean', 'min', 'max'],
    'cantidad': 'sum'
})

Unnamed: 0_level_0,precio,precio,precio,cantidad
Unnamed: 0_level_1,mean,min,max,sum
producto,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Laptop,454.811676,191.570007,867.51001,166
Monitor,404.654999,67.5,970.210022,141
Mouse,634.33667,164.460007,951.210022,119
Teclado,289.238312,30.379999,734.669983,129


In [40]:
#Metodo de ordenamiento
df.sort_values('precio')                  # Ascendente
df.sort_values('precio', ascending=False) # Desendente

# Ordenar por multiples columans
df.sort_values(['mes','precio'], ascending=[True, False])

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio,Dataset,Estado
11,Monitor,970.210022,14,Tecnología,julio,María,97.021002,barato,2024-01-01,Alto,barato,Pendiente
1,Mouse,951.210022,44,Tecnología,julio,María,95.121002,barato,2024-01-01,Alto,barato,Activo
7,Laptop,867.51001,39,Tecnología,julio,Juan,86.751001,barato,2024-01-01,Alto,barato,Pendiente
12,Mouse,834.119995,9,Tecnología,julio,María,83.412,barato,2024-01-01,Alto,barato,Activo
2,Teclado,734.669983,3,Tecnología,julio,María,73.466998,barato,2024-01-01,Alto,barato,Desactivado
9,Mouse,710.98999,4,Tecnología,julio,María,71.098999,barato,2024-01-01,Alto,barato,Activo
20,Mouse,615.72998,8,Tecnología,julio,María,61.572998,barato,2024-01-01,Alto,barato,Activo
8,Laptop,605.099976,18,Tecnología,julio,Pedro,60.509998,barato,2024-01-01,Alto,barato,Activo
3,Monitor,602.669983,37,Tecnología,julio,María,60.266998,barato,2024-01-01,Alto,barato,Activo
17,Mouse,529.51001,47,Tecnología,julio,María,52.951001,barato,2024-01-01,Alto,barato,Activo


Limpiar datos

In [42]:
# Identifica filas duplicadas en el DataFrame, devolviendo una Serie booleana.
df.duplicated()
# Cuenta el número total de filas duplicadas en el DataFrame.
df.duplicated().sum()

# Eliminar Duplicados
df.drop_duplicates()
df.drop_duplicates(subset=['producto', 'mes'])

Unnamed: 0,producto,precio,cantidad,categoria,mes,vendedor,Descuento,Tipo,fecha,clasificacion_precio,Dataset,Estado
0,Laptop,380.790009,47,Tecnología,julio,María,38.079001,barato,2024-01-01,Medio,barato,Pendiente
1,Mouse,951.210022,44,Tecnología,julio,María,95.121002,barato,2024-01-01,Alto,barato,Activo
2,Teclado,734.669983,3,Tecnología,julio,María,73.466998,barato,2024-01-01,Alto,barato,Desactivado
3,Monitor,602.669983,37,Tecnología,julio,María,60.266998,barato,2024-01-01,Alto,barato,Activo


### Funciones útiles para trabajar con DataFrames en Pandas

*   **`replace()`**: Permite sustituir valores específicos en una columna o en todo el DataFrame por otros valores que tú indiques. Útil para corregir errores o estandarizar datos.

*   **`where()`**: Selecciona datos basándose en una condición. Los datos que cumplen la condición se mantienen, y los que no, se reemplazan por `NaN` por defecto. Se puede usar junto con `dropna()` para eliminar filas que no cumplen la condición, o especificar un valor de reemplazo en lugar de `NaN`.

*   **`dropna()`**: Elimina filas o columnas con valores nulos (`NaN`).
    *   `df.dropna()`: Elimina cualquier fila con al menos un valor nulo.
    *   `df.dropna(subset=['nombre_columna'])`: Elimina filas con valores nulos solo en las columnas especificadas.

*   **`fillna()`**: Rellena los valores nulos con otros valores.
    *   `df.fillna('valor_constante')`: Rellena todos los nulos con un valor constante.
    *   `df['columna'].fillna(df['columna'].mean())`: Rellena los nulos de una columna con la media de esa columna (o cualquier otra agregación).