In [12]:
import pandas as pd

data = {"Id_producto": [1001, 1002, 1003, 1003, 1004],
        "Cantidad_vendida": [30, None, 25, 25, 26],
        "Precio": [20.5, 15.0, None, 22.5, 28.1]}

df = pd.DataFrame(data)
df

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,,15.0
2,1003,25.0,
3,1003,25.0,22.5
4,1004,26.0,28.1


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Id_producto       5 non-null      int64  
 1   Cantidad_vendida  4 non-null      float64
 2   Precio            4 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 252.0 bytes


## 1. Conocer los valores faltantes

In [14]:
# Chequear valores nulos
df.isnull()

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,False,False,False
1,False,True,False
2,False,False,True
3,False,False,False
4,False,False,False


In [16]:
# Suma de valores nulos por columna
df.isnull().sum()

Id_producto         0
Cantidad_vendida    1
Precio              1
dtype: int64

## 2. Manejar los valores faltantes

### Manejo de valores nulos

In [20]:
# Eliminar filas con valores nulos
df_eliminados = df.dropna()
df_eliminados

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
3,1003,25.0,22.5
4,1004,26.0,28.1


In [22]:
# Rellenar valores nulos con un valor específico
df_rellenados = df.fillna(0)
df_rellenados

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,0.0,15.0
2,1003,25.0,0.0
3,1003,25.0,22.5
4,1004,26.0,28.1


In [24]:
# Rellenar valores nulos especificando el valor por columna
valores_nuevos = {
    "Cantidad_vendida": 0, 
    "Precio": df["Precio"].mean()
}

df_relleando = df.fillna(value=valores_nuevos)
df_relleando

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,0.0,15.0
2,1003,25.0,21.525
3,1003,25.0,22.5
4,1004,26.0,28.1


### Modificar tipos de datos

In [31]:
# Modificar tipos de datos
df_relleando.Cantidad_vendida = df_relleando.Cantidad_vendida.astype(int)
df_relleando

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,21.525
3,1003,25,22.5
4,1004,26,28.1


### Manejo de duplicados

In [33]:
# Duplicados
df_unicos = df_relleando.drop_duplicates(subset="Id_producto") # Eliminar duplicados de la columna Id_producto
df_unicos

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,21.525
4,1004,26,28.1


## Ejercicios

In [37]:
data = {
    'ID': [1, 2, 3, 4, 5],
    'Producto': ['Producto A', 'Producto B', None, 'Producto D', 'Producto E'],
    'Cantidad': [10, 20, 30, None, 50],
    'Precio': [100, 200, 300, 400, None]
}

df = pd.DataFrame(data)
df.isnull().sum()

ID          0
Producto    1
Cantidad    1
Precio      1
dtype: int64

In [42]:
import pandas as pd

data = {
    'ID': [1, 2, 3, 4, 1],
    'Producto': ['Producto A', 'Producto B', 'Producto C', 'Producto D', 'Producto A'],
    'Cantidad': [10, 20, 30, 40, 50],
    'Precio': [100, 200, 300, 400, 100]
}

df = pd.DataFrame(data)

df_sin_duplicados = df.drop_duplicates(subset="ID")
df_sin_duplicados

Unnamed: 0,ID,Producto,Cantidad,Precio
0,1,Producto A,10,100
1,2,Producto B,20,200
2,3,Producto C,30,300
3,4,Producto D,40,400


In [44]:
import pandas as pd

data = {
    'ID': [1, 2, 3, 4],
    'Producto': ['Producto A', 'Producto B', 'Producto C', 'Producto D'],
    'Cantidad': [10, 20, 30, 40],
    'Precio': [100, None, 300, None]
}

df = pd.DataFrame(data)

valor_nuevo = {"Precio" : df["Precio"].mean()}
df_rellenado = df.fillna(value=valor_nuevo)
df_rellenado


Unnamed: 0,ID,Producto,Cantidad,Precio
0,1,Producto A,10,100.0
1,2,Producto B,20,200.0
2,3,Producto C,30,300.0
3,4,Producto D,40,200.0
