In [1]:
import pandas as pd

1. Crear un DataFrame con errores

In [2]:
data = {"Id_producto": [1001,1002,1003,1003,1004],
        "Nombre_producto": ['Ratón', 'Teclado', 'Alfombrilla', 'Alfombrilla', 'Monitor'],
        "Cantidad_vendida": [30, None, 25, 25, 20],
        "Precio":[20.5,15.5,None,22.5,20.5],
        "Tipo":['Periférico','Periférico','Periférico','Periférico','Monitores']}
df = pd.DataFrame(data)
df

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30.0,20.5,Periférico
1,1002,Teclado,,15.5,Periférico
2,1003,Alfombrilla,25.0,,Periférico
3,1003,Alfombrilla,25.0,22.5,Periférico
4,1004,Monitor,20.0,20.5,Monitores


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Id_producto       5 non-null      int64  
 1   Nombre_producto   5 non-null      object 
 2   Cantidad_vendida  4 non-null      float64
 3   Precio            4 non-null      float64
 4   Tipo              5 non-null      object 
dtypes: float64(2), int64(1), object(2)
memory usage: 332.0+ bytes


In [5]:
df.isnull()

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,False,False,False,False,False
1,False,False,True,False,False
2,False,False,False,True,False
3,False,False,False,False,False
4,False,False,False,False,False


In [6]:
df.isnull().sum()

Id_producto         0
Nombre_producto     0
Cantidad_vendida    1
Precio              1
Tipo                0
dtype: int64

In [7]:
# ¿Cómo manejamos los datos faltantes?
# - Eliminarlos
# - Rellenarlos con un valor por defecto
# - Reemplazar por el valor medio entre otros

# Eliminar las columnas con NaN
df_eliminados = df.dropna()
df_eliminados

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30.0,20.5,Periférico
3,1003,Alfombrilla,25.0,22.5,Periférico
4,1004,Monitor,20.0,20.5,Monitores


In [8]:
# Si queremos rellenar los valores con un valor en concreto o la media
valores_defecto = {'Cantidad_vendida': 0, 'Precio': df['Precio'].mean()}
df_rellenados = df.fillna(valores_defecto)
df_rellenados

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30.0,20.5,Periférico
1,1002,Teclado,0.0,15.5,Periférico
2,1003,Alfombrilla,25.0,19.75,Periférico
3,1003,Alfombrilla,25.0,22.5,Periférico
4,1004,Monitor,20.0,20.5,Monitores


In [10]:
# Comprobar el tipo de dato
df_rellenados['Cantidad_vendida'] = df_rellenados['Cantidad_vendida'].astype(int)
df_rellenados

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30,20.5,Periférico
1,1002,Teclado,0,15.5,Periférico
2,1003,Alfombrilla,25,19.75,Periférico
3,1003,Alfombrilla,25,22.5,Periférico
4,1004,Monitor,20,20.5,Monitores


In [11]:
# Comprobar si hay duplicados
df_unicos = df_rellenados.drop_duplicates()
df_unicos

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30,20.5,Periférico
1,1002,Teclado,0,15.5,Periférico
2,1003,Alfombrilla,25,19.75,Periférico
3,1003,Alfombrilla,25,22.5,Periférico
4,1004,Monitor,20,20.5,Monitores


In [13]:
# NO hay duplicados completos, comprobamos si hay duplicados por una columna en particular
df_unicos = df_rellenados.drop_duplicates(subset='Id_producto') 
df_unicos

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30,20.5,Periférico
1,1002,Teclado,0,15.5,Periférico
2,1003,Alfombrilla,25,19.75,Periférico
4,1004,Monitor,20,20.5,Monitores


In [14]:
# Filtrar en función de un valor de una columna
filtro = df['Cantidad_vendida'] > 0
df_filtrado = df_unicos[filtro]
df_filtrado

  df_filtrado = df_unicos[filtro]


Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30,20.5,Periférico
2,1003,Alfombrilla,25,19.75,Periférico
4,1004,Monitor,20,20.5,Monitores


5. Ordenación de DataFrames

In [15]:
df_unicos

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30,20.5,Periférico
1,1002,Teclado,0,15.5,Periférico
2,1003,Alfombrilla,25,19.75,Periférico
4,1004,Monitor,20,20.5,Monitores


In [16]:
# Ordenar con sort
df_ordenado = df_unicos.sort_values(by='Precio')
df_ordenado

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
1,1002,Teclado,0,15.5,Periférico
2,1003,Alfombrilla,25,19.75,Periférico
0,1001,Ratón,30,20.5,Periférico
4,1004,Monitor,20,20.5,Monitores


In [17]:
df_ordenado = df_unicos.sort_values(by='Precio', ascending=False)
df_ordenado

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
0,1001,Ratón,30,20.5,Periférico
4,1004,Monitor,20,20.5,Monitores
2,1003,Alfombrilla,25,19.75,Periférico
1,1002,Teclado,0,15.5,Periférico


In [19]:
# Ordenar teniendo en cuenta 2 columnas
df_ordenado = df_unicos.sort_values(by=['Precio', 'Cantidad_vendida'])
df_ordenado

Unnamed: 0,Id_producto,Nombre_producto,Cantidad_vendida,Precio,Tipo
1,1002,Teclado,0,15.5,Periférico
2,1003,Alfombrilla,25,19.75,Periférico
4,1004,Monitor,20,20.5,Monitores
0,1001,Ratón,30,20.5,Periférico


In [20]:
# Agrupar y valorar
df_agrupado = df_unicos.groupby('Tipo')['Precio'].mean()
df_agrupado

Tipo
Monitores     20.500000
Periférico    18.583333
Name: Precio, dtype: float64

In [21]:
# Agrupar y valorar
df_agrupado = df_unicos.groupby('Tipo')['Precio'].sum()
df_agrupado

Tipo
Monitores     20.50
Periférico    55.75
Name: Precio, dtype: float64