In [8]:
import pandas as pd

productos_validos = ['Mouse', 'Teclado']

# Cargar datos
df = pd.read_csv("data.csv")

# Verificar valores perdidos
'''
Verificar si hay valores perdidos en las columnas y decidir cómo manejarlos
(eliminar las filas, rellenar con valores por defecto, etc.).
'''
print("Valores perdidos:")
print(df.isnull().sum())

Valores perdidos:
ID de Venta           0
Producto              0
Cantidad              0
Precio Unitario       7
Fecha de Venta        0
Estado de la Venta    3
dtype: int64


In [9]:
# Eliminar filas con valores perdidos
df = df.dropna()

# Tratar valores especiales. Elimino las filas que en estas columnas
# sus valores sean diferentes a numero positivos
df = df[(df["Cantidad"] > 0) & (df["Precio Unitario"] > 0)]

# Eliminar filas duplicadas
df = df.drop_duplicates()

# Corregir errores tipográficos
df["Producto"] = df["Producto"].str.strip()  # Eliminar espacios en blanco al inicio y final

# Verificar clases mal etiquetadas
print("Clases de estado de venta:")
print(df["Estado de la Venta"].value_counts())

Clases de estado de venta:
Estado de la Venta
Completada    8
En Proceso    4
Cancelada     3
Name: count, dtype: int64


In [10]:
# Filtrar valores que no están en la lista de nombres válidos
df_errores_tipograficos = df[~df['Producto'].isin(productos_validos)]

# Imprimir los valores que podrían ser errores tipográficos
print(df_errores_tipograficos['Producto'])

2     Auriculares
4        Pendrive
7           Ratón
10        Monitor
13          Ratón
15        Monitor
19          Ratón
20        Monitor
21    Auriculares
Name: Producto, dtype: object


In [11]:
# Eliminar esos valores que no estaban en esa lista
df = df.drop(df_errores_tipograficos.index)

# Imprimir el DataFrame limpio
print("DataFrame limpio:")
print(df)

DataFrame limpio:
    ID de Venta Producto  Cantidad  Precio Unitario Fecha de Venta   
0             1    Mouse         2             25.0     2022-01-15  \
1             2  Teclado         1             30.0     2022-02-10   
11           12  Teclado         2             35.0     2022-12-15   
16           17  Teclado         1             40.0     2023-05-01   
22           23  Teclado         1             38.0     2023-11-15   
24           25    Mouse         3             28.0     2024-01-25   

   Estado de la Venta  
0          Completada  
1          Completada  
11          Cancelada  
16         Completada  
22          Cancelada  
24         Completada  
