In [33]:
import pandas as pd

In [34]:
data = {
    'Producto': ['A', 'B', 'C', 'D','E'],
    'Ventas': [100, None, 200, 250,700],
    'Precio': [10.2, 15.5, 20.5, None,20.6]
}
df = pd.DataFrame(data)
display(df)

Unnamed: 0,Producto,Ventas,Precio
0,A,100.0,10.2
1,B,,15.5
2,C,200.0,20.5
3,D,250.0,
4,E,700.0,20.6


In [35]:
#Veriricar valores nulos
print("Valores nulos por columna:")
print(df.isnull().sum().sum())
print(df.isnull().sum())

print("\nOtra forma de verificar valores nulos en el DataFrame:")
print(df.isnull().sum().sum())
df.isna().sum()  # Otra forma de verificar valores nulos

Valores nulos por columna:
2
Producto    0
Ventas      1
Precio      1
dtype: int64

Otra forma de verificar valores nulos en el DataFrame:
2


Producto    0
Ventas      1
Precio      1
dtype: int64

In [36]:
#Verificar datos duplicados

data_duplicados = {
    'Producto': ['A', 'B', 'C', 'A'],
    'Ventas': [100, 150, 200, 100],
    'Precio': [10.2, 15.5, 20.5, 10.2]
}
df_duplicados = pd.DataFrame(data_duplicados)
display(df_duplicados)

Unnamed: 0,Producto,Ventas,Precio
0,A,100,10.2
1,B,150,15.5
2,C,200,20.5
3,A,100,10.2


In [37]:
print("Número de filas duplicadas:", df_duplicados.duplicated().sum())
print("Número de filas únicas:", df_duplicados.nunique())
print("Número total de filas:", len(df_duplicados))
print("DataFrame sin duplicados:")
df_sin_duplicados = df_duplicados.drop_duplicates()
display(df_sin_duplicados)



Número de filas duplicadas: 1
Número de filas únicas: Producto    3
Ventas      3
Precio      3
dtype: int64
Número total de filas: 4
DataFrame sin duplicados:


Unnamed: 0,Producto,Ventas,Precio
0,A,100,10.2
1,B,150,15.5
2,C,200,20.5


In [38]:
#Validar datos que esten entre ventas 0 y 500
ventas_validas_1  = df[df['Ventas'].between(0, 500)]
ventas_validas_2 = df[(df['Ventas'] >= 0) & (df['Ventas'] <= 500)]

print("Ventas válidas (entre 0 y 500): \n",ventas_validas_1['Ventas'])
print("Ventas válidas (entre 0 y 500) usando otro método: \n",ventas_validas_2['Ventas'])


Ventas válidas (entre 0 y 500): 
 0    100.0
2    200.0
3    250.0
Name: Ventas, dtype: float64
Ventas válidas (entre 0 y 500) usando otro método: 
 0    100.0
2    200.0
3    250.0
Name: Ventas, dtype: float64


In [39]:
#Para usar la negación ~ y filtrar, necesitas una Serie booleana (True/False para cada fila).
mascara = df['Ventas'].between(0, 500)
ventas_fuera_de_rango = df[~mascara]
print("Ventas fuera del rango (0-500): \n", ventas_fuera_de_rango)

Ventas fuera del rango (0-500): 
   Producto  Ventas  Precio
1        B     NaN    15.5
4        E   700.0    20.6


In [40]:
#Validar que tenga un formato valido en este ejemplo seria fecha
data_fecha = {
    'Producto': ['A', 'B', 'C', 'D'],
    'Fecha': ['2023-01-01', '2023-02-30', '2023-03-15', '2023-04-10']  # 2023-02-30 es una fecha inválida 
}
df_fecha = pd.DataFrame(data_fecha)  
display(df_fecha)

Unnamed: 0,Producto,Fecha
0,A,2023-01-01
1,B,2023-02-30
2,C,2023-03-15
3,D,2023-04-10


In [41]:
#Convertir la columna 'Fecha' a tipo datetime, forzando errores a NaT
df_fecha['Fecha'] = pd.to_datetime(df_fecha['Fecha'], errors='coerce')
fechas_invalidad = df_fecha[df_fecha['Fecha'].isna()]
print("Fechas inválidas:\n", fechas_invalidad)


Fechas inválidas:
   Producto Fecha
1        B   NaT


In [48]:
data = {
    'Producto': ['A', 'B', 'C', 'D','E'],
    'Ventas': [-100, None, -200, 250,700],
    'Precio': [10.2, 15.5, 20.5, None,20.6]
}
df_1 = pd.DataFrame(data)
display(df)

Unnamed: 0,Producto,Ventas,Precio
0,A,100.0,10.2
1,B,,15.5
2,C,200.0,20.5
3,D,250.0,
4,E,700.0,20.6


In [49]:
#Pruebas de calidad personalizadas
#Ejemplo que no alla productos con ventas negativas

def velidar_ventas_negativas(df):
    if (df['Ventas'] < 0).any():
        print('Existen ventas negativas')
    else:
        print('No hay ventas negativas')
        
velidar_ventas_negativas(df_1 )

Existen ventas negativas


In [50]:
def mostrar_ventas_negativas(df):
    ventas_negativas = df[df['Ventas'] < 0]
    if not ventas_negativas.empty:
        print("Filas con ventas negativas:")
        display(ventas_negativas)
    else:
        print("No hay ventas negativas")

# Uso:
mostrar_ventas_negativas(df_1)

Filas con ventas negativas:


Unnamed: 0,Producto,Ventas,Precio
0,A,-100.0,10.2
2,C,-200.0,20.5


In [None]:
# Funcion assert para validaciones
# df['Ventas'].notna().all() verifica que no haya valores nulos en la columna Ventas.
# Si todos los valores no son nulos, el código sigue normalmente.
# Si hay algún valor nulo, se detiene la ejecución y muestra el mensaje: 'hay valores faltantes en la columna Ventas'
assert df['Ventas'].notna().all(), 'hay valores faltantes en la columna Ventas'

AssertionError: hay valores faltantes en la columna Ventas