In [None]:
import pandas as pd

# 1. Cargar dataset
df = pd.read_csv('ventas_ecommerce.csv')
print("\nDataFrame original:")
print(df.head())

# 2. Eliminar filas duplicadas
df = df.drop_duplicates()
print("\nFilas duplicadas eliminadas.")

# 3. Revisar y gestionar valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Ejemplo: eliminar filas con nulos en 'precio' y rellenar otros
df = df.dropna(subset=['precio'])
df['cliente'] = df['cliente'].fillna('Desconocido')

# 4. Corregir valores inconsistentes en columna 'metodo_pago'
df['metodo_pago'] = df['metodo_pago'].replace({
    'tarjeta': 'Tarjeta',
    'efetivo': 'Efectivo'
})

# 5. Normalizar formatos: fechas y precios
df['fecha'] = pd.to_datetime(df['fecha'])
df['precio'] = df['precio'].astype(float)

print("\nDataFrame limpio:")
print(df.head())

# (Opcional) Exportar
df.to_csv('ventas_ecommerce_limpio.csv', index=False)
print("\nArchivo limpio exportado: ventas_ecommerce_limpio.csv")


In [None]:
import pandas as pd

# 1. Cargar dataset
df = pd.read_csv('empleados.csv')
print("\nDataFrame empleados:")
print(df.head())

# 2. Agrupar por área: promedio de antigüedad y edad
agrupado = df.groupby('area').agg({
    'antiguedad': 'mean',
    'edad': 'mean'
}).reset_index()

print("\nPromedios por área:")
print(agrupado)

# 3. Discretizar edad en categorías
bins = [0, 30, 45, 120]
labels = ['Joven', 'Medio', 'Senior']
df['categoria_edad'] = pd.cut(df['edad'], bins=bins, labels=labels)

# 4. Nueva columna: permanencia estable
df['permanencia'] = df['antiguedad'].apply(lambda x: 'Estable' if x > 5 else 'Variable')

print("\nDataFrame transformado:")
print(df.head())

# 5. Exportar resultado
df.to_csv('empleados_transformado.csv', index=False)
print("\nArchivo exportado: empleados_transformado.csv")
