# Análisis y Limpieza de Datos - Tabla `sales`

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import psycopg2
from sqlalchemy import create_engine, text

In [None]:
# Configura los parámetros de conexión
engine = create_engine('postgresql+psycopg2://usuario:contraseña@localhost:5432/nombre_basedatos')

# Consulta SQL para traer los datos
query = "SELECT * FROM sales;"

# Cargar los datos en un DataFrame
df = pd.read_sql(query, engine)
# df = pd.DataFrame(engine.connect().execute(text(query)))


In [None]:
# Mostrar las primeras filas
print(df.head())

# Información general del dataset
print(df.info())

# Estadísticas descriptivas
print(df.describe(include='all'))

In [None]:
# Contar valores nulos por columna
print("Valores nulos por columna:")
print(df.isnull().sum())

# Visualizar valores nulos
plt.figure(figsize=(10,6))
sns.heatmap(df.isnull(), cbar=False, cmap="viridis")
plt.title("Mapa de Valores Nulos")
plt.show()

In [None]:
# Verificar outliers en columnas numéricas clave
numeric_cols = ['quantityordered', 'priceeach', 'sales_amount']

for col in numeric_cols:
    plt.figure(figsize=(10,4))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot - {col}")
    plt.show()

In [None]:
# Eliminar outliers extremos (ajustar según contexto)
df = df[df['priceeach'] <= 10000]
df = df[df['quantityordered'] <= 1000]

In [None]:
# Verificar tipos de datos
print("Tipos de datos actuales:")
print(df.dtypes)

# Convertir fechas a tipo datetime si no lo están
date_cols = ['orderdate', 'shippeddate', 'requireddate']
for col in date_cols:
    if df[col].dtype != 'datetime64[ns]':
        df[col] = pd.to_datetime(df[col], errors='coerce')

In [None]:
# Buscar duplicados exactos
duplicates = df[df.duplicated()]
print("\nNúmero de filas duplicadas:", len(duplicates))

# Eliminar duplicados (opcional, revisar antes)
df.drop_duplicates(inplace=True)

In [None]:
# Verificar categorías únicas en columnas relevantes
print("Valores únicos en 'status':", df['status'].unique())
print("Valores únicos en 'productCode':", df['productcode'].nunique())

In [None]:
# Comprobamos que shippedDate no sea antes de orderDate
invalid_shipped = df[(df['shippeddate'] < df['orderdate']) & df['shippeddate'].notnull()]
print("Pedidos con fecha de envío inválida:", len(invalid_shipped))

In [None]:
# Rellenar valores faltantes en sales_amount usando quantityOrdered y priceEach
df['sales_amount'] = df['sales_amount'].fillna(df['quantityordered'] * df['priceeach'])

# Rellenar comentarios vacíos
df['comments'] = df['comments'].fillna("Sin comentarios")

In [None]:
# Calcular días entre orden y envío (si ya fue enviado)
df['days_to_ship'] = (df['shippeddate'] - df['orderdate']).dt.days

# Calcular días entre orden y fecha requerida
df['days_required'] = (df['requireddate'] - df['orderdate']).dt.days

In [None]:
# Resetear índice (opcional)
df.reset_index(drop=True, inplace=True)

# Exportar dataset limpio
df.to_csv("./output/ventas_limpias.csv", index=False)
print("Datos limpios guardados en 'ventas_limpias.csv'")