# Análisis y Limpieza de Datos - Tabla `sales`

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import psycopg2
from sqlalchemy import create_engine, text

In [None]:
# Configura los parámetros de conexión
# IMPORTANTE: Reemplazar con tus credenciales reales
conn_string = 'postgresql+psycopg2://usuario:contraseña@localhost:5432/nombre_basedatos'
engine = create_engine(conn_string)

# Consulta SQL para traer los datos
query = "SELECT * FROM sales;"

# Cargar los datos en un DataFrame
df = pd.read_sql(query, engine)
# OLD py versions
# df = pd.DataFrame(engine.connect().execute(text(query)))


In [None]:
# Mostrar las primeras filas
print(df.head())

# Información general del dataset
print(df.info())

# Estadísticas descriptivas
print(df.describe(include='all'))

In [None]:
# Contar valores nulos por columna
print("Valores nulos por columna:")
print(df.isnull().sum())

# Visualizar valores nulos
plt.figure(figsize=(10,6))
sns.heatmap(df.isnull(), cbar=False, cmap="viridis")
plt.title("Mapa de Valores Nulos")
plt.show()

In [None]:
# Verificar outliers en columnas numéricas clave
numeric_cols = ['quantityordered', 'priceeach', 'sales_amount']

for col in numeric_cols:
    plt.figure(figsize=(10,4))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot - {col}")
    plt.show()

In [None]:
# Eliminar outliers extremos (ajustar según contexto)
df = df[df['priceeach'] <= 10000]
df = df[df['quantityordered'] <= 1000]

In [None]:
# Verificar tipos de datos
print("Tipos de datos actuales:")
print(df.dtypes)

# Convertir fechas a tipo datetime si no lo están
date_cols = ['orderdate', 'shippeddate', 'requireddate']
for col in date_cols:
    if df[col].dtype != 'datetime64[ns]':
        df[col] = pd.to_datetime(df[col], errors='coerce')

In [None]:
# Buscar duplicados exactos
duplicates = df[df.duplicated()]
print("\nNúmero de filas duplicadas:", len(duplicates))

# Eliminar duplicados (opcional, revisar antes)
df.drop_duplicates(inplace=True)

In [None]:
# Verificar categorías únicas en columnas relevantes
print("Valores únicos en 'status':", df['status'].unique())
print("Valores únicos en 'productCode':", df['productcode'].nunique())

In [None]:
# Comprobamos que shippedDate no sea antes de orderDate
invalid_shipped = df[(df['shippeddate'] < df['orderdate']) & df['shippeddate'].notnull()]
print("Pedidos con fecha de envío inválida:", len(invalid_shipped))

In [None]:
# Rellenar valores faltantes en sales_amount usando quantityOrdered y priceEach
df['sales_amount'] = df['sales_amount'].fillna(df['quantityordered'] * df['priceeach'])

# Rellenar comentarios vacíos
df['comments'] = df['comments'].fillna("Sin comentarios")

In [None]:
# Calcular días entre orden y envío (si ya fue enviado)
df['days_to_ship'] = (df['shippeddate'] - df['orderdate']).dt.days

# Calcular días entre orden y fecha requerida
df['days_required'] = (df['requireddate'] - df['orderdate']).dt.days

In [None]:
# Resetear índice (opcional)
df.reset_index(drop=True, inplace=True)

# Exportar dataset limpio
df.to_csv("./output/ventas_limpias.csv", index=False)
print("Datos limpios guardados en 'ventas_limpias.csv'")

## Ejercicios

### 1. Análisis y limpieza de la tabla `customers`

#### **Objetivo**:  
Identificar y corregir problemas comunes de calidad de datos en la tabla `customers`.


1. **Cargar los datos** desde PostgreSQL a un DataFrame de pandas.
2. **Explorar la estructura**:
   - Número de filas y columnas.
   - Tipos de datos.
   - Valores nulos.
3. **Detectar problemas comunes**:
   - Nombres con espacios al inicio o final (`customerName`, `contactFirstName`).
   - Teléfonos con caracteres no numéricos o formatos inconsistentes.
   - Códigos postales con longitud incorrecta o caracteres extraños.
   - Países escritos de forma inconsistente (ej. "USA", "U.S.A.", "us", etc.).
   - `creditLimit` negativo o extremadamente alto (posible error).
4. **Aplicar limpieza básica**:
   - Eliminar espacios en blanco al inicio/final de textos.
   - Estandarizar nombres de países a mayúsculas o formato canónico.
   - Validar/normalizar códigos postales (ej. solo dígitos o formato alfanumérico válido).
5. **(Opcional)** Guardar los datos limpios en una nueva tabla o sobrescribir (solo si es seguro).


### 2. Análisis y limpieza de la tabla `payments`

#### **Objetivo**:  
Verificar la integridad y calidad de los pagos registrados, detectar anomalías comunes y aplicar correcciones básicas.


**Problemas típicos en `payments` que vamos a explorar**:

1. **Fechas inválidas o fuera de rango** (ej. `paymentDate` en el futuro o antes de 1900).
2. **Montos negativos o cero** (¿puede haber un pago de $0 o negativo?).
3. **Duplicados** (mismo `customerNumber` + `checkNumber` aparece más de una vez).
4. **Inconsistencia con la tabla `customers`** (¿el `customerNumber` existe realmente?).
5. **Formato del `checkNumber`** (¿contiene solo caracteres válidos? ¿está vacío?).



### 3. Análisis de calidad en clientes y sus pagos**

#### **Objetivo**:  
Identificar inconsistencias **entre** las tablas `customers` y `payments`, además de problemas internos en cada una, para garantizar la integridad de los datos de clientes y sus transacciones.


**Problemas a abordar**:

1. **Clientes sin pagos registrados** (¿es normal? ¿son nuevos? ¿error de carga?).
2. **Pagos sin cliente asociado** (violación de integridad referencial).
3. **Clientes con pagos negativos o nulos** (posible error contable).
4. **Clientes con `creditLimit` bajo pero con pagos muy altos** (¿anomalía o cliente VIP?).
5. **Países con formatos inconsistentes** que afectan análisis geográficos.
6. **Duplicados en pagos** que inflan los ingresos reportados.

