# Análisis Exploratorio (EDA) de Ventas

- Carga de datos desde una base de datos PostgreSQL.
- Limpieza y transformaciones básicas.
- Análisis estadístico y visualizaciones clave.
- Generación de insights útiles.



## Configuración Inicial

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import psycopg2
from sqlalchemy import create_engine

## Conexión a la Base de Datos

In [None]:
# Configura los parámetros de conexión
conn_string = 'postgresql+psycopg2://usuario:contraseña@localhost:5432/nombre_basedatos'

engine = create_engine(conn_string)

# Consulta SQL para traer los datos
query = "SELECT * FROM sales;"

# Cargar los datos en un DataFrame
df = pd.read_sql(query, engine)



> ⚠️ Reemplaza `usuario`, `contraseña`, `localhost` y `nombre_basedatos` con tus credenciales reales.



## Inspección Inicial del Dataset

In [None]:
# Mostrar las primeras filas
print(df.head())

# Información general del dataset
print(df.info())

# Estadísticas descriptivas
print(df.describe(include='all'))

## Tipos de Datos y Valores Nulos

In [None]:
# Verificar tipos de datos
print('*** TIPOS DE DATOS:***\n',df.dtypes)

# Contar valores nulos
print('\n*** VALORES NULOS:***\n',df.isnull().sum())


> **Insight inicial:**  
La columna `shippedDate` tiene valores nulos. Esto puede indicar que hay órdenes aún no enviadas.



## Transformaciones Temporales

In [None]:
# Convertir fechas a tipo datetime
df['orderdate'] = pd.to_datetime(df['orderdate'])
df['shippeddate'] = pd.to_datetime(df['shippeddate'])
df['requireddate'] = pd.to_datetime(df['requireddate'])

# Calcular días entre orden y envío
df['days_to_ship'] = (df['shippeddate'] - df['orderdate']).dt.days

# Calcular días entre orden y fecha requerida
df['days_required'] = (df['requireddate'] - df['orderdate']).dt.days

df

## Cálculos Adicionales

In [None]:
# Si 'sales_amount' está vacío, calcularlo
df['sales_amount'] = df['quantityordered'] * df['priceeach']

# Crear columna de ingreso total por línea de pedido
df['total_sales_line'] = df['sales_amount']

df

## Análisis Exploratorio Básico

### 1. Distribución de Estados de Pedido (`status`)

In [None]:
plt.figure(figsize=(10,6))
sns.countplot(data=df, x='status')
plt.title("Distribución de Estados de Pedidos")
plt.xticks(rotation=45)
plt.show()



> **Insight:**  
La mayoría de pedidos están completados o enviados, pero podría haber algunos pendientes o cancelados que merezcan atención.



### 2. Ventas Totales por Producto

In [None]:
ventas_por_producto = df.groupby('productcode')['total_sales_line'].sum().sort_values(ascending=False).head(10)
ventas_por_producto.plot(kind='bar', figsize=(12,6), title="Top 10 Productos por Ventas Totales")
plt.ylabel("Ventas Totales ($)")
plt.xlabel("Código de Producto")
plt.show()



> **Insight:**  
Algunos productos generan la mayor parte del ingreso. Se podrían enfocar estrategias de marketing en estos.



### 3. Ventas Mensuales

In [None]:
df.set_index('orderdate', inplace=True)
ventas_mensuales = df['total_sales_line'].resample('M').sum()

ventas_mensuales.plot(kind='line', figsize=(12,6), marker='o', title="Ventas Mensuales")
plt.ylabel("Ventas Totales ($)")
plt.grid(True)
plt.show()



> **Insight:**  
Se pueden identificar tendencias estacionales o picos mensuales para planear campañas o ajustar inventario.



### 4. Retrasos en Envíos

In [None]:
# Filtrar solo pedidos ya enviados
df_shipped = df[df['status'] == 'Shipped']

# Histograma de días para envío
plt.figure(figsize=(10,6))
sns.histplot(df_shipped['days_to_ship'], bins=20, kde=True)
plt.title("Distribución de Días para Envío")
plt.xlabel("Días")
plt.ylabel("Frecuencia")
plt.show()


> **Insight:**  
Si muchos pedidos tardan más de lo esperado, se podría mejorar el proceso logístico.



## Insights Clave

| Insight | Descripción |
|--------|-------------|
| 📦 Estado de pedidos | La mayoría están completados, pero hay algunos pendientes o cancelados que deben revisarse. |
| 💵 Productos ganadores | Pocos productos representan la mayoría de las ventas. |
| 📅 Tendencias temporales | Hay meses con mayores ventas, posiblemente asociados a temporadas o promociones. |
| 🕒 Tiempo de envío | Algunos pedidos tardan más de lo normal, afectando la experiencia del cliente. |



## Recomendaciones

- Enfocar esfuerzos de marketing en los productos más vendidos.
- Analizar causas de pedidos cancelados o en espera.
- Mejorar logística si los tiempos de envío son altos.
- Planear promociones en meses con menor volumen de ventas.



## Guardar datos limpios (opcional)


In [None]:
# Exportar datos limpios para análisis posteriores
df.to_csv("./output/ventas_limpias.csv", index=False)
