# Presentaci√≥n Integrada ‚Äî An√°lisis de Ventas (Demo Sincr√≥nica)

> Notebook con texto explicativo **completo** y **c√≥digo ejecutable** con manejo de errores.


# üß† AN√ÅLISIS DETALLADO DEL PROCESO ANAL√çTICO  
**Proyecto: An√°lisis de Ventas ‚Äî 2¬∞ Demo Sincr√≥nica (Python)**  
**Autor:** Oscar Ortiz Dev Studio‚Ñ¢  
**Rol:** Analista Senior en Ciencia de Datos y Estad√≠stica Aplicada

---

## üîπ 1. Planteamiento del problema y definici√≥n de objetivos

El punto de partida en todo an√°lisis profesional de datos es **formular preguntas de negocio** y **traducirlas a preguntas estad√≠sticas**.

**Objetivo general:**  
Entender el comportamiento de las ventas de una tienda (productos, clientes, medios de pago y montos) para **identificar patrones, relaciones y anomal√≠as** que orienten decisiones comerciales.

**Preguntas gu√≠a:**
- ¬øQu√© categor√≠as de productos generan m√°s ingresos?  
- ¬øC√≥mo se distribuyen los montos por ticket?  
- ¬øExisten relaciones entre cantidad comprada y precio unitario?  
- ¬øHay outliers que indiquen transacciones fuera de lo habitual?

**Razonamiento metodol√≥gico:**  
Este enfoque se alinea con el paradigma **CRISP-DM (Cross Industry Standard Process for Data Mining)**, que establece un flujo estructurado:  
1. Comprensi√≥n del negocio  
2. Comprensi√≥n y preparaci√≥n de datos  
3. Modelado  
4. Evaluaci√≥n  
5. Comunicaci√≥n

Aqu√≠, nuestro foco est√° en las **etapas exploratoria y descriptiva**, fundamentales para construir modelos s√≥lidos en fases posteriores.

---

## üîπ 2. Preparaci√≥n y limpieza de los datos

### a. Detecci√≥n y correcci√≥n de formatos
Durante la carga se identific√≥ que `ventas99.csv` utilizaba `;` como separador, una inconsistencia t√≠pica entre exportaciones de distintos sistemas.  
Corregirla garantiza que los campos sean reconocidos correctamente.

### b. Estandarizaci√≥n de tipos de datos
Cada tipo de variable fue tratado de acuerdo a su naturaleza:
- **Fechas (`fecha`)** ‚Üí convertidas con `pd.to_datetime()`.  
  Permite ordenar cronol√≥gicamente y calcular indicadores por mes o a√±o.  
- **Num√©ricos (`cantidad`, `precio_unitario`, `importe`)** ‚Üí convertidos con `pd.to_numeric()`.  
  Evita errores en operaciones aritm√©ticas (media, suma, correlaci√≥n).  
- **Claves (`id_cliente`, `id_venta`, `id_producto`)** ‚Üí transformadas a texto.  
  Esto asegura compatibilidad entre tablas al hacer `merge()`.

> üß© *Fundamento estad√≠stico:*  
> Los datos categ√≥ricos (como claves o nombres) se tratan como **variables cualitativas nominales**, no num√©ricas.  
> Mantenerlos como texto evita interpretaciones incorrectas, como calcular promedios sobre c√≥digos.

### c. Validaci√≥n de integridad y detecci√≥n de inconsistencias
Se construy√≥ la variable derivada:  
**subtotal_calc = cantidad √ó precio_unitario**  
Luego se compar√≥ con el campo `importe` original, generando:  
**desvio_importe = importe ‚àí subtotal_calc**  
Esto permiti√≥ verificar si exist√≠an descuentos, redondeos o errores en el registro de ventas.

> ‚úÖ **Decisi√≥n:** mantener esta variable como control de calidad interno.  
> Si la desviaci√≥n promedio fuera significativa, se justificar√≠a ajustar c√°lculos o revisar la fuente.

---

## üîπ 3. Integraci√≥n de tablas y construcci√≥n del dataset anal√≠tico

Se combinaron los datasets mediante uniones relacionales (`merge`), respetando claves primarias y for√°neas:

```
clientes ‚îÄ‚îê
           ‚îú‚îÄ‚îÄ ventas ‚îÄ‚îÄ‚îÄ detalle_ventas ‚îÄ‚îÄ‚îÄ productos
```

El resultado fue un **DataFrame unificado (`df`)** que integra:
- informaci√≥n de cliente (ciudad, fecha de alta),
- caracter√≠sticas del producto (nombre, categor√≠a, precio),
- informaci√≥n transaccional (cantidad, importe, fecha, medio de pago).

> üéì *Decisi√≥n t√©cnica:*  
> Se opt√≥ por una estructura tipo **‚Äútabla de hechos‚Äù (fact table)**, que concentra las medidas num√©ricas y mantiene las dimensiones descriptivas.  
> Esto facilita el an√°lisis exploratorio, el c√°lculo de KPIs y la generaci√≥n de visualizaciones sin necesidad de SQL externo.

---

## üîπ 4. Estad√≠stica descriptiva: s√≠ntesis num√©rica

### a. Estad√≠sticos b√°sicos
Se calcularon medidas de tendencia central y dispersi√≥n:

| Medida | Descripci√≥n | Interpretaci√≥n |
|:--|:--|:--|
| Media | Valor promedio | Resume el centro de la distribuci√≥n. |
| Mediana | Valor central | Robusta ante outliers. |
| Moda | Valor m√°s frecuente | Describe concentraci√≥n. |
| Desviaci√≥n est√°ndar | Variabilidad respecto a la media | Alta dispersi√≥n = comportamiento heterog√©neo. |
| M√≠nimo / M√°ximo | Extremos de la muestra | Permite detectar rangos at√≠picos. |

Estas medidas se aplicaron a:
- **Totales por ticket**
- **Cantidades e importes en detalle de ventas**

> üß† *Razonamiento:*  
> En an√°lisis comercial, los promedios pueden distorsionarse por ventas excepcionales (efecto de ‚Äúcola larga‚Äù).  
> Por ello, la **mediana** y los **cuartiles** (Q1‚ÄìQ3) son m√°s representativos del comportamiento t√≠pico.

---

## üîπ 5. Visualizaciones estad√≠sticas y su justificaci√≥n t√©cnica

La selecci√≥n de gr√°ficos responde al tipo de variable y al objetivo anal√≠tico.  
A continuaci√≥n se detalla **por qu√©** cada uno fue elegido y **qu√© aporta** desde la perspectiva estad√≠stica descriptiva:

### a. **Histograma del total por ticket**
- **Tipo de variable:** Cuantitativa continua (total en dinero).
- **Objetivo:** Analizar la *distribuci√≥n de frecuencia* de los totales por venta.
- **Fundamento estad√≠stico:**  
  El histograma es el gr√°fico m√°s adecuado para visualizar la **forma de la distribuci√≥n** (simetr√≠a, sesgo, curtosis).  
  Permite observar si la mayor√≠a de los tickets se concentran en rangos bajos o si existe una cola hacia la derecha (*sesgo positivo*), t√≠pica de ventas minoristas.  
- **Conclusi√≥n esperada:** La mayor√≠a de las ventas tienen montos bajos, pero unas pocas concentran gran parte de los ingresos (comportamiento de Pareto).

### b. **Boxplot de importe por categor√≠a**
- **Tipo de variable:** Cuantitativa (importe) segmentada por variable cualitativa (categor√≠a).  
- **Objetivo:** Comparar la **dispersi√≥n** y **mediana** de importes entre categor√≠as.
- **Fundamento estad√≠stico:**  
  El boxplot sintetiza **cinco n√∫meros resumen** (m√≠nimo, Q1, mediana, Q3, m√°ximo) y resalta *outliers* mediante puntos.  
  Es la elecci√≥n ideal cuando se busca comparar distribuciones entre grupos.  
- **Conclusi√≥n esperada:** Diferencias claras entre categor√≠as indican heterogeneidad en la estructura de precios o en el tipo de producto.

### c. **Gr√°fico de dispersi√≥n (scatter) cantidad vs. precio unitario**
- **Tipo de variables:** Ambas cuantitativas continuas.
- **Objetivo:** Analizar la posible relaci√≥n (correlaci√≥n) entre volumen y precio.
- **Fundamento estad√≠stico:**  
  El scatterplot es el gr√°fico m√°s apropiado para observar **relaciones bivariadas** y patrones de dependencia.  
  Si existiera una tendencia descendente, podr√≠a reflejar descuentos por volumen.  
  Si no hay patr√≥n, las variables son independientes.  
- **Complemento:** cuantificar la correlaci√≥n de Pearson:  
  r = cov(x,y) / (œÉx œÉy)

### d. **Gr√°fico de barras: ingresos por categor√≠a**
- **Tipo de variable:** Categ√≥rica (categor√≠a) con medida cuantitativa (ingreso total).  
- **Objetivo:** Comparar contribuciones totales por grupo.
- **Fundamento estad√≠stico:**  
  El gr√°fico de barras es adecuado cuando se busca mostrar **comparaciones entre categor√≠as discretas**.  
  A diferencia del histograma, no representa intervalos continuos sino categor√≠as independientes.  
- **Conclusi√≥n esperada:** Identificar las categor√≠as ‚Äúestrella‚Äù que concentran la facturaci√≥n.

> üìä *Decisi√≥n visual experta:*  
> No se emplearon pie charts, ya que su lectura es menos precisa cuando existen m√°s de tres categor√≠as y no permiten evaluar dispersi√≥n ni escala de variaci√≥n.  
> En cambio, las barras y boxplots maximizan la informaci√≥n visual por unidad de espacio.

---

## üîπ 6. Correlaciones y outliers: an√°lisis inferencial descriptivo

### a. Correlaci√≥n entre variables num√©ricas
Se analiz√≥ la matriz de correlaci√≥n (`.corr()`), observando la fuerza lineal entre:
- Cantidad
- Precio unitario
- Importe
- Subtotal calculado

> **Interpretaci√≥n t√©cnica:**  
> Un coeficiente cercano a +1 indica relaci√≥n directa; cercano a ‚àí1, relaci√≥n inversa; pr√≥ximo a 0, independencia.  
> Este an√°lisis complementa el scatter, cuantificando la relaci√≥n observada visualmente.

### b. Detecci√≥n de outliers con Z-Score
Para cada venta se calcul√≥:  
Z = (x ‚àí xÃÑ) / s  
Si |Z| > 3, se considera *valor at√≠pico* (99.7% de los datos est√°n dentro de ¬±3œÉ seg√∫n la Regla Emp√≠rica).

> üßÆ *Fundamento:*  
> Esta t√©cnica asume una distribuci√≥n aproximadamente normal y permite identificar transacciones que, por monto, se desv√≠an de la tendencia esperada.

> üí¨ *Decisi√≥n anal√≠tica:*  
> No eliminar outliers autom√°ticamente, sino analizarlos:  
> pueden representar **clientes corporativos**, **ventas excepcionales** o **errores**.  
> En contextos comerciales, eliminar un outlier sin justificaci√≥n puede ocultar oportunidades reales de negocio.

---

## üîπ 7. S√≠ntesis de resultados y conclusiones comerciales

**Hallazgos:**
- Alta concentraci√≥n de ingresos en pocas categor√≠as ‚Üí estrategia de Pareto 80/20.  
- Existencia de ventas fuera de rango (outliers) ‚Üí investigar causas y tipolog√≠a.  
- Dispersi√≥n entre categor√≠as ‚Üí revisar pol√≠tica de precios y segmentaci√≥n.  
- Correlaci√≥n positiva esperable entre cantidad e importe ‚Üí confirma coherencia transaccional.

**Recomendaciones:**
1. Monitorear categor√≠as con alta dispersi√≥n para optimizar precios.  
2. Dise√±ar promociones focalizadas en categor√≠as de menor facturaci√≥n.  
3. Analizar los outliers de alto valor para identificar clientes premium.  
4. Mantener un control estad√≠stico de desviaciones (`desvio_importe`) como indicador de integridad del sistema de ventas.

---

## üîπ 8. Conclusi√≥n metodol√≥gica

El proceso aplicado es un **ejemplo riguroso de an√°lisis descriptivo multivariable**, sustentado en principios estad√≠sticos s√≥lidos:

| Etapa | T√©cnica | Objetivo |
|:--|:--|:--|
| Limpieza | Estandarizaci√≥n de tipos y validaci√≥n de importes | Asegurar consistencia |
| Integraci√≥n | Joins relacionales | Construir dataset anal√≠tico |
| Descriptiva | Medidas resumen | Comprender distribuci√≥n central y dispersi√≥n |
| Visualizaci√≥n | Gr√°ficos estad√≠sticos | Representar y comunicar resultados |
| Inferencia descriptiva | Correlaci√≥n y Z-score | Explorar relaciones y anomal√≠as |

> üéì En t√©rminos acad√©micos, el proyecto cumple con los est√°ndares de un **EDA completo** (Exploratory Data Analysis) y es **defendible en una exposici√≥n oral de 15 minutos**, integrando rigor estad√≠stico, claridad metodol√≥gica y relevancia aplicada.


## üîß 0. Configuraci√≥n e importaciones

In [None]:

import os, sys, warnings
import pandas as pd, numpy as np
import matplotlib.pyplot as plt

plt.rcParams.update({"figure.dpi": 110})

BASE_DATA = "/mnt/data"
OUT_DIR = "/mnt/data/proyecto_demo2"
PLOTS_DIR = os.path.join(OUT_DIR, "plots")
TABLES_DIR = os.path.join(OUT_DIR, "tablas")
for d in [OUT_DIR, PLOTS_DIR, TABLES_DIR]:
    os.makedirs(d, exist_ok=True)

print("Entorno preparado:", OUT_DIR)


## üßÆ 1. Carga robusta de datos (detecci√≥n de separadores y encoding)

In [None]:

from io import StringIO

def robust_read_csv(path, try_seps=(",", ";", "\t", "|"), encodings=("utf-8", "latin-1")):
    last_err = None
    for sep in try_seps:
        for enc in encodings:
            try:
                df = pd.read_csv(path, sep=sep, encoding=enc, engine="python")
                if df.shape[1] == 1 and sep != ",":
                    continue
                df = df.loc[:, ~df.columns.str.contains("^Unnamed")]
                return df, sep, enc
            except Exception as e:
                last_err = e
    raise last_err if last_err else ValueError(f"No se pudo leer: {path}")

paths = {
    "clientes": os.path.join(BASE_DATA, "clientes99.csv"),
    "productos": os.path.join(BASE_DATA, "productos99.csv"),
    "ventas": os.path.join(BASE_DATA, "ventas99.csv"),
    "detalle": os.path.join(BASE_DATA, "detalle_ventas99.csv"),
}

clientes, sep_c, enc_c = robust_read_csv(paths["clientes"])
productos, sep_p, enc_p = robust_read_csv(paths["productos"])
ventas, sep_v, enc_v = robust_read_csv(paths["ventas"])
detalle, sep_d, enc_d = robust_read_csv(paths["detalle"])

if ventas.shape[1] == 1 or (";" in ventas.columns[0]):
    ventas = pd.read_csv(paths["ventas"], sep=";", encoding="utf-8")
    ventas = ventas.loc[:, ~ventas.columns.str.contains("^Unnamed")]
    sep_v, enc_v = ";", "utf-8"

print("Lecturas OK ‚Üí",
      f"clientes(sep={sep_c}) productos(sep={sep_p}) ventas(sep={sep_v}) detalle(sep={sep_d})")
display(clientes.head(2)); display(productos.head(2)); display(ventas.head(2)); display(detalle.head(2))


## üßº 2. Tipificaci√≥n y limpieza (fechas, num√©ricos, claves)

In [None]:

# Fechas
if "fecha" in ventas.columns:
    ventas["fecha"] = pd.to_datetime(ventas["fecha"], errors="coerce")

# Num√©ricos
for col in ["cantidad", "precio_unitario", "importe"]:
    if col in detalle.columns:
        detalle[col] = pd.to_numeric(detalle[col], errors="coerce")
if "precio_unitario" in productos.columns:
    productos["precio_unitario"] = pd.to_numeric(productos["precio_unitario"], errors="coerce")

# Claves a string
for df, col in [(detalle,"id_producto"), (ventas,"id_venta"), (ventas,"id_cliente"), (clientes,"id_cliente")]:
    if col in df.columns:
        df[col] = df[col].astype(str).str.strip()

# Duplicados
clientes = clientes.drop_duplicates().copy()
productos = productos.drop_duplicates().copy()
ventas = ventas.drop_duplicates().copy()
detalle = detalle.drop_duplicates().copy()

print("Nulos por dataset:")
for name, d in [("clientes", clientes), ("productos", productos), ("ventas", ventas), ("detalle", detalle)]:
    print(name, "‚Üí", d.isna().sum().to_dict())


## üîó 3. Integraci√≥n de tablas (fact table)

In [None]:

# Merge con defensas
df = detalle.merge(productos, on="id_producto", how="left", suffixes=("", "_prod"))
df = df.merge(ventas, on="id_venta", how="left")
if "id_cliente" in clientes.columns:
    df = df.merge(clientes[["id_cliente", "ciudad"]], on="id_cliente", how="left")

# Derivados
if {"cantidad","precio_unitario"}.issubset(df.columns):
    df["subtotal_calc"] = df["cantidad"] * df["precio_unitario"]
if {"importe","subtotal_calc"}.issubset(df.columns):
    df["desvio_importe"] = df["importe"] - df["subtotal_calc"]
if "fecha" in df.columns:
    df["anio"] = df["fecha"].dt.year
    df["mes"] = df["fecha"].dt.to_period("M").astype(str)

print("DF integrado ‚Üí", df.shape)
display(df.head(5))


## üìä 4. Estad√≠stica descriptiva

In [None]:

# Tickets
if {"id_venta","fecha","importe","cantidad"}.issubset(df.columns):
    ticket = (df.groupby("id_venta")
                .agg(fecha=("fecha","first"),
                     id_cliente=("id_cliente","first") if "id_cliente" in df.columns else ("id_venta","size"),
                     medio_pago=("medio_pago","first") if "medio_pago" in df.columns else ("id_venta","size"),
                     items=("cantidad","sum"),
                     total=("importe","sum"))
                .reset_index())
else:
    ticket = pd.DataFrame()
    print("‚ö†Ô∏è No se pudieron crear tickets: faltan columnas requeridas.")

desc_detalle = df[["cantidad","precio_unitario","importe"]].describe().T if {"cantidad","precio_unitario","importe"}.issubset(df.columns) else pd.DataFrame()
desc_ticket = ticket[["items","total"]].describe().T if not ticket.empty else pd.DataFrame()

if not desc_ticket.empty:
    desc_ticket.to_csv(os.path.join(TABLES_DIR, "desc_ticket.csv"))
if not desc_detalle.empty:
    desc_detalle.to_csv(os.path.join(TABLES_DIR, "desc_detalle.csv"))
if not ticket.empty:
    ticket.to_csv(os.path.join(TABLES_DIR, "tickets.csv"), index=False)

display(desc_ticket if not desc_ticket.empty else "‚Äî")
display(desc_detalle if not desc_detalle.empty else "‚Äî")


## üìà 5. Visualizaciones (Matplotlib)

In [None]:

# Histograma
try:
    if not ticket.empty and "total" in ticket.columns:
        plt.figure()
        ticket["total"].plot(kind="hist", bins=20, title="Distribuci√≥n del total por ticket")
        plt.xlabel("Total por ticket")
        path = os.path.join(PLOTS_DIR, "hist_total_ticket.png")
        plt.savefig(path, bbox_inches="tight"); plt.close()
        print("Histograma:", path)
    else:
        print("‚ö†Ô∏è No se puede graficar histograma.")
except Exception as e:
    print("Error histograma:", e)

# Boxplot
try:
    if {"importe","categoria"}.issubset(df.columns) and df["categoria"].notna().any():
        plt.figure()
        df.boxplot(column="importe", by="categoria")
        plt.title("Boxplot de importe por categor√≠a"); plt.suptitle("")
        path = os.path.join(PLOTS_DIR, "box_importe_categoria.png")
        plt.savefig(path, bbox_inches="tight"); plt.close()
        print("Boxplot:", path)
    else:
        print("‚ö†Ô∏è No se puede graficar boxplot.")
except Exception as e:
    print("Error boxplot:", e)

# Scatter
try:
    if {"cantidad","precio_unitario"}.issubset(df.columns):
        plt.figure()
        plt.scatter(df["cantidad"], df["precio_unitario"])
        plt.title("Relaci√≥n cantidad vs. precio unitario")
        plt.xlabel("Cantidad"); plt.ylabel("Precio unitario")
        path = os.path.join(PLOTS_DIR, "scatter_cantidad_precio.png")
        plt.savefig(path, bbox_inches="tight"); plt.close()
        print("Scatter:", path)
    else:
        print("‚ö†Ô∏è No se puede graficar scatter.")
except Exception as e:
    print("Error scatter:", e)

# Barras por categor√≠a
try:
    if {"categoria","importe"}.issubset(df.columns):
        serie = df.groupby("categoria")["importe"].sum().sort_values(ascending=False)
        if not serie.empty:
            plt.figure()
            serie.plot(kind="bar", title="Ingresos por categor√≠a")
            plt.ylabel("Ingresos")
            path = os.path.join(PLOTS_DIR, "bar_ingresos_categoria.png")
            plt.savefig(path, bbox_inches="tight"); plt.close()
            print("Barras:", path)
        else:
            print("‚ö†Ô∏è Serie vac√≠a para barras.")
    else:
        print("‚ö†Ô∏è No se puede graficar barras.")
except Exception as e:
    print("Error barras:", e)


## üîç 6. Correlaciones y outliers (Z-Score)

In [None]:

num_cols = df.select_dtypes(include=[np.number]).columns.tolist()
if num_cols:
    corr = df[num_cols].corr().round(3)
    corr.to_csv(os.path.join(TABLES_DIR, "matriz_correlacion.csv"))
    display(corr)
else:
    corr = pd.DataFrame()
    print("‚ö†Ô∏è Sin columnas num√©ricas para correlaci√≥n.")

if not ticket.empty and "total" in ticket.columns and ticket["total"].std(ddof=0) not in [0, np.nan]:
    mu = ticket["total"].mean()
    sigma = ticket["total"].std(ddof=0)
    ticket["z_total"] = (ticket["total"] - mu) / (sigma if sigma != 0 else 1.0)
    ticket["es_outlier_total"] = ticket["z_total"].abs() > 3
    ticket.to_csv(os.path.join(TABLES_DIR, "tickets_con_outliers.csv"), index=False)
    print("Outliers detectados:", int(ticket["es_outlier_total"].sum()))
    display(ticket.head())
else:
    print("‚ö†Ô∏è No se puede calcular outliers.")


## üí° 7. Conclusiones y recomendaciones


- **Pareto evidente**: pocas categor√≠as concentran gran parte de los ingresos ‚Üí foco en disponibilidad y pricing.
- **Dispersi√≥n por categor√≠a**: revisar pol√≠ticas de precio y mix de productos en categor√≠as con alta variabilidad.
- **Outliers**: auditar ventas extremas (clientes corporativos, promociones, posibles errores).
- **Seguimiento de integridad**: monitorear `desvio_importe` como control de calidad del pipeline de ventas.
