# Análisis Exploratorio de Datos - Dataset de Ventas

Este notebook contiene el análisis exploratorio completo del dataset de ventas, siguiendo las consignas establecidas.

In [16]:
# Importación de librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from datetime import datetime
import os

# Configuración de visualización
# plt.style.use('seaborn')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

## 1. Carga del Dataset

In [18]:
# Carga del dataset
df = pd.read_parquet('data/sales_data.parquet')

# Información básica del dataset
print("Información del Dataset:")
print("-----------------------")
print(f"Dimensiones: {df.shape}")
print("\nTipos de datos:")
print(df.dtypes)
print("\nValores nulos:")
print(df.isnull().sum())

ImportError: Unable to find a usable engine; tried using: 'pyarrow', 'fastparquet'.
A suitable version of pyarrow or fastparquet is required for parquet support.
Trying to import the above resulted in these errors:
 - Missing optional dependency 'pyarrow'. pyarrow is required for parquet support. Use pip or conda to install pyarrow.
 - Missing optional dependency 'fastparquet'. fastparquet is required for parquet support. Use pip or conda to install fastparquet.

## 2. Limpieza Básica

In [None]:
# Conversión de fechas
if 'fecha' in df.columns:
    df['fecha'] = pd.to_datetime(df['fecha'])

# Porcentaje de valores nulos por columna
nulos_porcentaje = (df.isnull().sum() / len(df)) * 100

# Mostrar columnas con valores nulos
print("Porcentaje de valores nulos por columna:")
print(nulos_porcentaje[nulos_porcentaje > 0])

## 3. Análisis Descriptivo

In [None]:
# Estadísticas descriptivas
print("Estadísticas descriptivas:")
print(df.describe())

# Análisis de variables categóricas
for col in df.select_dtypes(include=['object']).columns:
    print(f"\nDistribución de {col}:")
    print(df[col].value_counts().head())

## 4. Visualizaciones Clave

In [None]:
# Evolución temporal de ventas
if 'fecha' in df.columns and 'monto' in df.columns:
    ventas_diarias = df.groupby('fecha')['monto'].sum().reset_index()
    
    fig = px.line(ventas_diarias, x='fecha', y='monto',
                  title='Evolución temporal de ventas')
    fig.show()

# Distribución por día de la semana
if 'fecha' in df.columns:
    df['dia_semana'] = df['fecha'].dt.day_name()
    
    plt.figure(figsize=(12, 6))
    sns.boxplot(data=df, x='dia_semana', y='monto')
    plt.title('Distribución de ventas por día de la semana')
    plt.xticks(rotation=45)
    plt.show()

## 5. Análisis de Granularidad Temporal

In [None]:
# Análisis de granularidad temporal
if 'fecha' in df.columns and 'monto' in df.columns:
    # Agrupación diaria
    diario = df.groupby('fecha')['monto'].sum()
    
    # Agrupación semanal
    semanal = df.groupby(pd.Grouper(key='fecha', freq='W'))['monto'].sum()
    
    # Agrupación mensual
    mensual = df.groupby(pd.Grouper(key='fecha', freq='M'))['monto'].sum()
    
    # Visualización comparativa
    fig, axes = plt.subplots(3, 1, figsize=(15, 12))
    
    diario.plot(ax=axes[0], title='Ventas Diarias')
    semanal.plot(ax=axes[1], title='Ventas Semanales')
    mensual.plot(ax=axes[2], title='Ventas Mensuales')
    
    plt.tight_layout()
    plt.show()

## 6. Análisis por Punto de Venta y Producto

In [None]:
# Top productos por cantidad vendida
if 'producto' in df.columns and 'cantidad' in df.columns:
    top_productos = df.groupby('producto')['cantidad'].sum().sort_values(ascending=False).head(10)
    
    plt.figure(figsize=(12, 6))
    top_productos.plot(kind='bar')
    plt.title('Top 10 Productos más Vendidos')
    plt.xticks(rotation=45)
    plt.show()

# Top puntos de venta por facturación
if 'punto_venta' in df.columns and 'monto' in df.columns:
    top_pdv = df.groupby('punto_venta')['monto'].sum().sort_values(ascending=False).head(10)
    
    plt.figure(figsize=(12, 6))
    top_pdv.plot(kind='bar')
    plt.title('Top 10 Puntos de Venta por Facturación')
    plt.xticks(rotation=45)
    plt.show()

## 7. Hipótesis y Hallazgos

[Esta sección se completará con los hallazgos específicos después de ejecutar el análisis con los datos reales]

### Respuestas a las preguntas planteadas:

1. Dimensiones del dataset: [Se completará]
2. Valores faltantes: [Se completará]
3. Tipos de variables: [Se completará]
4. Columnas redundantes: [Se completará]
5. Granularidad: [Se completará]
...