In [None]:
import pandas as pd
import os
from pathlib import Path
import matplotlib.pyplot as plt
import seaborn as sns

# --- CONFIGURACI√ìN EST√âTICA PROFESIONAL ---
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 7)
plt.rcParams['font.size'] = 11

# --- 1. PREPARACI√ìN DE DATOS (ETL) ---
def obtener_dataset_maestro():
    """
    Carga y fusiona las tablas con manejo de errores de archivo y codificaci√≥n.
    """
    # üîß CR√çTICO: En Jupyter, usar os.getcwd() en lugar de __file__
    # Opci√≥n 1: Si est√°n en Sprint-1/ (sube dos niveles desde Sprint-3/Data/)
    data_path = Path(os.getcwd()).parent.parent / "Sprint-1"
    
    # Opci√≥n 2: Si est√°n en Ejercicios/ (sube dos niveles desde Sprint-3/Data/)
    # data_path = Path(os.getcwd()).parent.parent / "Ejercicios"
    
    # Opci√≥n 3: Si est√°n en la misma carpeta Sprint-3/Data/
    # data_path = Path(os.getcwd())
    
    # Opci√≥n 4: Ruta absoluta hardcoded (m√°s confiable)
    # data_path = Path(r"c:\Users\Miguel\Desktop\Miguelon\GH\Formacion_IA_DataScience_ML\Sprint-1")
    
    nombres = {
        'clientes': ['clientes.csv', 'clientes.xlsx - clientes.csv.csv'],
        'detalle': ['detalle_ventas.csv', 'detalle_ventas.xlsx - detalle_ventas.csv.csv'],
        'productos': ['productos.csv', 'productos.xlsx - productos.csv.csv'],
        'ventas': ['ventas.csv', 'ventas.xlsx - ventas.csv.csv']
    }
    
    dataframes = {}
    codificacion = 'latin-1'

    print(f"üîÑ Buscando archivos en: {data_path}")
    print(f"üìÅ Directorio existe: {data_path.exists()}")
    print(f"üìç Directorio de trabajo actual: {os.getcwd()}")

    try:
        for key, lista_nombres in nombres.items():
            archivo_encontrado = None
            
            for nombre in lista_nombres:
                ruta_completa = data_path / nombre
                if ruta_completa.exists():
                    archivo_encontrado = ruta_completa
                    break
            
            if archivo_encontrado:
                print(f"   ‚úÖ Le√≠do: {archivo_encontrado}")
                dataframes[key] = pd.read_csv(archivo_encontrado, encoding=codificacion)
            else:
                archivos_disponibles = list(data_path.glob('*.csv')) + list(data_path.glob('*.xlsx'))
                raise FileNotFoundError(
                    f"No se encontr√≥ '{key}' en {data_path}\n"
                    f"Archivos disponibles: {[f.name for f in archivos_disponibles]}"
                )

        df_cli = dataframes['clientes']
        df_det = dataframes['detalle']
        df_prod = dataframes['productos']
        df_ven = dataframes['ventas']

        df_ven['fecha'] = pd.to_datetime(df_ven['fecha'])
        
        print("üîÑ Iniciando fusi√≥n de tablas...")
        
        df = pd.merge(df_det, df_ven, on='id_venta', how='inner')
        df = pd.merge(df, df_prod, on='id_producto', how='left', suffixes=('', '_prod_dup'))
        df = pd.merge(df, df_cli, on='id_cliente', how='left', suffixes=('', '_cli_dup'))
        
        print(f"‚úÖ √âXITO: Dataset Maestro creado con {df.shape[0]} filas.")
        return df

    except Exception as e:
        print(f"\n‚ùå ERROR CR√çTICO: {e}")
        print("üí° CONSEJO: Ajusta la variable 'data_path' al directorio correcto donde est√°n tus CSVs.")
        return None

# --- 2. NUEVAS TAREAS DE AN√ÅLISIS ---

def tarea_analisis_categorias(df):
    """
    Tarea: Visualizar el rendimiento por Categor√≠a de Producto.
    Responde: ¬øQu√© rubro aporta m√°s facturaci√≥n a la empresa?
    """
    print("\nüì¶ Ejecutando An√°lisis por Categor√≠a...")
    
    # Agrupaci√≥n
    ventas_cat = df.groupby('categoria')['importe'].sum().sort_values(ascending=False)
    
    # Visualizaci√≥n
    plt.figure(figsize=(10, 6))
    ax = sns.barplot(x=ventas_cat.index, y=ventas_cat.values, palette='viridis', hue=ventas_cat.index, legend=False)
    
    plt.title('Ingresos Totales por Categor√≠a de Producto', fontsize=16, fontweight='bold')
    plt.ylabel('Facturaci√≥n ($)')
    plt.xlabel('Categor√≠a')
    
    # A√±adir etiquetas de datos encima de las barras
    for i, v in enumerate(ventas_cat.values):
        ax.text(i, v + (v*0.01), f"${v:,.0f}", ha='center', fontweight='bold')
        
    plt.show()

def tarea_analisis_medios_pago(df):
    """
    Tarea: Distribuci√≥n de las Ventas por Medio de Pago.
    Responde: ¬øCu√°l es el canal de cobro m√°s utilizado?
    """
    print("\nüí≥ Ejecutando An√°lisis de Medios de Pago...")
    
    # Contamos cu√°ntas transacciones hubo por medio de pago (usando id_venta √∫nico)
    pagos_unicos = df.drop_duplicates(subset='id_venta')['medio_pago'].value_counts()
    
    # Visualizaci√≥n: Gr√°fico de Pastel (Donut Chart)
    plt.figure(figsize=(8, 8))
    colores = sns.color_palette('pastel')[0:5]
    
    plt.pie(pagos_unicos, labels=pagos_unicos.index, autopct='%1.1f%%', 
            startangle=140, colors=colores, pctdistance=0.85, explode=[0.05]*len(pagos_unicos))
    
    # Dibujar c√≠rculo blanco en el centro para hacerlo "Donut"
    centre_circle = plt.Circle((0,0),0.70,fc='white')
    fig = plt.gcf()
    fig.gca().add_artist(centre_circle)
    
    plt.title('Preferencia de Medios de Pago (Transacciones)', fontsize=16, fontweight='bold')
    plt.show()

def tarea_analisis_geografico(df):
    """
    Tarea: Ventas por Ciudad.
    Responde: ¬øD√≥nde est√°n ubicados nuestros mejores compradores?
    """
    print("\nüìç Ejecutando An√°lisis Geogr√°fico...")
    
    ventas_ciudad = df.groupby('ciudad')['importe'].sum().sort_values(ascending=False)
    
    plt.figure(figsize=(12, 6))
    sns.barplot(x=ventas_ciudad.values, y=ventas_ciudad.index, palette='coolwarm', hue=ventas_ciudad.index, legend=False)
    
    plt.title('Ranking de Ventas por Ciudad', fontsize=16, fontweight='bold')
    plt.xlabel('Total Vendido ($)')
    plt.ylabel('Ciudad')
    plt.grid(axis='x', linestyle='--')
    plt.show()

# --- 3. EJECUCI√ìN PRINCIPAL ---
df_maestro = obtener_dataset_maestro()

if df_maestro is not None:
    # Tarea A: Categor√≠as
    tarea_analisis_categorias(df_maestro)
    
    # Tarea B: Medios de Pago
    tarea_analisis_medios_pago(df_maestro)
    
    # Tarea C: Geograf√≠a
    tarea_analisis_geografico(df_maestro)