In [None]:
# ============================================================================
# CELDA 1: INSTALACI√ìN DE LIBRER√çAS - VERSI√ìN ANACONDA
# ============================================================================

import sys
import subprocess

print("="*70)
print("VERIFICACI√ìN DE LIBRER√çAS NECESARIAS")
print("="*70)
print()

librerias = {
    'pandas': 'Manipulacion y analisis de datos',
    'numpy': 'Operaciones numericas y arrays',
    'openpyxl': 'Leer y escribir archivos Excel (.xlsx)',
    'matplotlib': 'Creacion de graficos y visualizaciones',
    'seaborn': 'Visualizaciones estadisticas avanzadas',
    'plotly': 'Graficos interactivos',
    'scipy': 'Funciones cientificas y estadisticas',
    'statsmodels': 'Modelos estadisticos y series temporales',
    'scikit-learn': 'Machine Learning (para predicciones)',
}

print("EN ANACONDA: Las librer√≠as se instalan por terminal/Anaconda Prompt")
print("Comandos recomendados:")
print("  conda install pandas numpy matplotlib seaborn scipy scikit-learn")
print("  pip install openpyxl plotly statsmodels")
print()

print("="*70)
print("VERIFICACION DE VERSIONES INSTALADAS")
print("="*70)
print()

try:
    import pandas as pd
    import numpy as np
    import matplotlib
    import seaborn as sns
    import scipy
    import statsmodels
    import sklearn
    import plotly

    print(f"OK Python:       {sys.version.split()[0]}")
    print(f"OK Pandas:       {pd.__version__}")
    print(f"OK NumPy:        {np.__version__}")
    print(f"OK Matplotlib:   {matplotlib.__version__}")
    print(f"OK Seaborn:      {sns.__version__}")
    print(f"OK SciPy:        {scipy.__version__}")
    print(f"OK Statsmodels:  {statsmodels.__version__}")
    print(f"OK Scikit-learn: {sklearn.__version__}")
    print(f"OK Plotly:       {plotly.__version__}")

except ImportError as e:
    print(f"ERROR: {e}")
    print("Por favor instala las librer√≠as faltantes usando los comandos arriba")

print()
print("="*70)
print("SISTEMA LISTO PARA EMPEZAR")
print("="*70)
print()
print("Proximo paso: Cargar los archivos Excel")
print()

In [None]:
#%%script false

# ============================================================================
# CELDA 2: CARGA DE ARCHIVOS EXCEL - VERSI√ìN ANACONDA
# ============================================================================

import pandas as pd
import os
from tkinter import Tk, filedialog
from tabulate import tabulate

print("="*70)
print("CARGA DE ARCHIVOS EXCEL - ANACONDA")
print("="*70)
print()
print("Selecciona TODOS los archivos Excel que quieras cargar")
print("Puedes seleccionar multiples archivos con Ctrl + Click")
print()

# Abrir explorador de archivos (reemplaza files.upload() de Colab)
root = Tk()
root.withdraw()  # Ocultar ventana principal
root.attributes('-topmost', True)  # Traer al frente

archivos = filedialog.askopenfilenames(
    title="Selecciona los archivos Excel",
    filetypes=[("Excel files", "*.xlsx *.xls")]
)

print(f"Archivos seleccionados: {len(archivos)}")
print()

# Contenedor para todos los datos
datos = {}
archivos_cargados = 0
archivos_ignorados = 0
errores = []

print("="*70)
print("PROCESANDO ARCHIVOS")
print("="*70)
print()

for archivo_path in archivos:
    try:
        nombre_archivo = os.path.basename(archivo_path)
        
        # Verificar que sea un archivo Excel
        if not nombre_archivo.lower().endswith(('.xlsx', '.xls')):
            print(f"Ignorado: {nombre_archivo} (no es archivo Excel)")
            archivos_ignorados += 1
            continue

        # Leer el archivo Excel
        df = pd.read_excel(archivo_path, engine='openpyxl')

        # Guardar con el nombre del archivo
        datos[nombre_archivo] = df

        print(f"OK {nombre_archivo}")
        print(f"   Filas: {len(df):,} | Columnas: {len(df.columns)}")
        print(f"   Columnas: {', '.join(df.columns[:5].astype(str))}...")
        print()

        archivos_cargados += 1

    except Exception as e:
        print(f"ERROR al cargar {nombre_archivo}: {str(e)}")
        errores.append((nombre_archivo, str(e)))
        print()

print()
print("="*70)
print("RESUMEN DE CARGA")
print("="*70)
print(f"Total archivos seleccionados : {len(archivos)}")
print(f"Cargados exitosamente        : {archivos_cargados}")
print(f"Ignorados                    : {archivos_ignorados}")
print(f"Con errores                  : {len(errores)}")
print()

if archivos_cargados > 0:
    print("Datasets disponibles en el diccionario 'datos':")
    for nombre in datos.keys():
        print(f"  - datos['{nombre}']")
    print()

print("="*70)
print("CARGA COMPLETADA")
print("="*70)
print()

In [None]:
%%script false
# ============================================================================
# CELDA 2A: CARGA Y SELECCI√ìN AUTOM√ÅTICA - MODO PRODUCCI√ìN
# ============================================================================
# PARA ACTIVAR: Cambiar "%%script false" por "#%%script false"  
# PARA DESACTIVAR: Cambiar "#%%script false" por "%%script false"

import pandas as pd
import os
from tabulate import tabulate

print("="*70)
print("CARGA Y SELECCI√ìN AUTOM√ÅTICA - MODO PRODUCCI√ìN")
print("="*70)
print()

# ============================================================================
# 1. CARGA AUTOM√ÅTICA DE ARCHIVOS
# ============================================================================

# Rutas predefinidas de los archivos
rutas_archivos = [
    r"C:\JUGOS\datos_fuente\BASCULA.xlsx",
    r"C:\JUGOS\datos_fuente\ENVASES.xlsx", 
    r"C:\JUGOS\datos_fuente\INGRESOS CON KM.xlsx",
    r"C:\JUGOS\datos_fuente\MOTIVO.xlsx",
    r"C:\JUGOS\datos_fuente\PROVEEDOR.xlsx"
]

# Contenedor para todos los datos
datos = {}
archivos_cargados = 0
archivos_no_encontrados = 0
errores = []

print("PROCESANDO ARCHIVOS AUTOM√ÅTICAMENTE")
print("-" * 50)
print()

for archivo_path in rutas_archivos:
    try:
        nombre_archivo = os.path.basename(archivo_path)
        
        # Verificar si el archivo existe
        if not os.path.exists(archivo_path):
            print(f"NO ENCONTRADO: {nombre_archivo}")
            print(f"   Ruta: {archivo_path}")
            archivos_no_encontrados += 1
            continue

        # Leer el archivo Excel
        df = pd.read_excel(archivo_path, engine='openpyxl')

        # Guardar con el nombre del archivo
        datos[nombre_archivo] = df

        print(f"‚úÖ {nombre_archivo}")
        print(f"   Filas: {len(df):,} | Columnas: {len(df.columns)}")
        print(f"   Columnas: {', '.join(df.columns[:3].astype(str))}...")

        archivos_cargados += 1

    except Exception as e:
        print(f"‚ùå ERROR al cargar {nombre_archivo}: {str(e)}")
        errores.append((nombre_archivo, str(e)))

print()

# ============================================================================
# 2. SELECCI√ìN AUTOM√ÅTICA DE COLUMNAS
# ============================================================================

print("SELECCI√ìN AUTOM√ÅTICA DE COLUMNAS")
print("-" * 50)
print()

# Configuraci√≥n predefinida de columnas (basada en tu selecci√≥n siempre)
configuracion_columnas = {
    "BASCULA.xlsx": [1, 9, 11, 13, 14, 15, 17, 23],      # 1-9-11-13-14-15-17-23
    "ENVASES.xlsx": [1, 2, 4],                           # 1-2-4  
    "INGRESOS CON KM.xlsx": [2, 3, 4, 5, 6, 12],         # 2-3-4-5-6-12
    "MOTIVO.xlsx": [1, 2],                               # 1-2
    "PROVEEDOR.xlsx": [1, 2]                             # 1-2
}

columnas_seleccionadas = {}
columnas_procesadas = 0

for nombre_archivo, numeros_columnas in configuracion_columnas.items():
    if nombre_archivo in datos:
        df = datos[nombre_archivo]
        columnas = []
        
        # Convertir n√∫meros a nombres de columnas
        for num in numeros_columnas:
            if 1 <= num <= len(df.columns):
                columnas.append(df.columns[num - 1])
            else:
                print(f"‚ö†Ô∏è  Advertencia: Columna {num} no existe en {nombre_archivo}")
        
        if columnas:
            columnas_seleccionadas[nombre_archivo] = columnas
            columnas_procesadas += 1
            print(f"‚úÖ {nombre_archivo}: {len(columnas)} columnas seleccionadas")
            print(f"   ‚Üí {', '.join(columnas)}")
    else:
        print(f"‚ö†Ô∏è  {nombre_archivo}: Archivo no cargado, no se pueden seleccionar columnas")

print()

# ============================================================================
# 3. CREAR DATOS FILTRADOS
# ============================================================================

print("CREANDO DATASETS FILTRADOS")
print("-" * 50)
print()

datos_filtrados = {}
datos_trabajo = {}

for nombre_archivo, columnas in columnas_seleccionadas.items():
    if nombre_archivo in datos:
        datos_filtrados[nombre_archivo] = datos[nombre_archivo][columnas].copy()
        print(f"‚úÖ {nombre_archivo}: Dataset filtrado creado")

datos_trabajo = datos_filtrados.copy()

print()

# ============================================================================
# 4. RESUMEN FINAL
# ============================================================================

print("="*70)
print("RESUMEN AUTOM√ÅTICO COMPLETO")
print("="*70)
print(f"üìÅ Archivos configurados    : {len(rutas_archivos)}")
print(f"‚úÖ Archivos cargados        : {archivos_cargados}")
print(f"‚ùå Archivos no encontrados  : {archivos_no_encontrados}")
print(f"‚ö†Ô∏è  Archivos con errores     : {len(errores)}")
print(f"üìä Columnas procesadas      : {columnas_procesadas}")
print(f"üéØ Datasets filtrados       : {len(datos_filtrados)}")
print()

if datos_filtrados:
    print("Datasets disponibles para trabajar:")
    for nombre in datos_filtrados.keys():
        df = datos_filtrados[nombre]
        print(f"  - {nombre} ({len(df):,} filas √ó {len(df.columns)} columnas)")
print()

print("="*70)
print("‚úÖ AUTOMATIZACI√ìN COMPLETADA - LISTO PARA AN√ÅLISIS")
print("="*70)
print()

In [None]:
# ============================================================================
# CELDA 3: VISUALIZACI√ìN DE TODOS LOS DATASETS CARGADOS
# ============================================================================

import pandas as pd

print("="*70)
print("DATASETS CARGADOS EN MEMORIA")
print("="*70)
print()

print(f"Total de datasets: {len(datos)}\n")

for i, (nombre, df) in enumerate(datos.items(), 1):
    print(f"{i}. {nombre}")
    print(f"   Dimensiones: {df.shape[0]:,} filas x {df.shape[1]} columnas")
    print()

print("="*70)
print("INFORMACION DETALLADA")
print("="*70)
print()

for nombre, df in datos.items():
    print(f"DATASET: {nombre}")
    print("-"*70)
    print(f"Filas: {df.shape[0]:,} | Columnas: {df.shape[1]}")
    print()

    print("Columnas disponibles:")
    for i, col in enumerate(df.columns, 1):
        tipo = str(df[col].dtype)
        no_nulos = df[col].notna().sum()
        print(f"  {i:2d}. {str(col):30s} | Tipo: {tipo:10s} | Datos validos: {no_nulos:,}")

    print()
    print("Primeras 3 filas:")
    print(df.head(3))
    print()
    print("="*70)
    print()

print("CELDA 3 COMPLETADA")
print("="*70)

In [None]:
#%%script false

# ============================================================================
# CELDA 4: SELECCI√ìN DE COLUMNAS (INTERACTIVO CON INPUT)
# ============================================================================

import pandas as pd

print("="*70)
print("SELECCION DE COLUMNAS POR DATASET")
print("="*70)
print()

# Contenedor para guardar la selecci√≥n
columnas_seleccionadas = {}

# Iterar por cada dataset
for nombre_ds, df in datos.items():
    print()
    print("="*70)
    print(f"DATASET: {nombre_ds}")
    print("="*70)
    print(f"Total de columnas disponibles: {len(df.columns)}")
    print()

    # Mostrar columnas numeradas
    print("Columnas disponibles:")
    print("-"*70)
    for i, col in enumerate(df.columns, 1):
        print(f"  {i:2d}. {col}")
    print()

    # Pedir input al usuario
    print("OPCIONES:")
    print("  - Escribe los numeros separados por guiones: 1-3-5-7")
    print("  - Escribe 'TODAS' para seleccionar todas las columnas")
    print("  - Presiona ENTER (vacio) para omitir este dataset")
    print()

    respuesta = input(f"Seleccion para {nombre_ds}: ").strip()

    # Procesar la respuesta
    if not respuesta:
        print(f">>> Dataset '{nombre_ds}' omitido")
        continue

    if respuesta.upper() == 'TODAS':
        columnas_seleccionadas[nombre_ds] = list(df.columns)
        print(f">>> Seleccionadas TODAS las columnas ({len(df.columns)})")
        continue

    # Procesar n√∫meros separados por guiones
    try:
        numeros = [int(n.strip()) for n in respuesta.split('-')]
        columnas = []

        for num in numeros:
            if num < 1 or num > len(df.columns):
                print(f">>> ERROR: Numero {num} fuera de rango (1-{len(df.columns)})")
                break
            columnas.append(df.columns[num - 1])

        if len(columnas) == len(numeros):
            columnas_seleccionadas[nombre_ds] = columnas
            print(f">>> Seleccionadas {len(columnas)} columnas: {', '.join([str(c) for c in columnas])}")

    except ValueError:
        print(f">>> ERROR: Formato invalido. Usa numeros separados por guiones (ej: 1-3-5)")

# Resumen final
print()
print()
print("="*70)
print("RESUMEN DE SELECCION")
print("="*70)
print()

if not columnas_seleccionadas:
    print("NO SE SELECCIONO NINGUNA COLUMNA")
    print("Ejecuta esta celda nuevamente para hacer una seleccion")
else:
    print(f"Total de datasets seleccionados: {len(columnas_seleccionadas)}")
    print()

    for nombre_ds, columnas in columnas_seleccionadas.items():
        print(f"- {nombre_ds}: {len(columnas)} columna(s)")
        print(f"  Columnas: {', '.join([str(c) for c in columnas])}")
        print()

    print("="*70)
    print("Variable 'columnas_seleccionadas' lista para usar")
    print("Ejecuta la siguiente celda para ver los datos filtrados")
    print("="*70)

In [None]:
# ============================================================================
# CELDA 5: VISUALIZACI√ìN DE DATASETS FILTRADOS
# ============================================================================

import pandas as pd
from tabulate import tabulate

print("="*70)
print("DATASETS FILTRADOS POR COLUMNAS SELECCIONADAS")
print("="*70)
print()

# Verificar que existe la selecci√≥n
try:
    columnas_seleccionadas
    print(f"Total de datasets con columnas seleccionadas: {len(columnas_seleccionadas)}")
    print()
except NameError:
    print("ERROR: No se ha realizado ninguna seleccion de columnas.")
    print("Por favor, ejecuta primero la CELDA 4 y selecciona las columnas.")
    print("="*70)
    raise

# Crear diccionario con los datasets filtrados
datos_filtrados = {}

for nombre_dataset, columnas in columnas_seleccionadas.items():
    if nombre_dataset in datos:
        datos_filtrados[nombre_dataset] = datos[nombre_dataset][columnas].copy()
    else:
        print(f"ADVERTENCIA: Dataset '{nombre_dataset}' no encontrado")

# Crear datos_trabajo (para usar en celdas siguientes)
datos_trabajo = datos_filtrados

print("="*70)
print("RESUMEN DE DATASETS FILTRADOS")
print("="*70)
print()

for i, (nombre, df) in enumerate(datos_filtrados.items(), 1):
    print(f"{i}. {nombre}")
    print(f"   Filas: {df.shape[0]:,} | Columnas seleccionadas: {df.shape[1]}")
    print(f"   Columnas: {', '.join([str(c) for c in df.columns])}")
    print()

print()
print("="*70)
print("DATASETS DISPONIBLES PARA EL PROYECTO")
print("="*70)

# Mostrar cada dataset con formato de grilla
for nombre, df in datos_filtrados.items():
    # Crear nombre de variable simplificado
    nombre_var = nombre.replace('.xlsx', '').replace('.XLSX', '').replace(' ', '_').replace('(', '').replace(')', '').lower()

    print(f"DATASET: {nombre}")
    print("PARA VER LA TABLA COMPLETA UTILIZAR EL SIGUIENTE CODIGO:")
    print(f"datos_filtrados['{nombre}']")
    print("o tambien:")
    print(f"{nombre_var}")
    print("-"*70)
    print(f"Filas         : {len(df):,}")
    print(f"Columnas      : {len(df.columns)}")
    print(f"Columnas      : {', '.join([str(c) for c in df.columns])}")
    print()
    print("Primeras 3 filas:")
    print(tabulate(df.head(3), headers='keys', tablefmt='grid', showindex=True))
    print()
    print("="*70)

# Crear variables globales con nombres simplificados
for nombre, df in datos_filtrados.items():
    nombre_var = nombre.replace('.xlsx', '').replace('.XLSX', '').replace(' ', '_').replace('(', '').replace(')', '').lower()
    globals()[nombre_var] = df

print()
print("="*70)
print("PROXIMO PASO: ANALISIS DE BINS POR PROVEEDOR")
print("="*70)
print()
print("En las siguientes celdas vamos a:")
print("  1. Identificar los bins (envases con GRU = 'J')")
print("  2. Calcular bins por proveedor")
print("  3. Analizar movimientos de bins (entradas/salidas)")
print("  4. Calcular deuda de bins por proveedor")
print("  5. Crear el semaforo (Verde/Amarillo/Rojo)")
print()
print("="*70)
print("CELDA 5 COMPLETADA")
print("="*70)

In [None]:
# ============================================================================
# CELDA 6: EXTRACCION DE CODIGOS DE BINS (GRU = 'J')
# ============================================================================

import pandas as pd

print("="*70)
print("EXTRACCION DE CODIGOS DE BINS (GRU = 'J')")
print("="*70)
print()

# Buscar el dataset de ENVASES (gen√©rico)
nombre_envases = None
for nombre in datos_trabajo.keys():
    if 'ENVASES' in nombre.upper():
        nombre_envases = nombre
        break

if nombre_envases is None:
    print("ERROR: No se encontro ningun dataset de ENVASES")
    print(f"Datasets disponibles: {list(datos_trabajo.keys())}")
else:
    print(f"Usando dataset: {nombre_envases}")
    print()

    # Obtener el dataframe de envases
    df_envases = datos_trabajo[nombre_envases]

    # Filtrar donde gru = 'J' y obtener solo la columna 'nro'
    codigos_bins = df_envases[df_envases['gru'] == 'J']['nro'].tolist()

    print(f"Total de c√≥digos de bins: {len(codigos_bins)}")
    print()
    print("C√≥digos de bins:")
    print(codigos_bins)

    print()
    print("="*70)
    print("Variable creada: codigos_bins")
    print("="*70)

In [None]:
# ============================================================================
# CELDA 7: FILTRAR BASCULA DONDE env COINCIDA CON CODIGOS DE BINS
# ============================================================================

import pandas as pd
from tabulate import tabulate

print("="*70)
print("FILTRADO DE BASCULA POR CODIGOS DE BINS")
print("="*70)
print()

# Buscar el dataset de BASCULA (gen√©rico)
nombre_bascula = None
for nombre in datos_trabajo.keys():
    if 'BASCULA' in nombre.upper():
        nombre_bascula = nombre
        break

if nombre_bascula is None:
    print("ERROR: No se encontro ningun dataset de BASCULA")
    print(f"Datasets disponibles: {list(datos_trabajo.keys())}")
else:
    print(f"Usando dataset: {nombre_bascula}")
    print()

    # RESETEAR desde datos originales (IDEMPOTENTE)
    df_bascula = datos_trabajo[nombre_bascula].copy()

    # Filtrar BASCULA donde 'env' est√© en la lista de codigos_bins
    movimientos_bins = df_bascula[df_bascula['env'].isin(codigos_bins)].copy()

    print(f"Total de registros en BASCULA: {len(df_bascula):,}")
    print(f"Registros filtrados (env en codigos_bins): {len(movimientos_bins):,}")
    print()

    print("Primeras 10 filas:")
    print(tabulate(movimientos_bins.head(10), headers='keys', tablefmt='grid', showindex=True))

    print()
    print("="*70)
    print("Variable creada: movimientos_bins")
    print("="*70)
    print()
    print("Para ver la tabla completa ejecuta:")
    print("  movimientos_bins")

In [None]:
# ============================================================================
# BLOQUE 3: EGRESOS (BINS VAC√çOS)
# CELDA 8: AGREGAR NOMBRES DE PROVEEDORES
# ============================================================================

import pandas as pd
from tabulate import tabulate

print("="*70)
print("AGREGAR NOMBRES DE PROVEEDORES")
print("="*70)
print()

# Buscar datasets
nombre_proveedor = None
nombre_bascula = None

for nombre in datos_trabajo.keys():
    if 'PROVEEDOR' in nombre.upper():
        nombre_proveedor = nombre
    if 'BASCULA' in nombre.upper():
        nombre_bascula = nombre

if nombre_proveedor is None or nombre_bascula is None:
    print("ERROR: Faltan datasets")
else:
    # RESETEAR desde datos originales
    df_bascula = datos_trabajo[nombre_bascula].copy()
    df_proveedor = datos_trabajo[nombre_proveedor].copy()

    # Filtrar bins
    movimientos_bins = df_bascula[df_bascula['env'].isin(codigos_bins)].copy()

    print(f"Total de proveedores disponibles: {len(df_proveedor):,}")
    print()

    # Convertir a entero
    movimientos_bins['pro'] = movimientos_bins['pro'].astype(int)
    df_proveedor['nro'] = df_proveedor['nro'].astype(int)

    # GUARDAR columna nro ORIGINAL (si existe)
    tiene_nro_original = 'nro' in movimientos_bins.columns
    if tiene_nro_original:
        nro_backup = movimientos_bins['nro'].copy()

    # Hacer merge
    movimientos_bins = movimientos_bins.merge(
        df_proveedor[['nro', 'nom']],
        left_on='pro',
        right_on='nro',
        how='left',
        suffixes=('', '_merge')
    )

    # Renombrar y limpiar
    movimientos_bins = movimientos_bins.rename(columns={'nom': 'nombre_proveedor'})

    # Eliminar solo la columna del merge
    if 'nro_merge' in movimientos_bins.columns:
        movimientos_bins = movimientos_bins.drop(columns=['nro_merge'])

    # Reordenar columnas
    cols = list(movimientos_bins.columns)
    if 'nombre_proveedor' in cols and 'pro' in cols:
        idx_pro = cols.index('pro')
        cols.remove('nombre_proveedor')
        cols.insert(idx_pro + 1, 'nombre_proveedor')
        movimientos_bins = movimientos_bins[cols]

    print("="*70)
    print("RESULTADO")
    print("="*70)
    print()

    print(f"Total de registros: {len(movimientos_bins):,}")
    print()

    print("Primeras 10 filas:")
    print(tabulate(movimientos_bins.head(10), headers='keys', tablefmt='grid', showindex=True))

    print()
    print("="*70)
    print("CELDA 8 COMPLETADA")
    print("="*70)

In [None]:
# ============================================================================
# CELDA 9: RENOMBRAR MOVIMIENTOS A EGRESOS
# ============================================================================

print("="*70)
print("RENOMBRAR: movimientos_bins ‚Üí egresos_bins")
print("="*70)
print()

# Renombrar la variable
egresos_bins = movimientos_bins.copy()

print(f"‚úÖ Variable renombrada exitosamente")
print()
print(f"Para visualizar la tabla de salida ejecute:")
print(f"egresos_bins")

In [None]:
# ============================================================================
# CELDA 10: FILTRAR INGRESOS DONDE env COINCIDA CON CODIGOS DE BINS
# ============================================================================

import pandas as pd
from tabulate import tabulate

print("="*70)
print("FILTRADO DE INGRESOS POR CODIGOS DE BINS")
print("="*70)
print()

# Buscar el dataset de INGRESOS (gen√©rico)
nombre_ingresos = None
for nombre in datos_trabajo.keys():
    if 'INGRESO' in nombre.upper():
        nombre_ingresos = nombre
        break

if nombre_ingresos is None:
    print("ERROR: No se encontro ningun dataset de INGRESOS")
    print(f"Datasets disponibles: {list(datos_trabajo.keys())}")
else:
    print(f"Usando dataset: {nombre_ingresos}")
    print()

    # RESETEAR desde datos originales (IDEMPOTENTE)
    df_ingresos = datos_trabajo[nombre_ingresos].copy()

    # Filtrar INGRESOS donde 'env' est√© en la lista de codigos_bins
    ingresos_bins = df_ingresos[df_ingresos['env'].isin(codigos_bins)].copy()

    print(f"Total de registros en INGRESOS: {len(df_ingresos):,}")
    print(f"Registros filtrados (env en codigos_bins): {len(ingresos_bins):,}")
    print()

    print("Primeras 10 filas:")
    print(tabulate(ingresos_bins.head(10), headers='keys', tablefmt='grid', showindex=True))

    print()
    print("="*70)
    print("Variable creada: ingresos_bins")
    print("="*70)
    print()
    print("Para ver la tabla completa ejecuta:")
    print("  ingresos_bins")

In [None]:
# ============================================================================
# BLOQUE 4: INGRESOS (BINS LLENOS)
# CELDA 11: AGREGAR NOMBRES DE PROVEEDORES A INGRESOS
# ============================================================================

import pandas as pd
from tabulate import tabulate

print("="*70)
print("AGREGAR NOMBRES DE PROVEEDORES A INGRESOS")
print("="*70)
print()

# Buscar datasets
nombre_proveedor = None
nombre_ingresos = None

for nombre in datos_trabajo.keys():
    if 'PROVEEDOR' in nombre.upper():
        nombre_proveedor = nombre
    if 'INGRESO' in nombre.upper():
        nombre_ingresos = nombre

if nombre_proveedor is None or nombre_ingresos is None:
    print("ERROR: Faltan datasets")
else:
    # RESETEAR desde datos originales
    df_ingresos = datos_trabajo[nombre_ingresos].copy()
    df_proveedor = datos_trabajo[nombre_proveedor].copy()

    # Filtrar bins
    ingresos_bins = df_ingresos[df_ingresos['env'].isin(codigos_bins)].copy()

    print(f"Total de proveedores disponibles: {len(df_proveedor):,}")
    print()

    # Convertir a entero
    ingresos_bins['pro'] = ingresos_bins['pro'].astype(int)
    df_proveedor['nro'] = df_proveedor['nro'].astype(int)

    # GUARDAR columna nro ORIGINAL (si existe)
    tiene_nro_original = 'nro' in ingresos_bins.columns
    if tiene_nro_original:
        ingresos_bins = ingresos_bins.rename(columns={'nro': 'Nro Jugos'})

    # Hacer merge SIN crear nro_x y nro_y
    ingresos_bins = ingresos_bins.merge(
        df_proveedor[['nro', 'nom']],
        left_on='pro',
        right_on='nro',
        how='left'
    )

    # Renombrar y limpiar
    ingresos_bins = ingresos_bins.rename(columns={'nom': 'nombre_proveedor'})
    ingresos_bins = ingresos_bins.drop(columns=['nro'])  # Solo eliminar la del merge

    # Reordenar columnas
    cols = list(ingresos_bins.columns)
    if 'nombre_proveedor' in cols and 'pro' in cols:
        idx_pro = cols.index('pro')
        cols.remove('nombre_proveedor')
        cols.insert(idx_pro + 1, 'nombre_proveedor')
        ingresos_bins = ingresos_bins[cols]

    print("="*70)
    print("RESULTADO")
    print("="*70)
    print()

    print(f"Total de registros: {len(ingresos_bins):,}")
    print()

    print("Primeras 10 filas:")
    print(tabulate(ingresos_bins.head(10), headers='keys', tablefmt='grid', showindex=True))

    print()
    print("="*70)
    print("CELDA 11 COMPLETADA")
    print("="*70)

In [None]:
# ============================================================================
# TRANSFORMAR egresos_bins
# ============================================================================

import pandas as pd

print("="*70)
print("TRANSFORMACI√ìN DE egresos_bins")
print("="*70)
print()

# Copiar base
df_egresos = egresos_bins.copy()
print(f"Registros: {len(df_egresos):,}")
print()

# PASO 1: Renombrar columnas
df_egresos = df_egresos.rename(columns={
    'nro': 'NUMERO',
    'ori': 'ORIGEN',
    'des': 'DESTINO',
    'env': 'ENVASE',
    'can': 'CANTIDAD',
    'pro': 'PROVEEDOR',
    'nombre_proveedor': 'NOMBRE',
    'fec': 'FECHA',
    'mfl': 'MFL'
})
print("‚úÖ Columnas renombradas")

# PASO 2: Agregar columna MOVIMIENTO
df_egresos['MOVIMIENTO'] = df_egresos['DESTINO'].apply(
    lambda x: 'ENTRADA' if x == 'PJP' else 'SALIDA'
)
print("‚úÖ Columna MOVIMIENTO agregada")

# PASO 3: Reordenar columnas
df_egresos = df_egresos[[
    'NUMERO',
    'FECHA',
    'PROVEEDOR',
    'NOMBRE',
    'ENVASE',
    'CANTIDAD',
    'ORIGEN',
    'DESTINO',
    'MFL',
    'MOVIMIENTO'
]]
print("‚úÖ Columnas reordenadas")
print()

# Renombrar variable
EGRESOS = df_egresos
print("‚úÖ Variable renombrada: EGRESOS")
print()

# Mostrar resultado
print("Columnas finales:")
for i, col in enumerate(EGRESOS.columns, 1):
    print(f"  {i:2d}. {col}")
print()

print("Primeras 5 filas:")
print(EGRESOS.head())
print()

print("="*70)
print("‚úÖ COMPLETADO - Variable: EGRESOS")
print("="*70)

In [None]:
# ============================================================================
# TRANSFORMAR ingresos_bins
# ============================================================================

import pandas as pd

print("="*70)
print("TRANSFORMACI√ìN DE ingresos_bins")
print("="*70)
print()

# Copiar base
df_ingresos = ingresos_bins.copy()
print(f"Registros: {len(df_ingresos):,}")
print()

# PASO 1: Renombrar columnas
df_ingresos = df_ingresos.rename(columns={
    'Nro Jugos': 'NUMERO',
    'Fecha': 'FECHA',
    'CantBins': 'CANTIDAD',
    'env': 'ENVASE',
    'Origen': 'ORIGEN',
    'pro': 'PROVEEDOR',
    'nombre_proveedor': 'NOMBRE'
})
print("‚úÖ Columnas renombradas")

# PASO 2: Convertir CANTIDAD a entero
df_ingresos['CANTIDAD'] = df_ingresos['CANTIDAD'].astype(int)
print("‚úÖ CANTIDAD convertida a entero")

# PASO 3: Agregar columnas nuevas
df_ingresos['DESTINO'] = 'PJP'
df_ingresos['MFL'] = 'XX'
df_ingresos['MOVIMIENTO'] = 'ENTRADA'
print("‚úÖ Columnas DESTINO, MFL y MOVIMIENTO agregadas")

# PASO 4: Reordenar columnas
df_ingresos = df_ingresos[[
    'NUMERO',
    'FECHA',
    'PROVEEDOR',
    'NOMBRE',
    'ENVASE',
    'CANTIDAD',
    'ORIGEN',
    'DESTINO',
    'MFL',
    'MOVIMIENTO'
]]
print("‚úÖ Columnas reordenadas")
print()

# Renombrar variable
INGRESOS = df_ingresos
print("‚úÖ Variable renombrada: INGRESOS")
print()

# Mostrar resultado
print("Columnas finales:")
for i, col in enumerate(INGRESOS.columns, 1):
    print(f"  {i:2d}. {col}")
print()

print("Primeras 5 filas:")
print(INGRESOS.head())
print()

print("="*70)
print("‚úÖ COMPLETADO - Variable: INGRESOS")
print("="*70)

In [None]:
# ============================================================================
# CONSOLIDAR MOVIMIENTOS
# ============================================================================

import pandas as pd

print("="*70)
print("CONSOLIDACI√ìN DE MOVIMIENTOS")
print("="*70)
print()

# Concatenar INGRESOS y EGRESOS
MOVIMIENTOS = pd.concat([INGRESOS, EGRESOS], ignore_index=True)

print(f"Registros INGRESOS: {len(INGRESOS):,}")
print(f"Registros EGRESO: {len(EGRESOS):,}")
print(f"Total MOVIMIENTOS: {len(MOVIMIENTOS):,}")
print()

# Ordenar cronol√≥gicamente por FECHA
MOVIMIENTOS = MOVIMIENTOS.sort_values(by='FECHA').reset_index(drop=True)
print("‚úÖ Ordenado cronol√≥gicamente por FECHA")
print()

# Mostrar distribuci√≥n
print("Distribuci√≥n por MOVIMIENTO:")
conteo = MOVIMIENTOS['MOVIMIENTO'].value_counts()
for tipo, cantidad in conteo.items():
    print(f"  {tipo}: {cantidad:,} registros")
print()

# Mostrar rango de fechas
print(f"Fecha inicial: {MOVIMIENTOS['FECHA'].min()}")
print(f"Fecha final: {MOVIMIENTOS['FECHA'].max()}")
print()

print("Primeras 10 filas:")
print(MOVIMIENTOS.head(10))
print()

print("="*70)
print("‚úÖ COMPLETADO - Variable: MOVIMIENTOS")
print("="*70)

In [None]:
# ============================================================================
# GUARDAR MOVIMIENTOS - VERSI√ìN ANACONDA
# ============================================================================

import os
from datetime import datetime

# Definir rutas - MODIFICAR SEG√öN TU SISTEMA
CARPETA_RESULTADOS = r'C:\JUGOS\resultados'  # Cambia esta ruta si es necesario
CARPETA_HISTORIAL = r'C:\JUGOS\resultados\historial'

# Crear carpetas si no existen
os.makedirs(CARPETA_RESULTADOS, exist_ok=True)
os.makedirs(CARPETA_HISTORIAL, exist_ok=True)

# ============================================================================
# 1. GUARDAR ARCHIVO PRINCIPAL (Power BI lee este)
# ============================================================================

archivo_principal = os.path.join(CARPETA_RESULTADOS, 'MOVIMIENTOS.xlsx')
MOVIMIENTOS.to_excel(archivo_principal, index=False)
print(f"‚úÖ Archivo principal guardado: {archivo_principal}")

# ============================================================================
# 2. GUARDAR COPIA CON TIMESTAMP (Para historial/auditor√≠a)
# ============================================================================

# Generar timestamp
timestamp = datetime.now().strftime('%Y%m%d_%H%M')
archivo_historial = os.path.join(CARPETA_HISTORIAL, f'MOVIMIENTOS_{timestamp}.xlsx')
MOVIMIENTOS.to_excel(archivo_historial, index=False)
print(f"üì¶ Backup guardado: {archivo_historial}")

# ============================================================================
# 3. ESTAD√çSTICAS
# ============================================================================

print()
print("="*70)
print("üìä INFORMACI√ìN DEL ARCHIVO")
print("="*70)
print(f"   Total de registros:     {len(MOVIMIENTOS):>10,}")
print(f"   Rango de fechas:        {MOVIMIENTOS['FECHA'].min()} a {MOVIMIENTOS['FECHA'].max()}")
print(f"   Productores √∫nicos:     {MOVIMIENTOS['PROVEEDOR'].nunique():>10,}")
print(f"   Tama√±o del archivo:     {os.path.getsize(archivo_principal) / 1024:.1f} KB")
print("="*70)
print()
print("üéØ Power BI leer√°:  C:\\JUGOS\\resultados\\MOVIMIENTOS.xlsx")
print("üìÅ Historial en:    C:\\JUGOS\\resultados\\historial\\")
print()
print("="*70)