In [2]:
# Utilizaci√≥n de pandas  en el an√°lisis de datos

In [3]:
## poder subir un archivo, en este caso .cvs ubicado en un archivo local, Le hacemos una primera mirada de los primeros y los √∫ltimos datos para ver como est√° compuesta, vemos informaci√≥n importante y si hay duplicados.


In [6]:
import pandas as pd
import os 
from collections import defaultdict


ruta_directorio = r"C:\Users\luism\.cache\kagglehub\datasets\ayeshaimran123\caffeine-collective\versions\1"
nombre_archivo = "Coffe_sales.csv" 
ruta_completa = os.path.join(ruta_directorio, nombre_archivo)

try:
    df = pd.read_csv(ruta_completa)
    print("¬°Archivo cargado exitosamente!")
    print("\nPrimeras 5 filas del DataFrame:")
    print(df.head())
    print(df.tail())
    df.info()
    df.describe()
    df.duplicated().sum()

except FileNotFoundError:
    print(f"Error: No se encontr√≥ el archivo en la ruta: {ruta_completa}")
   
except Exception as e:
    print(f"Ocurri√≥ un error al leer el archivo: {e}")

Error: No se encontr√≥ el archivo en la ruta: C:\Users\luism\.cache\kagglehub\datasets\ayeshaimran123\caffeine-collective\versions\1/Coffe_sales.csv


In [None]:


# Se le hizo un an√°lisis al conjunto, no tiene datos faltantes o extra√±os
#Tenemos problemas con el formato de los tiempos


df['Full_Timestamp_Str'] = df['Date'].astype(str) + ' ' + df['Time'].astype(str)

# Para cuantificar errores
df['Transaction_DateTime'] = pd.to_datetime(df['Full_Timestamp_Str'], 
                                             errors='coerce', 
                                             format='mixed')

# Validar la limpieza y eliminar la columna temporal
nan_count = df['Transaction_DateTime'].isna().sum()
print("\n--- ¬°ERROR DE TIEMPO CORREGIDO Y VALIDADO! ---")
print(f"Total de valores que fallaron en la conversi√≥n (NaT): {nan_count}")

# Limpieza del DataFrame
df = df.drop(columns=['Full_Timestamp_Str'])

# Validar la nueva estructura del DataFrame
print("\nValidaci√≥n de las primeras 5 filas con el nuevo campo de tiempo:")
print(df[['Date', 'Time', 'Transaction_DateTime']].head())
df.info()

# Iterar sobre las columnas de tipo 'object' (categ√≥ricas) para ver los valores √∫nicos
print("\n--- Inspecci√≥n de Valores √önicos en Columnas Categ√≥ricas ---")
for col in df.select_dtypes(include=['object']).columns:
    print(f"\nColumna: {col}")
    
    # Muestra los valores √∫nicos y su frecuencia de aparici√≥n
    print(df[col].value_counts())
    
    
# Ya los datos est√°n totalmente limpios y completos

# Ahora vamos a extraer informaci√≥n valiosa con ayuda de pandas

dias_ordenados = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']

demanda_cruzada = pd.crosstab(
    df['Weekday'], 
    df['Time_of_Day']
).reindex(dias_ordenados)

print("\n--- Demanda Semanal por Momento del D√≠a (Conteo de Ventas) ---")
print(demanda_cruzada)

# Agrupamos por Momento del D√≠a y por Nombre del Caf√©, y contamos las ventas
ventas_por_momento_y_cafe = df.groupby(['Time_of_Day', 'coffee_name']).size()

# Usamos 'idxmax' en el nivel interior (coffee_name) para encontrar el √≠ndice (nombre del caf√©)
# que tuvo la mayor venta en cada Time_of_Day.
cafe_lider_por_momento = ventas_por_momento_y_cafe.groupby(level=0).idxmax()

print("\n--- Caf√© L√≠der de Ventas en Cada Momento del D√≠a ---")
print(cafe_lider_por_momento)

# Inicializar y generar el diccionario (Repetimos la l√≥gica del paso anterior para asegurar la ejecuci√≥n)
reportes_por_cafe = defaultdict(pd.DataFrame)

for cafe in df['coffee_name'].unique():
    # Filtrar el DataFrame original
    df_filtrado = df[df['coffee_name'] == cafe]
    
    # Crear la Tabla Din√°mica (Pivot Table)
    pivot_cafe = df_filtrado.pivot_table(
        index='Time_of_Day', 
        columns='Weekday', 
        values='hour_of_day', 
        aggfunc='count'
    )
    
    # Reordenar las columnas y rellenar los posibles valores NaN (cero ventas) con 0
    pivot_cafe = pivot_cafe.reindex(columns=dias_ordenados, fill_value=0)
    
    reportes_por_cafe[cafe] = pivot_cafe


# 1. Bucle de Impresi√≥n de Todos los Reportes (La Solicitud Clave)
print("\n" + "="*50)
print("     REPORTE COMPLETO DE VENTAS POR PRODUCTO Y DEMANDA")
print("="*50)

# Iterar sobre el diccionario e imprimir cada DataFrame de la Tabla Din√°mica
for nombre_cafe, reporte_df in reportes_por_cafe.items():
    print(f"\n--- ‚òï REPORTE: {nombre_cafe} ---")
    print(reporte_df)
    print("-" * 50)


# Para sacar m√©tricas seguras y poder ser certeros con los datos, debemos ver que los datos por d√≠as sean equitativos.
# Puede que hayan m√°s lunes que jueves, llevando a lunes a tener una mayor percepci√≥n, que podr√≠a ser falsa.

# 1. Ventas Totales por D√≠a: Contar el n√∫mero de transacciones por cada d√≠a de la semana
ventas_totales_por_dia = df.groupby('Weekday').size().reindex(dias_ordenados, fill_value=0)

# 2. Conteo de Ocurrencias del D√≠a (El paso clave para la normalizaci√≥n):
# Eliminamos las filas duplicadas por 'Date' y luego contamos cu√°ntas veces aparece cada 'Weekday'.
# Esto nos dice cu√°ntos Lunes, Martes, etc., hubo en el per√≠odo total.
conteo_dias_unicos = df.drop_duplicates(subset=['Date'])['Weekday'].value_counts().reindex(dias_ordenados, fill_value=0)

# 3. Calcular la Tasa Promedio de Ventas por D√≠a (M√©trica Segura)
# Tasa Promedio = Ventas Totales / Conteo de D√≠as √önicos
tasa_promedio_ventas = (ventas_totales_por_dia / conteo_dias_unicos).round(2).sort_values(ascending=False)

print("\n--- üìà TASA PROMEDIO DE VENTAS DIARIAS NORMALIZADA ---")
print("Este es el verdadero indicador de demanda, libre de sesgo.")
print("-" * 50)
print(tasa_promedio_ventas)
print("-" * 50)

# Opcional: Mostrar el conteo de d√≠as √∫nicos para verificar la normalizaci√≥n
print("\nConteo de D√≠as √önicos en el Per√≠odo Analizado (Para Verificaci√≥n):")
print(conteo_dias_unicos)