In [3]:
# %% [markdown]
# # Análisis de Ventas de Supermercado con NumPy
# 
# Este notebook aplica funciones estadísticas descriptivas básicas utilizando NumPy en el dataset de ventas de supermercado.

# %% [code]
# Paso 1: Importar librerías
import pandas as pd
import numpy as np

# %% [code]
# Paso 2: Cargar los datos
df = pd.read_csv('supermarket_sales.csv')
print("Dataset cargado correctamente. Dimensiones:", df.shape)

# %% [markdown]
# ## Estadística Descriptiva Básica

# %% [code]
# Estadísticas para Unit price y Quantity
print("\nEstadísticas para Unit Price:")
print("Media:", np.mean(df['Unit price']))
print("Mediana:", np.median(df['Unit price']))
print("Moda:", float(pd.Series(df['Unit price']).mode()[0]))  # Conversión para evitar dtype

print("\nEstadísticas para Quantity:")
print("Media:", np.mean(df['Quantity']))
print("Mediana:", np.median(df['Quantity']))
print("Moda:", float(pd.Series(df['Quantity']).mode()[0]))

# %% [markdown]
# ## Ticket Promedio

# %% [code]
# Ticket promedio por ciudad
print("\nTicket promedio por ciudad:")
print(df.groupby('City')['Total'].mean())

# Ticket promedio por línea de producto y ciudad
print("\nTicket promedio por línea de producto y ciudad:")
print(df.groupby(['Product line', 'City'])['Total'].mean())

# Ticket promedio por género
print("\nTicket promedio por género:")
print(df.groupby('Gender')['Total'].mean())

# Ticket promedio por género y línea de producto
print("\nTicket promedio por género y línea de producto:")
print(df.groupby(['Gender', 'Product line'])['Total'].mean())

# %% [markdown]
# ## Ranking de Ventas y % de Aporte

# %% [code]
# Función para calcular ranking y porcentaje
def calcular_ranking_y_porcentaje(grupo):
    ventas_grupo = df.groupby(grupo)['Total'].sum()
    ranking = ventas_grupo.rank(ascending=False, method='min')
    porcentaje = (ventas_grupo / ventas_grupo.sum()) * 100
    return pd.DataFrame({
        'Ventas': ventas_grupo,
        'Ranking': ranking,
        '% Aporte': porcentaje
    }).sort_values('Ranking').head(5)

# %% [code]
# Ranking por ciudad
print("\nTop 5 Ciudades por Ventas:")
ciudades_ranking = calcular_ranking_y_porcentaje('City')
print(ciudades_ranking)

# Ranking por tipo de miembro
print("\nTop por Tipo de Miembro:")
miembros_ranking = calcular_ranking_y_porcentaje('Customer type')
print(miembros_ranking)

# Ranking por método de pago
print("\nTop por Método de Pago:")
pagos_ranking = calcular_ranking_y_porcentaje('Payment')
print(pagos_ranking)

# %% [markdown]
# ## Matrices de Correlación

# %% [code]
# Preparar datos para correlación
df['Hora'] = pd.to_datetime(df['Time']).dt.hour

# Correlación entre hora y total
corr_hora_total = np.corrcoef(df['Hora'], df['Total'])[0, 1]
print(f"\nCorrelación Hora vs Total: {corr_hora_total:.4f}")

# Correlación entre precio unitario y rating
corr_precio_rating = np.corrcoef(df['Unit price'], df['Rating'])[0, 1]
print(f"Correlación Precio Unitario vs Rating: {corr_precio_rating:.4f}")

# %% [markdown]
# ## Interpretación de Correlaciones
# 
# - **Hora vs Total**: Una correlación cercana a 0 indica que no hay relación lineal entre la hora del día y el monto total de ventas.
# - **Precio Unitario vs Rating**: Una correlación cercana a 0 sugiere que no hay relación entre el precio de los productos y la satisfacción del cliente.

Dataset cargado correctamente. Dimensiones: (1000, 17)

Estadísticas para Unit Price:
Media: 55.67213
Mediana: 55.230000000000004
Moda: 83.77

Estadísticas para Quantity:
Media: 5.51
Mediana: 5.0
Moda: 10.0

Ticket promedio por ciudad:
City
Mandalay     319.872506
Naypyitaw    337.099715
Yangon       312.354031
Name: Total, dtype: float64

Ticket promedio por línea de producto y ciudad:
Product line            City     
Electronic accessories  Mandalay     310.026245
                        Naypyitaw    344.890445
                        Yangon       305.285225
Fashion accessories     Mandalay     264.730911
                        Naypyitaw    331.693385
                        Yangon       320.245265
Food and beverages      Mandalay     304.297770
                        Naypyitaw    360.103864
                        Yangon       295.915526
Health and beauty       Mandalay     376.993585
                        Naypyitaw    319.525500
                        Yangon       268.037298


  df['Hora'] = pd.to_datetime(df['Time']).dt.hour
