# Proyecto Integrado: Análisis Estadístico de Datos

En este proyecto integrarás los conceptos de estadística descriptiva y probabilidad analizando un conjunto de datos real sobre ventas de una tienda online.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Configuración para gráficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

# Configurar para mostrar los gráficos en el notebook
%matplotlib inline

# Semilla para reproducibilidad
np.random.seed(42)

## Parte 1: Carga y Exploración Inicial de Datos

In [None]:
# Generemos un dataset sintético para el proyecto
# (En un caso real, cargarías tus datos desde un archivo CSV)

# Crear fechas para un período de 3 meses
fechas = pd.date_range(start='2023-01-01', end='2023-03-31', freq='D')

# Número de transacciones por día (entre 50 y 100)
n_transacciones_por_dia = np.random.randint(50, 100, size=len(fechas))

# Inicializar listas para almacenar datos
todas_fechas = []
todos_productos = []
todas_categorias = []
todos_precios = []
todas_cantidades = []
todos_clientes = []
todas_valoraciones = []

# Categorías de productos y rangos de precios
categorias = {
    'Electrónica': ['Smartphone', 'Laptop', 'Tablet', 'Auriculares', 'Smartwatch'],
    'Ropa': ['Camiseta', 'Pantalón', 'Vestido', 'Chaqueta', 'Zapatos'],
    'Hogar': ['Lámpara', 'Sofá', 'Mesa', 'Estantería', 'Utensilios de cocina']
}

precios_base = {
    'Smartphone': 300, 'Laptop': 800, 'Tablet': 200, 'Auriculares': 50, 'Smartwatch': 150,
    'Camiseta': 20, 'Pantalón': 40, 'Vestido': 50, 'Chaqueta': 70, 'Zapatos': 60,
    'Lámpara': 35, 'Sofá': 450, 'Mesa': 120, 'Estantería': 80, 'Utensilios de cocina': 25
}

# Generar transacciones
for i, fecha in enumerate(fechas):
    n_trans = n_transacciones_por_dia[i]

    for _ in range(n_trans):
        # Seleccionar categoría y producto
        categoria = np.random.choice(list(categorias.keys()))
        producto = np.random.choice(categorias[categoria])

        # Generar precio con variación aleatoria
        precio_base = precios_base[producto]
        precio = np.random.normal(precio_base, precio_base * 0.1)
        precio = max(precio, precio_base * 0.8)  # Asegurar precio mínimo

        # Generar cantidad (mayormente 1, a veces más)
        cantidad = np.random.choice([1, 1, 1, 2, 2, 3], p=[0.6, 0.2, 0.1, 0.05, 0.03, 0.02])

        # Generar ID de cliente (entre 1000 y 2000)
        cliente = np.random.randint(1000, 2000)

        # Generar valoración (1-5, con tendencia a valoraciones más altas)
        valoracion = np.random.choice([1, 2, 3, 4, 5], p=[0.05, 0.1, 0.15, 0.3, 0.4])

        # Agregar datos a las listas
        todas_fechas.append(fecha)
        todos_productos.append(producto)
        todas_categorias.append(categoria)
        todos_precios.append(round(precio, 2))
        todas_cantidades.append(cantidad)
        todos_clientes.append(cliente)
        todas_valoraciones.append(valoracion)

# Crear DataFrame
df_ventas = pd.DataFrame({
    'fecha': todas_fechas,
    'producto': todos_productos,
    'categoria': todas_categorias,
    'precio': todos_precios,
    'cantidad': todas_cantidades,
    'cliente_id': todos_clientes,
    'valoracion': todas_valoraciones
})

# Calcular total por transacción
df_ventas['total'] = df_ventas['precio'] * df_ventas['cantidad']

# Mostrar las primeras filas del DataFrame
print("Dataset de Ventas - Primeras 10 filas:")
df_ventas.head(10)

# Información general del dataset
print("\nInformación del dataset:")
df_ventas.info()

print("\nEstadísticas descriptivas básicas:")
df_ventas.describe()

## Parte 2: Análisis de Tendencia Central y Dispersión

In [None]:
# EJERCICIO 1: Cálculo de media, mediana y moda para precios y valoraciones

# Calcular medidas estadísticas para precios
# La media es el promedio de todos los precios.
media_precio = df_ventas['precio'].mean()

# La mediana es el valor central cuando los precios están ordenados.
mediana_precio = df_ventas['precio'].median()

# La moda es el valor que más se repite en los precios. [0] selecciona el primer valor si hay múltiples modas.
moda_precio = df_ventas['precio'].mode()[0]

# Calcular medidas estadísticas para valoraciones
# La media de las valoraciones indica el promedio de las puntuaciones de los clientes.
media_valoracion = df_ventas['valoracion'].mean()

# La mediana es el valor que divide a las valoraciones en dos partes iguales cuando están ordenadas.
mediana_valoracion = df_ventas['valoracion'].median()

# La moda es el valor de valoración que más veces se repite.
moda_valoracion = df_ventas['valoracion'].mode()[0]

# Mostrar resultados
# Mostrar las medidas de tendencia central para precios
print("\nMedidas para Precios:")
print(f"Media: {media_precio:.2f}, Mediana: {mediana_precio:.2f}, Moda: {moda_precio}")

# Mostrar las medidas de tendencia central para valoraciones
print("\nMedidas para Valoraciones:")
print(f"Media: {media_valoracion:.2f}, Mediana: {mediana_valoracion:.2f}, Moda: {moda_valoracion}")

# Interpretación de los resultados
print("\nInterpretación:")

# Análisis de la distribución de los precios comparando la media y la mediana
if media_precio > mediana_precio:
    print("- Los precios tienen una distribución sesgada a la derecha (mayoría de precios bajos, pero algunos muy altos).")
elif media_precio < mediana_precio:
    print("- Los precios tienen una distribución sesgada a la izquierda (mayoría de precios altos, pero algunos muy bajos).")
else:
    print("- La distribución de los precios es simétrica.")

# Análisis de la distribución de las valoraciones comparando la media y la mediana
if media_valoracion > mediana_valoracion:
    print("- La mayoría de los clientes dan buenas valoraciones, pero hay algunas bajas que reducen la media.")
elif media_valoracion < mediana_valoracion:
    print("- Hay una tendencia a valoraciones bajas con algunas excepciones de puntuaciones altas.")
else:
    print("- La distribución de las valoraciones es equilibrada.")

In [None]:
# EJERCICIO 2: Calcula la desviación estándar de los precios por categoría.
# ¿Qué categoría tiene mayor variabilidad en precios? ¿Por qué crees que ocurre esto?

# Calcular la desviación estándar de los precios por categoría
# Agrupamos el DataFrame por la columna 'categoria' y calculamos la desviación estándar de los precios dentro de cada grupo.
desviacion_precios = df_ventas.groupby('categoria')['precio'].std()

# Mostrar resultados
# Imprimimos la desviación estándar de los precios por cada categoría para ver la variabilidad de precios.
print("\nDesviación estándar de precios por categoría:")
print(desviacion_precios)

# Identificar la categoría con mayor variabilidad
# Utilizamos el método idxmax() para obtener el nombre de la categoría con la mayor desviación estándar,
# y el método max() para obtener el valor de esa desviación estándar.
categoria_mayor_var = desviacion_precios.idxmax()
valor_mayor_var = desviacion_precios.max()

# Imprimir el resultado de la categoría con mayor variabilidad
print(f"\nLa categoría con mayor variabilidad en precios es: {categoria_mayor_var} con una desviación estándar de {valor_mayor_var:.2f}")

# 🔹 Interpretación de la Variabilidad
print("\n📌 Interpretación de la Variabilidad:")
print("- La desviación estándar indica qué tan dispersos están los precios dentro de cada categoría.")
print("- Si una categoría tiene alta desviación estándar, significa que hay productos baratos y caros dentro de ella.")

# Analizar las razones de la alta variabilidad dependiendo de la categoría
if categoria_mayor_var == "Electrónica":
    print("- La categoría 'Electrónica' probablemente tiene mayor variabilidad porque incluye productos de bajo costo (auriculares, smartwatch) y productos muy caros (laptops, smartphones).")
elif categoria_mayor_var == "Ropa":
    print("- Si 'Ropa' tiene alta variabilidad, puede deberse a diferencias en el tipo de prenda (una camiseta vs. una chaqueta de marca).")
elif categoria_mayor_var == "Hogar":
    print("- Si 'Hogar' tiene la mayor desviación, podría ser por la diferencia de precios entre pequeños utensilios y muebles costosos.")

In [None]:
# EJERCICIO 3: Crea histogramas para visualizar la distribución de precios y valoraciones.
# Comenta si estas distribuciones se asemejan a una distribución normal.

# Configuración de gráficos
plt.figure(figsize=(12, 5))  # Configura el tamaño de la figura para los dos histogramas

# Histograma de precios
plt.subplot(1, 2, 1)  # Crea el primer subgráfico (1 fila, 2 columnas, subgráfico 1)
sns.histplot(df_ventas['precio'], bins=30, kde=True, color='blue')  # Histograma con 30 barras para precios, agregando KDE (Curva de Densidad)
plt.title('Distribución de Precios')  # Título del gráfico
plt.xlabel('Precio')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y

# Histograma de valoraciones
plt.subplot(1, 2, 2)  # Crea el segundo subgráfico (1 fila, 2 columnas, subgráfico 2)
sns.histplot(df_ventas['valoracion'], bins=5, discrete=True, kde=False, color='green')  # Histograma discreto con 5 barras para valoraciones
plt.title('Distribución de Valoraciones')  # Título del gráfico
plt.xlabel('Valoración')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y

# Mostrar gráficos
plt.tight_layout()  # Ajusta el diseño de los subgráficos para que no se solapen
plt.show()  # Muestra los gráficos generados

# 📌 Interpretación de la Distribución
print("\n📌 Interpretación de los Histogramas:")

# Análisis de la distribución de precios
precio_skewness = df_ventas['precio'].skew()  # Calcula el sesgo (asimetría) de la distribución de precios
if precio_skewness > 0:  # Si el sesgo es positivo (a la derecha)
    print("- La distribución de precios está sesgada a la derecha (hay más productos baratos y algunos caros elevan la media).")
elif precio_skewness < 0:  # Si el sesgo es negativo (a la izquierda)
    print("- La distribución de precios está sesgada a la izquierda (hay más productos caros y algunos baratos bajan la media).")
else:  # Si no hay sesgo, la distribución es simétrica
    print("- La distribución de precios es simétrica.")

# Análisis de la distribución de valoraciones
valoracion_skewness = df_ventas['valoracion'].skew()  # Calcula el sesgo (asimetría) de la distribución de valoraciones
if valoracion_skewness > 0:  # Si el sesgo es positivo (a la derecha)
    print("- La distribución de valoraciones está sesgada a la derecha (la mayoría de los clientes dan valoraciones altas).")
elif valoracion_skewness < 0:  # Si el sesgo es negativo (a la izquierda)
    print("- La distribución de valoraciones está sesgada a la izquierda (hay muchas valoraciones bajas).")
else:  # Si no hay sesgo, la distribución es equilibrada
    print("- La distribución de valoraciones es equilibrada.")

# Comparación con una distribución normal
print("\n📈 Comparación con una Distribución Normal:")
print("- Si la curva del histograma de precios tiene forma de campana, se asemeja a una distribución normal.")
print("- La distribución de valoraciones es discreta (valores 1-5), por lo que no será completamente normal, pero si la mayoría de valores son 4 o 5, habrá un sesgo positivo.")


## Parte 3: Análisis de Correlación

In [None]:
# EJERCICIO 4: Investiga si existe relación entre el precio y la valoración del producto.
# Calcula la correlación y crea un gráfico de dispersión.

# Calcular la correlación entre precio y valoración
correlacion = df_ventas['precio'].corr(df_ventas['valoracion'])

# Mostrar la correlación calculada en la consola
print("\n📊 Correlación entre Precio y Valoración:", correlacion)

# Crear un gráfico de dispersión para visualizar la relación entre precio y valoración
plt.figure(figsize=(8, 6))  # Define el tamaño de la figura
sns.scatterplot(x='precio', y='valoracion', data=df_ventas, color='purple')  # Dibuja el gráfico de dispersión
plt.title('Relación entre Precio y Valoración')  # Título del gráfico
plt.xlabel('Precio')  # Etiqueta del eje X (Precio)
plt.ylabel('Valoración')  # Etiqueta del eje Y (Valoración)
plt.show()  # Muestra el gráfico generado

# Interpretación de la correlación
# Dependiendo del valor de la correlación, damos una interpretación de la relación entre precio y valoración
if correlacion > 0:  # Correlación positiva
    print("- Existe una correlación positiva entre precio y valoración: a medida que aumenta el precio, las valoraciones tienden a ser más altas.")
elif correlacion < 0:  # Correlación negativa
    print("- Existe una correlación negativa entre precio y valoración: a medida que aumenta el precio, las valoraciones tienden a ser más bajas.")
else:  # No hay correlación
    print("- No existe una correlación significativa entre precio y valoración.")

## Parte 4: Análisis de Distribución Normal y Z-scores

In [None]:
# EJERCICIO 5: Identificar transacciones atípicas en los totales de ventas.
# Calcular los Z-scores y filtrar las transacciones atípicas (|Z| > 2).
# Visualizar la distribución de los totales de ventas y marcar los valores atípicos.
 
from scipy.stats import zscore

# a) Calcular la media y desviación estándar de la columna 'total'
# La media y desviación estándar son estadísticas descriptivas que nos dan una idea del comportamiento central y la dispersión de los totales de ventas.
media_total = df_ventas['total'].mean()  # Media de los totales de ventas
desviacion_total = df_ventas['total'].std()  # Desviación estándar de los totales de ventas

print("\n📊 Media de los Totales de Ventas:", media_total)
print("📊 Desviación Estándar de los Totales de Ventas:", desviacion_total)

# b) Calcular los Z-scores para cada valor de la columna 'total'
# El Z-score nos indica cuántas desviaciones estándar se encuentra un valor respecto a la media.
df_ventas['z_score_total'] = zscore(df_ventas['total'])  # Calcula los Z-scores para cada valor en la columna 'total'

# c) Identificar transacciones atípicas (|Z| > 2)
# Un Z-score mayor a 2 o menor a -2 generalmente se considera fuera de lo normal (transacción atípica).
transacciones_atipicas = df_ventas[np.abs(df_ventas['z_score_total']) > 2]  # Filtra los valores atípicos

print("\n📊 Transacciones Atípicas (|Z| > 2):")
# Muestra las transacciones que tienen Z-scores fuera de lo común
print(transacciones_atipicas[['fecha', 'producto', 'total', 'z_score_total']])

# d) Visualizar la distribución de los totales de ventas y marcar los valores atípicos
# Este paso nos permite ver gráficamente cómo se distribuyen los totales de ventas y qué valores son atípicos.

plt.figure(figsize=(10, 6))  # Configura el tamaño de la figura

# Histograma de totales de ventas con una curva de densidad
sns.histplot(df_ventas['total'], bins=30, kde=True, color='blue')  # Histograma con una curva KDE (Kernel Density Estimate)
plt.title('Distribución de Totales de Ventas')  # Título del gráfico
plt.xlabel('Total de Venta')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y

# Marcar los valores atípicos en el gráfico
# Los valores atípicos se marcan con puntos rojos en el gráfico
plt.scatter(transacciones_atipicas['total'],
            np.zeros(len(transacciones_atipicas)),  # Los puntos se colocan en el eje Y en 0 para destacarlos
            color='red', label='Valores Atípicos', zorder=5)  # zorder=5 asegura que los puntos rojos estén por encima de la distribución

plt.legend()  # Muestra la leyenda para identificar los puntos atípicos
plt.show()  # Muestra el gráfico

## Parte 5: Probabilidades e Intervalos de Confianza

In [None]:
# EJERCICIO 6: Calcular la probabilidad de que una venta supere los 200€, el valor de venta que solo supera el 10% de las transacciones,
# y el intervalo de confianza del 95% para el total medio de ventas.

from scipy.stats import norm

# a) Probabilidad de que una venta supere los X€
# Elegimos un valor X de 200€
X = 200
# Se calcula la probabilidad de que una venta sea mayor a 200€, usando la distribución normal
# norm.cdf(X, loc=media_total, scale=desviacion_total) devuelve la probabilidad acumulada hasta X
# Restando este valor a 1 obtenemos la probabilidad de que la venta supere los X€
probabilidad = 1 - norm.cdf(X, loc=media_total, scale=desviacion_total)

# Imprimimos el resultado
print(f"\n📊 Probabilidad de que una venta supere {X}€: {probabilidad:.4f}")

# b) Valor de venta que solo supera el 10% de las transacciones
# Utilizamos el percentil 90 para encontrar el valor que solo supera el 10% de las transacciones,
# lo que corresponde al valor a partir del cual el 10% de las ventas son mayores.
percentil_10 = norm.ppf(0.90, loc=media_total, scale=desviacion_total)

# Imprimimos el valor calculado
print(f"\n📊 Valor de venta que solo supera el 10% de las transacciones: {percentil_10:.2f}€")

# c) Intervalo de confianza del 95% para el total medio de ventas
# Calculamos el Z-valor correspondiente al 95% de confianza (Z=1.96, aproximadamente)
z_95 = norm.ppf(0.975)  # Z-valor para el 95% de confianza

# Calculamos el margen de error utilizando la fórmula del intervalo de confianza para la media
# El margen de error se obtiene multiplicando el Z-valor por la desviación estándar y dividiendo por la raíz cuadrada del tamaño de la muestra.
margen_error = z_95 * desviacion_total / np.sqrt(len(df_ventas))

# Calculamos el intervalo de confianza sumando y restando el margen de error a la media
intervalo_confianza = (media_total - margen_error, media_total + margen_error)

# Imprimimos el intervalo de confianza con los valores calculados
print(f"\n📊 Intervalo de confianza del 95% para el total medio de ventas: ({intervalo_confianza[0]:.2f}€, {intervalo_confianza[1]:.2f}€)")

## Parte 6: Análisis Temporal y Estacionalidad

In [None]:
# EJERCICIO 7: Analiza las ventas totales por día:
# a) Crea una nueva tabla agrupando las ventas por fecha
# b) Visualiza la evolución temporal
# c) Calcula estadísticas descriptivas para las ventas diarias
# d) ¿Observas algún patrón semanal? (pista: utiliza df.groupby(df['fecha'].dt.dayofweek))

# a) Crear una nueva tabla agrupando las ventas por fecha
# Agrupamos los datos por la columna 'fecha' y sumamos las ventas totales de cada día
ventas_diarias = df_ventas.groupby('fecha')['total'].sum().reset_index()

# b) Visualizar la evolución temporal de las ventas
# Configuramos el tamaño de la figura para la gráfica
plt.figure(figsize=(12, 6))
# Graficamos las ventas diarias con un marcador en cada punto para mejor visualización
plt.plot(ventas_diarias['fecha'], ventas_diarias['total'], color='blue', marker='o')
# Títulos y etiquetas de los ejes
plt.title('Evolución Temporal de las Ventas Diarias')
plt.xlabel('Fecha')
plt.ylabel('Total de Ventas')
# Rotamos las fechas para mejorar la legibilidad
plt.xticks(rotation=45)
# Añadimos una cuadrícula a la gráfica para mejorar su claridad
plt.grid(True)
# Mostramos la gráfica
plt.show()

# c) Calcular estadísticas descriptivas para las ventas diarias
# Usamos el método describe() para obtener estadísticas como la media, la desviación estándar, el mínimo, etc.
print("\n📊 Estadísticas descriptivas de las ventas diarias:")
print(ventas_diarias['total'].describe())

# d) Observar patrones semanales utilizando el día de la semana
# Extraemos el día de la semana de la columna 'fecha' (0 = lunes, 6 = domingo)
ventas_diarias['dia_semana'] = ventas_diarias['fecha'].dt.dayofweek

# Agrupar por día de la semana y calcular las ventas promedio para cada uno
ventas_semanales = ventas_diarias.groupby('dia_semana')['total'].mean()

# Mostrar las ventas promedio por día de la semana
print("\n📊 Ventas promedio por día de la semana:")
print(ventas_semanales)

# Visualización de las ventas promedio por día de la semana
# Configuramos el tamaño de la figura para la gráfica
plt.figure(figsize=(8, 6))
# Usamos un gráfico de barras para visualizar las ventas promedio por día de la semana
sns.barplot(x=ventas_semanales.index, y=ventas_semanales.values, palette='viridis')
# Títulos y etiquetas de los ejes
plt.title('Ventas Promedio por Día de la Semana')
plt.xlabel('Día de la Semana')
plt.ylabel('Ventas Promedio')
# Añadimos etiquetas personalizadas a los días de la semana
plt.xticks(ticks=np.arange(7), labels=['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado', 'Domingo'])
# Mostramos la gráfica
plt.show()

## Parte 7: Segmentación de Clientes

In [None]:
# EJERCICIO 8: Analiza el comportamiento de compra de los clientes:
# a) Calcula el gasto total y número de compras por cliente
# b) Utilizando Z-scores, identifica a los clientes VIP (alto valor)
# c) Segmenta a los clientes en grupos (bajo, medio, alto) según su gasto
# d) Visualiza la distribución de clientes por segmento

# a) Calcular el gasto total y número de compras por cliente
# Agrupamos por cliente para calcular el gasto total y el número de compras
gasto_cliente = df_ventas.groupby('cliente_id').agg(
    gasto_total=('total', 'sum'),  # Sumar el total gastado por cada cliente
    num_compras=('total', 'count')  # Contar el número de compras por cliente
).reset_index()

# b) Identificar a los clientes VIP utilizando Z-scores
# Calculamos el Z-score para el gasto total de cada cliente
gasto_cliente['z_score'] = zscore(gasto_cliente['gasto_total'])

# Definimos como VIP a aquellos clientes cuyo Z-score sea mayor a 2 (por encima de 2 desviaciones estándar)
gasto_cliente['VIP'] = gasto_cliente['z_score'] > 2

# c) Segmentar a los clientes en grupos (bajo, medio, alto) según su gasto
# Usamos percentiles para dividir a los clientes en tres grupos según su gasto total
gasto_cliente['segmento'] = pd.qcut(gasto_cliente['gasto_total'], q=3, labels=['Bajo', 'Medio', 'Alto'])

# d) Visualizar la distribución de clientes por segmento
# Graficamos la distribución de los clientes en cada segmento (bajo, medio, alto)
plt.figure(figsize=(10, 6))
sns.countplot(x='segmento', data=gasto_cliente, palette='Set2')
plt.title('Distribución de Clientes por Segmento de Gasto')
plt.xlabel('Segmento de Gasto')
plt.ylabel('Número de Clientes')
plt.show()

# Mostrar información adicional sobre los clientes VIP y los segmentos
print("Clientes VIP:")
print(gasto_cliente[gasto_cliente['VIP'] == True])

print("\nSegmentación de Clientes:")
print(gasto_cliente[['cliente_id', 'gasto_total', 'segmento']].head())

## Parte 8: Informe de Resultados

In [None]:
# EJERCICIO 9: Prepara un resumen con los hallazgos más importantes de tu análisis.
# Incluye al menos 3 conclusiones basadas en tus cálculos estadísticos que serían
# relevantes para la toma de decisiones del negocio.

# a) Calcular el gasto total y número de compras por cliente
comportamiento_clientes = df_ventas.groupby('cliente_id').agg(
    gasto_total=('total', 'sum'),  # Calcula el gasto total por cliente sumando las compras
    num_compras=('total', 'count')  # Cuenta el número de compras por cliente
).reset_index()  # Resetea el índice para tener un dataframe plano

# b) Identificar a los clientes VIP (alto valor) utilizando Z-scores en el gasto total
# El Z-score mide cuán lejos está un dato de la media, en términos de desviaciones estándar
comportamiento_clientes['z_score_gasto'] = zscore(comportamiento_clientes['gasto_total'])

# Consideramos como clientes VIP aquellos con un Z-score > 2 (es decir, aquellos cuyo gasto está más allá de 2 desviaciones estándar)
clientes_vip = comportamiento_clientes[comportamiento_clientes['z_score_gasto'] > 2]

# Mostrar los clientes VIP con su gasto total y Z-score
print("\n📊 Clientes VIP (Z-score > 2):")
print(clientes_vip[['cliente_id', 'gasto_total', 'z_score_gasto']])

# c) Segmentar a los clientes en grupos (bajo, medio, alto) según su gasto total
# Definir los umbrales para cada segmento basado en los percentiles (tercio bajo, medio y alto)
bajo_percentil = comportamiento_clientes['gasto_total'].quantile(0.33)  # Umbral para el 33% inferior (bajo)
alto_percentil = comportamiento_clientes['gasto_total'].quantile(0.66)  # Umbral para el 66% superior (alto)

# Crear una nueva columna 'segmento' que clasifique a los clientes en tres segmentos: bajo, medio y alto
comportamiento_clientes['segmento'] = np.where(
    comportamiento_clientes['gasto_total'] <= bajo_percentil, 'Bajo',  # Los clientes cuyo gasto es menor o igual al percentil bajo
    np.where(comportamiento_clientes['gasto_total'] <= alto_percentil, 'Medio', 'Alto')  # Los clientes entre los percentiles medio y alto
)

# d) Visualizar la distribución de clientes por segmento
plt.figure(figsize=(8, 6))  # Establecer el tamaño de la figura
sns.countplot(data=comportamiento_clientes, x='segmento', palette='Set2')  # Crear un gráfico de barras con los segmentos de clientes
plt.title('Distribución de Clientes por Segmento de Gasto')  # Título del gráfico
plt.xlabel('Segmento')  # Etiqueta en el eje X
plt.ylabel('Número de Clientes')  # Etiqueta en el eje Y
plt.show()  # Mostrar el gráfico

## Parte 9: Desafío Adicional (Opcional)

In [None]:
from itertools import combinations

# a) Encontrar qué productos suelen comprarse juntos (agrupando por cliente_id y fecha)
# Agrupamos los datos por 'cliente_id' y 'fecha' para obtener los productos que cada cliente compró en cada transacción
productos_comprados = df_ventas.groupby(['cliente_id', 'fecha'])['producto'].apply(list).reset_index()

# Creamos una lista para almacenar las combinaciones de productos que fueron comprados juntos
producto_combinaciones = []
# Iteramos sobre cada transacción (fila del DataFrame) y generamos todas las combinaciones posibles de 2 productos
for _, row in productos_comprados.iterrows():
    combinaciones = combinations(row['producto'], 2)  # Generamos combinaciones de 2 productos
    producto_combinaciones.extend(combinaciones)  # Añadimos las combinaciones a la lista

# Convertimos la lista de combinaciones en un DataFrame para poder analizarla fácilmente
combinaciones_df = pd.DataFrame(producto_combinaciones, columns=['producto_A', 'producto_B'])

# b) Calcular las probabilidades condicionales: P(compra producto B | compró producto A)
# Contamos cuántas veces se ha dado cada combinación de productos
combinaciones_contadas = combinaciones_df.groupby(['producto_A', 'producto_B']).size().reset_index(name='count')

# Calculamos la probabilidad condicional P(B|A) = P(A y B) / P(A)
# Primero, obtenemos cuántas veces se ha comprado cada producto A en total
producto_A_count = combinaciones_df.groupby('producto_A').size().reset_index(name='count_A')

# Fusionamos ambos DataFrames (combinaciones_contadas y producto_A_count) para calcular la probabilidad condicional
probabilidades = pd.merge(combinaciones_contadas, producto_A_count, on='producto_A')
# Calculamos la probabilidad condicional dividiendo el número de veces que A y B se compraron juntos entre el número de veces que A se compró
probabilidades['probabilidad_condicional'] = probabilidades['count'] / probabilidades['count_A']

# c) Visualizar las relaciones más fuertes entre productos
# Seleccionamos las 10 combinaciones con las probabilidades condicionales más altas
top_probabilidades = probabilidades.sort_values(by='probabilidad_condicional', ascending=False).head(10)

# Creamos un gráfico de barras para visualizar las combinaciones de productos con mayor probabilidad condicional
plt.figure(figsize=(12, 6))
sns.barplot(x='probabilidad_condicional', y='producto_A', data=top_probabilidades, hue='producto_B', palette='viridis')
# Añadimos título y etiquetas al gráfico
plt.title('Top 10 Combinaciones de Productos con Mayor Probabilidad Condicional')
plt.xlabel('Probabilidad Condicional P(B|A)')
plt.ylabel('Producto A')
plt.legend(title='Producto B')
# Mostramos el gráfico
plt.show()