# Proyecto Integrado: An√°lisis Estad√≠stico de Datos

En este proyecto integrar√°s los conceptos de estad√≠stica descriptiva y probabilidad analizando un conjunto de datos real sobre ventas de una tienda online.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Configuraci√≥n para gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

# Configurar para mostrar los gr√°ficos en el notebook
%matplotlib inline

# Semilla para reproducibilidad
np.random.seed(42)

## Parte 1: Carga y Exploraci√≥n Inicial de Datos

In [None]:
# Generemos un dataset sint√©tico para el proyecto
# (En un caso real, cargar√≠as tus datos desde un archivo CSV)

# Crear fechas para un per√≠odo de 3 meses
fechas = pd.date_range(start='2023-01-01', end='2023-03-31', freq='D')

# N√∫mero de transacciones por d√≠a (entre 50 y 100)
n_transacciones_por_dia = np.random.randint(50, 100, size=len(fechas))

# Inicializar listas para almacenar datos
todas_fechas = []
todos_productos = []
todas_categorias = []
todos_precios = []
todas_cantidades = []
todos_clientes = []
todas_valoraciones = []

# Categor√≠as de productos y rangos de precios
categorias = {
    'Electr√≥nica': ['Smartphone', 'Laptop', 'Tablet', 'Auriculares', 'Smartwatch'],
    'Ropa': ['Camiseta', 'Pantal√≥n', 'Vestido', 'Chaqueta', 'Zapatos'],
    'Hogar': ['L√°mpara', 'Sof√°', 'Mesa', 'Estanter√≠a', 'Utensilios de cocina']
}

precios_base = {
    'Smartphone': 300, 'Laptop': 800, 'Tablet': 200, 'Auriculares': 50, 'Smartwatch': 150,
    'Camiseta': 20, 'Pantal√≥n': 40, 'Vestido': 50, 'Chaqueta': 70, 'Zapatos': 60,
    'L√°mpara': 35, 'Sof√°': 450, 'Mesa': 120, 'Estanter√≠a': 80, 'Utensilios de cocina': 25
}

# Generar transacciones
for i, fecha in enumerate(fechas):
    n_trans = n_transacciones_por_dia[i]

    for _ in range(n_trans):
        # Seleccionar categor√≠a y producto
        categoria = np.random.choice(list(categorias.keys()))
        producto = np.random.choice(categorias[categoria])

        # Generar precio con variaci√≥n aleatoria
        precio_base = precios_base[producto]
        precio = np.random.normal(precio_base, precio_base * 0.1)
        precio = max(precio, precio_base * 0.8)  # Asegurar precio m√≠nimo

        # Generar cantidad (mayormente 1, a veces m√°s)
        cantidad = np.random.choice([1, 1, 1, 2, 2, 3], p=[0.6, 0.2, 0.1, 0.05, 0.03, 0.02])

        # Generar ID de cliente (entre 1000 y 2000)
        cliente = np.random.randint(1000, 2000)

        # Generar valoraci√≥n (1-5, con tendencia a valoraciones m√°s altas)
        valoracion = np.random.choice([1, 2, 3, 4, 5], p=[0.05, 0.1, 0.15, 0.3, 0.4])

        # Agregar datos a las listas
        todas_fechas.append(fecha)
        todos_productos.append(producto)
        todas_categorias.append(categoria)
        todos_precios.append(round(precio, 2))
        todas_cantidades.append(cantidad)
        todos_clientes.append(cliente)
        todas_valoraciones.append(valoracion)

# Crear DataFrame
df_ventas = pd.DataFrame({
    'fecha': todas_fechas,
    'producto': todos_productos,
    'categoria': todas_categorias,
    'precio': todos_precios,
    'cantidad': todas_cantidades,
    'cliente_id': todos_clientes,
    'valoracion': todas_valoraciones
})

# Calcular total por transacci√≥n
df_ventas['total'] = df_ventas['precio'] * df_ventas['cantidad']

# Mostrar las primeras filas del DataFrame
print("Dataset de Ventas - Primeras 10 filas:")
df_ventas.head(10)

# Informaci√≥n general del dataset
print("\nInformaci√≥n del dataset:")
df_ventas.info()

print("\nEstad√≠sticas descriptivas b√°sicas:")
df_ventas.describe()

## Parte 2: An√°lisis de Tendencia Central y Dispersi√≥n

In [None]:
# EJERCICIO 1: C√°lculo de media, mediana y moda para precios y valoraciones

# Calcular medidas estad√≠sticas para precios
# La media es el promedio de todos los precios.
media_precio = df_ventas['precio'].mean()

# La mediana es el valor central cuando los precios est√°n ordenados.
mediana_precio = df_ventas['precio'].median()

# La moda es el valor que m√°s se repite en los precios. [0] selecciona el primer valor si hay m√∫ltiples modas.
moda_precio = df_ventas['precio'].mode()[0]

# Calcular medidas estad√≠sticas para valoraciones
# La media de las valoraciones indica el promedio de las puntuaciones de los clientes.
media_valoracion = df_ventas['valoracion'].mean()

# La mediana es el valor que divide a las valoraciones en dos partes iguales cuando est√°n ordenadas.
mediana_valoracion = df_ventas['valoracion'].median()

# La moda es el valor de valoraci√≥n que m√°s veces se repite.
moda_valoracion = df_ventas['valoracion'].mode()[0]

# Mostrar resultados
# Mostrar las medidas de tendencia central para precios
print("\nMedidas para Precios:")
print(f"Media: {media_precio:.2f}, Mediana: {mediana_precio:.2f}, Moda: {moda_precio}")

# Mostrar las medidas de tendencia central para valoraciones
print("\nMedidas para Valoraciones:")
print(f"Media: {media_valoracion:.2f}, Mediana: {mediana_valoracion:.2f}, Moda: {moda_valoracion}")

# Interpretaci√≥n de los resultados
print("\nInterpretaci√≥n:")

# An√°lisis de la distribuci√≥n de los precios comparando la media y la mediana
if media_precio > mediana_precio:
    print("- Los precios tienen una distribuci√≥n sesgada a la derecha (mayor√≠a de precios bajos, pero algunos muy altos).")
elif media_precio < mediana_precio:
    print("- Los precios tienen una distribuci√≥n sesgada a la izquierda (mayor√≠a de precios altos, pero algunos muy bajos).")
else:
    print("- La distribuci√≥n de los precios es sim√©trica.")

# An√°lisis de la distribuci√≥n de las valoraciones comparando la media y la mediana
if media_valoracion > mediana_valoracion:
    print("- La mayor√≠a de los clientes dan buenas valoraciones, pero hay algunas bajas que reducen la media.")
elif media_valoracion < mediana_valoracion:
    print("- Hay una tendencia a valoraciones bajas con algunas excepciones de puntuaciones altas.")
else:
    print("- La distribuci√≥n de las valoraciones es equilibrada.")

In [None]:
# EJERCICIO 2: Calcula la desviaci√≥n est√°ndar de los precios por categor√≠a.
# ¬øQu√© categor√≠a tiene mayor variabilidad en precios? ¬øPor qu√© crees que ocurre esto?

# Calcular la desviaci√≥n est√°ndar de los precios por categor√≠a
# Agrupamos el DataFrame por la columna 'categoria' y calculamos la desviaci√≥n est√°ndar de los precios dentro de cada grupo.
desviacion_precios = df_ventas.groupby('categoria')['precio'].std()

# Mostrar resultados
# Imprimimos la desviaci√≥n est√°ndar de los precios por cada categor√≠a para ver la variabilidad de precios.
print("\nDesviaci√≥n est√°ndar de precios por categor√≠a:")
print(desviacion_precios)

# Identificar la categor√≠a con mayor variabilidad
# Utilizamos el m√©todo idxmax() para obtener el nombre de la categor√≠a con la mayor desviaci√≥n est√°ndar,
# y el m√©todo max() para obtener el valor de esa desviaci√≥n est√°ndar.
categoria_mayor_var = desviacion_precios.idxmax()
valor_mayor_var = desviacion_precios.max()

# Imprimir el resultado de la categor√≠a con mayor variabilidad
print(f"\nLa categor√≠a con mayor variabilidad en precios es: {categoria_mayor_var} con una desviaci√≥n est√°ndar de {valor_mayor_var:.2f}")

# üîπ Interpretaci√≥n de la Variabilidad
print("\nüìå Interpretaci√≥n de la Variabilidad:")
print("- La desviaci√≥n est√°ndar indica qu√© tan dispersos est√°n los precios dentro de cada categor√≠a.")
print("- Si una categor√≠a tiene alta desviaci√≥n est√°ndar, significa que hay productos baratos y caros dentro de ella.")

# Analizar las razones de la alta variabilidad dependiendo de la categor√≠a
if categoria_mayor_var == "Electr√≥nica":
    print("- La categor√≠a 'Electr√≥nica' probablemente tiene mayor variabilidad porque incluye productos de bajo costo (auriculares, smartwatch) y productos muy caros (laptops, smartphones).")
elif categoria_mayor_var == "Ropa":
    print("- Si 'Ropa' tiene alta variabilidad, puede deberse a diferencias en el tipo de prenda (una camiseta vs. una chaqueta de marca).")
elif categoria_mayor_var == "Hogar":
    print("- Si 'Hogar' tiene la mayor desviaci√≥n, podr√≠a ser por la diferencia de precios entre peque√±os utensilios y muebles costosos.")

In [None]:
# EJERCICIO 3: Crea histogramas para visualizar la distribuci√≥n de precios y valoraciones.
# Comenta si estas distribuciones se asemejan a una distribuci√≥n normal.

# Configuraci√≥n de gr√°ficos
plt.figure(figsize=(12, 5))  # Configura el tama√±o de la figura para los dos histogramas

# Histograma de precios
plt.subplot(1, 2, 1)  # Crea el primer subgr√°fico (1 fila, 2 columnas, subgr√°fico 1)
sns.histplot(df_ventas['precio'], bins=30, kde=True, color='blue')  # Histograma con 30 barras para precios, agregando KDE (Curva de Densidad)
plt.title('Distribuci√≥n de Precios')  # T√≠tulo del gr√°fico
plt.xlabel('Precio')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y

# Histograma de valoraciones
plt.subplot(1, 2, 2)  # Crea el segundo subgr√°fico (1 fila, 2 columnas, subgr√°fico 2)
sns.histplot(df_ventas['valoracion'], bins=5, discrete=True, kde=False, color='green')  # Histograma discreto con 5 barras para valoraciones
plt.title('Distribuci√≥n de Valoraciones')  # T√≠tulo del gr√°fico
plt.xlabel('Valoraci√≥n')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y

# Mostrar gr√°ficos
plt.tight_layout()  # Ajusta el dise√±o de los subgr√°ficos para que no se solapen
plt.show()  # Muestra los gr√°ficos generados

# üìå Interpretaci√≥n de la Distribuci√≥n
print("\nüìå Interpretaci√≥n de los Histogramas:")

# An√°lisis de la distribuci√≥n de precios
precio_skewness = df_ventas['precio'].skew()  # Calcula el sesgo (asimetr√≠a) de la distribuci√≥n de precios
if precio_skewness > 0:  # Si el sesgo es positivo (a la derecha)
    print("- La distribuci√≥n de precios est√° sesgada a la derecha (hay m√°s productos baratos y algunos caros elevan la media).")
elif precio_skewness < 0:  # Si el sesgo es negativo (a la izquierda)
    print("- La distribuci√≥n de precios est√° sesgada a la izquierda (hay m√°s productos caros y algunos baratos bajan la media).")
else:  # Si no hay sesgo, la distribuci√≥n es sim√©trica
    print("- La distribuci√≥n de precios es sim√©trica.")

# An√°lisis de la distribuci√≥n de valoraciones
valoracion_skewness = df_ventas['valoracion'].skew()  # Calcula el sesgo (asimetr√≠a) de la distribuci√≥n de valoraciones
if valoracion_skewness > 0:  # Si el sesgo es positivo (a la derecha)
    print("- La distribuci√≥n de valoraciones est√° sesgada a la derecha (la mayor√≠a de los clientes dan valoraciones altas).")
elif valoracion_skewness < 0:  # Si el sesgo es negativo (a la izquierda)
    print("- La distribuci√≥n de valoraciones est√° sesgada a la izquierda (hay muchas valoraciones bajas).")
else:  # Si no hay sesgo, la distribuci√≥n es equilibrada
    print("- La distribuci√≥n de valoraciones es equilibrada.")

# Comparaci√≥n con una distribuci√≥n normal
print("\nüìà Comparaci√≥n con una Distribuci√≥n Normal:")
print("- Si la curva del histograma de precios tiene forma de campana, se asemeja a una distribuci√≥n normal.")
print("- La distribuci√≥n de valoraciones es discreta (valores 1-5), por lo que no ser√° completamente normal, pero si la mayor√≠a de valores son 4 o 5, habr√° un sesgo positivo.")


## Parte 3: An√°lisis de Correlaci√≥n

In [None]:
# EJERCICIO 4: Investiga si existe relaci√≥n entre el precio y la valoraci√≥n del producto.
# Calcula la correlaci√≥n y crea un gr√°fico de dispersi√≥n.

# Calcular la correlaci√≥n entre precio y valoraci√≥n
correlacion = df_ventas['precio'].corr(df_ventas['valoracion'])

# Mostrar la correlaci√≥n calculada en la consola
print("\nüìä Correlaci√≥n entre Precio y Valoraci√≥n:", correlacion)

# Crear un gr√°fico de dispersi√≥n para visualizar la relaci√≥n entre precio y valoraci√≥n
plt.figure(figsize=(8, 6))  # Define el tama√±o de la figura
sns.scatterplot(x='precio', y='valoracion', data=df_ventas, color='purple')  # Dibuja el gr√°fico de dispersi√≥n
plt.title('Relaci√≥n entre Precio y Valoraci√≥n')  # T√≠tulo del gr√°fico
plt.xlabel('Precio')  # Etiqueta del eje X (Precio)
plt.ylabel('Valoraci√≥n')  # Etiqueta del eje Y (Valoraci√≥n)
plt.show()  # Muestra el gr√°fico generado

# Interpretaci√≥n de la correlaci√≥n
# Dependiendo del valor de la correlaci√≥n, damos una interpretaci√≥n de la relaci√≥n entre precio y valoraci√≥n
if correlacion > 0:  # Correlaci√≥n positiva
    print("- Existe una correlaci√≥n positiva entre precio y valoraci√≥n: a medida que aumenta el precio, las valoraciones tienden a ser m√°s altas.")
elif correlacion < 0:  # Correlaci√≥n negativa
    print("- Existe una correlaci√≥n negativa entre precio y valoraci√≥n: a medida que aumenta el precio, las valoraciones tienden a ser m√°s bajas.")
else:  # No hay correlaci√≥n
    print("- No existe una correlaci√≥n significativa entre precio y valoraci√≥n.")

## Parte 4: An√°lisis de Distribuci√≥n Normal y Z-scores

In [None]:
# EJERCICIO 5: Identificar transacciones at√≠picas en los totales de ventas.
# Calcular los Z-scores y filtrar las transacciones at√≠picas (|Z| > 2).
# Visualizar la distribuci√≥n de los totales de ventas y marcar los valores at√≠picos.
 
from scipy.stats import zscore

# a) Calcular la media y desviaci√≥n est√°ndar de la columna 'total'
# La media y desviaci√≥n est√°ndar son estad√≠sticas descriptivas que nos dan una idea del comportamiento central y la dispersi√≥n de los totales de ventas.
media_total = df_ventas['total'].mean()  # Media de los totales de ventas
desviacion_total = df_ventas['total'].std()  # Desviaci√≥n est√°ndar de los totales de ventas

print("\nüìä Media de los Totales de Ventas:", media_total)
print("üìä Desviaci√≥n Est√°ndar de los Totales de Ventas:", desviacion_total)

# b) Calcular los Z-scores para cada valor de la columna 'total'
# El Z-score nos indica cu√°ntas desviaciones est√°ndar se encuentra un valor respecto a la media.
df_ventas['z_score_total'] = zscore(df_ventas['total'])  # Calcula los Z-scores para cada valor en la columna 'total'

# c) Identificar transacciones at√≠picas (|Z| > 2)
# Un Z-score mayor a 2 o menor a -2 generalmente se considera fuera de lo normal (transacci√≥n at√≠pica).
transacciones_atipicas = df_ventas[np.abs(df_ventas['z_score_total']) > 2]  # Filtra los valores at√≠picos

print("\nüìä Transacciones At√≠picas (|Z| > 2):")
# Muestra las transacciones que tienen Z-scores fuera de lo com√∫n
print(transacciones_atipicas[['fecha', 'producto', 'total', 'z_score_total']])

# d) Visualizar la distribuci√≥n de los totales de ventas y marcar los valores at√≠picos
# Este paso nos permite ver gr√°ficamente c√≥mo se distribuyen los totales de ventas y qu√© valores son at√≠picos.

plt.figure(figsize=(10, 6))  # Configura el tama√±o de la figura

# Histograma de totales de ventas con una curva de densidad
sns.histplot(df_ventas['total'], bins=30, kde=True, color='blue')  # Histograma con una curva KDE (Kernel Density Estimate)
plt.title('Distribuci√≥n de Totales de Ventas')  # T√≠tulo del gr√°fico
plt.xlabel('Total de Venta')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y

# Marcar los valores at√≠picos en el gr√°fico
# Los valores at√≠picos se marcan con puntos rojos en el gr√°fico
plt.scatter(transacciones_atipicas['total'],
            np.zeros(len(transacciones_atipicas)),  # Los puntos se colocan en el eje Y en 0 para destacarlos
            color='red', label='Valores At√≠picos', zorder=5)  # zorder=5 asegura que los puntos rojos est√©n por encima de la distribuci√≥n

plt.legend()  # Muestra la leyenda para identificar los puntos at√≠picos
plt.show()  # Muestra el gr√°fico

## Parte 5: Probabilidades e Intervalos de Confianza

In [None]:
# EJERCICIO 6: Calcular la probabilidad de que una venta supere los 200‚Ç¨, el valor de venta que solo supera el 10% de las transacciones,
# y el intervalo de confianza del 95% para el total medio de ventas.

from scipy.stats import norm

# a) Probabilidad de que una venta supere los X‚Ç¨
# Elegimos un valor X de 200‚Ç¨
X = 200
# Se calcula la probabilidad de que una venta sea mayor a 200‚Ç¨, usando la distribuci√≥n normal
# norm.cdf(X, loc=media_total, scale=desviacion_total) devuelve la probabilidad acumulada hasta X
# Restando este valor a 1 obtenemos la probabilidad de que la venta supere los X‚Ç¨
probabilidad = 1 - norm.cdf(X, loc=media_total, scale=desviacion_total)

# Imprimimos el resultado
print(f"\nüìä Probabilidad de que una venta supere {X}‚Ç¨: {probabilidad:.4f}")

# b) Valor de venta que solo supera el 10% de las transacciones
# Utilizamos el percentil 90 para encontrar el valor que solo supera el 10% de las transacciones,
# lo que corresponde al valor a partir del cual el 10% de las ventas son mayores.
percentil_10 = norm.ppf(0.90, loc=media_total, scale=desviacion_total)

# Imprimimos el valor calculado
print(f"\nüìä Valor de venta que solo supera el 10% de las transacciones: {percentil_10:.2f}‚Ç¨")

# c) Intervalo de confianza del 95% para el total medio de ventas
# Calculamos el Z-valor correspondiente al 95% de confianza (Z=1.96, aproximadamente)
z_95 = norm.ppf(0.975)  # Z-valor para el 95% de confianza

# Calculamos el margen de error utilizando la f√≥rmula del intervalo de confianza para la media
# El margen de error se obtiene multiplicando el Z-valor por la desviaci√≥n est√°ndar y dividiendo por la ra√≠z cuadrada del tama√±o de la muestra.
margen_error = z_95 * desviacion_total / np.sqrt(len(df_ventas))

# Calculamos el intervalo de confianza sumando y restando el margen de error a la media
intervalo_confianza = (media_total - margen_error, media_total + margen_error)

# Imprimimos el intervalo de confianza con los valores calculados
print(f"\nüìä Intervalo de confianza del 95% para el total medio de ventas: ({intervalo_confianza[0]:.2f}‚Ç¨, {intervalo_confianza[1]:.2f}‚Ç¨)")

## Parte 6: An√°lisis Temporal y Estacionalidad

In [None]:
# EJERCICIO 7: Analiza las ventas totales por d√≠a:
# a) Crea una nueva tabla agrupando las ventas por fecha
# b) Visualiza la evoluci√≥n temporal
# c) Calcula estad√≠sticas descriptivas para las ventas diarias
# d) ¬øObservas alg√∫n patr√≥n semanal? (pista: utiliza df.groupby(df['fecha'].dt.dayofweek))

# a) Crear una nueva tabla agrupando las ventas por fecha
# Agrupamos los datos por la columna 'fecha' y sumamos las ventas totales de cada d√≠a
ventas_diarias = df_ventas.groupby('fecha')['total'].sum().reset_index()

# b) Visualizar la evoluci√≥n temporal de las ventas
# Configuramos el tama√±o de la figura para la gr√°fica
plt.figure(figsize=(12, 6))
# Graficamos las ventas diarias con un marcador en cada punto para mejor visualizaci√≥n
plt.plot(ventas_diarias['fecha'], ventas_diarias['total'], color='blue', marker='o')
# T√≠tulos y etiquetas de los ejes
plt.title('Evoluci√≥n Temporal de las Ventas Diarias')
plt.xlabel('Fecha')
plt.ylabel('Total de Ventas')
# Rotamos las fechas para mejorar la legibilidad
plt.xticks(rotation=45)
# A√±adimos una cuadr√≠cula a la gr√°fica para mejorar su claridad
plt.grid(True)
# Mostramos la gr√°fica
plt.show()

# c) Calcular estad√≠sticas descriptivas para las ventas diarias
# Usamos el m√©todo describe() para obtener estad√≠sticas como la media, la desviaci√≥n est√°ndar, el m√≠nimo, etc.
print("\nüìä Estad√≠sticas descriptivas de las ventas diarias:")
print(ventas_diarias['total'].describe())

# d) Observar patrones semanales utilizando el d√≠a de la semana
# Extraemos el d√≠a de la semana de la columna 'fecha' (0 = lunes, 6 = domingo)
ventas_diarias['dia_semana'] = ventas_diarias['fecha'].dt.dayofweek

# Agrupar por d√≠a de la semana y calcular las ventas promedio para cada uno
ventas_semanales = ventas_diarias.groupby('dia_semana')['total'].mean()

# Mostrar las ventas promedio por d√≠a de la semana
print("\nüìä Ventas promedio por d√≠a de la semana:")
print(ventas_semanales)

# Visualizaci√≥n de las ventas promedio por d√≠a de la semana
# Configuramos el tama√±o de la figura para la gr√°fica
plt.figure(figsize=(8, 6))
# Usamos un gr√°fico de barras para visualizar las ventas promedio por d√≠a de la semana
sns.barplot(x=ventas_semanales.index, y=ventas_semanales.values, palette='viridis')
# T√≠tulos y etiquetas de los ejes
plt.title('Ventas Promedio por D√≠a de la Semana')
plt.xlabel('D√≠a de la Semana')
plt.ylabel('Ventas Promedio')
# A√±adimos etiquetas personalizadas a los d√≠as de la semana
plt.xticks(ticks=np.arange(7), labels=['Lunes', 'Martes', 'Mi√©rcoles', 'Jueves', 'Viernes', 'S√°bado', 'Domingo'])
# Mostramos la gr√°fica
plt.show()

## Parte 7: Segmentaci√≥n de Clientes

In [None]:
# EJERCICIO 8: Analiza el comportamiento de compra de los clientes:
# a) Calcula el gasto total y n√∫mero de compras por cliente
# b) Utilizando Z-scores, identifica a los clientes VIP (alto valor)
# c) Segmenta a los clientes en grupos (bajo, medio, alto) seg√∫n su gasto
# d) Visualiza la distribuci√≥n de clientes por segmento

# a) Calcular el gasto total y n√∫mero de compras por cliente
# Agrupamos por cliente para calcular el gasto total y el n√∫mero de compras
gasto_cliente = df_ventas.groupby('cliente_id').agg(
    gasto_total=('total', 'sum'),  # Sumar el total gastado por cada cliente
    num_compras=('total', 'count')  # Contar el n√∫mero de compras por cliente
).reset_index()

# b) Identificar a los clientes VIP utilizando Z-scores
# Calculamos el Z-score para el gasto total de cada cliente
gasto_cliente['z_score'] = zscore(gasto_cliente['gasto_total'])

# Definimos como VIP a aquellos clientes cuyo Z-score sea mayor a 2 (por encima de 2 desviaciones est√°ndar)
gasto_cliente['VIP'] = gasto_cliente['z_score'] > 2

# c) Segmentar a los clientes en grupos (bajo, medio, alto) seg√∫n su gasto
# Usamos percentiles para dividir a los clientes en tres grupos seg√∫n su gasto total
gasto_cliente['segmento'] = pd.qcut(gasto_cliente['gasto_total'], q=3, labels=['Bajo', 'Medio', 'Alto'])

# d) Visualizar la distribuci√≥n de clientes por segmento
# Graficamos la distribuci√≥n de los clientes en cada segmento (bajo, medio, alto)
plt.figure(figsize=(10, 6))
sns.countplot(x='segmento', data=gasto_cliente, palette='Set2')
plt.title('Distribuci√≥n de Clientes por Segmento de Gasto')
plt.xlabel('Segmento de Gasto')
plt.ylabel('N√∫mero de Clientes')
plt.show()

# Mostrar informaci√≥n adicional sobre los clientes VIP y los segmentos
print("Clientes VIP:")
print(gasto_cliente[gasto_cliente['VIP'] == True])

print("\nSegmentaci√≥n de Clientes:")
print(gasto_cliente[['cliente_id', 'gasto_total', 'segmento']].head())

## Parte 8: Informe de Resultados

In [None]:
# EJERCICIO 9: Prepara un resumen con los hallazgos m√°s importantes de tu an√°lisis.
# Incluye al menos 3 conclusiones basadas en tus c√°lculos estad√≠sticos que ser√≠an
# relevantes para la toma de decisiones del negocio.

# a) Calcular el gasto total y n√∫mero de compras por cliente
comportamiento_clientes = df_ventas.groupby('cliente_id').agg(
    gasto_total=('total', 'sum'),  # Calcula el gasto total por cliente sumando las compras
    num_compras=('total', 'count')  # Cuenta el n√∫mero de compras por cliente
).reset_index()  # Resetea el √≠ndice para tener un dataframe plano

# b) Identificar a los clientes VIP (alto valor) utilizando Z-scores en el gasto total
# El Z-score mide cu√°n lejos est√° un dato de la media, en t√©rminos de desviaciones est√°ndar
comportamiento_clientes['z_score_gasto'] = zscore(comportamiento_clientes['gasto_total'])

# Consideramos como clientes VIP aquellos con un Z-score > 2 (es decir, aquellos cuyo gasto est√° m√°s all√° de 2 desviaciones est√°ndar)
clientes_vip = comportamiento_clientes[comportamiento_clientes['z_score_gasto'] > 2]

# Mostrar los clientes VIP con su gasto total y Z-score
print("\nüìä Clientes VIP (Z-score > 2):")
print(clientes_vip[['cliente_id', 'gasto_total', 'z_score_gasto']])

# c) Segmentar a los clientes en grupos (bajo, medio, alto) seg√∫n su gasto total
# Definir los umbrales para cada segmento basado en los percentiles (tercio bajo, medio y alto)
bajo_percentil = comportamiento_clientes['gasto_total'].quantile(0.33)  # Umbral para el 33% inferior (bajo)
alto_percentil = comportamiento_clientes['gasto_total'].quantile(0.66)  # Umbral para el 66% superior (alto)

# Crear una nueva columna 'segmento' que clasifique a los clientes en tres segmentos: bajo, medio y alto
comportamiento_clientes['segmento'] = np.where(
    comportamiento_clientes['gasto_total'] <= bajo_percentil, 'Bajo',  # Los clientes cuyo gasto es menor o igual al percentil bajo
    np.where(comportamiento_clientes['gasto_total'] <= alto_percentil, 'Medio', 'Alto')  # Los clientes entre los percentiles medio y alto
)

# d) Visualizar la distribuci√≥n de clientes por segmento
plt.figure(figsize=(8, 6))  # Establecer el tama√±o de la figura
sns.countplot(data=comportamiento_clientes, x='segmento', palette='Set2')  # Crear un gr√°fico de barras con los segmentos de clientes
plt.title('Distribuci√≥n de Clientes por Segmento de Gasto')  # T√≠tulo del gr√°fico
plt.xlabel('Segmento')  # Etiqueta en el eje X
plt.ylabel('N√∫mero de Clientes')  # Etiqueta en el eje Y
plt.show()  # Mostrar el gr√°fico

## Parte 9: Desaf√≠o Adicional (Opcional)

In [None]:
from itertools import combinations

# a) Encontrar qu√© productos suelen comprarse juntos (agrupando por cliente_id y fecha)
# Agrupamos los datos por 'cliente_id' y 'fecha' para obtener los productos que cada cliente compr√≥ en cada transacci√≥n
productos_comprados = df_ventas.groupby(['cliente_id', 'fecha'])['producto'].apply(list).reset_index()

# Creamos una lista para almacenar las combinaciones de productos que fueron comprados juntos
producto_combinaciones = []
# Iteramos sobre cada transacci√≥n (fila del DataFrame) y generamos todas las combinaciones posibles de 2 productos
for _, row in productos_comprados.iterrows():
    combinaciones = combinations(row['producto'], 2)  # Generamos combinaciones de 2 productos
    producto_combinaciones.extend(combinaciones)  # A√±adimos las combinaciones a la lista

# Convertimos la lista de combinaciones en un DataFrame para poder analizarla f√°cilmente
combinaciones_df = pd.DataFrame(producto_combinaciones, columns=['producto_A', 'producto_B'])

# b) Calcular las probabilidades condicionales: P(compra producto B | compr√≥ producto A)
# Contamos cu√°ntas veces se ha dado cada combinaci√≥n de productos
combinaciones_contadas = combinaciones_df.groupby(['producto_A', 'producto_B']).size().reset_index(name='count')

# Calculamos la probabilidad condicional P(B|A) = P(A y B) / P(A)
# Primero, obtenemos cu√°ntas veces se ha comprado cada producto A en total
producto_A_count = combinaciones_df.groupby('producto_A').size().reset_index(name='count_A')

# Fusionamos ambos DataFrames (combinaciones_contadas y producto_A_count) para calcular la probabilidad condicional
probabilidades = pd.merge(combinaciones_contadas, producto_A_count, on='producto_A')
# Calculamos la probabilidad condicional dividiendo el n√∫mero de veces que A y B se compraron juntos entre el n√∫mero de veces que A se compr√≥
probabilidades['probabilidad_condicional'] = probabilidades['count'] / probabilidades['count_A']

# c) Visualizar las relaciones m√°s fuertes entre productos
# Seleccionamos las 10 combinaciones con las probabilidades condicionales m√°s altas
top_probabilidades = probabilidades.sort_values(by='probabilidad_condicional', ascending=False).head(10)

# Creamos un gr√°fico de barras para visualizar las combinaciones de productos con mayor probabilidad condicional
plt.figure(figsize=(12, 6))
sns.barplot(x='probabilidad_condicional', y='producto_A', data=top_probabilidades, hue='producto_B', palette='viridis')
# A√±adimos t√≠tulo y etiquetas al gr√°fico
plt.title('Top 10 Combinaciones de Productos con Mayor Probabilidad Condicional')
plt.xlabel('Probabilidad Condicional P(B|A)')
plt.ylabel('Producto A')
plt.legend(title='Producto B')
# Mostramos el gr√°fico
plt.show()