<a href="https://colab.research.google.com/github/DayaRodriguezM/novaretail-drivers-comportamiento-ingresos/blob/main/Project_NovaRetail.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto 7 - Explorando factores de comportamiento en NovaRetail+


NovaRetail+ es una plataforma de comercio electr√≥nico en Latinoam√©rica con millones de usuarios.

Para el cierre de 2024, el equipo de **Crecimiento y retenci√≥n** tiene como objetivo responder:

**¬øQu√© factores del comportamiento del cliente est√°n m√°s fuertemente asociados con el ingreso anual generado?**

> Este proyecto es un an√°lisis **correlacional** (exploratorio).  
> **Correlaci√≥n ‚â† causalidad.**

## Secci√≥n 1 - Cargar y explorar el dataset

En esta secci√≥n validamos:
- que el dataset cargue correctamente
- tipos de datos
- valores faltantes / rangos generales

Antes de correlacionar, primero entendemos el ‚Äúterreno‚Äù.

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

### Cargar Dataset

#### Descripci√≥n del conjunto de datos

El dataset contiene las siguientes columnas:

- `id_cliente` ‚Äî Identificador √∫nico del cliente.
- `edad` ‚Äî Edad del cliente.
- `nivel_ingreso` ‚Äî Ingreso anual estimado del cliente.
- `visitas_mes` ‚Äî N√∫mero de visitas a la aplicaci√≥n o sitio web durante el mes.
- `compras_mes` ‚Äî N√∫mero de compras realizadas en el mes.
- `gasto_publicidad_dirigida` ‚Äî Gasto en anuncios asignado al usuario.
- `satisfaccion` ‚Äî Calificaci√≥n de satisfacci√≥n del cliente en una escala del 1 al 5.
- `miembro_premium` ‚Äî Indica si el cliente tiene suscripci√≥n premium (1) o no (0).
- `abandono` ‚Äî Indica si el cliente abandon√≥ la plataforma (1) o no (0).
- `tipo_dispositivo` ‚Äî Tipo de dispositivo utilizado por el cliente (m√≥vil, escritorio o tablet).
- `region` ‚Äî Regi√≥n geogr√°fica del cliente (norte, sur, oeste o este).
- `ingreso_anual` ‚Äî Ingreso anual generado por el cliente para la empresa.

La m√©trica principal de an√°lisis es `ingreso_anual`, utilizada para evaluar el impacto econ√≥mico de los clientes.


In [None]:
# mostrar las primeras 5 filas
df.head(5)

## Secci√≥n 2 - Preparar datos y documentar supuestos

### Exploraci√≥n y Limpieza

üí°**Exploraci√≥n Inicial y Categorizaci√≥n de Variables:**

In [None]:
# Variables num√©ricas (continuas)
columnas_numericas = ['edad', 'nivel_ingreso', 'visitas_mes', 'compras_mes',
                     'gasto_publicidad_dirigida', 'satisfaccion', 'ingreso_anual']

# Variables binarias (0/1)
columnas_binarias = ['miembro_premium', 'abandono']

# Variables categ√≥ricas
columnas_categoricas = ['tipo_dispositivo', 'region']

print("=== RESUMEN DE VARIABLES NUM√âRICAS ===")
print(df[columnas_numericas].value_counts())
print(df[columnas_numericas].describe())


print("\n=== RESUMEN DE VARIABLES BINARIAS ===")
print(df[columnas_binarias].value_counts())
print(df[columnas_binarias].describe())

print("\n=== RESUMEN DE VARIABLES CATEG√ìRICAS ===")
for col in columnas_categoricas:
    print(f"\n{col.upper()}:")
    print(df[col].value_counts())

#### Exploraci√≥n inicial de los datos
El conjunto de datos contiene **15,000 registros** y **12 columnas**, sin valores nulos.

**Variables num√©ricas**  
Se identifican las siguientes columnas num√©ricas:
- `edad`
- `nivel_ingreso`
- `visitas_mes`
- `compras_mes`
- `satisfaccion`
- `nivel_ingreso`
- `ingreso_anual`

La mayor√≠a de estas variables presentan tipos de datos adecuados.  
La columna `edad` es de tipo float64, por lo que se convertira en tipo int64 para una mejor interpretaci√≥n.


**Variables binarias**  
Las siguientes columnas representan variables binarias:
- `miembro_premium`
- `abandono`

Ambas est√°n codificadas como 0 y 1, **no requieren transformaci√≥n adicional**.

**Variables categ√≥ricas**  
Se identifican las siguientes columnas categ√≥ricas:
- `id_cliente`
- `tipo_dispositivo`
- `region`

Estas variables est√°n correctamente definidas y no requieren transformaci√≥n adicional.

In [None]:
# Corregir el tipo de dato: Convertir edad a entero
df['edad'] = df['edad'].astype('int64')

In [None]:
# verificar cambios
print(df['edad'].dtype)
print(df['edad'].head())
df.info()

#### Explorar variables num√©ricas

In [None]:
# Estad√≠sticas descriptivas de variables num√©ricas
print("Tipos de datos despu√©s de limpieza:")
print(df.dtypes)

print("\nRango de valores en variables num√©ricas:")
print(df[columnas_numericas].describe())


‚úçÔ∏è **Diagn√≥stico inicial de variables num√©ricas**:

- `edad` ‚Äî distribuci√≥n equilibrada, sin outliers evidentes. Representa adecuadamente la estructura etaria del dataset.
- `nivel_ingreso` ‚Äî presenta una media y mediana cercanas, aunque con una desviaci√≥n est√°ndar relativamente alta, indicando heterogeneidad en los ingresos. No se observan valores extremos inconsistentes, aunque podr√≠a ser candidata a segmentaci√≥n en an√°lisis posteriores.
- `visitas_mes` ‚Äî patr√≥n de uso estable, sin indicios de sobreuso o subuso at√≠pico.
- `compras_mes` ‚Äî variable bien comportada, con ligera asimetr√≠a positiva esperable por clientes m√°s activos.
- `gasto_publicidad_dirigida` ‚Äî aunque presenta variabilidad, los valores se mantienen dentro de l√≠mites razonables; no se consideran outliers extremos en esta fase.
- `satisfaccion` ‚Äî media y mediana pr√≥ximas, con valores concentrados en el rango superior.
- `ingreso_anual` ‚Äî distribuci√≥n amplia pero consistente; no se detectan valores fuera de rango l√≥gico.

In [None]:
# Verificar el n√∫mero de valores √∫nicos por variable binarias
print(df[columnas_binarias].value_counts())

#### Explorar variables binarias

‚úçÔ∏è **Diagn√≥stico inicial de variables binarias**:

- `miembro_premium` ‚Äî existe un desbalance de clases, con predominio de clientes no premium, lo cual es relevante para an√°lisis comparativos o modelos predictivos posteriores.
- `abandono` ‚Äî el abandono es un evento minoritario pero significativo, lo que la convierte en una variable clave para an√°lisis de retenci√≥n.


#### Explorar variables categ√≥ricas

In [None]:
# Verificar el n√∫mero de valores √∫nicos por variable categ√≥rica
print(df[columnas_categoricas].nunique())

In [None]:
# Explorar variables categ√≥ricas y c√≥mo se distribuyen
print(df[columnas_categoricas].value_counts())
df[columnas_categoricas].describe()

‚úçÔ∏è **Diagn√≥stico inicial de variables categ√≥ricas**:

- `tipo_dispositivo` ‚Äî existe una clara preferencia por el uso de dispositivos m√≥viles, lo que sugiere un comportamiento mobile-first por parte de los clientes.
- `region` ‚Äî la distribuci√≥n de clientes por regi√≥n no es homog√©nea, mostrando una mayor concentraci√≥n geogr√°fica en el norte.

### Supuestos

- El an√°lisis se realiza utilizando **todo el conjunto de datos disponible**.
- Los datos no presentan errores y est√°n correctamente tipificados.
- Se utilizan distintos coeficientes seg√∫n el tipo de variable:
  - **Pearson** asume relaciones lineales entre variables num√©ricas.
  - **Spearman** eval√∫a relaciones mon√≥tonas y no requiere normalidad.
  - **Punto biserial** se usa para relaciones num√©rica‚Äìbinaria.
  - **Cram√©r (V)** se usa para asociaciones entre variables categ√≥ricas.

**Supuesto central:**  
Este an√°lisis identifica relaciones entre variables o segmentos, pero no prueba causalidad.

## Secci√≥n 3 - Visualizaci√≥n de relaciones

Observamos c√≥mo se relacionan las variables num√©ricas.

### Heatmap

In [None]:
# Visualizar la matriz de correlaci√≥n para identificar relaciones

# Matriz de Correlaci√≥n
corr = df.corr()

# Generar Heatmap
plt.figure(figsize = (10,6))
sns.heatmap(corr, annot = True, cmap = 'coolwarm', center = 0)
plt.title('Correlaci√≥n Heatmap - NovaRetail+')
plt.show()

‚úçÔ∏è **Comentario**:

Observaciones generales (Heatmap)  
- Se observa que la mayor√≠a de las variables presentan correlaciones d√©biles o cercanas a cero, lo que indica una baja relaci√≥n lineal entre ellas. Destacan algunas correlaciones positivas moderadas y fuertes asociadas principalmente a variables de actividad y monetizaci√≥n del cliente. No se identifican correlaciones negativas de alta magnitud, lo que sugiere que el comportamiento del cliente no est√° dominado por relaciones lineales inversas fuertes entre variables.

Correlaciones m√°s fuertes
- *Positivas:*
  - `compras_mes` ‚Üî `ingreso_anual `(r = 0.97): Es la correlaci√≥n m√°s alta del dataset. Ambas variables presentan un movimiento pr√°cticamente conjunto, lo que indica una fuerte asociaci√≥n entre la frecuencia de compras y el nivel de ingresos generados.
  - `visitas_mes` ‚Üî `gasto_publicidad_dirigida` (r = 0.58): Se observa una correlaci√≥n positiva moderada-alta, lo que sugiere que mayores niveles de inversi√≥n publicitaria est√°n asociados a un mayor volumen de visitas al sitio.
  - `visitas_mes`s ‚Üî `compras_mes` (r = 0.35): Relaci√≥n positiva moderada, consistente con un mayor nivel de actividad que tiende a acompa√±arse de un mayor n√∫mero de compras.
  - `visitas_mes` ‚Üî `ingreso_anual` (r = 0.34): Indica que un mayor n√∫mero de visitas se asocia con mayores ingresos anuales, aunque con menor intensidad que la frecuencia de compra.

- *Negativas:*
  - `abandono` ‚Üî `miembro_premium` (r = -0.12):Correlaci√≥n negativa d√©bil, que sugiere que los clientes premium tienden a presentar menores niveles de abandono, aunque la magnitud de la relaci√≥n es baja.


Observaciones respecto a `ingreso_anual`  
- Presenta una correlaci√≥n positiva muy fuerte con `compras_mes`, lo que indica que ambas variables se mueven casi en conjunto y reflejan un patr√≥n com√∫n de generaci√≥n de ingresos. Asimismo, muestra correlaciones positivas moderadas con `visitas_mes` y `gasto_publicidad_dirigida`, sugiriendo que una mayor actividad del cliente y exposici√≥n a acciones comerciales se asocian con mayores niveles de ingreso anual. En contraste, `ingreso_anual` mantiene relaciones d√©biles o irrelevantes con variables demogr√°ficas y de estado del cliente, como `edad`, `nivel_ingreso` y `abandono`.


### Scatterplot general

Con base en los resultados del an√°lisis de correlaci√≥n, no se considera necesario generar un scatterplot general que incluya todas las variables num√©ricas.

*Justificaci√≥n:*

- La mayor√≠a de las correlaciones son d√©biles o cercanas a cero, por lo que un scatterplot general no aportar√≠a informaci√≥n adicional relevante.
- La presencia de una correlaci√≥n extremadamente alta entre compras_mes e ingreso_anual (r ‚âà 0.97) ya queda claramente evidenciada en el heatmap, y un scatterplot global ser√≠a redundante.
- Un gr√°fico general con m√∫ltiples variables tender√≠a a generar ruido visual, dificultando la interpretaci√≥n y sin ofrecer nuevos insights.
- El an√°lisis sugiere que las relaciones relevantes est√°n concentradas en pares espec√≠ficos de variables, m√°s que en un patr√≥n global.

En lugar de un scatterplot general, resulta m√°s adecuado generar scatterplots focalizados para pares de variables con correlaciones moderadas o fuertes, ya que estos permiten una interpretaci√≥n m√°s clara y accionable de los patrones observados.

### Scatterplot para pares clave

In [None]:
# Visualizar pares de variables con relaciones moderadas o fuertes

# compras_mes vs ingreso_anual (correlaci√≥n fuerte)

x = df['ingreso_anual']
y = df['compras_mes']

plt.figure(figsize=(8,6))
plt.scatter(x, y, alpha=0.7, s=30, edgecolors='white', linewidth=0.5, color='darkblue')
m, b = np.polyfit(x, y, 1)
plt.plot(x, m*x + b, linestyle='--', linewidth=2.5, label='Tendencia lineal', color = 'red')

r = np.corrcoef(x, y)[0,1]

plt.title(f'Compras vs Ingreso Anual (r={r:.2f})')
plt.xlabel('Ingreso anual')
plt.ylabel('Compras por mes')
plt.legend()
plt.show()


In [None]:
# gasto_publicidad_dirigida vs visitas_mes (correlaci√≥n moderada-alta)
x = df['gasto_publicidad_dirigida']
y = df['visitas_mes']

plt.figure(figsize=(6,5))
plt.scatter(x, y, alpha=0.6, s=25,
           color='orange', edgecolors='gray', linewidth=0.3)
m, b = np.polyfit(x, y, 1)
plt.plot(x, m*x + b, linestyle='--', linewidth=2, label='Tendencia lineal', color = 'blue')

r = np.corrcoef(x, y)[0,1]

plt.title(f'Visitas vs Gasto en Publicidad (r={r:.2f})')
plt.xlabel('Gasto en publicidad dirigida')
plt.ylabel('Visitas por mes')
plt.legend()
plt.show()

In [None]:
# compras_mensuales vs visitas_mensuales (correlaci√≥n moderada)
x = df['visitas_mes']
y = df['compras_mes']

plt.figure(figsize=(6,5))
plt.scatter(x, y, alpha=0.6, s=40, color='green', marker='s', edgecolors='darkgreen', linewidth=0.8)
m, b = np.polyfit(x, y, 1)
plt.plot(x, m*x + b, linestyle='--', linewidth=2, label='Tendencia lineal', color = 'crimson')
x_jitter = x + np.random.normal(0, 0.1, len(x))
y_jitter = y + np.random.normal(0, 0.05, len(y))

r = np.corrcoef(x, y)[0,1]

plt.title(f'Compras vs Visitas (r={r:.2f})')
plt.xlabel('Visitas por mes')
plt.ylabel('Compras por mes')
plt.legend()
plt.show()

In [None]:
# visitas_mensuales vs ingreso_anual (correlaci√≥n moderada)
x = df['visitas_mes']
y = df['ingreso_anual']

plt.figure(figsize=(6,5))
plt.scatter(x, y, alpha=0.4, s=20, linewidth=0.8, color ='purple', edgecolors='none')
m, b = np.polyfit(x, y, 1)
plt.plot(x, m*x + b, linestyle='--', linewidth=2, label='Tendencia lineal', color = 'crimson')
plt.axhline(y=df['ingreso_anual'].quantile(0.25), color='gray', linestyle=':', alpha=0.7)
plt.axhline(y=df['ingreso_anual'].quantile(0.75), color='gray', linestyle=':', alpha=0.7)

r = np.corrcoef(x, y)[0,1]

plt.title(f'Visitas vs Ingreso Anual (r={r:.2f})')
plt.xlabel('Visitas por mes')
plt.ylabel('Ingreso anual')
plt.legend()
plt.show()

‚úçÔ∏è **Diagn√≥stico inicial ‚Äì An√°lisis de Scatterplots**:

**`compras_mes` vs `ingreso_anual`(r = 0.97)**

- Se observa una relaci√≥n fuertemente positiva y altamente lineal, con muy baja dispersi√≥n y ausencia de outliers relevantes. La intensidad de la relaci√≥n sugiere posible colinealidad, por lo que ambas variables podr√≠an estar capturando informaci√≥n similar en an√°lisis o modelos posteriores.

**`visitas_mes` vs `gasto_publicidad_dirigida` (r = 0.58)**

- La relaci√≥n es positiva moderada, aunque presenta alta dispersi√≥n. Esto indica que el aumento del gasto publicitario tiende a generar m√°s visitas, pero con variabilidad significativa, sugiriendo la influencia de otros factores adicionales en el comportamiento de tr√°fico.

**`compras_mes` vs `visitas_mes` (r = 0.35)**

- Se identifica una relaci√≥n d√©bilmente positiva, con alta dispersi√≥n. El n√∫mero de visitas no se traduce directamente en un aumento proporcional de compras, lo que sugiere posibles fricciones en el proceso de conversi√≥n.

**`visitas_mes` vs `ingreso_anual` (r = 0.34)**

- La relaci√≥n es positiva d√©bil y visualmente poco marcada, con alta variabilidad. El nivel de ingreso no parece ser un factor determinante en la frecuencia de visitas al sitio

## Secci√≥n 4 - Coeficientes de correlaci√≥n y evidencia num√©rica

En esta secci√≥n, se reportan coeficientes que respaldan los patrones
observados visualmente, utilizando el m√©todo adecuado seg√∫n el tipo
de variables.

### Pearson / Spearman

In [None]:
# Calcular correlaci√≥n entre compras_mes vs ingreso_anual

pearson = df['compras_mes'].corr(df['ingreso_anual'], method='pearson')
spearman = df['compras_mes'].corr(df['ingreso_anual'], method='spearman')

print('Correlaci√≥n compras_mes vs ingreso_anual')
print(f'Correlaci√≥n de Pearson: {pearson:.4f}')
print(f'Correlaci√≥n de Spearman: {spearman:.4f}')

In [None]:
# Calcular correlaci√≥n entre visitas_mes vs gasto_publicidad_dirigida

pearson = df['visitas_mes'].corr(df['gasto_publicidad_dirigida'], method='pearson')
spearman = df['visitas_mes'].corr(df['gasto_publicidad_dirigida'], method='spearman')

print('Correlaci√≥n visitas_mes vs gasto_publicidad_dirigida')
print(f'Correlaci√≥n de Pearson: {pearson:.4f}')
print(f'Correlaci√≥n de Spearman: {spearman:.4f}')

In [None]:
# Calcular correlaci√≥n entre compras_mes vs visitas_mes

pearson = df['compras_mes'].corr(df['visitas_mes'], method='pearson')
spearman = df['compras_mes'].corr(df['visitas_mes'], method='spearman')

print('Correlaci√≥n compras_mes vs visitas_mes')
print(f'Correlaci√≥n de Pearson: {pearson:.4f}')
print(f'Correlaci√≥n de Spearman: {spearman:.4f}')

In [None]:
# Calcular correlaci√≥n entre visitas_mes vs ingreso_anual

pearson = df['visitas_mes'].corr(df['ingreso_anual'], method='pearson')
spearman = df['visitas_mes'].corr(df['ingreso_anual'], method='spearman')

print('Correlaci√≥n visitas_mes vs ingreso_anual')
print(f'Correlaci√≥n de Pearson: {pearson:.4f}')
print(f'Correlaci√≥n de Spearman: {spearman:.4f}')

‚úçÔ∏è **Observaciones de correlaci√≥n**:

**Variables prioritarias**

**`compras_mes` vs `ingreso_anual`**: Esta relaci√≥n se posiciona como la m√°s relevante del an√°lisis.
En el scatterplot se observ√≥ una tendencia positiva clara, con puntos alineados cercanos a la l√≠nea de tendencia, lo que suger√≠a una relaci√≥n fuerte y estable.
Esto es confirmado por los coeficientes de Pearson y Spearman (‚âà 0.97), que indican una correlaci√≥n positiva muy alta y consistente, evidenciando una asociaci√≥n lineal robusta.
Dada la magnitud del coeficiente, ambas variables contienen informaci√≥n altamente redundante, por lo que no se recomienda incluirlas juntas en modelos predictivos, para evitar problemas de colinealidad.

**`visitas_mes` vs `gasto_publicidad_dirigida`**:El scatterplot mostr√≥ una pendiente positiva con mayor dispersi√≥n que el caso anterior, lo que suger√≠a una relaci√≥n moderada.
Los coeficientes de correlaci√≥n (‚âà 0.58) confirman una asociaci√≥n positiva de magnitud media, coherente con el patr√≥n visual observado.
Estas variables aportan informaci√≥n complementaria y resultan prioritarias para an√°lisis explicativos, especialmente para evaluar el impacto de la inversi√≥n en publicidad sobre el tr√°fico.

**Variables secundarias**

**`compras_mes` vs `visitas_mes`**:Visualmente, el scatterplot evidenci√≥ una relaci√≥n positiva d√©bil, con alta dispersi√≥n de los puntos.
Los coeficientes (‚âà 0.35) confirman que la relaci√≥n existe, pero es limitada en magnitud, sugiriendo que un mayor volumen de visitas no garantiza proporcionalmente un aumento en compras.
Esta relaci√≥n es √∫til para an√°lisis exploratorios, pero tiene bajo poder explicativo por s√≠ sola.

**`visitas_mes` vs `ingreso_anual`**:El scatterplot mostr√≥ una nube de puntos sin una estructura definida, con una pendiente apenas perceptible.
Los coeficientes (‚âà 0.33) respaldan esta observaci√≥n, indicando una correlaci√≥n positiva d√©bil, sin relevancia significativa para modelado o toma de decisiones clave.

### Punto-biserial

In [None]:
# Calcular correlaci√≥n entre variables relevantes

from scipy.stats import pointbiserialr

# Calcular la correlaci√≥n punto-biserial
corr_premium_compras = pointbiserialr(df['miembro_premium'], df['compras_mes'])
corr_premium_ingreso = pointbiserialr(df['miembro_premium'], df['ingreso_anual'])
corr_abandono_compras = pointbiserialr(df['abandono'], df['compras_mes'])
corr_abandono_ingreso = pointbiserialr(df['abandono'], df['ingreso_anual'])

# Mostrar resultados formateados
print(f'Miembro Premium vs Compras Mes: {corr_premium_compras[0]:.3f}')
print(f'Miembro Premium vs Ingreso Anual: {corr_premium_ingreso[0]:.3f}')
print(f'Abandono vs Compras Mes: {corr_abandono_compras[0]:.3f}')
print(f'Abandono vs Ingreso Anual: {corr_abandono_ingreso[0]:.3f}')

‚úçÔ∏è **Observaciones Punto-biserial**:

**`miembro_premium` vs `compras_mes` | `miembro_premium`vs `ingreso_anual`**:
Las correlaciones observadas son cercanas a cero (r < 0.10), indicando que la condici√≥n de miembro premium no est√° asociada de forma significativa ni con el volumen de compras ni con el ingreso anual.

**`abandono` vs `compras_mes`**:
Se observa una correlaci√≥n negativa muy d√©bil (r = -0.088), consistente en direcci√≥n con la l√≥gica del negocio; sin embargo, la magnitud del coeficiente indica que la relaci√≥n es pr√°cticamente irrelevante desde el punto de vista explicativo.

**`abandono` vs `ingreso_anual`**:
 La correlaci√≥n es pr√°cticamente nula (r ‚âà 0.00) para consistencia, lo que sugiere que el nivel de ingreso no discrimina entre clientes que abandonan y los que permanecen.

### V de Cram√©r

In [None]:
from scipy.stats import chi2_contingency

# Definir las columnas categ√≥ricas
col1 = 'region'
col2 = 'tipo_dispositivo'
col3 = 'miembro_premium'
col4 = 'abandono'

# Funci√≥n para calcular V de Cram√©r
def cramer_v(df, col_1, col_2):
    # Crear tabla de contingencia (sin comillas en los nombres de columnas)
    tabla = pd.crosstab(df[col_1], df[col_2])

    # Calcular chi-cuadrado
    chi2, p_value, dof, expected = chi2_contingency(tabla)

    # Calcular n (total de observaciones)
    n = tabla.values.sum()

    # Calcular V de Cram√©r
    coef_v = np.sqrt(chi2 / (n * (min(tabla.shape) - 1)))

    # Mostrar resultado formateado
    print(f'V de Cram√©r ({col_1} vs {col_2}): {coef_v:.4f}')

    return coef_v


In [None]:
# Aplicar V de Cram√©r en variables relevantes

cramer_v(df,col1,col2)
cramer_v(df,col1,col3)
cramer_v(df,col1,col4)
cramer_v(df,col2,col3)
cramer_v(df,col2,col4)
cramer_v(df,col3,col4)

In [None]:
# Tabla de contingencia cr√≠tica para entender la direcci√≥n
tabla_premium_abandono = pd.crosstab(
    df['miembro_premium'],
    df['abandono'],
    margins=True,
    normalize='index'  # Para ver porcentajes por fila
)
print(tabla_premium_abandono)

‚úçÔ∏è **Observaciones V de Cram√©r**:

Los resultados del an√°lisis de asociaci√≥n mediante V de Cram√©r indican que no existen relaciones significativas entre las variables categ√≥ricas analizadas (regi√≥n, tipo de dispositivo, membres√≠a premium y abandono).

En todos los cruces evaluados, los coeficientes presentan magnitudes nulas o bajas, lo que sugiere independencia pr√°ctica entre las variables. La √∫nica relaci√≥n ligeramente superior se observa entre miembro premium y abandono, aunque su magnitud sigue siendo d√©bil y no permite afirmar una asociaci√≥n relevante.

En esta etapa del an√°lisis, se concluye que:

- Las variables categ√≥ricas no aportan capacidad explicativa fuerte.
- No se identifican patrones estructurales claros de segmentaci√≥n.
- Estas variables no deber√≠an priorizarse como drivers principales en el diagn√≥stico inicial.

Este resultado establece una base s√≥lida para etapas posteriores, donde se profundizar√° en la interpretaci√≥n de resultados y an√°lisis de causas.


## Secci√≥n 5 - Interpretaci√≥n de resultados para el negocio

### Hallazgo 1 ‚Äî Relaci√≥n entre Ingreso Anual y Compras Mensuales

**Evidencia visual**: Scatterplot `compras_mes` vs `ingreso_anual` muestra una nube de puntos fuertemente alineada a una tendencia positiva casi perfecta, con baja dispersi√≥n alrededor de la l√≠nea de tendencia.

**Evidencia num√©rica**:
- Correlaci√≥n de Pearson: 0.967
- Correlaci√≥n de Spearman: 0.968

Ambos coeficientes indican una asociaci√≥n positiva extremadamente fuerte y consistente.

**Interpretaci√≥n (no causal)**: Los clientes con mayores niveles de ingreso anual tienden a registrar un mayor n√∫mero de compras mensuales. Esta asociaci√≥n es altamente lineal y monot√≥nica, lo que sugiere que ambas variables se mueven de forma muy sincronizada dentro del dataset.

**No podemos afirmar**:
No se puede afirmar que un mayor ingreso cause directamente m√°s compras, ni que incrementar el ingreso de un cliente genere autom√°ticamente un aumento en su frecuencia de compra.

**Implicaci√≥n de negocio**:
El ingreso anual emerge como el principal indicador asociado al comportamiento de compra. Para an√°lisis predictivos o segmentaci√≥n, es recomendable evitar el uso simult√°neo de ambas variables debido a su alta colinealidad.

### Hallazgo 2 ‚Äî Relaci√≥n entre Gasto en Publicidad Dirigida y Visitas Mensuales

**Evidencia visual:** El scatterplot `visitas_mes` vs `gasto_publicidad_dirigida` muestra una tendencia positiva moderada, con alta dispersi√≥n vertical alrededor de la l√≠nea de tendencia.

**Evidencia num√©rica:**
- Correlaci√≥n de Pearson: 0.579
- Correlaci√≥n de Spearman: 0.559

Ambos coeficientes indican una relaci√≥n positiva de magnitud moderada.

**Interpretaci√≥n**: Un mayor gasto en publicidad dirigida est√° asociado con un aumento en el n√∫mero de visitas mensuales al sitio. Sin embargo, la alta dispersi√≥n sugiere que el gasto publicitario no explica completamente el comportamiento de visitas.


**No podemos afirmar**: No se puede concluir que incrementar el gasto publicitario garantice un aumento proporcional en las visitas, ni que todas las visitas generadas provengan directamente de campa√±as pagadas.


**Implicaci√≥n de negocio**: La publicidad cumple un rol relevante en la generaci√≥n de tr√°fico, pero su efectividad es parcial. Es necesario evaluar la eficiencia del gasto y su impacto en etapas posteriores del funnel.

### Hallazgo 3 ‚Äî Relaci√≥n entre Visitas Mensuales y Compras Mensuales

**Evidencia visual:** El scatterplot `compras_mes` vs `visitas_mes` presenta una nube de puntos altamente dispersa, con una tendencia positiva d√©bil y patrones discretos en ambos ejes.

**Evidencia num√©rica:**
- Correlaci√≥n de Pearson: 0.354
- Correlaci√≥n de Spearman: 0.333

La asociaci√≥n es positiva pero d√©bil.

**Interpretaci√≥n**: Un mayor n√∫mero de visitas mensuales se asocia ligeramente con un mayor n√∫mero de compras, aunque la relaci√≥n es d√©bil y con alta variabilidad.  


**No podemos afirmar**: No se puede afirmar que aumentar las visitas genere autom√°ticamente m√°s compras, ni que el volumen de tr√°fico sea un predictor confiable del ingreso generado.


**Implicaci√≥n de negocio**: Existe una oportunidad clara de optimizaci√≥n del funnel de conversi√≥n, ya que una gran proporci√≥n de visitas no se traduce en compras efectivas.


### Hallazgo 4 ‚Äî Variables Binarias y Categ√≥ricas

**Evidencia visual**: No aplica.

**Evidencia num√©rica:**

- Correlaciones punto-biserial cercanas a 0 entre: Membres√≠a premium y compras | Membres√≠a premium e ingreso | Abandono y compras | Abandono e ingreso.
- V de Cram√©r inferior a 0.20 en todas las combinaciones categ√≥ricas analizadas.

**Interpretaci√≥n (no causal):** Las variables binarias y categ√≥ricas analizadas no muestran asociaciones relevantes con el ingreso anual ni con el comportamiento de compra.

**No podemos afirmar:** No se puede concluir que la membres√≠a premium, la regi√≥n o el tipo de dispositivo influyan directamente en el valor econ√≥mico del cliente.

**Implicaci√≥n de negocio:** Las estrategias basadas √∫nicamente en segmentaci√≥n tradicional podr√≠an no ser efectivas. Es necesario incorporar variables de comportamiento real para identificar clientes de alto valor.

## Secci√≥n 6 - Limitaciones y pr√≥ximos pasos

### **Limitaciones**
- Correlaci√≥n ‚â† causalidad: Ninguna relaci√≥n observada implica una relaci√≥n causa‚Äìefecto.
- El an√°lisis es bivariado.
- No se consideran variables externas como experiencia de usuario o pricing.

### **Pr√≥ximos pasos**

- Implementar segmentaci√≥n basada en comportamiento y valor (RFM, CLV).
- Analizar el funnel de conversi√≥n por cohortes.
- Evaluar modelos multivariados controlando colinealidad.
- Revisar el dise√±o y propuesta de valor de la membres√≠a premium