# Ejemplo ANOVA

**Autor:** Jazna Meza Hidalgo

**Correo Electr√≥nico:** ja.meza@profesor.duoc.cl

**Fecha de Creaci√≥n:** Septiembre de 2024  
**Versi√≥n:** 1.0  

# Definici√≥n

ANOVA (An√°lisis de Varianza) es una t√©cnica estad√≠stica que se utiliza para comparar las medias de m√°s de dos grupos para determinar si al menos una de las medias es significativamente diferente de las otras




---

## Problemas con el uso de la Tarjeta Compra M√°s (TCM)

Usted, como *Data Scientist* se desempe√±a en una empresa del Retail donde, como experto, tiene como labor determinar las √°reas d√©biles y fuertes a identificar y proponer mejoras.

En una reuni√≥n (tormenta de ideas) se determina que el uso de nuestra tarjeta presenta √°reas de mejora en varios aspectos. Sin embargo, es necesario verificar o refutar las apreciaciones que, durante la reuni√≥n, se plantearon sobre la TCM. Est√°s se pueden indexar como sigue:

* **Montos**: El comit√© de promociones discute que ellos han focalizado apropiadamente las ofertas, de tal
forma que han logrado incrementar los montos de compras mensuales, y para comprobar indican que en 2021 fue de \$1.150.000 en promedio, asegurando que en 2022 debe ser superior.
* **Antig√ºedad**: El √°rea de fidelizaci√≥n de clientes (renegociaci√≥n) es acusada de impedir que antiguos clientes incrementen sus compras al limitar sus niveles de endeudamiento. En otras palabras, entre los que usan la tarjeta, los clientes antiguos tiene montos medios \$100.000 menor que los clientes nuevos (las tarjetas de los clientes identificados c√≥n n√∫meros menores a 250.000 corresponden a clientes antiguos).


Su trabajo ser√°, mediante an√°lisis de datos mediante tablas, gr√°ficos y test de hip√≥tesis, estudiar los puntos anteriores. Para el cumplimiento de lo anterior, el Departamento de Inform√°tica les hace llegar una peque√±a muestra aleatoria simple de clientes con informaci√≥n hist√≥rica y los atributos solicitados (ver `TCM2022.xlsx`). Las variables de la muestra son las siguientes:

* `Cliente`: c√≥digo de identificaci√≥n del cliente ‚Äì asociada a la fecha de otorgamiento.
* `Edad`: en a√±os actualizada a diciembre 2022.
* `Sexo`: F (femenino), M (masculino).
* `Region`: Indica si el cliente pertenece a la regi√≥n metropolitana (RM) o no (No RM).
* `Uso2022`: 1 si ha usado la tarjeta durante 2022, 0 si solo la ha usado en 2021.
* `Monto2022`: Monto total en compras desde enero a diciembre de 2022 (en miles).

In [None]:
import pandas as pd
import numpy as np
import math
import random
import scipy.stats as stats

import matplotlib.pyplot as plt
import seaborn as sns

from ipywidgets import interactive
from scipy.stats import norm

In [None]:
!wget https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/main/data/TCM2022.xlsx

--2024-09-10 22:52:39--  https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/main/data/TCM2022.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 17783 (17K) [application/octet-stream]
Saving to: ‚ÄòTCM2022.xlsx‚Äô


2024-09-10 22:52:40 (116 MB/s) - ‚ÄòTCM2022.xlsx‚Äô saved [17783/17783]



In [None]:
# Carga de la data
data = pd.read_excel("TCM2022.xlsx")

In [None]:
# Cantidad de observaciones y caracteristicas disponibles
print("Hay {0} observaciones que cuentan con {1} columnas".format(data.shape[0], data.shape[1]))

Hay 450 observaciones que cuentan con 6 columnas


## Tabla de la media del Monto de 2022 seg√∫n Regi√≥n


In [None]:
# Obtiene el promedio de cada grupo
data.groupby("Region")["Monto2022"].agg(["mean"]).round(3)

Unnamed: 0_level_0,mean
Region,Unnamed: 1_level_1
No RM,708.649
RM,698.837


## Definici√≥n de hip√≥tesis

 * $H_0$ = La media de consumo en el a√±o 2022 de los clientes residentes en comunas distintas a la RM es igual a la media de consumo de los clientes residentes en la RM.

 * $H_1$ = La media de consumo en el a√±o 2022 de los clientes residentes en comunas distintas a la RM es distinta a la media de consumo de los clientes residentes en la RM.


In [None]:

# Muestra aleatoria de 100 clientes
unique_customer_id = list(data['Cliente'].unique())
# Establece una semilla para extraer siempre la misma muestra
random.seed(30)
sample_student_id = random.sample(unique_customer_id, 100)
sample_df = data[data['Cliente'].isin(sample_student_id)].reset_index(drop=True)

# Dos variables de interes
sample_df = sample_df[['Region', 'Monto2022']]
groups = sample_df.groupby('Region').count().reset_index()
# Visualiza
groups

Unnamed: 0,Region,Monto2022
0,No RM,56
1,RM,44


## Aplicaci√≥n test ANOVA

In [None]:
# Crea la tabla principal de ANOVA
data_table = [['Between Groups', '', '', '', '', '', ''], ['Within Groups', '', '', '', '', '', ''], ['Total', '', '', '', '', '', '']]
anova_table = pd.DataFrame(data_table, columns = ['Source of Variation', 'SS', 'df', 'MS', 'F', 'P-value', 'F crit'])
anova_table.set_index('Source of Variation', inplace = True)

# Calcula ENTRE los grupos
x_bar = sample_df['Monto2022'].mean()
SSTR = sample_df.groupby('Region').count() * (sample_df.groupby('Region').mean() - x_bar)**2
anova_table['SS']['Between Groups'] = SSTR['Monto2022'].sum()

# Calcula EN los grupos
SSE = (sample_df.groupby('Region').count() - 1) * sample_df.groupby('Region').std()**2
anova_table['SS']['Within Groups'] = SSE['Monto2022'].sum()

# Calcula el total
SSTR = SSTR['Monto2022'].sum() + SSE['Monto2022'].sum()
anova_table['SS']['Total'] = SSTR

# Actualiza los grados de libertad
anova_table['df']['Between Groups'] = sample_df['Region'].nunique() - 1
anova_table['df']['Within Groups'] = sample_df.shape[0] - sample_df['Region'].nunique()
anova_table['df']['Total'] = sample_df.shape[0] - 1

# Calcula la media de los cuadrados
anova_table['MS'] = anova_table['SS'] / anova_table['df']

# Calcula F
F = anova_table['MS']['Between Groups'] / anova_table['MS']['Within Groups']
anova_table['F']['Between Groups'] = F

# p-value
anova_table['P-value']['Between Groups'] = 1 - stats.f.cdf(F, anova_table['df']['Between Groups'], anova_table['df']['Within Groups'])

# F critico
alpha = 0.05
#
tail_hypothesis_type = "two-tailed"
if tail_hypothesis_type == "two-tailed":
    alpha /= 2
anova_table['F crit']['Between Groups'] = stats.f.ppf(1-alpha,
                                                      anova_table['df']['Between Groups'],
                                                      anova_table['df']['Within Groups'])

# Mostrar tabla ANOVA
anova_table.round(2)

Unnamed: 0_level_0,SS,df,MS,F,P-value,F crit
Source of Variation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Between Groups,61156.800065,1,61156.800065,0.10376,0.748049,5.181823
Within Groups,57761587.439935,98,589403.953469,,,
Total,57822744.24,99,584068.123636,,,


In [None]:
# Resultado final
print("\n","-"*80)
print("El enfoque del valor cr√≠tico para la prueba de hip√≥tesis en la regla de decisi√≥n")
conclusion = "No se pudo rechazar la hip√≥tesis nula."
if anova_table['F']['Between Groups'] > anova_table['F crit']['Between Groups']:
    conclusion = "Se rechaza la hip√≥tesis nula."
print("F-score es: {0:.2f} y valor critico es: {1:.2f}".format(anova_table['F']['Between Groups'],
                                                               anova_table['F crit']['Between Groups']))
print(conclusion)


 --------------------------------------------------------------------------------
El enfoque del valor cr√≠tico para la prueba de hip√≥tesis en la regla de decisi√≥n
F-score es: 0.10 y valor critico es: 5.18
No se pudo rechazar la hip√≥tesis nula.


# Conclusi√≥n:

No hay evidencia suficiente en los datos para concluir que la media de consumo de los clientes residentes en comunas distintas a la Regi√≥n Metropolitana (RM) sea diferente de la media de consumo de los clientes residentes en la RM durante el a√±o 2022, con un 5% de nivel de significancia.


# C√°lculos en la tabla ANOVA

Una tabla ANOVA se compone de varias filas y columnas que muestran diferentes estad√≠sticas que permiten entender si las diferencias entre las medias de los grupos son estad√≠sticamente significativas. Los c√°lculos que se incluyen en la tabla son:



## 1. Suma de Cuadrados (Sum of Squares - SS)


Es una medida de variaci√≥n que cuantifica la dispersi√≥n de los datos.



### Suma de Cuadrados Entre Grupos (SSB o SSA):

Calcula la variabilidad debido a la interacci√≥n entre los grupos.

F√≥rmula:
$ùëÜùëÜ_{entre}=\sum_{i=1}^{n}n_{i}(\bar{y}_{i}-\bar{y})^2$

donde:

$n_{i}$ = n√∫mero de observaciones en el grupo ùëñ

$\bar{y}_{i}$= media del grupo ùëñ

$\bar{y}$= media global



### Suma de Cuadrados Dentro de los Grupos (SSE o SSW):

Calcula la variabilidad dentro de cada grupo.

F√≥rmula:
$SS_{dentro}=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\bar{y_{ij}}-\bar{y})^2$

 donde:

$y_{ij}$ = j-√©sima observaci√≥n en el grupo ùëñ



### Suma de Cuadrados Total (SST):

Es la suma de las variaciones entre y dentro de los grupos.

$SS_{total}=SS_{entre} + SS_{dentro}$



## 2. Grados de Libertad (Degrees of Freedom - df)
Los grados de libertad son el n√∫mero de valores que son "libres" de variar cuando se estima un par√°metro estad√≠stico:





### Grados de Libertad Entre Grupos ($df_{entre})$:

Calculado como el n√∫mero de grupos menos uno:
$df_{entre}$ = k‚àí1, donde

ùëò es el n√∫mero de grupos.



### Grados de Libertad Dentro de los Grupos ($df_{dentro}$)

Calculado como el n√∫mero total de observaciones menos el n√∫mero de grupos:
$df_{dentro}$ = ùëÅ ‚àí ùëò donde

N es el n√∫mero total de observaciones.



### Grados de Libertad Total ($df_{total}$):

Es la suma de los grados de libertad entre y dentro de los grupos:
$ùëëùëì_{total}$ = ùëÅ ‚àí1

## 3. Media Cuadr√°tica (Mean Square - MS)
La Media Cuadr√°tica se calcula dividiendo la Suma de Cuadrados por sus respectivos grados de libertad:



### Media Cuadr√°tica Entre Grupos ($MS_{entre}$):

F√≥rmula: $ùëÄùëÜ_{entre} = \frac{ùëÜùëÜ_{entre}}{df_{entre}}$



### Media Cuadr√°tica Dentro de los Grupos ($MS_{dentro}$):

F√≥rmula: $ùëÄùëÜ_{dentro} = \frac{ùëÜùëÜ_{dentro}}{df_{dentro}}$



## 4. Estad√≠stico F (F-statistic)

El estad√≠stico F se utiliza para comparar la variabilidad entre los grupos con la variabilidad dentro de los grupos. Se calcula como:

$F = \frac{MùëÜ_{entre}}{MS_{dentro}}$

Este valor se compara con un valor cr√≠tico de una distribuci√≥n F con los grados de libertad correspondientes para determinar si se rechaza la hip√≥tesis nula.



## 5. Valor P (P-value)
El valor P es la probabilidad de obtener un valor F al menos tan extremo como el observado, dado que la hip√≥tesis nula es verdadera. Si el valor P es menor que el nivel de significancia (
ùõº, com√∫nmente 0.05), se rechaza la hip√≥tesis nula.

# Significado de "Two-Tailed" (Bilateral)

  

1. **Contexto de Hip√≥tesis Estad√≠sticas**:

   - En una prueba de hip√≥tesis, se tienen dos hip√≥tesis: la hip√≥tesis nula $H_0$ y la hip√≥tesis alternativa $H_1$.  

   - La **hip√≥tesis nula** generalmente sugiere que no hay efecto o diferencia (por ejemplo, "la media es igual a 0").

   - La **hip√≥tesis alternativa** sugiere que s√≠ hay un efecto o diferencia (por ejemplo, "la media no es igual a 0").

  

2. **Prueba Bilateral (Two-Tailed)**:

   - Una **prueba bilateral** se utiliza cuando la hip√≥tesis alternativa $H_1$ es que el par√°metro de inter√©s **no es igual** a un valor espec√≠fico (no mayor ni menor, sino simplemente diferente). Por ejemplo:

     $H_0: \mu = \mu_0 \quad \text{vs.} \quad H_1: \mu \neq \mu_0$

   - Esta prueba eval√∫a tanto la posibilidad de que el par√°metro sea **mayor** como **menor** que el valor hipot√©tico. Por eso se le llama "two-tailed" (dos colas).