<a href="https://colab.research.google.com/github/cristiandarioortegayubro/UNI/blob/main/fe_hom_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![](https://github.com/cristiandarioortegayubro/UNI/blob/main/UNI%2039%20Aniversario.jpg?raw=true)

# **Fundamentos de Estadística**


## **Analisis de Homocedasticidad**

La homocedasticidad, considera que la varianza es constante (no varía) en los diferentes niveles de un factor, es decir, entre diferentes grupos. En los modelos de regresión lineal, esta condición de homocedasticidad suele hacer referencia a los errores (residuos) del modelo, es decir, que la varianza de los errores es constante en todas las predicciones. Cuando la condición de homocedasticidad no se cumple, se utiliza el término heterocedasticidad.

Existen diferentes test que permiten evaluar si las observaciones proceden de poblaciones con la misma varianza. Todos ellos consideran como hipótesis nula que la varianza es igual entre los grupos y como hipótesis alternativa que no lo es. La diferencia entre ellos es el estadístico de centralidad que utilizan:

+ Los test que utilizan la media de la varianza son los que mayor poder estadístico consiguen cuando los datos siguen distribuciones normales.

+ Los test que utilizan la mediana de la varianza consiguen mejores resultados cuando los datos siguen distribuciones asimétricas o se alejan de la normalidad.

Por lo general, si no se puede alcanzar cierta seguridad de que las poblaciones que se comparan son de tipo normal, es recomendable recurrir a test que comparen la mediana de la varianza.

## **Librerías**

### **Para análisis estadístico**

In [1]:
# Operaciones matemáticas y estadísticas
import pandas as pd
import numpy as np
import scipy.stats as stats

### **Para gráficos**

In [2]:
# Visualización
import plotly.express as px
import plotly.graph_objs as go

## **Conjunto de Datos**

Los datos utilizados en este ejemplo se han obtenido del libro Statistical Rethinking by Richard McElreath. El set de datos contiene información recogida por Nancy Howell a finales de la década de 1960 sobre el pueblo !Kung San, que viven en el desierto de Kalahari entre Botsuana, Namibia y Angola.

In [3]:
url = ('https://raw.githubusercontent.com/cristiandarioortegayubro/UNI/main/Howell1.csv')
datos = pd.read_csv(url)
datos.head()

Unnamed: 0,height,weight,age,male
0,151.765,47.825606,63.0,1
1,139.7,36.485807,63.0,0
2,136.525,31.864838,65.0,0
3,156.845,53.041914,41.0,1
4,145.415,41.276872,51.0,0


In [4]:
datos.shape

(544, 4)

In [5]:
datos = datos[(datos.age > 15)]

In [6]:
datos.shape

(372, 4)

## **Representación gráfica**

***Uno de los métodos gráficos más empleados para el análisis de homocedasticidad consiste en representar los datos mediante boxplots.***

In [7]:
px.box(y=datos.weight,
       color=datos.male,
       template ="simple_white",
       title="Boxplot",
       labels={"y":"Peso",
               "color":"Sexo"})

In [8]:
datos.head(3)

Unnamed: 0,height,weight,age,male
0,151.765,47.825606,63.0,1
1,139.7,36.485807,63.0,0
2,136.525,31.864838,65.0,0


In [9]:
condicion = [(datos.male == 1),(datos.male == 0)]
eleccion = [("Hombres"),("Mujeres")]

datos["male"] = np.select(condicion, eleccion, datos.male)

In [10]:
datos.head(3)

Unnamed: 0,height,weight,age,male
0,151.765,47.825606,63.0,Hombres
1,139.7,36.485807,63.0,Mujeres
2,136.525,31.864838,65.0,Mujeres


In [11]:
px.box(y=datos.weight,
       color=datos.male,
       template ="simple_white",
       title="Boxplot",
       labels={"y":"Peso",
               "color":"Sexo"})

***Otra representación utilizada con frecuencia son los gráficos de violin.***

In [12]:
px.violin(y=datos.weight,
          color=datos.male,
          template ="simple_white",
          title="Grafico de Violin",
          labels={"y":"Peso",
                  "color":"Sexo"})

## **Tests**

El test de Levene, el test de Bartlett y el test de Fligner-Killeen son tres de los test de hipótesis más empleados comparar la varianza entre grupos. En todos ellos, se considera como hipótesis nula que los datos proceden de distribuciones con la misma varianza (homocedasticidad). Por lo tanto, si el p-value es menor que un determinado valor (típicamente 0.05), entonces se considera que hay evidencias suficientes para rechazar la homocedasticidad en favor de la heterocedasticidad.

El test de Levene y el test de Fligner-Killeen (este último no paramétrico) son más robustos que el test de Bartlett ante la falta de normalidad, por lo que suele aconsejarse su uso. Además, tanto el test de Levene como el de Bartlett permiten elegir entre diferentes estadísticos de centralidad: mediana (por defecto), media, media truncada. Esto es importante a la hora de contrastar la homocedasticidad dependiendo de si los grupos se distribuyen de forma normal o no.

Si se tiene seguridad de que las muestras a comparar proceden de poblaciones que siguen una distribución normal, es recomendable el test de Bartlett. Si no se tiene la seguridad de que las poblaciones de origen son normales, se recomiendan el test de Leven utilizando la mediana o el test no paramétrico Fligner-Killeen que también se basa en la mediana.

In [13]:
peso_hombres = datos.loc[datos.male == 'Hombres', 'weight']
peso_mujeres = datos.loc[datos.male == 'Mujeres', 'weight']

### **Levene test**

In [14]:
levene_test = stats.levene(peso_hombres, peso_mujeres, center='median')
levene_test

LeveneResult(statistic=0.18630521976263306, pvalue=0.6662611053126026)

In [20]:
estadistico = levene_test[0]
pvalor = levene_test[1]

In [27]:
print(f"Levene test \n\nEstadístico = {round(estadistico, 4)} \np-value = {round(pvalor,4)}")

Levene test 

Estadístico = 0.1863 
p-value = 0.6663


### **Bartlett test**

In [22]:
bartlett_test = stats.bartlett(peso_hombres, peso_mujeres)
bartlett_test

BartlettResult(statistic=0.8473322751459793, pvalue=0.3573081212488608)

In [23]:
estadistico = levene_test[0]
pvalor = levene_test[1]

In [28]:
print(f"Bartlett test \n\nEstadístico = {round(estadistico, 4)} \np-value = {round(pvalor,4)}")

Bartlett test 

Estadístico = 0.1863 
p-value = 0.6663


### **Fligner-Killeen**

In [29]:
fligner_test = stats.fligner(peso_hombres, peso_mujeres, center='median')
fligner_test

FlignerResult(statistic=0.1376531343594324, pvalue=0.7106253515287645)

In [30]:
estadistico = fligner_test[0]
pvalor = fligner_test[1]

In [31]:
print(f"Fligner-Killeen test \n\nEstadístico = {round(estadistico, 4)} \np-value = {round(pvalor,4)}")

Fligner-Killeen test 

Estadístico = 0.1377 
p-value = 0.7106


***Ninguno de los test muestra evidencias para rechazar la hipótesis de que los dos grupos tienen la misma varianza, homocedasticidad.***