<a href="https://colab.research.google.com/github/oscaraparram/python_code_public/blob/main/ANOVA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Análisis de varianza - ANOVA**
En estadística, el análisis de la varianza (ANOVA por sus sigloides en inglés, ANalysis Of VAriance) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.

La base de datos de esta aplicación se encuentra en el siguiente [enlace.](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results)

## **Base de datos**
ID - Identificador por atleta

1. Name - Nombre del atleta

2. Sex - Genero **M**asculino o **F**emenino

3. Age - Edad

4. Height - Altura en centimetros

5. Weight - Peso en kilogramos

6. Team - Nombre del equipo

7. NOC -  Código de 3 letras

8. Games - Año y estación

9. Year - Año de evento

10. Season - Verano o Invierno

11. City - Ciudad de los juegos

12. Sport - Deporte

13. Event - Evento

14. Medal - Oro, Plata, Bronce, o NA

In [None]:
import pandas as pd

In [None]:
datos =  pd.read_csv("athlete_events.csv")

In [None]:
datos.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


In [None]:
datos.isna().sum()

ID             0
Name           0
Sex            0
Age         9474
Height     60171
Weight     62875
Team           0
NOC            0
Games          0
Year           0
Season         0
City           0
Sport          0
Event          0
Medal     231333
dtype: int64

In [None]:
datos.shape

(271116, 15)

In [None]:
datos = datos.dropna()

In [None]:
datos.shape

(30181, 15)

## **ANOVA de una vía**
Caso especial del análisis de varianza en el cual se considera un factor ([más información](https://en.wikipedia.org/wiki/One-way_analysis_of_variance)).

In [None]:
PesoColombia = datos.Weight[datos.Team =="Colombia"]
PesoRusia = datos.Weight[datos.Team =='Russia']
PesoPeru = datos.Weight[datos.Team =='Peru']


In [None]:
from scipy import stats
anova = stats.f_oneway(PesoColombia, PesoRusia, PesoPeru)
anova

F_onewayResult(statistic=4.408406092866227, pvalue=0.012384845550063571)

## **ANOVA de mas de una vía**
El número de vías hace referencia a el número de factores que inciden en la variable

In [None]:
import statsmodels.api as sm

In [None]:
formula = 'Weight ~ Sex + Season'

model = sm.formula.ols(formula, data= datos).fit()
aov_table =  sm.stats.anova_lm(model,typ=2)
aov_table

Unnamed: 0,sum_sq,df,F,PR(>F)
Sex,1746977.0,1.0,10455.113885,0.0
Season,4609.396,1.0,27.585806,1.512954e-07
Residual,5042533.0,30178.0,,


In [None]:
formula = 'Weight ~ Sex + Season + Season:Sex'

model = sm.formula.ols(formula, data= datos).fit()
aov_table =  sm.stats.anova_lm(model,typ=2)
aov_table

Unnamed: 0,sum_sq,df,F,PR(>F)
Sex,1746977.0,1.0,10460.534745,0.0
Season,4609.396,1.0,27.600109,1.501818e-07
Season:Sex,2780.149,1.0,16.646958,4.513809e-05
Residual,5039753.0,30177.0,,
