### **Análisis de varianza - ANOVA**
En estadística, el análisis de la varianza (ANOVA por sus sigloides en inglés, ANalysis Of VAriance) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.

La base de datos de esta aplicación se encuentra en el siguiente [enlace.](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results)

## **Base de datos**
ID - Identificador por atleta

1. Name - Nombre del atleta

2. Sex - Genero **M**asculino o **F**emenino

3. Age - Edad

4. Height - Altura en centimetros

5. Weight - Peso en kilogramos

6. Team - Nombre del equipo

7. NOC -  Código de 3 letras

8. Games - Año y estación

9. Year - Año de evento

10. Season - Verano o Invierno

11. City - Ciudad de los juegos

12. Sport - Deporte

13. Event - Evento

14. Medal - Oro, Plata, Bronce, o NA

In [33]:
import pandas as pd

In [34]:
datos =  pd.read_csv("athlete_events.csv")

In [35]:
datos.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


In [36]:
datos.isna().sum()

ID             0
Name           0
Sex            0
Age         9474
Height     60171
Weight     62875
Team           0
NOC            0
Games          0
Year           0
Season         0
City           0
Sport          0
Event          0
Medal     231333
dtype: int64

In [37]:
#eliminar filas con valores nulos
datos = datos.dropna()


In [38]:
datos.shape

(30181, 15)

In [39]:
datos = datos.dropna()

In [40]:
datos.shape

(30181, 15)

## **ANOVA de una vía**
Caso especial del análisis de varianza en el cual se considera un factor ([más información](https://en.wikipedia.org/wiki/One-way_analysis_of_variance)).

In [41]:
PesoColombia = datos.Weight[datos.Team =="Colombia"]
PesoRusia = datos.Weight[datos.Team =='Russia']
PesoPeru = datos.Weight[datos.Team =='Peru']


Calcula la ANOVA y describe tus conclusiones

In [42]:
from scipy import stats
anova = stats.f_oneway(PesoColombia, PesoRusia, PesoPeru)
anova

F_onewayResult(statistic=4.408406092866227, pvalue=0.012384845550063571)

In [43]:
#Observa las medias de cada uno de los grupos de pesos
print(PesoColombia.mean())
print(PesoRusia.mean())
print(PesoPeru.mean())

61.888888888888886
72.05270394133822
69.71428571428571


In [44]:
#Observa la cantidad de datos por grupo. 
print(PesoColombia.count())
print(PesoRusia.count())
print(PesoPeru.count())


27
1091
14


Tus Observaciones/ conclusiones aquí

Observa el p-value. No se acepta la hipótesis H0, debido a que es menos a0.5.

Observa las medias de cada uno de los grupos. Podemos ver que el peso de rusia es el mas elevado de los tres, con un promedio de 72

Observa la cantidad de datos por grupo. Tambien podemos ver que tenemos una cantidad mucha mayor de datos de Rusia

Lista los equipos que existen y selecciona 3 diferentes a los usados  anteriormente. Calcula la ANOVA, busca que el p-value sea mayor o igual a 0.05. Observa la media, cantidad de elementos de los grupos. Anota tus comentarios y conclusiones.

In [47]:
# Tu código aquí

#Lista los equipos que existen y selecciona 3 diferentes a los usados  anteriormente. Calcula la ANOVA, busca que el p-value sea mayor o igual a 0.05. Observa la media, cantidad de elementos de los grupos. Anota tus comentarios y conclusiones.

#Lista los equipos que existen

datos.Team.unique()

#Elegimos Mexico, China y Chile

PesoMexico = datos.Weight[datos.Team =="Mexico"]
PesoChina = datos.Weight[datos.Team =='China']
PesoChile = datos.Weight[datos.Team =='Chile']

anova = stats.f_oneway(PesoMexico, PesoChina, PesoChile)
anova



F_onewayResult(statistic=5.127509385748204, pvalue=0.006089032477791564)

In [49]:
#Observa la cantidad de datos por grupo. 
print(PesoMexico.count())
print(PesoChina.count())
print(PesoChile.count())

76
897
25


In [48]:
#Sacamos la media de cada grupo
print(PesoMexico.mean())
print(PesoChina.mean())
print(PesoChile.mean())


63.81578947368421
63.89520624303233
72.48


Tus comentarios y observaciones aquí

Vemos que H0 se rechaza una vez mas debido a que es menor a 0.05, el país con mas datos que tiene es China y Chile es el que tiene el promedio mas alto, curiosamente México y China tienen un promedio casi idéntico.