### **Análisis de varianza - ANOVA**
- Jorge Emiliano Pomar 
- A01709338
- Fecha: 10 de abril de 2025


En estadística, el análisis de la varianza (ANOVA por sus sigloides en inglés, ANalysis Of VAriance) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.

La base de datos de esta aplicación se encuentra en el siguiente [enlace.](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results)

## **Base de datos**
ID - Identificador por atleta

1. Name - Nombre del atleta

2. Sex - Genero **M**asculino o **F**emenino

3. Age - Edad

4. Height - Altura en centimetros

5. Weight - Peso en kilogramos

6. Team - Nombre del equipo

7. NOC -  Código de 3 letras

8. Games - Año y estación

9. Year - Año de evento

10. Season - Verano o Invierno

11. City - Ciudad de los juegos

12. Sport - Deporte

13. Event - Evento

14. Medal - Oro, Plata, Bronce, o NA

In [1]:
import pandas as pd

In [2]:
datos =  pd.read_csv("Copia de athlete_events.csv")

In [3]:
datos.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


In [4]:
datos.isna().sum()

ID             0
Name           0
Sex            0
Age         9474
Height     60171
Weight     62875
Team           0
NOC            0
Games          0
Year           0
Season         0
City           0
Sport          0
Event          0
Medal     231333
dtype: int64

In [5]:
datos.shape

(271116, 15)

In [6]:
datos = datos.dropna()

In [7]:
datos.shape

(30181, 15)

## **ANOVA de una vía**
Caso especial del análisis de varianza en el cual se considera un factor ([más información](https://en.wikipedia.org/wiki/One-way_analysis_of_variance)).

In [11]:
PesoColombia = datos.Weight[datos.Team =="Colombia"]
PesoRusia = datos.Weight[datos.Team =='Russia']
PesoPeru = datos.Weight[datos.Team =='Peru']


Calcula la ANOVA y describe tus conclusiones

In [9]:
from scipy import stats
anova = stats.f_oneway(PesoColombia, PesoRusia, PesoPeru)
anova

F_onewayResult(statistic=4.408406092866227, pvalue=0.012384845550063571)

Tus Observaciones/ conclusiones aquí

Observa el p-value,
Observa las medias de cada uno de los grupos,
Observa la cantidad de datos por grupo

In [12]:
print(PesoColombia, PesoPeru, PesoRusia)

5689      70.0
5690      70.0
18279     78.0
18281     78.0
33902     51.0
69146     62.0
69147     62.0
101861    70.0
101862    70.0
111207    54.0
151136    49.0
164286    64.0
164287    53.0
165939    58.0
177737    85.0
180331    50.0
180332    50.0
185509    59.0
196460    65.0
199153    58.0
199154    58.0
199333    58.0
203284    56.0
208487    62.0
246456    53.0
246669    78.0
247532    50.0
Name: Weight, dtype: float64 27728     95.0
37847     70.0
51127     59.0
66098     62.0
75122     57.0
76249     69.0
79227     94.0
94622     69.0
98804     76.0
147339    59.0
185611    72.0
234999    70.0
242031    59.0
246625    65.0
Name: Weight, dtype: float64 163       80.0
195       60.0
789       62.0
790       62.0
794       62.0
          ... 
270934    62.0
270939    71.0
270986    59.0
271102    64.0
271103    64.0
Name: Weight, Length: 1091, dtype: float64


## Observaciones / Conclusiones

- p-value: El valor p obtenido es 0.012, lo cual es menor a 0.05. Esto indica que se rechaza la hipótesis nula, es decir, hay diferencias significativas entre los pesos de los grupos analizados (Colombia, Rusia y Perú).

### Conclusión:
El análisis muestra que existen diferencias significativas en los pesos promedio de los atletas de Colombia, Rusia y Perú. El tamaño de las muestras es de 27728, 163, 1091. Estos tamaños no son uniformes o equilibrados, lo que puede influir en la interpretación de los resultados. Sin embargo, el hecho de que el p-value sea menor a 0.05 sugiere que las diferencias observadas no son producto del azar y que hay un efecto real de la nacionalidad en el peso de los atletas.

Lista los equipos que existen y selecciona 3 diferentes a los usados  anteriormente. Calcula la ANOVA, busca que el p-value sea mayor o igual a 0.05. Observa la media, cantidad de elementos de los grupos. Anota tus comentarios y conclusiones.

In [21]:
# Tu código aquí
equipos = datos['Team'].unique()
print(equipos)



['Finland' 'Norway' 'Netherlands' 'Italy' 'Spain' 'Azerbaijan' 'Russia'
 'Belarus' 'France' 'Cameroon' 'United States' 'Hungary' 'Australia'
 'Iran' 'Canada' 'Pakistan' 'Soviet Union' 'Uzbekistan' 'Tajikistan'
 'Unified Team' 'Japan' 'Ethiopia' 'East Germany' 'Sweden' 'Turkey'
 'Bulgaria' 'Egypt' 'Great Britain' 'Jordan' 'Romania' 'Switzerland'
 'Puerto Rico' 'Mexico' 'Ghana' 'Morocco' 'New Zealand' 'Germany'
 'Switzerland-1' 'Switzerland-2' 'Argentina' 'Cuba' 'Poland'
 'Czechoslovakia' 'Nigeria' 'Brazil' 'France-1' 'Germany-2' 'Lithuania'
 'South Africa' 'United States-1' 'Indonesia' 'Indonesia-1' 'Germany-1'
 'Mutafo' 'Chile' 'Ukraine' 'Greece' 'Uganda' 'Syria' 'Qatar' 'Kuwait'
 'Individual Olympic Athletes' 'Saudi Arabia' 'United Arab Emirates'
 'Croatia' 'West Germany' 'Soviet Union-2' 'Armenia' 'Serbia' 'Niger'
 'India' 'Brazil-1' 'Algeria' 'Austria' 'Trinidad and Tobago' 'Colombia'
 'Italy-2' 'East Germany-1' 'Botswana' 'Tunisia' 'South Korea'
 'South Korea-2' 'North Korea' 'Chin

In [24]:
Peso1 = datos.Weight[datos.Team == 'Belgium']
Peso2 = datos.Weight[datos.Team == 'Germany']
Peso3 = datos.Weight[datos.Team == 'Austria']

anova_nueva = stats.f_oneway(Peso1, Peso2, Peso3)
print("Anova:", anova_nueva)

Anova: F_onewayResult(statistic=1.0939372546819457, pvalue=0.33511185744781663)


In [25]:
print(Peso1, Peso2, Peso3)

15789     70.0
23817     79.0
25506     81.0
25960     57.0
28647     68.0
          ... 
249731    63.0
249746    76.0
251061    84.0
257657    79.0
259031    70.0
Name: Weight, Length: 88, dtype: float64 1244      69.0
1246      69.0
1247      69.0
1533      87.0
1737      62.0
          ... 
269783    93.0
269855    65.0
269989    80.0
271009    60.0
271019    64.0
Name: Weight, Length: 1518, dtype: float64 4994      53.0
12006     70.0
16272     68.0
21548     70.0
21551     70.0
          ... 
262478    67.0
267310    77.0
268578    93.0
268629    61.0
269861    80.0
Name: Weight, Length: 247, dtype: float64


In [26]:
media_peso1 = Peso1.mean()
media_peso2 = Peso2.mean()
media_peso3 = Peso3.mean()

print("Media Peso1:", media_peso1)
print("Media Peso2:", media_peso2)
print("Media Peso3:", media_peso3)

Media Peso1: 74.07954545454545
Media Peso2: 73.7463768115942
Media Peso3: 72.4251012145749


### Observaciones / Conclusiones
- p-value: El valor p obtenido es 0.335, lo cual es mayor a 0.05. Esto indica que no se rechaza la hipótesis nula, es decir, no hay diferencias significativas entre los pesos de los grupos analizados (Belgium, Germany y Austria).
- media: Los pesos promedio de los grupos son 74.07 kg (Belgium), 73.74 kg (Germany) y 72.42 kg (Austria).

### Conclusión:
El análisis muestra que no existen diferencias significativas en los pesos promedio de los atletas de Belgium, Germany y Austria. El tamaño de las muestras es de 88, 1518 y 247 respectivamente. Aunque los tamaños de las muestras no son uniformes, el p-value mayor a 0.05 sugiere que las diferencias observadas podrían ser por suerte y no de un efecto real de la nacionalidad en el peso de los atletas. Principalmente porque escogí equipos al azar y no por su desempeño en los juegos olímpicos. Lo que sí tienen en común es que son países europeos muy cercanos entre sí, lo que podría explicar la similitud en los pesos de los atletas.