# **Cuál ha sido el país más ganador en los olímpicos?**

A lo largo de la historia se han celebrado tradicionalmente los juegos olímpicos. Actualmente, cuenta con dos versiones: los juegos de verano y los juegos de invierno, ambos celebrados cada cuatro años. Desde sus comienzos, distintos países han participado de estos juegos en los distintos deportes ofrecidos, ganando las distintas medallas: oro, plata y bronce. Precisamente, es con estas medallas que se determina el ganador de los juegos celebrados. Teniendo esto en cuenta, es posible determinar el país más ganador en los olímpicos? Lo anterior sabiendo que hay dos versiones de los juegos y los pesos que se le dan a las medallas ganadas en cada deporte son diferentes.

Intentaremos responder la pregunta anterior desde diferentes enfoques usando el dataset `olimpics.csv`. Importemos primero los paquetes a usar:

In [1]:
import numpy as np
import pandas as pd

Leemos el dataset como un dataframe de pandas:

In [2]:
tab=pd.read_csv('olympics.csv', index_col = 0, skiprows=1)
tab.head()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


In [3]:
tab.tail()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Independent Olympic Participants (IOP) [IOP],1,0,1,2,3,0,0,0,0,0,1,0,1,2,3
Zambia (ZAM) [ZAM],12,0,1,1,2,0,0,0,0,0,12,0,1,1,2
Zimbabwe (ZIM) [ZIM],12,3,4,1,8,1,0,0,0,0,13,3,4,1,8
Mixed team (ZZX) [ZZX],3,8,5,4,17,0,0,0,0,0,3,8,5,4,17
Totals,27,4809,4775,5130,14714,22,959,958,948,2865,49,5768,5733,6078,17579


Hagamos la tabla más entendible:

In [4]:
tab=tab.drop('Totals')
tab=tab.drop(columns=[tab.columns[0],tab.columns[5],tab.columns[10]])
cols=['Gold Summer','Silver Summer','Bronze Summer','Summer Total','Gold Winter','Silver Winter','Bronze Winter','Winter Total','Gold Total','Silver Total','Bronze Total']
for i in range(11):
    tab.rename(columns={tab.columns[i]:cols[i]}, inplace=True)
nam=tab.index.str.split('\s\(')
tab.index = nam.str[0] 
tab.head()

Unnamed: 0,Gold Summer,Silver Summer,Bronze Summer,Summer Total,Gold Winter,Silver Winter,Bronze Winter,Winter Total,Gold Total,Silver Total,Bronze Total,Combined total
Afghanistan,0,0,2,2,0,0,0,0,0,0,2,2
Algeria,5,2,8,15,0,0,0,0,5,2,8,15
Argentina,18,24,28,70,0,0,0,0,18,24,28,70
Armenia,1,2,9,12,0,0,0,0,1,2,9,12
Australasia,3,4,5,12,0,0,0,0,3,4,5,12


In [5]:
tab.tail()

Unnamed: 0,Gold Summer,Silver Summer,Bronze Summer,Summer Total,Gold Winter,Silver Winter,Bronze Winter,Winter Total,Gold Total,Silver Total,Bronze Total,Combined total
Yugoslavia,26,29,28,83,0,3,1,4,26,32,29,87
Independent Olympic Participants,0,1,2,3,0,0,0,0,0,1,2,3
Zambia,0,1,1,2,0,0,0,0,0,1,1,2
Zimbabwe,3,4,1,8,0,0,0,0,3,4,1,8
Mixed team,8,5,4,17,0,0,0,0,8,5,4,17


Exploremos un poco ahora el dataset. Veamos que países han ganado más y menos medallas de oro en los juegos de verano:

In [6]:
print('Más medallas de oro: '+tab['Gold Summer'].idxmax())
print('Menos medallas de oro: '+tab['Gold Summer'].idxmin())

Más medallas de oro: United States
Menos medallas de oro: Afghanistan


Veamos que países han ganado más y menos medallas de oro en los juegos de invierno:

In [7]:
print('Más medallas de oro: '+tab['Gold Winter'].idxmax())
print('Menos medallas de oro: '+tab['Gold Winter'].idxmin())

Más medallas de oro: Norway
Menos medallas de oro: Afghanistan


Veamos que país han ganado más y menos medallas en total en los juegos de verano:

In [8]:
print('Más medallas en total en los juegos de verano: '+tab['Summer Total'].idxmax())
print('Menos medallas en total en los juegos de verano: '+tab['Summer Total'].idxmin())

Más medallas en total en los juegos de verano: United States
Menos medallas en total en los juegos de verano: Liechtenstein


Veamos que países han ganado más y menos medallas en total en los juegos de invierno:

In [9]:
print('Más medallas en total en los juegos de invierno: '+tab['Winter Total'].idxmax())
print('Menos medallas en total en los juegos de invierno: '+tab['Winter Total'].idxmin())

Más medallas en total en los juegos de invierno: Norway
Menos medallas en total en los juegos de invierno: Afghanistan


Veamos que países tienen más y menos medallas en total en ambos juegos:

In [10]:
print('Más medallas en total: '+tab['Combined total'].idxmax())
print('Menos medallas en total: '+tab['Combined total'].idxmin())

Más medallas en total: United States
Menos medallas en total: Bahrain


La exploración anterior nos da una idea del desempeño de algunos países en las dos ediciones de los juegos olímpicos. Veamos ahora los distintos enfoques para saber qué país podría ser el más ganador de los juegos olímpicos:
### Oro primero
Se basa en contabilizar primero las medallas de oro, luego las de plata y finalmente las de bronce. Para los juegos de verano, tendríamos:

In [11]:
a=['Gold Summer','Silver Summer','Bronze Summer']
tab.loc[:,a].sort_values(by=a,ascending=False).idxmax()

Gold Summer      United States
Silver Summer    United States
Bronze Summer    United States
dtype: object

Para los juegos de invierno, tendríamos:

In [12]:
a=['Gold Winter','Silver Winter','Bronze Winter']
tab.loc[:,a].sort_values(by=a,ascending=False).idxmax()

Gold Winter      Norway
Silver Winter    Norway
Bronze Winter    Norway
dtype: object

Teniendo en cuenta ambos juegos, tendríamos:

In [13]:
a=['Gold Total','Silver Total','Bronze Total']
tab.loc[:,a].sort_values(by=a,ascending=False).idxmax()

Gold Total      United States
Silver Total    United States
Bronze Total    United States
dtype: object

Bajo este método, el más ganador en los juegos verano es Estados Unidos, el más ganador en los juegos de inverno es Noruega y el más ganador en ambos juegos es Estados Unidos.
### Medallas totales
Se basa en el número total de medallas ganadas. Bajo este método, tenemos:

In [14]:
print('Más ganador en los juegos de verano: '+tab['Summer Total'].idxmax())
print('Más ganador en los juegos de invierno: '+tab['Winter Total'].idxmax())
print('Más ganador en ambos juegos: '+tab['Combined total'].idxmax())

Más ganador en los juegos de verano: United States
Más ganador en los juegos de invierno: Norway
Más ganador en ambos juegos: United States


Este enfoque curiosamente, coincide con el caso anterior.
### Medallas de oro totales
Se basa en contar todas las medallas de oro ganadas en cada disciplina por cada deportista. Bajo este método, se tiene:

In [15]:
print('Más ganador en los juegos de verano: '+tab['Gold Summer'].idxmax())
print('Más ganador en los juegos de invierno: '+tab['Gold Winter'].idxmax())
print('Más ganador en ambos juegos: '+tab['Gold Total'].idxmax())

Más ganador en los juegos de verano: United States
Más ganador en los juegos de invierno: Norway
Más ganador en ambos juegos: United States


Nuevamente, este método coincide con los anteriores.
### Sistema de ponderaciones de Fibonacci
Este método le asigna un peso de 3 puntos a las medallas de oro, dos puntos a las medallas de plata y 1 punto a las medallas de bronce. Veamos los resultados de este enfoque:

In [16]:
tab['Summer Points']= (tab['Gold Summer']*3+tab['Silver Summer']*2+tab['Bronze Summer'])
tab['Winter Points']= (tab['Gold Winter']*3+tab['Silver Winter']*2+tab['Bronze Winter'])
tab['Total Points']= (tab['Gold Total']*3+tab['Silver Total']*2+tab['Bronze Total'])
print('Más ganador en los juegos de verano: '+tab['Summer Points'].idxmax())
print('Más ganador en los juegos de invierno: '+tab['Winter Points'].idxmax())
print('Más ganador en ambos juegos: '+tab['Total Points'].idxmax())

Más ganador en los juegos de verano: United States
Más ganador en los juegos de invierno: Norway
Más ganador en ambos juegos: United States


Al igual que antes, este método coincide con los mostrados previamente.
### Ranking demográfico per-capita
En este método el número de medallas se divide sobre la población del país. Para determinar la población de cada país usaremos el dataset `pop.csv` con la población registrada de varios países de 1960 a 2016:

In [17]:
pop=pd.read_csv('pop.csv',index_col=0,skiprows=3)
pop=pop.drop(columns=pop.columns[:3])
pop.head()

Unnamed: 0_level_0,1960,1961,1962,1963,1964,1965,1966,1967,1968,1969,...,2009,2010,2011,2012,2013,2014,2015,2016,2017,Unnamed: 62
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Aruba,54211.0,55438.0,56225.0,56695.0,57032.0,57360.0,57715.0,58055.0,58386.0,58726.0,...,101453.0,101669.0,102053.0,102577.0,103187.0,103795.0,104341.0,104822.0,,
Afghanistan,8996351.0,9166764.0,9345868.0,9533954.0,9731361.0,9938414.0,10152331.0,10372630.0,10604346.0,10854428.0,...,28004331.0,28803167.0,29708599.0,30696958.0,31731688.0,32758020.0,33736494.0,34656032.0,,
Angola,5643182.0,5753024.0,5866061.0,5980417.0,6093321.0,6203299.0,6309770.0,6414995.0,6523791.0,6642632.0,...,22549547.0,23369131.0,24218565.0,25096150.0,25998340.0,26920466.0,27859305.0,28813463.0,,
Albania,1608800.0,1659800.0,1711319.0,1762621.0,1814135.0,1864791.0,1914573.0,1965598.0,2022272.0,2081695.0,...,2927519.0,2913021.0,2905195.0,2900401.0,2895092.0,2889104.0,2880703.0,2876101.0,,
Andorra,13411.0,14375.0,15370.0,16412.0,17469.0,18549.0,19647.0,20758.0,21890.0,23058.0,...,84462.0,84449.0,83751.0,82431.0,80788.0,79223.0,78014.0,77281.0,,


Como población para cada país en `olimpics.csv` tomaremos la media poblacional sacada de `pop.csv`. A los países registrados en `olimpics.csv` que no aparecen en `pop.csv` no se les asignará un valor a su población:

In [18]:
a=[]
for i in tab.index:
    if i in pop.index:
        a.append(pop.mean(axis=1)[i])    
    else:
        a.append(None)
pob=pd.DataFrame(a,index=tab.index,columns=['Media poblacional'])
pob.head()

Unnamed: 0,Media poblacional
Afghanistan,17040450.0
Algeria,24537490.0
Argentina,31852730.0
Armenia,2909755.0
Australasia,


Dividimos entonces las medallas de cada país entre la media poblacional y obtenemos:

In [19]:
Tab=tab.copy()
for i in tab.index:
    Tab.loc[i]=Tab.loc[i].div(pob.loc[i][0])
Tab=Tab.drop(columns=tab.columns[-3:])
Tab.head()

Unnamed: 0,Gold Summer,Silver Summer,Bronze Summer,Summer Total,Gold Winter,Silver Winter,Bronze Winter,Winter Total,Gold Total,Silver Total,Bronze Total,Combined total
Afghanistan,0.0,0.0,1.173678e-07,1.173678e-07,0.0,0.0,0.0,0.0,0.0,0.0,1.173678e-07,1.173678e-07
Algeria,2.037698e-07,8.150792e-08,3.260317e-07,6.113094e-07,0.0,0.0,0.0,0.0,2.037698e-07,8.150792e-08,3.260317e-07,6.113094e-07
Argentina,5.651006e-07,7.534675e-07,8.790454e-07,2.197613e-06,0.0,0.0,0.0,0.0,5.651006e-07,7.534675e-07,8.790454e-07,2.197613e-06
Armenia,3.436715e-07,6.873431e-07,3.093044e-06,4.124058e-06,0.0,0.0,0.0,0.0,3.436715e-07,6.873431e-07,3.093044e-06,4.124058e-06
Australasia,,,,,,,,,,,,


Ahora con esta nueva tabla, apliquemos algunos de los enfoques anteriores:
#### Medallas totales

In [20]:
print('Más ganador en los juegos de verano: '+Tab['Summer Total'].idxmax())
print('Más ganador en los juegos de invierno: '+Tab['Winter Total'].idxmax())
print('Más ganador en ambos juegos: '+Tab['Combined total'].idxmax())

Más ganador en los juegos de verano: Finland
Más ganador en los juegos de invierno: Liechtenstein
Más ganador en ambos juegos: Liechtenstein


#### Sistema de ponderaciones de Fibonacci

In [21]:
Tab['Summer Points']= (Tab['Gold Summer']*3+Tab['Silver Summer']*2+Tab['Bronze Summer'])
Tab['Winter Points']= (Tab['Gold Winter']*3+Tab['Silver Winter']*2+Tab['Bronze Winter'])
Tab['Total Points']= (Tab['Gold Total']*3+Tab['Silver Total']*2+Tab['Bronze Total'])
print('Más ganador en los juegos de verano: '+Tab['Summer Points'].idxmax())
print('Más ganador en los juegos de invierno: '+Tab['Winter Points'].idxmax())
print('Más ganador en ambos juegos: '+Tab['Total Points'].idxmax())

Más ganador en los juegos de verano: Finland
Más ganador en los juegos de invierno: Liechtenstein
Más ganador en ambos juegos: Liechtenstein


Note que, bajo este nuevo ranking y usando enfoques anteriores, los países más ganadores difieren con lo expuesto anteriormente.
### Ranking demográfico per-PIB
El número de medallas se divide sobre el producto interno bruto de cada país. Para determinar el PIB de cada país usaremos el dataset `gdp.csv` con el PIB registrado de varios países de 1960 a 2016:

In [22]:
gdp=pd.read_csv('gdp.csv',index_col=0,skiprows=3)
gdp=gdp.drop(columns=gdp.columns[:3])
gdp.head()

Unnamed: 0_level_0,1960,1961,1962,1963,1964,1965,1966,1967,1968,1969,...,2009,2010,2011,2012,2013,2014,2015,2016,2017,Unnamed: 62
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Aruba,,,,,,,,,,,...,2498933000.0,2467704000.0,2584464000.0,,,,,,,
Afghanistan,537777800.0,548888900.0,546666700.0,751111200.0,800000000.0,1006667000.0,1400000000.0,1673333000.0,1373333000.0,1408889000.0,...,12486940000.0,15936800000.0,17930240000.0,20536540000.0,20264250000.0,20616100000.0,19215560000.0,19469020000.0,,
Angola,,,,,,,,,,,...,75492380000.0,82470910000.0,104115900000.0,115398400000.0,124912100000.0,126776900000.0,102962200000.0,95335110000.0,,
Albania,,,,,,,,,,,...,12044210000.0,11926950000.0,12890870000.0,12319780000.0,12776280000.0,13228240000.0,11335260000.0,11863870000.0,,
Andorra,,,,,,,,,,,...,3660531000.0,3355695000.0,3442063000.0,3164615000.0,3281585000.0,3350736000.0,2811489000.0,2858518000.0,,


Como PIB para cada país en `olimpics.csv` tomaremos el PIB promedio sacado de `gdp.csv`. A los países registrados en `olimpics.csv` que no aparecen en `gdpp.csv` no se les asignará un valor a su PIB:

In [23]:
a=[]
for i in tab.index:
    if i in gdp.index:
        a.append(gdp.mean(axis=1)[i])    
    else:
        a.append(None)
pib=pd.DataFrame(a,index=tab.index,columns=['PIB promedio'])
pib.head()

Unnamed: 0,PIB promedio
Afghanistan,6247032000.0
Algeria,61474670000.0
Argentina,185090500000.0
Armenia,5334370000.0
Australasia,


Dividimos entonces las medallas de cada país entre PIB promedio y obtenemos:

In [24]:
for i in tab.index:
    tab.loc[i]=tab.loc[i].div(pib.loc[i][0])
tab=tab.drop(columns=tab.columns[-3:])
tab.head()

Unnamed: 0,Gold Summer,Silver Summer,Bronze Summer,Summer Total,Gold Winter,Silver Winter,Bronze Winter,Winter Total,Gold Total,Silver Total,Bronze Total,Combined total
Afghanistan,0.0,0.0,3.20152e-10,3.20152e-10,0.0,0.0,0.0,0.0,0.0,0.0,3.20152e-10,3.20152e-10
Algeria,8.133431e-11,3.253372e-11,1.301349e-10,2.440029e-10,0.0,0.0,0.0,0.0,8.133431e-11,3.253372e-11,1.301349e-10,2.440029e-10
Argentina,9.724974e-11,1.296663e-10,1.512774e-10,3.781934e-10,0.0,0.0,0.0,0.0,9.724974e-11,1.296663e-10,1.512774e-10,3.781934e-10
Armenia,1.874636e-10,3.749272e-10,1.687172e-09,2.249563e-09,0.0,0.0,0.0,0.0,1.874636e-10,3.749272e-10,1.687172e-09,2.249563e-09
Australasia,,,,,,,,,,,,


Ahora con esta nueva tabla, apliquemos algunos de los enfoques anteriores:
#### Medallas totales

In [25]:
print('Más ganador en los juegos de verano: '+tab['Summer Total'].idxmax())
print('Más ganador en los juegos de invierno: '+tab['Winter Total'].idxmax())
print('Más ganador en ambos juegos: '+tab['Combined total'].idxmax())

Más ganador en los juegos de verano: Jamaica
Más ganador en los juegos de invierno: Liechtenstein
Más ganador en ambos juegos: Jamaica


#### Sistema de ponderaciones de Fibonacci

In [26]:
tab['Summer Points']= (tab['Gold Summer']*3+tab['Silver Summer']*2+tab['Bronze Summer'])
tab['Winter Points']= (tab['Gold Winter']*3+tab['Silver Winter']*2+tab['Bronze Winter'])
tab['Total Points']= (tab['Gold Total']*3+tab['Silver Total']*2+tab['Bronze Total'])
print('Más ganador en los juegos de verano: '+tab['Summer Points'].idxmax())
print('Más ganador en los juegos de invierno: '+tab['Winter Points'].idxmax())
print('Más ganador en ambos juegos: '+tab['Total Points'].idxmax())

Más ganador en los juegos de verano: Jamaica
Más ganador en los juegos de invierno: Liechtenstein
Más ganador en ambos juegos: Jamaica


Note que, al igual que el caso anterior, los países más ganadores difieren con lo expuesto anteriormente.
## Conclusiones
Se usó el dataset `olimpics.csv`, que contiene registros de las medallas ganadas en las ediciones de verano e invierno por los países participantes, para intentar determinar el país más ganador de los juegos olímpicos. Distintos enfoques fueron usados intentar tener una respuesta y se establacen las siguientes conclusiones con base a estos:
* **Oro primero**. No parece ser muy justo pues no le da valor a las medallas de plata y bronce.
* **Medallas totales**. Tampoco parece ser muy equitativo pues le da igual valor a las tres medallas, lo que no es simbolica y mentalmente cierto.
* **Medallas de oro totales**. Similar al primer método, no tiene en cuenta las otras medallas.
* **Sistema de ponderaciones de Fibonacci**. El más justo de los métodos estudiados pues pondera las medallas por su "importancia".
* A pesar de las diferentes maneras en que los métodos anteriores dan un veredicto, todos coinciden en su resultado. Se tuvo en consideración las dos ediciones de los juegos olímpicos por separado y en conjunto.
* **Ranking demográfico per-capita**. Al tener en cuenta el factor población, afecta grandemente los otros métodos, que al ser utilizados dan resultados diferentes a los previamente mostrados.
* **Ranking demográfico per-PIB**. Análogamente al caso anterior, el factor PIB afecta los métodos usados y hace que difieran con los resultados previos.
* Un incoveniente que se presenta al usar los rankings demográficos es que no todos los países registrados en `olimpics.csv` aparecen en los datasets con la información poblacional y del PIB, lo cual hace que estos países no se tengan en cuenta en los rankings y por ende, afecta los métodos estudiados al aplicarlo a los rankings.

Así entonces, a ciencia cierta, no es posible determinar el país más ganador de los olímpicos pues no hay un concenso internacional al respecto. Sin embargo, los enfoques trabajados en este estudio son un ejemplo de los caminos que pueden tomarse para dicho objetivo, aunque claro, se pueden considerar algunos métodos más justos que otros.