### question 10 : sur la sp√©cialisation des pays. 


Le but est d'identifier diff√©rents profils de pays :

- ceux qui sont tr√®s sp√©cialis√©s (ie qui ont gagn√© leurs m√©dailles dans peu de sport diff√©rents)
- ceux qui sont plus √©quilibr√©s (ie qui ont gagn√© leurs m√©dailles dans beaucoup de sports diff√©rents)


Pour cela on va cr√©er un **ratio de sp√©cialisation**, calcul√© pour chaque pays comme √©tant le rapport entre le nombre de m√©dailles obtenues dans le sport le plus repr√©sent√© et le nombre total de m√©dailles.
Ainsi, un fort ratio indique une forte sp√©cialisation.

In [6]:
# on importe le package
import pandas as pd

# on charge les donn√©es
athletes = pd.read_csv('athlete_events.csv')
noc = pd.read_csv('noc_regions.csv')

# fusion des deux tableaux
data = pd.merge(athletes, noc, how='left', on='NOC')

# on ne garde que les places avec m√©dailles
data_medals = data.dropna(subset = ['Medal'])

# on calcule le nombre de m√©dailles par sport, par pays
grouped = data_medals.groupby(['NOC','Sport']).size().reset_index(name='podium_count')

# on s√©lectionne le sport avec le plus de m√©dailles pour chaque pays
max_podium = grouped.groupby('NOC')['podium_count'].max().reset_index(name="max_podium")

# on calcule le nombre total de m√©dailles par pays
total_podium = grouped.groupby('NOC')['podium_count'].sum().reset_index(name='total_podium')

#on fusionne dans un tableau
specialisation = pd.merge(max_podium, total_podium, on='NOC')
specialisation = specialisation.merge(noc[['NOC','region']], on='NOC', how='left')

# on calcule le ratio de sp√©cialisation de chaque pays. 
specialisation['ratio_specialisation'] = specialisation['max_podium'] / specialisation['total_podium']

# R√©organiser pour placer le nom du pays en premi√®re colonne et renommer si besoin
specialisation = specialisation[['region', 'max_podium', 'total_podium', 'ratio_specialisation']]
specialisation.rename(columns={'region': 'Country'}, inplace=True)

In [7]:
#ces r√©glages permettent d'afficher toutes les lignes des tableaux (pour chercher des valeurs pertinentes)
# si on veut afficher le tableau complet, on enl√®vera le .head()
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# Pays avec le plus faible taux de sp√©cialisation (remarques en bas du tableau)
spe_asc = specialisation.sort_values(by='ratio_specialisation', ascending = True).head(20)
spe_asc

Unnamed: 0,Country,max_podium,total_podium,ratio_specialisation
112,Russia,103,1165,0.088412
40,Russia,30,279,0.107527
49,Germany,236,2165,0.109007
22,China,109,989,0.110212
139,Russia,288,2503,0.115062
12,Belgium,54,468,0.115385
138,Ukraine,23,199,0.115578
44,Germany,71,586,0.12116
120,Switzerland,92,691,0.13314
123,Sweden,217,1536,0.141276


In [8]:
# afficher le ratio de sp√©cialisation des pays avec le plus de m√©dailles.

tab2 = specialisation.sort_values(by='total_podium', ascending = False).head(15)
tab2

#rq : pour voir le tableau en entier, il suffit d'enlever .head()

Unnamed: 0,Country,max_podium,total_podium,ratio_specialisation
141,USA,1080,5637,0.191591
139,Russia,288,2503,0.115062
49,Germany,236,2165,0.109007
46,UK,338,2068,0.163443
43,France,310,1777,0.174451
67,Italy,359,1637,0.219304
123,Sweden,217,1536,0.141276
20,Canada,348,1352,0.257396
6,Australia,401,1320,0.303788
112,Russia,103,1165,0.088412


### üî≠ Observations

1) souvent, un taux de sp√©cialisation proche de 1 signifie que le pays a gagn√© une ou peu de m√©dailles. 

2) cependant, certains pays ont un tr√®s fort taux de sp√©cialisation tout en ayant gagn√© beaucoup de m√©dailles. C'est le cas de la Jama√Øque . Cela montre leur domination dans un sport particulier. 

* L'√âthiopie a 53 m√©dailles, toutes dans un seul sport
* La Jama√Øque a 157 m√©dailles au total donc 156 dans un seul sport

3) Il serait int√©ressant ensuite d'identifier quels sont ces sports dans lesquels ces pays sont tr√®s sp√©cialis√©s. 


### üìù Remarques

1) le ratio de sp√©cialisation en lui-m√™me ne dit pas tout puisqu'un pays peu avoir un faible taux de sp√©cilisation mais peu de m√©dailles. 

2) Ainsi on pourrait cr√©er un indicateur de performance g√©n√©ral qui valoriserait √† la fois le nombre de m√©dailles gagn√©es ET le fait d'√™tre peu sp√©cialis√©. 

3) performance = {nombre total de m√©dailles gagn√©es} x [1 - ratio_specialisation]

4) Un pays avec beaucoup de m√©dailles et un faible ratio aura un score √©lev√©. Un pays avec beaucoup de m√©dailles mais un ratio de sp√©cialisation √©lev√© aura un score moyen. 

### ü¶∫ Piste d'approfondissement

(en cours)
afficher sur une carte choropl√®the le ratio de sp√©cialisation de chaque pays, en utilisant g√©opandas et potentiellement d'autres packages
   
intuitions (apr√®s les premi√®res observations): 
- l'Europe aura probablement un ratio de sp√©cialisation plus faible
- l'Afrique aura un ratio de sp√©cialisation plus √©lev√© (dans la course, l'athl√©tisme)