Olympic Dataset day 

Un ensemble de données sur les biographies des athlètes olympiques au cours des 100 dernières années.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

xl = pd.ExcelFile('./data/olympics-data.xlsx')
bios_df = pd.read_excel(xl, sheet_name='bios')
bios_df

Chaque fois que nous travaillons avec un nouvel ensemble de données, nous devons en avoir une première idée en utilisant head(), info() et describe().

In [None]:
bios_df.head(10)

In [None]:
bios_df.info()

In [None]:
bios_df.describe()

##### Traitement de données manquantes

Les données manquantes (numpy.nan) sont un problème récurrent dans l'analyse des données. Elles peuvent provenir de diverses raisons telles que des erreurs de saisie, des mesures non enregistrées ou des informations non fournies. 

1) Detection

Avant de commencer l'analyse d'un ensemble de données, il convient de s'occuper en priorité des valeurs manquantes.

In [None]:
bios_df.isna().sum()

Suppression des valeurs manquantes

In [None]:
df = pd.DataFrame([[np.nan, 1, 2], [1, 2, np.nan], [1, 2, 3]], columns=['A', 'B', 'C'])
df

In [None]:
#### en utilisant de supression et des axes differentes
df.dropna()

Imputation des valeurs manquantes avec **fillna()**

In [None]:
df.fillna(3, inplace = True)

In [None]:
df

La méthode **interpolate()** de pandas est utilisée pour combler les valeurs manquantes dans une série ou un DataFrame en effectuant une interpolation. Elle permet d'estimer les valeurs intermédiaires en fonction des données existantes

In [None]:
df.interpolate(method = 'linear')

In [None]:
bios_df.head(5)

In [None]:
#### Traitement des valeurs manquantes dans notre ensemble de données
bios_df['died_date'].fillna('Still Alive', inplace = True)

In [23]:
bios_df

Unnamed: 0,athlete_id,name,born_date,born_city,born_region,born_country,NOC,height_cm,weight_kg,died_date
0,1,Jean-François Blanchy,1886-12-12,Bordeaux,Gironde,FRA,France,,,1960-10-02
1,2,Arnaud Boetsch,1969-04-01,Meulan,Yvelines,FRA,France,183.0,76.0,Still Alive
2,3,Jean Borotra,1898-08-13,Biarritz,Pyrénées-Atlantiques,FRA,France,183.0,76.0,1994-07-17
3,4,Jacques Brugnon,1895-05-11,Paris VIIIe,Paris,FRA,France,168.0,64.0,1978-03-20
4,5,Albert Canet,1878-04-17,Wandsworth,England,GBR,France,,,1930-07-25
...,...,...,...,...,...,...,...,...,...,...
145495,149222,Polina Luchnikova,2002-01-30,Serov,Sverdlovsk,RUS,ROC,167.0,61.0,Still Alive
145496,149223,Valeriya Merkusheva,1999-09-20,Moskva (Moscow),Moskva,RUS,ROC,168.0,65.0,Still Alive
145497,149224,Yuliya Smirnova,1998-05-08,Kotlas,Arkhangelsk,RUS,ROC,163.0,55.0,Still Alive
145498,149225,André Foussard,1899-05-19,Niort,Deux-Sèvres,FRA,France,166.0,,1986-03-18


In [25]:
bios_df.isna().sum()

athlete_id          0
name                0
born_date        1807
born_city       34592
born_region     34592
born_country    34592
NOC                 1
height_cm       38849
weight_kg       43430
died_date           0
dtype: int64

Exercise

En utilisant les méthodes apprises ci-dessus, complétez les valeurs manquantes pour les colonnes poids et taille. 

##### Les valeurs textuelles dans Pandas :
Pandas permet plusieurs opérations pour rechercher, filtrer et manipuler des colonnes contenant des chaînes de caractères (str).

**contains()** : Filtrer les valeurs contenant un texte spécifique
Permet de rechercher partout dans la chaîne.

In [None]:
#### filtrer toutes les valeurs de la colonne « born_city » si elles contiennent l'expression « Gen ».
bios_df.loc[bios_df['born_city'].str.contains('Gen', na=False)]

**endswith()** : Filtrer les valeurs qui se terminent par un certain texte

In [None]:
bios_df.loc[bios_df['name'].str.endswith('ov', na=False)]

**startswith()** : Filtrer les valeurs qui commencent par un certain texte
Permet de sélectionner uniquement les valeurs d’une colonne qui commencent par un préfixe spécifique.

In [28]:
#### tribute to Shaquille O'Neal
bios_df.loc[bios_df['name'].str.startswith('Shaq', na=False)]

Unnamed: 0,athlete_id,name,born_date,born_city,born_region,born_country,NOC,height_cm,weight_kg,died_date


Exercise: 

Trouver les athlètes ayant le même prénom que vous

Ensuite, créez un histogramme qui affiche la répartition des pays (NOC) des athlètes trouvés.


##### Séries Chronologiques
En utilisant le NumPy **datetime64**, pandas contient des capacités et des fonctionnalités étendues pour travailler avec des données de séries temporelles dans tous les domaines. 
Les séries chronologiques sont des ensembles de données indexées par le temps. Elles sont essentielles pour l'analyse des tendances, des prédictions et des modèles temporels.

In [None]:
type(bios_df['born_date'][0])

In [None]:
#### la conversion entre str et datetime
new_datetime = pd.to_datetime(bios_df['born_date'][0]).date
new_datetime

Dans notre dataset, nous avons deux colonnes contenant des dates sous forme de chaînes de caractères (born_date, died_date). Nous devons les convertir en datetime pour une meilleure manipulation :

In [14]:
bios_df["born_date"] = pd.to_datetime(bios_df["born_date"], errors='coerce', exact = False)
bios_df["died_date"] = pd.to_datetime(bios_df["died_date"], errors='coerce', exact = False)

In [None]:
bios_df['born_date']

In [None]:
bios_df['born_date'].dt.year.dropna()

In [None]:
#### Histogramme des Années de Naissance
all_years = bios_df["born_date"].dt.year.dropna().astype(int)

plt.figure(figsize = (10,5))
plt.hist(all_years, bins = 30, color = 'teal', edgecolor = 'black')
plt.xlabel("Année de naissance")
plt.ylabel("Nombre d'athlètes")
plt.title("Distribution des années de naissance des athlètes")
plt.show()

In [None]:
bios_df['born_date']

In [None]:
bios_df.dropna(subset = ['born_date'], inplace = True) ##### supprime uniquement les lignes où la colonne born_date contient une valeur manquante (NaN).
bios_df.sort_values(by = ['born_date']) ### Note: Le tri n'est pas appliqué directement au DataFrame, car inplace=True n’a pas été précisé.

Visualisation des principales nationalités de tous les athlètes sur notre ligne temporelle

Exercise

1) Ajoutez une nouvelle colonne booléenne nommée **'born_after_2000'**, qui indique **True** si un athlète est né après l'année 2000 et **False** dans le cas contraire. 
2) Affichez un PieChart de la répartition des pays entre 2000 et l'année la plus récente de l'ensemble de données.

In [None]:
# countries = ['Albania', 'France', 'Switzerland', 'United States']
new_df = df['NOC'].loc[(df['height_cm'] > 200.0)]
new_df

In [None]:
bios_df[['name', 'NOC']].loc[bios_df['name'].values.startswith('Nikita')]

In [None]:
new_df.value_counts()

##### Manipulation Avancée des Données avec Pandas : Group By, Merge, Join et Concat

Lors du traitement des données tabulaires, il est souvent nécessaire d’agréger, fusionner ou concaténer des DataFrames.

**groupby()** : Regrouper et Aggréger les Données

Le groupby permet de regrouper les données en fonction d'une ou plusieurs colonnes et d'appliquer des opérations d'agrégation (somme, moyenne, comptage, etc.).

In [None]:
data = {"Athlete": ["A", "B", "A", "C", "B"],
        "Discipline": ["Natation", "Athlétisme", "Natation", "Cyclisme", "Athlétisme"],
        "Medals": [1, 2, 3, 1, 4],
        'Max Speed': [380., 370., 240., 260., 180.]}
df = pd.DataFrame(data)
print(df)
# Regrouper par athlète et calculer le total des médailles
medals_per_athlete = df.groupby("Athlete")["Medals"].sum()
print(medals_per_athlete)

In [None]:
df.groupby('Discipline')['Max Speed'].mean()

In [None]:
#### Exemple dans notre dataset
athletes_per_country = bios_df.groupby("NOC")["athlete_id"].count()
print(athletes_per_country)

**merge()** : Fusionner des DataFrames

La méthode merge() permet de combiner deux DataFrames en fonction d'une clé commune, similaire à une jointure SQL.

In [None]:
athletes = pd.DataFrame({"athlete_id": ['A1', 'A2', 'A3'], "name": ["Alice", "Bob", "Charlie"]})
medals = pd.DataFrame({"athlete_id": ['A1', 'A2', 'A3'], "gold_medals": [2, 0, 1]})
athletes

In [None]:
medals

In [None]:
#### Fusion sur la colonne 'athlete_id'
merged_df = pd.merge(athletes, medals, on="athlete_id")
merged_df

**join()** : Fusionner sur l’Index

Contrairement à merge(), la méthode join() fonctionne sur les index des DataFrames.

In [None]:
first_df = pd.DataFrame({'key1': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
                   'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
print('First DF: {}\n'.format(first_df))
other = pd.DataFrame({'key2': ['K0', 'K1', 'K2'],
                      'B': ['B0', 'B1', 'B2']})
print('Second DF: {}\n'.format(other))

joined_df = first_df.join(other)
joined_df

**concat()** : Concaténation de DataFrames

La fonction concat() permet d'assembler plusieurs DataFrames soit en ligne (axis=0), soit en colonne (axis=1).

In [None]:
part1 = pd.DataFrame({"athlete_id": [1, 2], "name": ["Alice", "Bob"]})
part2 = pd.DataFrame({"athlete_id": [3, 4], "name": ["Charlie", "David"]})

print('First DF: {}\n'.format(part1))
print('Second DF: {}\n'.format(part2))

#### Concaténation verticale
concatenated_df = pd.concat([part1, part2], axis=0)
concatenated_df

Exercise

Revenons à notre ensemble de données :

1) Imprimez une concaténation de tous les athlètes jouant pour la France ou la Suisse.
2) Regroupez chaque athlète par ville de naissance et calculez la moyenne taille/ville.