# Initiation au Traitement des Données avec Python  

Installez `pandas` , `seaborn`, `matplotlib` et `numpy` dans votre environnement pour pouvoir utiliser ce notebook.



In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

# Créons un DataFrame fictif
data = {
    'nom': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hugo', 'Inès', 'Julien', 'Yasmina'],
    'âge': [25, 34, 17, 62, 29, 45, 30, 16, 38, 55, 40],
    'ville': ['Paris', 'Lyon', 'Paris', 'Marseille', 'Lyon', 'Paris', 'Marseille', 'Paris', 'Lyon', 'Marseille', 'Rabat'],
    'salaire': [35000, 42000, 22000, 55000, 38000, 47000, 36000, 20000, 41000, 52000, 39000],
}

df = pd.DataFrame(data)

In [None]:
df.head()
# Affiche les 5 premières lignes du DataFrame

In [None]:
# Filtrer par âge
mineurs = df[df['âge'] < 18]
print(mineurs)

In [None]:
# Plusieurs conditions
paris_adultes = df[(df['âge'] >= 18) & (df['ville'] == 'Paris')]
print(paris_adultes)

In [None]:
# Ajouter une colonne
df['année_naissance'] = 2025 - df['âge']
df.head()

In [None]:
# Mapper les villes vers des pays
df['pays'] = df['ville'].map({'Paris': 'France', 'Lyon': 'France', 'Marseille': 'France', 'Rabat': 'Maroc'})
print(df[['ville', 'pays']])

In [None]:
# Catégoriser l'âge
def categorie_age(age):
    if age < 18: return 'Mineur'
    elif age < 60: return 'Adulte'
    else: return 'Senior'

df['catégorie'] = df['âge'].apply(categorie_age)
print(df[['nom', 'âge', 'catégorie']])

In [None]:
# Statistiques générales
print(df.describe())

In [None]:
# Moyenne des salaires à Paris
moyenne_salaire_paris = df[df['ville'] == 'Paris']['salaire'].mean()
print("Salaire moyen à Paris :", moyenne_salaire_paris)

In [None]:
# Grouper par ville
stats_par_ville = df.groupby('ville').agg({
    'âge': ['mean', 'median', 'count'],
    'salaire': 'mean'
})
print(stats_par_ville)

In [None]:
# Histogramme des âges
sns.histplot(df['âge'], bins=10)
plt.title("Répartition des âges")
plt.show()

In [None]:
# Boxplot des âges par ville
sns.boxplot(x='ville', y='âge', data=df)
plt.title("Âge par ville")
plt.show()


In [None]:
# Nuage de points âge vs salaire
sns.scatterplot(x='âge', y='salaire', data=df)
plt.title("Relation entre âge et salaire")
plt.show()

In [None]:
# Corrélation
corr = df.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr, annot=True)
plt.title("Matrice de corrélation")
plt.show()