# Challenge 1 : Création et Exploration du DataFrame

In [42]:
import pandas as pd
import numpy as np

# Définir les colonnes et les données
columns = ["Nom", "Âge", "Ville"]
data = [
    ["Amine", 28, "Casablanca"],
    ["Lina", 22, "Rabat"],
    ["Youssef", 35, "Fès"],
    ["Salma", 30, "Casablanca"],
    ["Nora", np.nan, "Tanger"]
]

# Créer un DataFrame avec 3 colonnes : Nom, Âge, Ville
df = pd.DataFrame(data, columns=columns)

In [33]:
# Afficher les 3 premières lignes avec head()
print("Les 3 premières lignes:")
print(df.head(3))


Les 3 premières lignes:
       Nom   Âge       Ville
0    Amine  28.0  Casablanca
1     Lina  22.0       Rabat
2  Youssef  35.0         Fès


###  Interprétation des premières lignes :
- **5 lignes au total** avec 3 colonnes : Nom, Âge, Ville
- **Valeur manquante détectée** : Nora a `NaN` pour l'âge
- **Types de données** : Noms et villes en texte, âges en nombres décimaux
- **Échantillon représentatif** de personnes de différentes villes marocaines

# Afficher la structure du DataFrame avec info()

In [34]:

print("\nStructure du DataFrame:")
df.info()



Structure du DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Nom     5 non-null      object 
 1   Âge     4 non-null      float64
 2   Ville   5 non-null      object 
dtypes: float64(1), object(2)
memory usage: 252.0+ bytes


###  Interprétation de la structure :
- **5 entrées** (lignes 0 à 4) dans le DataFrame
- **3 colonnes** au total
- **Colonne Âge** : seulement 4 valeurs non-nulles sur 5 (1 valeur manquante)
- **Types de données** :
  - `object` : pour les chaînes de caractères (Nom, Ville)
  - `float64` : pour les nombres décimaux (Âge)
- **Mémoire utilisée** : 252+ bytes (très léger)

 Afficher des statistiques descriptives avec describe()

In [35]:

print("\nStatistiques descriptives:")
print(df.describe())


Statistiques descriptives:
             Âge
count   4.000000
mean   28.750000
std     5.377422
min    22.000000
25%    26.500000
50%    29.000000
75%    31.250000
max    35.000000


###  Interprétation des statistiques :
- **Échantillon** : 4 personnes avec âge connu (Nora exclue)
- **Âge moyen** : 28.75 ans
- **Âge médian** : 29 ans (50e percentile)
- **Écart-type** : 5.38 ans (faible variabilité)
- **Distribution** :
  - Plus jeune : 22 ans (Lina)
  - Plus âgé : 35 ans (Youssef)
  - Écart interquartile : 26.5 - 31.25 ans

# challenge 2

In [37]:
# Afficher les valeurs uniques de la colonne "Ville"
print("La colonne Ville contient les valeurs uniques suivantes :")
print(df["Ville"].unique())

La colonne Ville contient les valeurs uniques suivantes :
['Casablanca' 'Rabat' 'Fès' 'Tanger']


### 🏙️ Interprétation des villes uniques :
- **4 villes distinctes** dans notre dataset
- **Répartition géographique** : principales villes du Maroc
- **Pas de doublons** dans les noms de villes
- **Couverture nationale** : Nord (Tanger), Centre (Casablanca, Rabat), Sud-Est (Fès)

In [43]:
#Afficher les valeurs age sup de 25 ans
print("Les personnes de plus de 25 ans:")
print(df[df["Âge"] > 25])

Les personnes de plus de 25 ans:
       Nom   Âge       Ville
0    Amine  28.0  Casablanca
2  Youssef  35.0         Fès
3    Salma  30.0  Casablanca


###  Interprétation du filtrage par âge :
- **3 personnes** ont plus de 25 ans sur 5 total
- **Filtrage automatique** des valeurs NaN (Nora exclue)
- **Condition booléenne** `df["Âge"] > 25` appliquée efficacement
- **60% de l'échantillon** correspond au critère d'âge

In [45]:
#Afficher les nom et la ville des personnes de casa 
print("\nLes personnes de Casablanca:")
print(df[df["Ville"] == "Casablanca"][["Nom", "Ville"]])


Les personnes de Casablanca:
     Nom       Ville
0  Amine  Casablanca
3  Salma  Casablanca


###  Interprétation du filtrage par ville :
- **2 résidents** de Casablanca identifiés
- **Sélection de colonnes** spécifiques `[["Nom", "Ville"]]`
- **Filtrage et projection** combinés en une seule opération
- **Casablanca** représente 40% de notre échantillon

# Challenge 3 : Ajout et modification de colonnes

In [47]:
#Ajouter une colonne "date de naissance" avec la valeur "Maroc" pour toutes les lignes
df["date de naissance"] = 2025 - df["Âge"]
print(df)

       Nom   Âge       Ville  date de naissance
0    Amine  28.0  Casablanca             1997.0
1     Lina  22.0       Rabat             2003.0
2  Youssef  35.0         Fès             1990.0
3    Salma  30.0  Casablanca             1995.0
4     Nora   NaN      Tanger                NaN


###  Interprétation de l'ajout de colonne :
- **Nouvelle colonne** "date de naissance" créée automatiquement
- **Calcul vectorisé** : 2025 - Âge pour chaque ligne
- **Propagation des NaN** : Nora garde NaN car âge inconnu
- **Opération arithmétique** appliquée à toute la colonne d'un coup

In [None]:
#Modifier les nom majuscule 
df["Nom"] = df["Nom"].str.upper()
print(df)

       Nom   Âge       Ville  date de naissance
0    AMINE  28.0  Casablanca             1997.0
1     LINA  22.0       Rabat             2003.0
2  YOUSSEF  35.0         Fès             1990.0
3    SALMA  30.0  Casablanca             1995.0
4     NORA   NaN      Tanger                NaN


###  Interprétation de la transformation en majuscules :
- **Méthode `.str.upper()`** appliquée à toute la colonne
- **Transformation in-place** en réassignant la colonne
- **Uniformisation** des noms pour la cohérence des données
- **Manipulation de chaînes** vectorisée et efficace

In [48]:
# renome une colonne 
df.rename(columns={"Ville": "Localisation"}, inplace=True)
print("\nDataFrame après renommage de la colonne 'Ville' en 'Localisation':")
print(df)


DataFrame après renommage de la colonne 'Ville' en 'Localisation':
       Nom   Âge Localisation  date de naissance
0    Amine  28.0   Casablanca             1997.0
1     Lina  22.0        Rabat             2003.0
2  Youssef  35.0          Fès             1990.0
3    Salma  30.0   Casablanca             1995.0
4     Nora   NaN       Tanger                NaN


###  Interprétation du renommage de colonne :
- **Méthode `rename()`** avec dictionnaire de correspondance
- **Parameter `inplace=True`** modifie directement le DataFrame
- **Structure preservée** : même données, nouveau nom de colonne
- **Amélioration sémantique** : "Localisation" plus précis que "Ville"

# Challenge 4 : Gestion des valeurs manquantes

In [52]:
# remplacer lesvaleurs d age manquantes manuellemnt
print("\nDataFrame avant remplacement des valeurs manquantes:")
df.loc[2, "Âge"] = np.nan
print(df)


DataFrame avant remplacement des valeurs manquantes:
       Nom   Âge Localisation  date de naissance
0    Amine  28.0   Casablanca             1997.0
1     Lina  22.0        Rabat             2003.0
2  Youssef   NaN          Fès             1990.0
3    Salma  30.0   Casablanca             1995.0
4     Nora   NaN       Tanger                NaN


###  Interprétation de l'introduction de valeur manquante :
- **Méthode `.loc[ligne, colonne]`** pour accès précis à une cellule
- **Valeur `np.nan`** assignée manuellement à Youssef (ligne 2)
- **2 valeurs manquantes** maintenant : Nora et Youssef
- **Simulation réaliste** d'un problème de données manquantes

In [50]:
#Affiche les lignes contenant des valeurs manquantes avec isnull().
print("\nLignes contenant des valeurs manquantes:")
print(df[df.isnull().any(axis=1)])


Lignes contenant des valeurs manquantes:
       Nom  Âge Localisation  date de naissance
2  Youssef  NaN          Fès             1990.0
4     Nora  NaN       Tanger                NaN


###  Interprétation de la détection des valeurs manquantes :
- **Méthode `.isnull()`** détecte toutes les valeurs NaN
- **`.any(axis=1)`** vérifie s'il y a au moins un NaN par ligne
- **2 lignes identifiées** : Youssef (index 2) et Nora (index 4)
- **Filtrage automatique** des lignes problématiques pour analyse

In [57]:
# Remplace les valeurs manquantes par la moyenne des âges avec fillna().
df["Âge"]=df["Âge"].fillna(df["Âge"].mean())
print("\nDataFrame après remplacement des valeurs manquantes:")
print(df)


DataFrame après remplacement des valeurs manquantes:
       Nom        Âge Localisation
3    Salma  30.000000   Casablanca
2  Youssef  26.666667          Fès
4     Nora  26.666667       Tanger
1     Lina  22.000000        Rabat


###  Interprétation du remplacement par la moyenne :
- **Méthode `.fillna()`** remplace les NaN par une valeur spécifiée
- **Calcul automatique** de la moyenne sur les valeurs non-NaN
- **Imputation réussie** : 26.67 ans pour Youssef et Nora
- **Dataset complet** : plus de valeurs manquantes, prêt pour l'analyse
- **Stratégie conservatrice** : la moyenne préserve la distribution

# Challenge 5 : Tri et suppression

In [54]:
#Trie les lignes par âge décroissant avec sort_values(by='Âge', ascending=False)
df.sort_values(by='Âge', ascending=False, inplace=True)
print("\nDataFrame trié par âge décroissant:")
print(df)


DataFrame trié par âge décroissant:
       Nom        Âge Localisation  date de naissance
3    Salma  30.000000   Casablanca             1995.0
0    Amine  28.000000   Casablanca             1997.0
2  Youssef  26.666667          Fès             1990.0
4     Nora  26.666667       Tanger                NaN
1     Lina  22.000000        Rabat             2003.0


###  Interprétation du tri par âge :
- **Méthode `.sort_values()`** trie selon une colonne spécifiée
- **`ascending=False`** pour ordre décroissant (plus âgé au plus jeune)
- **Index réorganisés** : l'ordre original des lignes a changé
- **Nouveau classement** : Salma (30) → Amine (28) → Youssef et Nora (26.67)
- **Modification in-place** avec `inplace=True`

In [55]:
#Supprime la colonne Année de Naissance avec drop().
df.drop(columns=["date de naissance"], inplace=True)
print("\nDataFrame après suppression de la colonne 'date de naissance':")
print(df)


DataFrame après suppression de la colonne 'date de naissance':
       Nom        Âge Localisation
3    Salma  30.000000   Casablanca
0    Amine  28.000000   Casablanca
2  Youssef  26.666667          Fès
4     Nora  26.666667       Tanger
1     Lina  22.000000        Rabat


###  Interprétation de la suppression de colonne :
- **Méthode `.drop(columns=[])`** supprime des colonnes entières
- **Suppression définitive** de "date de naissance"
- **DataFrame réduit** : retour à 3 colonnes (Nom, Âge, Localisation)
- **Nettoyage des données** : élimination d'informations redondantes
- **Optimisation mémoire** : moins de colonnes = moins d'espace

In [56]:
#Supprime la première ligne du DataFrame avec drop(index=0).
df.drop(index=0, inplace=True)
print("\nDataFrame après suppression de la première ligne:")
print(df)


DataFrame après suppression de la première ligne:
       Nom        Âge Localisation
3    Salma  30.000000   Casablanca
2  Youssef  26.666667          Fès
4     Nora  26.666667       Tanger
1     Lina  22.000000        Rabat


###  Interprétation de la suppression de ligne :
- **Méthode `.drop(index=...)`** supprime des lignes spécifiques
- **Attention aux index** : après tri, l'index 0 ne correspond plus à la première ligne logique
- **Index 0 supprimé** : c'était Amine (28 ans) après le tri
- **DataFrame final** : 4 lignes restantes sur 5 initiales
- **Importance de l'ordre** : le tri influence quelle ligne est "première"

###  **Résumé final :**
- **Dataset nettoyé** : pas de valeurs manquantes
- **Structure optimisée** : 4 lignes × 3 colonnes
- **Données triées** : par âge décroissant
- **Noms uniformisés** : en majuscules