# Atelier Python : manipuler et visualiser des tableaux de données avec Pandas.

## Premiers pas dans un *notebook*

Le code dans la cellule suivante importe le module date du package datetime. Ensuite, il utilise la fonction today() du module date pour obtenir la date actuelle. Enfin, il affiche la date actuelle en utilisant la fonction print().

In [98]:
## ---
## Q2

from datetime import date
today = date.today()
print("Nous sommes le", today)

Nous sommes le 2024-02-11


La cellule suivante demande à l'utilisateur d'entrer son nom en affichant le message "Quel est votre nom ?" et stocke l'information dans une variable nommée `name`.
Elle affiche ensuite le message "Bonjour {name}, nous sommes le {today}", où la variable `name` contient le texte donné par l'utilisateur, et la variable `today` provient de la cellule précédente. 

In [99]:
## ---
## Q3 & Q4

name = input("Quel est votre nom ?")
print(f"Bonjour {name}, nous sommes le {today.strftime('%d/%m/%Y')}")
# Bonus : `today.strftime('%d/%m/%Y')` 
# permet de formater la date `today` au format jour/mois/année !

Bonjour Bertrand, nous sommes le 11/02/2024


## Experimentations avec Pandas

In [100]:
import pandas as pd

In [101]:
# Q7
data = {
    'nom_cassini': ['Neuf Village', 'Nider Wise', 'Haut Barville', 'Nusveiller', 'Ogy', 'Rierange', 'Braistroff', 'Lamestroff'],
    'pop_an3_val': [110, 391, 46, 139, 153, None, 75, 314],
    'pop_an8_val': [100, 309, 60, 94, 142, None, 53, 303],
    'pop_1806_val': [142, 410, 47, 166, 140, None, 59, 287]
}

populations = pd.DataFrame(data)
populations.set_index('nom_cassini', inplace=True)
populations

Unnamed: 0_level_0,pop_an3_val,pop_an8_val,pop_1806_val
nom_cassini,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Neuf Village,110.0,100.0,142.0
Nider Wise,391.0,309.0,410.0
Haut Barville,46.0,60.0,47.0
Nusveiller,139.0,94.0,166.0
Ogy,153.0,142.0,140.0
Rierange,,,
Braistroff,75.0,53.0,59.0
Lamestroff,314.0,303.0,287.0


✏️ Q8. Sélections. 

In [102]:
# ---
# Q8

# Astuce bonus : au lieu de print, on peut utiliser display pour afficher le DataFrame
# Cela permet d'afficher une DataFrame avec la mise en forme de Jupyter
# Attention, ça ne fonctionne que dans un notebook Jupyter !

# Sélection de la colonne pop_1806_val
print("1. Population en 1806")
display(populations['pop_1806_val'])

# Sélection des colonnes pop_an3_val et pop_an8_val
print("2. Population en l'an 3 et en l'an 8")
display(populations[['pop_an3_val', 'pop_an8_val']])

# Sélection de la ligne portant l'étiquette 'Neuf Village'
print("3. Population de Neuf Village")
display(populations.loc['Neuf Village'])

# Sélection des lignes 'Neuf Village' à 'Ogy'
print("4. Population des villages de Neuf Village à Ogy")
display(populations.loc['Neuf Village':'Ogy'])


1. Population en 1806


nom_cassini
Neuf Village     142.0
Nider Wise       410.0
Haut Barville     47.0
Nusveiller       166.0
Ogy              140.0
Rierange           NaN
Braistroff        59.0
Lamestroff       287.0
Name: pop_1806_val, dtype: float64

2. Population en l'an 3 et en l'an 8


Unnamed: 0_level_0,pop_an3_val,pop_an8_val
nom_cassini,Unnamed: 1_level_1,Unnamed: 2_level_1
Neuf Village,110.0,100.0
Nider Wise,391.0,309.0
Haut Barville,46.0,60.0
Nusveiller,139.0,94.0
Ogy,153.0,142.0
Rierange,,
Braistroff,75.0,53.0
Lamestroff,314.0,303.0


3. Population de Neuf Village


pop_an3_val     110.0
pop_an8_val     100.0
pop_1806_val    142.0
Name: Neuf Village, dtype: float64

4. Population des villages de Neuf Village à Ogy


Unnamed: 0_level_0,pop_an3_val,pop_an8_val,pop_1806_val
nom_cassini,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Neuf Village,110.0,100.0,142.0
Nider Wise,391.0,309.0,410.0
Haut Barville,46.0,60.0,47.0
Nusveiller,139.0,94.0,166.0
Ogy,153.0,142.0,140.0


✏️ Q9. Sélection conditionnelle : masques booléens

In [103]:
# ---
# Q9

print("Masque booléen : vrai si la population en l'an 3 est supérieure à 100, faux sinon")
display(populations['pop_an3_val'] > 100)

print("Filtrage de la table par le masque précédent : seules les lignes pour lesquelles le masque est vrai sont conservées")
populations[populations['pop_an3_val'] > 100]

Masque booléen : vrai si la population en l'an 3 est supérieure à 100, faux sinon


nom_cassini
Neuf Village      True
Nider Wise        True
Haut Barville    False
Nusveiller        True
Ogy               True
Rierange         False
Braistroff       False
Lamestroff        True
Name: pop_an3_val, dtype: bool

Filtrage de la table par le masque précédent : seules les lignes pour lesquelles le masque est vrai sont conservées


Unnamed: 0_level_0,pop_an3_val,pop_an8_val,pop_1806_val
nom_cassini,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Neuf Village,110.0,100.0,142.0
Nider Wise,391.0,309.0,410.0
Nusveiller,139.0,94.0,166.0
Ogy,153.0,142.0,140.0
Lamestroff,314.0,303.0,287.0


In [104]:
# ---
# Q9 - suite

# Sélection des lignes dont la population en 1806 est inférieure à celle de l'an 3
print("Villages dont la population en 1806 est inférieure à celle de l'an 3")
display(populations[populations['pop_1806_val'] < populations['pop_an3_val']])

Villages dont la population en 1806 est inférieure à celle de l'an 3


Unnamed: 0_level_0,pop_an3_val,pop_an8_val,pop_1806_val
nom_cassini,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ogy,153.0,142.0,140.0
Braistroff,75.0,53.0,59.0
Lamestroff,314.0,303.0,287.0


✏️ Q10. Sélection conditionnelle multiple.

In [105]:
# ---
# Q10

# Sélection des villages dont la population en 1806 est supérieure à 100 mais inférieure à celle de l'an III.
print(
    "Villages dont la population en 1806 est supérieure à 100 mais inférieure à celle de l'an III."
)
populations[
    (populations["pop_1806_val"] < populations["pop_an3_val"])
    & (populations["pop_1806_val"] > 100)
]

Villages dont la population en 1806 est supérieure à 100 mais inférieure à celle de l'an III.


Unnamed: 0_level_0,pop_an3_val,pop_an8_val,pop_1806_val
nom_cassini,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ogy,153.0,142.0,140.0
Lamestroff,314.0,303.0,287.0


In [106]:
# ---
# Q11

print("Structure de la table avant nettoyage", populations.shape)
populations.dropna(inplace=True)
print("Structure de la table après nettoyage", populations.shape)

Structure de la table avant nettoyage (8, 3)
Structure de la table après nettoyage (7, 3)


## Évolution démographique des communes de France.

In [107]:
# ---
# Q12

communes = pd.read_csv('../data/anciennes_communes.csv', index_col='gid')
populations = pd.read_csv('../data/anciennes_communes.csv', index_col='gid')

  communes = pd.read_csv('../data/anciennes_communes.csv', index_col='gid')
  populations = pd.read_csv('../data/anciennes_communes.csv', index_col='gid')


In [108]:
communes.join(populations, on)

NameError: name 'on' is not defined