# Modules Python : math, datetime, os, glob, String, random, csv, JSON

Dans cette section, nous allons voir quelques modules de la bibliothèque standard Python : **math**, **datetime**, **os**, **glob**, **string**, **random**, **csv** et **JSON**. Ces modules offrent des fonctionnalités puissantes pour les calculs mathématiques, la gestion du temps, les interactions avec le système d’exploitation, les informations système, ou encore la gestion des fichiers csv.

## Qu’est-ce qu’un Module ?
Un **module** est un fichier Python contenant des fonctions, classes ou variables prédéfinies que vous pouvez importer pour enrichir vos programmes.

Commençons par le module `math` !

---

## Module `math`

https://docs.python.org/3/library/math.html


Le module `math` de Python fournit un ensemble complet de fonctions et de constantes mathématiques. Il est particulièrement utile dans les calculs, meme si dans la pratique, nous utiliserons plus souvent `numpy` en Data Science

In [2]:
# Importer le module math
import math

# Vérifier les fonctions et variables disponibles
print(dir(math))

['__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'acos', 'acosh', 'asin', 'asinh', 'atan', 'atan2', 'atanh', 'cbrt', 'ceil', 'comb', 'copysign', 'cos', 'cosh', 'degrees', 'dist', 'e', 'erf', 'erfc', 'exp', 'exp2', 'expm1', 'fabs', 'factorial', 'floor', 'fma', 'fmod', 'frexp', 'fsum', 'gamma', 'gcd', 'hypot', 'inf', 'isclose', 'isfinite', 'isinf', 'isnan', 'isqrt', 'lcm', 'ldexp', 'lgamma', 'log', 'log10', 'log1p', 'log2', 'modf', 'nan', 'nextafter', 'perm', 'pi', 'pow', 'prod', 'radians', 'remainder', 'sin', 'sinh', 'sqrt', 'sumprod', 'tan', 'tanh', 'tau', 'trunc', 'ulp']


## Constantes mathématiques utiles

Le module math offre plusieurs constantes très pratiques :

- $\pi$ : Rapport entre la circonférence et le diamètre d'un cercle (~3.14159)
- $e$ : Base du logarithme naturel (~2.71828)
- `tau` : Représente $2\pi$
- `inf` : Représentation mathématique de l'infini
- `nan` : Valeur représentant "Not a Number" (non défini numériquement)

In [3]:
# Constantes mathématiques
print("Valeur de pi :", math.pi)
print("Valeur de e :", math.e)
print("Valeur de tau (2pi) :", math.tau)
print("Infini :", math.inf)
print("Valeur NaN (Not a Number) :", math.nan)

Valeur de pi : 3.141592653589793
Valeur de e : 2.718281828459045
Valeur de tau (2pi) : 6.283185307179586
Infini : inf
Valeur NaN (Not a Number) : nan


## Fonctions mathématiques courantes

Voici quelques fonctions très souvent utilisées dans les calculs scientifiques :

- `sqrt(x)` : racine carrée de x
- `log(x, base)` : logarithme de x en base spécifiée (base naturelle par défaut)
- `exp(x)` : exponentielle de x
- Fonctions trigonométriques : `sin(x)`, `cos(x)`, `tan(x)`
- Arrondi : `ceil(x)` (arrondi supérieur), `floor(x)` (arrondi inférieur)
- Factorielle : `factorial(x)`

In [4]:
# Racine carrée
print("Racine carrée de 16 :", math.sqrt(16))

# Logarithmes
print("Logarithme naturel de e :", math.log(math.e))
print("Logarithme base 10 de 1000 :", math.log10(1000))
print("Logarithme base 2 de 1024 :", math.log2(1024))

# Exponentielle
print("Exponentielle de 3 :", math.exp(3))

# Fonctions trigonométriques
angle = math.pi / 4
print("Sinus de pi/4 :", math.sin(angle))
print("Cosinus de pi/4 :", math.cos(angle))
print("Tangente de pi/4 :", math.tan(angle))

# Arrondis
print("Arrondi supérieur de 4.3 :", math.ceil(4.3))
print("Arrondi inférieur de 4.7 :", math.floor(4.7))

# Factorielle
print("Factorielle de 5 :", math.factorial(5))

Racine carrée de 16 : 4.0
Logarithme naturel de e : 1.0
Logarithme base 10 de 1000 : 3.0
Logarithme base 2 de 1024 : 10.0
Exponentielle de 3 : 20.085536923187668
Sinus de pi/4 : 0.7071067811865475
Cosinus de pi/4 : 0.7071067811865476
Tangente de pi/4 : 0.9999999999999999
Arrondi supérieur de 4.3 : 5
Arrondi inférieur de 4.7 : 4
Factorielle de 5 : 120


## Exercice

Calculer l'hypoténuse d'un triangle rectangle dont les côtés sont 6 et 8.

In [5]:
"""
Votre réponse ici
"""

'\nVotre réponse ici\n'

In [6]:
hypotenuse = math.hypot(6, 8)
print("Hypoténuse du triangle rectangle (6,8):", hypotenuse)

Hypoténuse du triangle rectangle (6,8): 10.0


---

## Module `datetime`

Le module `datetime` est essentiel en Python pour manipuler des dates et des heures.  
Très utile en Data Science, ce module permet de travailler avec les séries temporelles, les analyses temporelles de données, et bien plus encore.


https://docs.python.org/3/library/datetime.html


In [7]:
import datetime

## Classes principales de datetime

- `date` : Représente une date (année, mois, jour)
- `time` : Représente une heure (heure, minute, seconde, microseconde)
- `datetime` : Combine date et heure
- `timedelta` : Représente une durée ou un intervalle de temps

In [8]:
# Création d'une date spécifique
specific_date = datetime.date(2025, 1, 1)

print(type(specific_date))

print("Date spécifique :", specific_date)

<class 'datetime.date'>
Date spécifique : 2025-01-01


In [9]:
# Création d'une heure spécifique
specific_time = datetime.time(14, 30, 0)

print(type(specific_time))


print("Heure spécifique :", specific_time)

<class 'datetime.time'>
Heure spécifique : 14:30:00


In [10]:
# Création d'une date-heure spécifique
specific_datetime = datetime.datetime(2025, 5, 17, 10, 15, 30)

print(type(specific_datetime))

print("Date et heure spécifique :", specific_datetime)

<class 'datetime.datetime'>
Date et heure spécifique : 2025-05-17 10:15:30


## Afficher L'heure et la date actuelle

In [None]:
# Utilisation de time
current_time = datetime.datetime.now().time()
today = datetime.date.today()

print("Date actuelle :", today)
print("Heure actuelle :", current_time)

Date actuelle : 2025-06-17
Heure actuelle : 2025-06-17


In [12]:
# ou plus simplement...
now = datetime.datetime.now()
print("Date et heure actuelles :", now)

Date et heure actuelles : 2025-06-17 00:36:21.340234


## Manipulation des objets datetime

Vous pouvez combiner et manipuler les objets date et heure avec la classe `datetime`. Cela est très utile pour gérer des données temporelles complètes.

In [13]:
# Création d'une date-heure spécifique
specific_datetime = datetime.datetime(2025, 5, 17, 10, 15, 30)
print("Date et heure spécifique :", specific_datetime)

Date et heure spécifique : 2025-05-17 10:15:30


In [14]:
# Extraction d'informations
print("Année :", specific_datetime.year)
print("Mois :", specific_datetime.month)
print("Jour :", specific_datetime.day)
print("Heure :", specific_datetime.hour)
print("Minute :", specific_datetime.minute)

Année : 2025
Mois : 5
Jour : 17
Heure : 10
Minute : 15


## Calculer la durée entre 2 dates avec `timedelta`

La classe `timedelta` est utilisée pour représenter la différence entre deux dates ou heures.

In [15]:
date_start = datetime.datetime(2024, 1, 1, 12, 30, 15)
date_end = datetime.datetime(2024, 12, 31, 23, 59, 59)

In [16]:
delta = date_end - date_start
print(type(delta))
print("Durée entre les deux dates :", delta)
print("Nombre de jours :", delta.days)

<class 'datetime.timedelta'>
Durée entre les deux dates : 365 days, 11:29:44
Nombre de jours : 365


In [17]:
# Ajouter un timedelta à une date
future_date = date_start + datetime.timedelta(days=90, weeks=2)
print("Date 90 jours après le 1er janvier 2024 :", future_date)

Date 90 jours après le 1er janvier 2024 : 2024-04-14 12:30:15


## Formater et analyser les dates

Les fonctions `strftime()` et `strptime()` permettent de convertir entre objets datetime et chaînes de caractères.

In [18]:
print(now)

2025-06-17 00:36:21.340234


In [19]:
# Convertir datetime en chaîne formatée
formatted_date = now.strftime("%Y-%m-%d %H:%M:%S")
print("Date formatée :", formatted_date)

print(type(formatted_date))

Date formatée : 2025-06-17 00:36:21
<class 'str'>


In [20]:
# Analyser une chaîne en objet datetime
date_str = "2024-12-25 09:30:00"
parsed_date = datetime.datetime.strptime(date_str, "%Y-%m-%d %H:%M:%S")
print("Date analysée depuis une chaîne :", parsed_date)

Date analysée depuis une chaîne : 2024-12-25 09:30:00


## Cas pratique Data Science : analyse temporelle

Par exemple, imaginons que vous analysiez les fréquences de visites d'un site web.  
Voici comment calculer le temps écoulé entre deux visites.

In [21]:
# Dates des deux visites
visit1 = datetime.datetime(2024, 3, 10, 8, 30)
visit2 = datetime.datetime(2024, 3, 15, 14, 45)

# Temps écoulé entre deux visites
interval = visit2 - visit1
print("Temps entre deux visites :", interval)

# Conversion en heures totales
hours = interval.total_seconds() / 3600
print(f"Temps écoulé en heures : {hours:.2f} heures")

Temps entre deux visites : 5 days, 6:15:00
Temps écoulé en heures : 126.25 heures


## Exercices

1. Calculez votre âge exact en jours depuis votre naissance.
2. On vous fournit 2 listes de dates, mais elles ne sont pas formattées de la meme maniere...
modifier leur format et déterminer le nombre de jours qui séparent chaque `date1` de sa jummelle la `date2`

In [22]:
"""
Votre réponse ici
"""

liste1 = ["15/08/2025", "20/08/2023", "08/02/2017", "23/04/2009"] # Jour / Mois / Année
liste2 = ["2025-03-18", "2022-04-23", "2019-06-12", "2008-01-10"] # Année - Mois - Jour

In [23]:
# Exercice 1 : Âge exact en jours
birth_date = datetime.datetime(1993, 3, 29)
today = datetime.datetime.now()
age_days = (today - birth_date).days
print("Votre âge exact en jours est :", age_days)

Votre âge exact en jours est : 11768


In [24]:
# Exercice 2 : Dates de 2 listes
liste1 = ["15/08/2025", "20/08/2023", "08/02/2017", "23/04/2009"] # Jour / Mois / Année
liste2 = ["2025-03-18", "2022-04-23", "2019-06-12", "2008-01-10"] # Année - Mois - Jour

for date1, date2 in zip(liste1, liste2):
    date1 = datetime.datetime.strptime(date1, "%d/%m/%Y")
    date2 = datetime.datetime.strptime(date2, "%Y-%m-%d")
    print((date2 - date1).days)

-150
-484
854
-469


---

## Module `os`

Le module `os` permet d'interagir facilement avec le système d'exploitation (Operating System). Il est très souvent utilisé dans des projets afin de gérer vos fichiers, vos répertoires, vos variables d'environnement, et d'automatiser certaines tâches.

https://docs.python.org/3/library/os.html


In [25]:
import os

## Fonctions courantes du module os

- `os.getcwd()` : Retourne le répertoire courant.
- `os.chdir(path)` : Change le répertoire courant.
- `os.listdir(path)` : Liste les fichiers et dossiers d'un répertoire.
- `os.mkdir(path)` / `os.makedirs(path)` : Crée un ou plusieurs répertoires.
- `os.remove(path)` : Supprime un fichier.
- `os.rmdir(path)` / `os.removedirs(path)` : Supprime un ou plusieurs répertoires.

In [26]:
# Afficher le répertoire courant
current_dir = os.getcwd()
print("Répertoire courant :", current_dir)

Répertoire courant : /home/narcisse/Formation/Formation_ML_Guillaume/Programme-d-entrainement-Python/01 Cours débutant


In [27]:
# Lister les fichiers du répertoire courant
os.listdir(current_dir)

['fichiers_projet',
 '04_Les conditions.ipynb',
 '01_Introduction.ipynb',
 '05_Structure match_case.ipynb',
 '12_Les fonctions.ipynb',
 '10_Les dictionnaires.ipynb',
 '15_PEP8.ipynb',
 '07_Les listes.ipynb',
 'images',
 '09_Les ensembles.ipynb',
 '14_Structurer son code.ipynb',
 '11_Gestion des fichiers.ipynb',
 '13_Docstrings.ipynb',
 'data',
 '17_Projet énoncé.ipynb',
 '06_Les boucles.ipynb',
 '03_Operations et expressions.ipynb',
 '02_Variables et types de donnees.ipynb',
 '16_Les modules de base.ipynb',
 '08_Les tuples.ipynb']

In [28]:
# Créer un nouveau répertoire (exemple)
new_dir = "test_directory"
os.makedirs(new_dir, exist_ok=True)
print(f"Répertoire '{new_dir}' créé :", os.path.exists(new_dir))

Répertoire 'test_directory' créé : True


In [29]:
# Supprimer le répertoire créé
os.rmdir(new_dir)
print(f"Répertoire '{new_dir}' supprimé :", not os.path.exists(new_dir))

Répertoire 'test_directory' supprimé : True


## Manipulation des chemins avec `os.path`

- `os.path.join()` : Crée des chemins compatibles avec l'OS.
- `os.path.exists()` : Vérifie l’existence d’un chemin.
- `os.path.isfile()` : Vérifie si un chemin est un fichier.
- `os.path.isdir()` : Vérifie si un chemin est un dossier.
- `os.path.basename()` / `os.path.dirname()` : Obtenir le nom du fichier ou du dossier parent.

In [30]:
# Construire un chemin compatible
file_path = os.path.join(current_dir, "data", "fichier.txt")
print("Chemin complet construit :", file_path)

Chemin complet construit : /home/narcisse/Formation/Formation_ML_Guillaume/Programme-d-entrainement-Python/01 Cours débutant/data/fichier.txt


In [31]:
# Vérifier l’existence
print("Le fichier existe-t-il ?", os.path.exists(file_path))

Le fichier existe-t-il ? False


In [32]:
# Vérifier le type (fichier/dossier)
print("Est-ce un fichier ?", os.path.isfile(file_path))
print("Est-ce un dossier ?", os.path.isdir(current_dir))

Est-ce un fichier ? False
Est-ce un dossier ? True


In [33]:
file_path

'/home/narcisse/Formation/Formation_ML_Guillaume/Programme-d-entrainement-Python/01 Cours débutant/data/fichier.txt'

In [34]:
# Obtenir le nom du fichier et dossier parent
print("Nom du fichier :", os.path.basename(file_path))
print("Dossier parent :", os.path.dirname(file_path))

Nom du fichier : fichier.txt
Dossier parent : /home/narcisse/Formation/Formation_ML_Guillaume/Programme-d-entrainement-Python/01 Cours débutant/data


## Variables d'environnement

Le module `os` permet également de manipuler les variables d'environnement du système.

In [35]:
# Accéder aux variables d'environnement
home_dir = os.environ.get("HOME")
print("Répertoire HOME :", home_dir)

Répertoire HOME : /home/narcisse


In [36]:
# Définir une nouvelle variable d'environnement temporaire
os.environ["MY_VAR"] = "DataScience"
print("Variable MY_VAR :", os.environ.get("MY_VAR"))

Variable MY_VAR : DataScience


## Exécuter des commandes système

La fonction `os.system()` permet d'exécuter des commandes directement depuis Python.

In [37]:
# Afficher le contenu du répertoire avec une commande système (selon OS)
os.system("ls -la")  # Linux/Mac
# os.system("dir") # Windows 

total 328
drwxrwxrwx 5 narcisse narcisse  4096 Jun 17 00:36 .
drwxrwxrwx 7 narcisse narcisse  4096 Jun 15 16:43 ..
-rwxrwxrwx 1 narcisse narcisse  9703 Jun 15 16:43 01_Introduction.ipynb
-rwxrwxrwx 1 narcisse narcisse 13629 Jun 15 16:43 02_Variables et types de donnees.ipynb
-rwxrwxrwx 1 narcisse narcisse 12944 Jun 15 16:43 03_Operations et expressions.ipynb
-rwxrwxrwx 1 narcisse narcisse  9343 Jun 15 16:43 04_Les conditions.ipynb
-rwxrwxrwx 1 narcisse narcisse 11247 Jun 15 17:41 05_Structure match_case.ipynb
-rwxrwxrwx 1 narcisse narcisse  8785 Jun 15 16:43 06_Les boucles.ipynb
-rwxrwxrwx 1 narcisse narcisse 20145 Jun 16 10:27 07_Les listes.ipynb
-rwxrwxrwx 1 narcisse narcisse  7324 Jun 15 16:43 08_Les tuples.ipynb
-rwxrwxrwx 1 narcisse narcisse 18078 Jun 16 11:26 09_Les ensembles.ipynb
-rwxrwxrwx 1 narcisse narcisse 17301 Jun 16 13:22 10_Les dictionnaires.ipynb
-rwxrwxrwx 1 narcisse narcisse  8454 Jun 16 15:09 11_Gestion des fichiers.ipynb
-rwxrwxrwx 1 narcisse narcisse 23463 Jun 16 

0

## Exercice

Créer une variable constante PATH="dossier", vérifier si ce dossier est bien présent. Sinon, le créer et le remplir de 3 fichiers txt avec des valeurs par défaut. Puis utiliser join pour ouvrir chaque fichier et mettre son contenu dans un dictionnaire avec comme clef le nom de chaque fichier

In [38]:
"""
Votre réponse ici
"""

'\nVotre réponse ici\n'

In [39]:
import os

# 1. Définir une constante PATH
PATH = "mon_dossier_txt"

# 2. Vérifier si le dossier existe, sinon le créer
if not os.path.exists(PATH):
    os.makedirs(PATH)

    # 3. Créer 3 fichiers TXT avec des valeurs par défaut
    contenus_defaut = [
        "Contenu du fichier 1",
        "Voici le fichier numéro 2",
        "Ceci est le troisième fichier"
    ]

    for i, contenu in enumerate(contenus_defaut, 1):
        nom_fichier = f"fichier_{i}.txt"
        chemin_fichier = os.path.join(PATH, nom_fichier)
        with open(chemin_fichier, 'w', encoding='utf-8') as f:
            f.write(contenu)

# 4. Charger chaque fichier TXT dans un dictionnaire
dictionnaire_fichiers = {}

for nom_fichier in os.listdir(PATH):
    if nom_fichier.endswith(".txt"):
        chemin_fichier = os.path.join(PATH, nom_fichier)
        with open(chemin_fichier, 'r', encoding='utf-8') as f:
            contenu = f.read()
        # Stocker dans le dictionnaire avec le nom du fichier sans l'extension
        clef = os.path.splitext(nom_fichier)[0]
        dictionnaire_fichiers[clef] = contenu

# Afficher le dictionnaire final
print(dictionnaire_fichiers)

{'fichier_1': 'Contenu du fichier 1', 'fichier_2': 'Voici le fichier numéro 2', 'fichier_3': 'Ceci est le troisième fichier'}


---

## Module `glob`



Le module `glob` permet de rechercher et récupérer facilement des fichiers à partir de modèles (« patterns »). Il est particulièrement utile en Data Science pour gérer des ensembles de fichiers, tels que des fichiers CSV, images, ou textes.

On l'utilise parfois en complément du module `os`

https://docs.python.org/3/library/glob.html

In [40]:
import glob

## Principales fonctions du module glob

- `glob.glob(pattern)` : Retourne une liste de fichiers correspondant au modèle donné.
- `glob.iglob(pattern)` : Retourne un itérateur permettant d'économiser la mémoire sur de gros ensembles de fichiers.

In [41]:
# Afficher tous les notebooks dans le répertoire courant
python_files = glob.glob("*.ipynb")
python_files

['04_Les conditions.ipynb',
 '01_Introduction.ipynb',
 '05_Structure match_case.ipynb',
 '12_Les fonctions.ipynb',
 '10_Les dictionnaires.ipynb',
 '15_PEP8.ipynb',
 '07_Les listes.ipynb',
 '09_Les ensembles.ipynb',
 '14_Structurer son code.ipynb',
 '11_Gestion des fichiers.ipynb',
 '13_Docstrings.ipynb',
 '17_Projet énoncé.ipynb',
 '06_Les boucles.ipynb',
 '03_Operations et expressions.ipynb',
 '02_Variables et types de donnees.ipynb',
 '16_Les modules de base.ipynb',
 '08_Les tuples.ipynb']

In [42]:
# Afficher tous les fichiers CSV dans un sous-dossier "data"
csv_files = glob.glob("data/*.csv")
csv_files

['data/iris_filtered.csv',
 'data/iris_setosa.csv',
 'data/personnes_dict.csv',
 'data/personnes.csv',
 'data/iris.csv',
 'data/data.csv']

## Wildcards couramment utilisées avec glob

- `*` : correspond à tout nombre de caractères (y compris zéro).
- `?` : correspond exactement à un caractère unique.
- `[seq]` : correspond à tout caractère présent dans la séquence donnée.
- `[!seq]` : correspond à tout caractère qui n'est pas dans la séquence donnée.

In [43]:
# Tous les fichiers commençant par "data_" et se terminant par ".csv"
pattern_files = glob.glob("data/iris*.csv")
pattern_files

['data/iris_filtered.csv', 'data/iris_setosa.csv', 'data/iris.csv']

In [44]:
# Les fichiers .ipynb qui contiennent PEP suivit d'un caractere ?
pattern_files = glob.glob("*PEP?.ipynb")
pattern_files

['15_PEP8.ipynb']

In [45]:
# Tous les fichiers avec une extension commençant par "jp" (jpg, jpeg)
images_files = glob.glob("images/*.[jp][pn]g")
images_files

['images/black_formatter.png', 'images/SCR-20250311-kmvj.png']

## Recherche récursive dans les sous-dossiers

En Data Science, il est souvent utile d’effectuer des recherches de fichiers dans des dossiers et sous-dossiers de façon récursive.

In [46]:
# Recherche récursive de tous les fichiers ".csv"
recursive_csv_files = glob.glob("**/*.csv", recursive=True)
recursive_csv_files

['fichiers_projet/individus_complets.csv',
 'data/iris_filtered.csv',
 'data/iris_setosa.csv',
 'data/personnes_dict.csv',
 'data/personnes.csv',
 'data/iris.csv',
 'data/data.csv']

## Utilisation de `iglob()` pour économiser la mémoire

La fonction `glob.iglob()` retourne un itérateur, utile pour travailler avec de très nombreux fichiers.

In [47]:
# Utiliser iglob pour itérer sur des fichiers CSV sans tout charger en mémoire
for csv_file in glob.iglob("data/*.csv"):
    print("Traitement du fichier :", csv_file)

Traitement du fichier : data/iris_filtered.csv
Traitement du fichier : data/iris_setosa.csv
Traitement du fichier : data/personnes_dict.csv
Traitement du fichier : data/personnes.csv
Traitement du fichier : data/iris.csv
Traitement du fichier : data/data.csv


## Exercice Tres courrant en Data Science

Nous avons placé plusieurs fichiers txt dans le dossier `data/exercice_glob`.
Votre tache est de créer un dictionnaire python dont les clefs correspondent aux noms de tous ces fichiers, et les valeurs, a des listes qui contiennent le contenu de chaque ligne de chaque fichier

In [48]:
"""
Votre réponse ici
"""

'\nVotre réponse ici\n'

In [49]:
import glob
import os

# Spécifie le chemin du dossier contenant les fichiers .txt
dossier = 'data/exercice_glob'

# Dictionnaire pour stocker les données
contenu_fichiers = {}

# Cherche tous les fichiers .txt dans le dossier
for fichier_path in glob.glob(os.path.join(dossier, '*.txt')):
    nom_fichier = os.path.basename(fichier_path)
    with open(fichier_path, 'r', encoding='utf-8') as f:
        lignes = f.readlines()
        contenu_fichiers[nom_fichier] = [ligne.strip() for ligne in lignes]


for keys, values in contenu_fichiers.items():
    print(keys, values)

liste_travail.txt ['préparer le meeting', 'corriger les bugs', 'former le stagiere', 'coder le nouveau projet']
liste_course.txt ['tomates', 'oignons', 'carottes', 'oeufs', 'pain', 'farine', 'sucre']
liste_valise.txt ['passeport', 'livre', 'creme solaire', 'brosse a dent', 'dentifrice', 'ordinateur portable']


---

## Module `string`

Le module `string` fournit des constantes utiles et des méthodes pratiques pour la manipulation de chaînes de caractères.  
En Data Science, ce module aide notamment à préparer et nettoyer des données textuelles pour l'analyse.

https://docs.python.org/3/library/string.html

In [50]:
import string

## Constantes utiles

Le module `string` contient plusieurs constantes prédéfinies :

- `ascii_letters` : toutes les lettres (minuscules et majuscules)
- `ascii_lowercase` : lettres minuscules
- `ascii_uppercase` : lettres majuscules
- `digits` : chiffres de 0 à 9
- `punctuation` : signes de ponctuation
- `whitespace` : espaces blancs (espace, tabulation, saut de ligne, etc.)

In [51]:
print("Lettres ASCII :", string.ascii_letters)
print("Minuscules :", string.ascii_lowercase)
print("Majuscules :", string.ascii_uppercase)
print("Chiffres :", string.digits)
print("Ponctuation :", string.punctuation)
print("Espaces blancs :", repr(string.whitespace))

Lettres ASCII : abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
Minuscules : abcdefghijklmnopqrstuvwxyz
Majuscules : ABCDEFGHIJKLMNOPQRSTUVWXYZ
Chiffres : 0123456789
Ponctuation : !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
Espaces blancs : ' \t\n\r\x0b\x0c'


## Templates (modèles de chaînes)

La classe `Template` permet de substituer facilement des valeurs dans une chaîne prédéfinie, ce qui est utile pour générer des textes standardisés ou dynamiques.

In [52]:
from string import Template

# Création d'un modèle de chaîne
template_str = Template("Bonjour $nom, bienvenue dans le cours de $cours !")

In [53]:
# Remplacer les valeurs dans le modèle
texte_final = template_str.substitute(nom="Tom", cours="Data Science")
print(texte_final)

Bonjour Tom, bienvenue dans le cours de Data Science !


## Autres manipulations courantes avec les chaînes en Data Science

In [54]:
message = "Python is a versatile, high-level programming language known for its readability and ease of use. It's used in a wide range of applications, including web development, data science, machine learning, and software development. Python's syntax is similar to English, making it a popular choice for beginners and experienced programmers alike. "

In [55]:
message.lower()

"python is a versatile, high-level programming language known for its readability and ease of use. it's used in a wide range of applications, including web development, data science, machine learning, and software development. python's syntax is similar to english, making it a popular choice for beginners and experienced programmers alike. "

In [56]:
message.upper()

"PYTHON IS A VERSATILE, HIGH-LEVEL PROGRAMMING LANGUAGE KNOWN FOR ITS READABILITY AND EASE OF USE. IT'S USED IN A WIDE RANGE OF APPLICATIONS, INCLUDING WEB DEVELOPMENT, DATA SCIENCE, MACHINE LEARNING, AND SOFTWARE DEVELOPMENT. PYTHON'S SYNTAX IS SIMILAR TO ENGLISH, MAKING IT A POPULAR CHOICE FOR BEGINNERS AND EXPERIENCED PROGRAMMERS ALIKE. "

In [57]:
if "python" in message.lower():
    print("il y a le mot python")
else:
    print("il n'y a pas le mot python")

il y a le mot python


In [58]:
message

"Python is a versatile, high-level programming language known for its readability and ease of use. It's used in a wide range of applications, including web development, data science, machine learning, and software development. Python's syntax is similar to English, making it a popular choice for beginners and experienced programmers alike. "

In [59]:
message.find("is")

7

In [60]:
message.count("python")

0

In [61]:
txt = "124"
if txt.isdigit():
    print(int(txt))
else :
    print("conversion impossible")

124


In [62]:
message.isdigit()

False

In [63]:
"-".join(["Tomates", "Pommes", "Oignons"])

'Tomates-Pommes-Oignons'

In [64]:
message.partition(",")

('Python is a versatile',
 ',',
 " high-level programming language known for its readability and ease of use. It's used in a wide range of applications, including web development, data science, machine learning, and software development. Python's syntax is similar to English, making it a popular choice for beginners and experienced programmers alike. ")

In [65]:
message.rpartition(",")

("Python is a versatile, high-level programming language known for its readability and ease of use. It's used in a wide range of applications, including web development, data science, machine learning, and software development. Python's syntax is similar to English",
 ',',
 ' making it a popular choice for beginners and experienced programmers alike. ')

In [66]:
txt = "I like bananas"

x = txt.replace("bananas", "apples")

print(x)

I like apples


In [67]:
message.split(".")

['Python is a versatile, high-level programming language known for its readability and ease of use',
 " It's used in a wide range of applications, including web development, data science, machine learning, and software development",
 " Python's syntax is similar to English, making it a popular choice for beginners and experienced programmers alike",
 ' ']

## Exercice : Corriger le bug dans le programe ci-dessous.

Exemple d'utilisation des Templates pour automatiser la création d'un message personnalisé après une analyse.

In [68]:
rapport_template = Template("""
Rapport d'analyse :

- Projet : $projet
- Date : $date
- Résultats obtenus : $resultats

Merci pour votre confiance.
""")

rapport = rapport_template.substitute(
    projet="Prédiction des ventes",
    resultats="Précision du modèle : 92%"
)

print(rapport)

KeyError: 'date'

In [None]:
### Solution :

rapport_template = Template("""
Rapport d'analyse :

- Projet : $projet
- Date : $date
- Résultats obtenus : $resultats

Merci pour votre confiance.
""")

rapport = rapport_template.substitute(
    projet="Prédiction des ventes",
    resultats="Précision du modèle : 92%",
    date=datetime.date.today()
)

print(rapport)

---

## Module `random`


Le module `random` permet de générer des nombres aléatoires ou d'échantillonner aléatoirement des éléments. Il est fréquemment utilisé en Data Science pour :

- Générer des jeux de données simulés
- Échantillonner aléatoirement des données
- Initialiser des modèles de Machine Learning


https://docs.python.org/3/library/random.html

In [None]:
import random

## Génération de nombres aléatoires simples

Principales fonctions :

- `random.random()` : Génère un nombre flottant entre 0 et 1.
- `random.randint(a, b)` : Génère un entier entre a et b (inclus).
- `random.uniform(a, b)` : Génère un flottant entre a et b.

In [None]:
# Nombre aléatoire entre 0 et 1
print("Nombre aléatoire (0-1) :", random.random())

In [None]:
# Nombre entier entre 10 et 20
print("Nombre entier entre 10 et 20 :", random.randint(10, 20))

In [None]:
# Nombre flottant entre 5.5 et 9.5
print("Nombre flottant entre 5.5 et 9.5 :", random.uniform(5.5, 9.5))

## Sélection aléatoire dans des séquences

Fonctions utiles pour sélectionner des éléments aléatoirement :

- `random.choice(seq)` : Retourne un élément au hasard d'une séquence.
- `random.choices(seq, k=n)` : Choisit plusieurs éléments avec remise.
- `random.sample(seq, k=n)` : Échantillonne plusieurs éléments sans remise.

In [None]:
data = ['pomme', 'banane', 'poire', 'orange', 'kiwi', 'melon']

In [None]:
# Choisir un élément aléatoirement
print("Un fruit choisi au hasard :", random.choice(data))

In [None]:
# Choisir plusieurs éléments avec remise
choix_avec_remise = random.choices(data, k=3)
print("Choix avec remise :", choix_avec_remise)

In [None]:
# Échantillonnage sans remise
sample = random.sample(data, k=3)
print("Échantillon sans remise :", sample)

## Mélange aléatoire de données

La fonction `random.shuffle()` permet de mélanger les éléments d'une liste sur place.

In [None]:
data = ['pomme', 'banane', 'poire', 'orange', 'kiwi', 'melon']

In [None]:
# Mélanger la liste originale
random.shuffle(data)
print("Données mélangées :", data)

## Reproductibilité avec random.seed()

En Data Science, il est essentiel d'obtenir des résultats reproductibles. La fonction `random.seed()` permet d'initialiser le générateur aléatoire pour obtenir des résultats identiques à chaque exécution.

In [None]:
# Fixer une graine aléatoire pour la reproductibilité
random.seed(42)

# Nombre aléatoire entre 0 et 1
print("Nombre aléatoire (0-1) :", random.random())


## Exercice : génération de données simulées

En Data Science, il est fréquent de simuler des jeux de données pour tester des modèles ou des hypothèses.

Ici, nous voulons simuler 100 individus avec :

- un âge (compris entre 20 et 60 ans),
- une taille (entre 160.0 cm et 200.0 cm, avec une décimale),
- un salaire mensuel (selon une distribution normale de moyenne 2500 € et d’écart type 1000 €).

Stocker ces données sous forme d’un dictionnaire contenant trois clés : 'age', 'taille' et 'salaire', chacune associée à une liste de 100 valeurs.

Afficher un aperçu des 5 premières lignes de ce dataset

In [None]:
"""
Votre réponse ici
"""

In [None]:
# Génération d'un dataset simulé
random.seed(0)

data_simulees = {
    'age': [random.randint(20, 60) for _ in range(100)],
    'taille': [round(random.uniform(160, 200), 1) for _ in range(100)],
    'salaire': [round(random.gauss(2500, 1000)) for _ in range(100)]
}


print("Aperçu des données simulées : (5 premières lignes)")
for i in range(5):
    print(f"Âge : {data_simulees['age'][i]} | taille : {data_simulees['taille'][i]}, | salaire : {data_simulees['salaire'][i]},")

---

## Module `csv`

Le module `csv` permet la lecture et l'écriture simplifiée des fichiers CSV (Comma-Separated Values). Ce format est omniprésent en Data Science pour :

- Charger facilement des jeux de données
- Exporter des résultats d’analyse vers des fichiers exploitables
- Échanger des données entre applications ou plateformes

https://docs.python.org/3/library/csv.html

In [None]:
import csv

## Lecture d'un fichier CSV

La fonction `csv.reader()` lit un fichier CSV ligne par ligne en retournant chaque ligne sous forme de liste.

In [None]:
# Ouverture et lecture d'un fichier CSV existant
with open("data/iris.csv", mode="r", encoding="utf-8") as fichier:
    lecteur_csv = csv.reader(fichier)
    for ligne in lecteur_csv:
        print(ligne)

## Utilisation de DictReader

La classe `csv.DictReader` permet de lire un CSV directement sous forme de dictionnaires, simplifiant l'accès aux données par leur nom de colonne.

In [None]:
# Lire avec DictReader
with open("data/iris.csv", mode="r", encoding="utf-8") as fichier:
    lecteur = csv.DictReader(fichier)
    for ligne in lecteur:
        print(ligne['variety'], ligne['sepal.length'])

## Écriture de fichiers CSV avec csv.writer

La classe `csv.writer` permet d'écrire facilement des données dans un fichier CSV.

In [None]:
# Écrire des données dans un fichier CSV
donnees = [
    ["prenom", "nom", "age"],
    ["Pierre", "Dupont", 29],
    ["Jack", "Durand", 34, "Paris"]
]

with open("data/personnes.csv", mode="w", encoding="utf-8", newline='') as fichier:
    writer = csv.writer(fichier)
    writer.writerows(donnees)

## Écriture avec DictWriter

Permet une écriture plus explicite en utilisant des dictionnaires.

In [None]:
donnees_dict = [
    {"prenom": "Pierre", "nom": "Dupont", "age": 29},
    {"prenom": "Jack", "nom": "Durand", "age": 34}
]

with open("data/personnes_dict.csv", mode="w", encoding="utf-8") as fichier:
    champs = ["prenom", "nom", "age"]
    writer = csv.DictWriter(fichier, fieldnames=donnees_dict[0].keys())
    writer.writeheader()
    writer.writerows(donnees_dict)

## Exercice

Enregistrez le dictionnaire de l'exercice précédent en fichier CSV.

In [None]:
random.seed(0)

data_simulees = {
    'age': [random.randint(20, 60) for _ in range(100)],
    'taille': [round(random.uniform(160, 200), 1) for _ in range(100)],
    'salaire': [round(random.gauss(2500, 1000)) for _ in range(100)]
}

In [None]:
"""
Votre réponse ici
"""

In [None]:
with open('donnees_simulees.csv', mode='w', newline='') as fichier_csv:
    writer = csv.writer(fichier_csv)
    
    # Écriture de l'en-tête
    writer.writerow(['age', 'taille', 'salaire'])
    
    # Écriture des données
    for i in range(100):
        writer.writerow([data_simulees['age'][i], data_simulees['taille'][i], data_simulees['salaire'][i]])

---

## Module `JSON`

### Qu’est-ce que JSON ?
JSON est un format léger et universel pour échanger des données structurées, souvent utilisé dans les API web, les fichiers de configuration ou le stockage de données. Le module `json` convertit les structures Python (dictionnaires, listes, etc.) en JSON et vice-versa.

https://docs.python.org/3/library/json.html


In [None]:
import json

## Sérialisation et Désérialisation

### Définitions
- **Sérialisation** : Convertir un objet Python en une chaîne JSON (encodage).
- **Désérialisation** : Convertir une chaîne JSON en un objet Python (décodage).

### Fonctions Principales
- **`json.dumps(obj)`** : Sérialise un objet en chaîne JSON.
- **`json.loads(str)`** : Désérialise une chaîne JSON en objet Python.
- **`json.dump(obj, file)`** : Sérialise un objet dans un fichier.
- **`json.load(file)`** : Désérialise un fichier JSON en objet.

### Exemple Simple
Convertissons un dictionnaire.

In [None]:
# Données Python
personne = {
    "nom": "Alice",
    "âge": 25,
    "ville": "Paris"
}

In [None]:
# Sérialisation en chaîne JSON
json_str = json.dumps(personne)
print("JSON sérialisé :", json_str)

JSON sérialisé : {"nom": "Alice", "\u00e2ge": 25, "ville": "Paris"}


In [None]:
# Désérialisation en objet Python
personne_retour = json.loads(json_str)
print("Objet Python désérialisé :", personne_retour)

Objet Python désérialisé : {'nom': 'Alice', 'âge': 25, 'ville': 'Paris'}


- **`dumps`** : Transforme le dictionnaire en une chaîne JSON sans indentation par défaut.
- **`loads`** : Reconstruit le dictionnaire à partir de la chaîne JSON.
- **Types pris en charge** : Dictionnaires, listes, chaînes, nombres, booléens, `None` (converti en `null`).

Ajoutons des options pour améliorer la lisibilité !

## Sérialisation avec Options

Options Utiles:
- **`indent`** : Ajoute une indentation pour une meilleure lisibilité.
- **`sort_keys`** : Trie les clés des dictionnaires.
- **`ensure_ascii`** : Gère les caractères non-ASCII (par défaut `True`).



In [None]:
# Données complexes
donnees = {
    "utilisateur": "Clément",
    "scores": [95, 87, 92],
    "actif": True,
    "note": None,
    "spécial": "éléphant"
}

In [None]:
# Sérialisation avec options
json_str = json.dumps(donnees)
print("JSON formaté :", json_str)

JSON formaté : {"utilisateur": "Cl\u00e9ment", "scores": [95, 87, 92], "actif": true, "note": null, "sp\u00e9cial": "\u00e9l\u00e9phant"}


In [None]:
# Sérialisation avec options
json_str = json.dumps(donnees, indent=2, sort_keys=True, ensure_ascii=False)
print("JSON formaté :", json_str)

JSON formaté : {
  "actif": true,
  "note": null,
  "scores": [
    95,
    87,
    92
  ],
  "spécial": "éléphant",
  "utilisateur": "Clément"
}


# Une situation Réelle

In [None]:
with open("data/exercice_json.json", "r", encoding="utf-8") as fichier:
    données = json.load(fichier)

In [None]:
données.keys()

dict_keys(['organisation', 'dernière_mise_à_jour', 'projets'])

In [None]:
from pprint import pprint

In [None]:
pprint(données)

{'dernière_mise_à_jour': '2025-05-10',
 'organisation': 'InnovTech Solutions',
 'projets': [{'date_début': '2024-03-01',
              'date_fin': None,
              'description': "Développement d'une IA pour diagnostiquer les "
                             'maladies rares.',
              'id': 101,
              'membres': [{'nom': 'Alice Dupont', 'rôle': 'Chef de projet'},
                          {'nom': 'Karim Bellarbi', 'rôle': 'Développeur IA'}],
              'nom': 'IA Santé',
              'statut': 'en cours',
              'technologies': ['Python', 'TensorFlow', 'FastAPI']},
             {'date_début': '2023-09-15',
              'date_fin': '2024-06-30',
              'description': 'Plateforme en ligne pour la formation continue '
                             'des enseignants.',
              'id': 102,
              'membres': [{'nom': 'Léa Martin', 'rôle': 'Designer UX'},
                          {'nom': 'Paul Nguyen',
                           'rôle': 'Développeu

In [None]:
# Afficher de manière lisible
print("Organisation:", données["organisation"])
print("Dernière mise à jour:", données["dernière_mise_à_jour"])
print("\nListe des projets:\n")

for projet in données["projets"]:
    print(f"📌 {projet['nom']} ({projet['statut']})")
    print(f"  Description: {projet['description']}")
    print(f"  Dates: {projet['date_début']} → {projet['date_fin'] or 'en cours'}")
    print("  Équipe:")
    for membre in projet["membres"]:
        print(f"    - {membre['nom']} ({membre['rôle']})")
    print("  Technologies utilisées:", ", ".join(projet["technologies"]))
    print()

Organisation: InnovTech Solutions
Dernière mise à jour: 2025-05-10

Liste des projets:

📌 IA Santé (en cours)
  Description: Développement d'une IA pour diagnostiquer les maladies rares.
  Dates: 2024-03-01 → en cours
  Équipe:
    - Alice Dupont (Chef de projet)
    - Karim Bellarbi (Développeur IA)
  Technologies utilisées: Python, TensorFlow, FastAPI

📌 Plateforme Éducation (terminé)
  Description: Plateforme en ligne pour la formation continue des enseignants.
  Dates: 2023-09-15 → 2024-06-30
  Équipe:
    - Léa Martin (Designer UX)
    - Paul Nguyen (Développeur Frontend)
  Technologies utilisées: React, Node.js, MongoDB



## Exercice
Modifier le job de Léa Martin (Designer UX) par "Backend Developpeur"

In [None]:
"""votre solution ici"""

In [None]:
with open("data/exercice_json.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# Modifier le rôle de Léa Martin
for projet in data.get("projets", []):
    for membre in projet.get("membres", []):
        if membre["nom"] == "Léa Martin":
            print(f"Ancien rôle de Léa Martin : {membre['rôle']}")
            membre["rôle"] = "Développeur BackEnd"
            print("Nouveau rôle attribué.")

# Sauvegarder les modifications
with open("réponse.json", "w", encoding="utf-8") as f:
    json.dump(data, f, indent=4, ensure_ascii=False)

print("Le fichier JSON a été mis à jour.")

## Conclusion

Cette section vous a permis de maîtriser :
- **`math`** : Calculs mathématiques (racine, trigonométrie).
- **`datetime`** : Gestion des dates et heures.
- **`os`** : Interaction avec le système de fichiers.
- **`glob`** : Recherche de fichiers par motif.
- **`string`** : Manipulation de chaînes de caractères.
- **`random`** : Génération de nombres aléatoires.
- **`csv`** : Lecture et écriture de fichiers CSV.
- **`json`** : Encodage et décodage de données JSON.
