# Cours "Géomatique"
### Louis Maritaud
### louis.maritaud@unilim.fr

## Objectifs pédagogiques
- Comprendre l'intérêt de la programmation au sein des SHS
- Apprendre les bases de Python:
    * Types de données
    * Structures de données
- Se familiariser avec les paradigmes de programmation
- Manipuler des données à l'aide de Pandas

# Introduction : qu'est-ce que c'est que ce truc ?

Vous êtes actuellement sur un Notebook Jupyter, qui est constitué d'une succession de **cellules**, qui contiennent soit du code à exécuter, soit du texte ou des images.

Pour exécuter une cellule, vous pouvez taper `Maj + Entrée` sur le clavier, ou cliquer sur le bouton "play" lorsque vous vous situez dans une cellule (en double cliquant dessus).

**Vous pouvez modifier ce que vous voulez dans ce notebook, rien ne sera sauvegardé automatiquement !**

# Séance 1 : Python, l'algorithmique et les Sciences Humaines et Sociales

## Première partie : Python et les Sciences Humaines et Sociales

### Les Humanités Numériques

- La question de l'informatique et des sciences humaines et sociales remonte au milieu du XXème siècle, via notamment les traitements statistiques.
- L'apport informatique aux SHS a pris un essor considérable, jusqu'à construire un champ conceptuel : les humanités numériques.
- Aujourd'hui, être en mesure de coder est une plus-value considérable dans la recherche en SHS et sur le marché du travail.

### Pourquoi coder en SHS ? (1/2)
- Plusieurs points clés : 
    * Manipulation de jeux de données de plus en plus volumineux : _données ouvertes_, _Big Data_, _données photogrammétriques_, etc.
    * Le monde évolue, et les pratiques avec :
        - Exemple de l'intelligence artificielle

#### Petit apparté IA
- Considéré dès la loi informatique et libertés de 1978 → c'est pas tellement nouveau. 
- C'est quoi l'IA ? Un système qui apprend en autonomie. C'est tout. → Petit problème éthique, le produit, [c'est vous](https://arxiv.org/html/2507.12372v1).
- Petit problème logique → un modèle d'IA peut vous dire absolument tout et n'importe quoi : [apprentissage =/= compréhension](https://www.reddit.com/r/aifails/)
- Parlons de BERT :
    - BERT est un type de modèle d'IA basé sur Transformers qui fait des tâches liées au langage.
    - On peut avoir du tagging automatique, du découpage morphosyntaxique, de la prédiction de valeurs etc.
    - Comment on fait un modèle BERT ?
        - On _fine-tune_ un modèle de cette architecture là (ex français : CamemBERT ; FlauBERT) sur des données que l'on crée.
        - Pour une tâche de prédiction d'annotations, on va annoter un ensemble donné, et entraîner le modèle dessus.
        - On vérifie ensuite les faux positifs, les faux négatifs et les bonnes prédictions sur un jeu de données distinct.
        - Si on est content, on peut utiliser le modèle pour annoter de nouveaux éléments.
    - → On reste dans une dynamique assez pauvre.
    - → Les modèles avec chatbot, plus évolués (ChatGPT, Mistral, Claude, Llama, Sora etc) vont effectivement avoir de meilleurs résultats, mais :
       - → Ce que vous leur dites est littéralement utilisé pour les entraîner. Vous savez, vos mémoires ou dossiers que vous demander de corriger ? 
       - → Si vous mettez un document sur un chatbot, le chatbot peut tout à fait le redonner à un autre utilisateur.
       - → Si vous mettez un document ou des données *sensibles* sur un chatbot, la justice peut tout à fait vous condamner (1 infraction au RGPD = 5 ans d'emprisonnement ; 200 000€ d'ammende).
       - → 1 requête ChatGPT = 0,34 Wh. 1M requêtes/jour. Multiplié par tous les autres chatbots, ça commence à faire beaucoup trop. 

### Pourquoi coder en SHS ? (2/2)       
Si on reprend :
- Plusieurs points clés : 
    * Manipulation de jeux de données de plus en plus volumineux : _données ouvertes_, _Big Data_, _données photogrammétriques_, etc.
    * Le monde évolue, et les pratiques avec :
        - Exemple de l'intelligence artificielle
        - → Coder, c'est s'émanciper de beaucoup d'éléments négatifs de l'IA : 
            - On peut en construire des plus adaptées
            - On peut en faire tourner en local (pas de fuite de données, pas d'entraînement sur vos données etc)
            - On peut très souvent assez facilement faire ce qu'on demande au chatbot directement
            - Aujourd'hui, des programmes entiers se montent autour de l'IA dans la recherche, **même en SHS**.
        - Exemple du temps gagné
            - Coder (en python), c'est pouvoir **automatiser** tout un tas de trucs longs et rébarbatifs
               - → Webscrapping
               - → OCR
               - → Tri/recherche dans des données
        - Qui permet d'aller plus loin, de façon globale. 


### Différents enjeux, différentes implications

**Code / Script / Programme :**
- Le **code** est constitué de commandes exprimées dans un langage de programmation
- Un **script** est un ensemble de commandes organisé pour effectuer une action donnée
- Un **programme (ou logiciel)** est un ensemble structuré de scripts

**Exemples de langages pour écrire "Hello World!" :**

Python (le plus simple) :
```python
print("Hello World!")
```

JavaScript :
```javascript
console.log("Hello World!")
```

Java (plus verbeux) :
```java
public class Main {
    public static void main(String[] args) {
        System.out.println("Hello World!");
    }
}
```

## Deuxième partie : Faisons du Python

### L'algorithmique : une recette de cuisine

Un algorithme, c'est comme une recette : une suite d'instructions à suivre dans l'ordre.

**Exemple : calculer une moyenne de notes**

In [None]:
# 1. Trouver les notes 
notes = [14, 12, 19, 6, 17, 3]

# 2. Les additionnerl
total = sum(notes)
print(f"Le total est de {total}")

# 3. Repérer le nombre de notes
nb = len(notes)
print(f'Il existe {nb} notes différentes')

# 4. Diviser la somme par le nombre de notes
moyenne = total / nb
print(f"La moyenne est de {round(moyenne, 2)}")

**Concept clé : les variables**

Une **variable** est comme une boîte avec une étiquette. On y met une valeur qu'on peut réutiliser.
- `notes` est une variable qui contient une **liste** de **nombres**
- `total` est une variable qui contient la somme
- On utilise `=` pour **affecter** une **valeur** à une **variable**

## Les Types de données en Python

### 1. Les nombres

**`int` (entiers) :**

In [None]:
age = 25
annee = 2024
population = 67000000
type(age)  # Renvoie : int

**`float` (décimaux) :**

In [None]:
taille = 1.75
temperature = 20.5
taux = 0.15
type(taille)  # Renvoie : float

### 2. Les textes

**`str` (chaînes de caractères) :**

In [None]:
prenom = "Marie"
ville = 'Paris'
phrase = "Bonjour à tous"
type(prenom)  # Renvoie : str

Attention : `"42"` (avec guillemets) est du texte, pas un nombre !

## EXERCICE 1 : Premiers pas avec les variables

Créez les variables suivantes :
1. Une variable `prenom` avec votre prénom
2. Une variable `age` avec votre âge
3. Une variable `ville` avec votre ville
4. Affichez-les avec `print()`

**Indice :** Pour créer un str qui contient des informations provenant de variables, on utilise un **f-string**.    
Un f-string est s'écrit en mettant la lettre `f` avant les guillemets, et en notant les variables à intégrer entre accolades 

In [None]:
# Votre code ici


print(f"Je m'appelle {prenom}, j'ai {age} ans et j'habite à {ville}") # f-string

**Solution**

In [52]:
prenom = "Louis"
age = 31
ville = "Limoges"

print(f"Je m'appelle {prenom}, j'ai {age} ans et j'habite à {ville}")

Je m'appelle Louis, j'ai 31 ans et j'habite à Limoges


## 3. Les collections de données

### Les listes (`list`)

Une liste permet de regrouper plusieurs éléments dans l'ordre. Les listes peuvent avoir des types mixtes.

In [None]:
villes = ["Paris", "Lyon", "Marseille", "Limoges"]
annees = [2020, 2021, 2022, 2023]
mixte = [1, "bonjour", 3.14, True]

# Accéder aux éléments par leur index (position)
# En Python, on commence à compter à 0 !
print(villes[0])  # "Paris"
print(villes[2])  # "Marseille"

**Cas d'usage SHS : corpus de textes**

In [None]:
corpus = [
    "Discours du roi Louis XIV",
    "Lettre de Madame de Sévigné",
    "Testament politique de Richelieu"
]

# Compter le nombre de documents
nb_documents = len(corpus)
print(f"Le corpus contient {nb_documents} documents")

### Les dictionnaires (`dict`)

Un dictionnaire associe une clé à une valeur, comme dans un vrai dictionnaire où on associe un mot à sa définition.

Une entrée, c'est à dire `key+value associée`, s'appelle un `item`.

Dans un dictionnaire, la clé doit être un élément seul. Il peut s'agir d'un `float`, d'un `str` ou d'un `int`, mais vous ne pourrez par exemple pas mettre une liste en clé.  

Cependant, la valeur d'une clé peut être de n'importe quelle sorte. Il peut s'agir d'une liste, d'un autre dictionnaire, ou des autres types de données dont nous parlerons juste après. 


In [None]:
personne = {
    "nom": "Dupont",
    "prenom": "Marie",
    "age": 28,
    "ville": "Lyon"
}

# Accéder aux valeurs via les clés
print(personne["nom"])     # "Dupont"
print(personne["ville"])   # "Lyon"

**Cas d'usage SHS : données structurées**

In [None]:
manuscrit = {
    "titre": "Roman de la Rose",
    "auteur": "Guillaume de Lorris",
    "date": 1230,
    "langue": "ancien français",
    "support": "parchemin"
}

print(f"Le manuscrit '{manuscrit['titre']}' date de {manuscrit['date']}")

**Dictionnaires imbriqués :**    
Puisque les valeurs des clés peuvent avoir des types différents, on peut faire par exemple des dictionnaires imbriqués.       
Pour une meilleure lisibilité, il est tout à fait possible de jouer sur l'indentation.    

In [None]:
archives = {
    "doc_001": {
        "type": "lettre",
        "auteur": "Victor Hugo",
        "date": "1850-03-15"
    },
    "doc_002": {
        "type": "acte notarié",
        "auteur": "Notaire Lebrun",
        "date": "1789-07-14"
    }
}

# Accès en cascade
print(archives["doc_001"]["auteur"])  # "Victor Hugo"

## EXERCICE 2 : Créer un dictionnaire biographique

Créez un dictionnaire représentant une personne historique de votre choix avec :
- nom, prénom, date de naissance, lieu de naissance, profession

Puis affichez une phrase complète avec ces informations.

In [None]:
# Votre code ici


**Solution**

In [None]:
personnage = {
    "nom": "Curie",
    "prenom": "Marie",
    "naissance": 1867,
    "lieu": "Varsovie",
    "profession": "physicienne"
}

print(f"{personnage['prenom']} {personnage['nom']} était une {personnage['profession']} née en {personnage['naissance']} à {personnage['lieu']}")

## EXERCICE 3 : Créer une base de données simple

Créez une liste de 3 dictionnaires représentant 3 œuvres littéraires avec :
- titre, auteur, année de publication

In [None]:
# Votre code ici


**Solution**

In [53]:
bibliotheque = [
    {"titre": "Les Misérables", "auteur": "Victor Hugo", "annee": 1862},
    {"titre": "Madame Bovary", "auteur": "Gustave Flaubert", "annee": 1857},
    {"titre": "Le Père Goriot", "auteur": "Honoré de Balzac", "annee": 1835}
]

# Afficher le titre de la première œuvre
print(bibliotheque[0]["titre"])

Les Misérables


## Les boucles et conditions

### Les boucles `for`

Une boucle `for` permet de répéter une action pour chaque élément d'une collection.

**Syntaxe de base :**
```python
for element in collection:
    # Code à répéter (indenté avec 4 espaces ou une tabulation)
    print(element)
```

**Exemple 1 : itérer sur une liste**

In [None]:
villes = ["Paris", "Lyon", "Marseille"]

for ville in villes:
    print(f"J'ai visité {ville}")

**Exemple 2 : utiliser `range()`**

In [None]:
# range(5) génère les nombres de 0 à 4
for i in range(5):
    print(f"Itération numéro {i}")

**Cas d'usage SHS : analyser un corpus**

In [None]:
corpus = ["texte1.txt", "texte2.txt", "texte3.txt"]

for fichier in corpus:
    print(f"Traitement de {fichier}")
    # Ici on pourrait ouvrir et analyser chaque fichier

## EXERCICE 4 : Boucle sur des données

Vous avez une liste de dates importantes. Affichez pour chaque date : "L'année X fait partie de ma chronologie"

In [None]:
dates = [1789, 1848, 1871, 1914, 1945]

# Votre code ici


**Solution**

In [None]:
dates = [1789, 1848, 1871, 1914, 1945]

for annee in dates:
    print(f"L'année {annee} fait partie de ma chronologie")

### Les conditions `if`, `elif`, `else`

Les conditions permettent d'exécuter du code uniquement si certaines conditions sont remplies.

In [None]:
age = 25

if age < 18:
    print("Mineur")
elif age < 65:
    print("Adulte")
else:
    print("Senior")

**Cas d'usage SHS : classifier des documents**

In [None]:
document = {
    "titre": "Lettre de guerre",
    "date": 1916
}

if document["date"] < 1914:
    periode = "Avant-guerre"
elif document["date"] <= 1918:
    periode = "Première Guerre mondiale"
else:
    periode = "Après-guerre"

print(f"Le document '{document['titre']}' appartient à la période : {periode}")

## EXERCICE 5 : Conditions et classification

Créez un script qui classe des œuvres par siècle

In [None]:
oeuvres = [
    {"titre": "La Chanson de Roland", "annee": 1100},
    {"titre": "Les Misérables", "annee": 1862},
    {"titre": "L'Étranger", "annee": 1942}
]

# Votre code ici : pour chaque œuvre, affichez son siècle


**Solution**

In [None]:
oeuvres = [
    {"titre": "La Chanson de Roland", "annee": 1100},
    {"titre": "Les Misérables", "annee": 1862},
    {"titre": "L'Étranger", "annee": 1942}
]

for oeuvre in oeuvres:
    annee = oeuvre["annee"]
    
    if annee < 1200:
        siecle = "XIIe siècle"
    elif annee < 1900:
        siecle = "XIXe siècle"
    else:
        siecle = "XXe siècle"
    
    print(f"'{oeuvre['titre']}' date du {siecle}")

### Les instructions `break`, `continue`, `pass`

Ces instructions permettent de modifier le comportement d'une boucle ou d'une condition.

* `break` casse la boucle, le programme en sort indépendament du respect de la condition d'origine.
* `continue` revient au début de la boucle en "sautant" l'itération en cours. L'itération actuelle cesse, et on passe à la suivante.
* `pass` permet de gérer la condition en cours (ìf, elif, else) sans que la boucle ne soit affectée. Elle ne gère que la condition au dessus.  

#### Exemple de break

In [None]:
# On va d'abord créer une boucle while infinie -- NE FAITES PAS CA ! Ca peut cramer votre pc si vous laissez tourner une boucle infinie ! :
i=0

while True:
    i+=1
    print(i)
    if i>3:
        print("Boucle terminée - instruction break")
        break

print("En dehors de la boucle")

#### Exemple de continue

In [None]:
for i in range (10):
    if i == 5:
        print("l'instruction continue va remonter à la boucle (for) et passer à l'itération suivante")
        continue
    print(i)
print("Boucle terminée - condition remplie")

#### Exemple de pass

In [None]:
for i in range(10):
    if i == 5:
        print("L'instruction pass n'empêche pas la poursuite de la boucle (for), le chiffre s'imprime")
        pass # pass ici
    print(i)
print("Boucle terminée - condition remplie")

## EXERCICE 6 - itérer jusqu'à une certaine date

Vous avez une liste de dictionnaires décrivant des oeuvres écrites à des dates différentes. Vous voulez `print()` le titre de celles qui sont antérieures à 1850.

**Indice :** Les dictionnaires sont triés par ordre chronologique !    
Utilisez une boucle for, et l'instruction break


In [None]:
oeuvres = [
    {"titre": "La Chanson de Roland", "annee": 1100},
    {"titre": "Julie ou la Nouvelle Héloïse", "annee":1761},
    {"titre": "Lettres persanes", "annee":1721},
    {"titre": "Les Misérables", "annee": 1862},
    {"titre": "L'Étranger", "annee": 1942}
]

# Votre code ici


**Solution**

In [None]:
oeuvres = [
    {"titre": "La Chanson de Roland", "annee": 1100},
    {"titre": "Julie ou la Nouvelle Héloïse", "annee":1761},
    {"titre": "Lettres persanes", "annee":1721},
    {"titre": "Les Misérables", "annee": 1862},
    {"titre": "L'Étranger", "annee": 1942}
]

for oeuvre in oeuvres:
    if oeuvre["annee"]>1850:
        break
    print(oeuvre['titre'])



## Les fonctions : réutiliser son code

Une fonction est un bloc de code réutilisable. C'est comme créer sa propre commande personnalisée.    
Les **paramètres** sont les variables locales à l'intérieur de la fonction, qui sont définies dans sa programmation.     
Lorsqu'on **appelle** la fonction, on lui passe des **arguments** réels qui correspondent aux paramètres.

**Syntaxe :**
```python
def nom_fonction(parametre1, parametre2):
    # Code de la fonction
    resultat = parametre1 + parametre2
    return resultat
```

**Exemple simple :**

In [None]:
def saluer(prenom):
    message = f"Bonjour {prenom} !"
    return message

# Utilisation
print(saluer("Marie"))  # Affiche : Bonjour Marie !

**Cas d'usage SHS : calculer un siècle**

In [None]:
def calculer_siecle(annee):
    """Calcule le siècle d'une année donnée"""
    siecle = (annee - 1) // 100 + 1
    return siecle

# Utilisation
print(calculer_siecle(1789))  # 18
print(calculer_siecle(1850))  # 19
print(calculer_siecle(2024))  # 21

**Fonction plus complexe : analyser une période historique**

In [None]:
def classifier_periode(annee):
    """Classifie une année dans une période historique française"""
    if annee < 1789:
        return "Ancien Régime"
    elif annee < 1799:
        return "Révolution"
    elif annee < 1815:
        return "Empire"
    elif annee < 1848:
        return "Restauration"
    elif annee < 1852:
        return "Deuxième République"
    elif annee < 1870:
        return "Second Empire"
    elif annee < 1940:
        return "Troisième République"
    else:
        return "Époque contemporaine"

# Test
evenements = [
    ("Prise de la Bastille", 1789),
    ("Sacre de Napoléon", 1804),
    ("Révolution de 1848", 1848)
]

for nom, annee in evenements:
    periode = classifier_periode(annee)
    print(f"{nom} ({annee}) → {periode}")

## EXERCICE 7 : Créer une fonction de comptage

Créez une fonction qui compte le nombre de mots dans une phrase.

**Indice :** utilisez la méthode `.split()` qui découpe une chaîne en liste

In [None]:
def compter_mots(texte):
    # Votre code ici

# Test
phrase = "Les humanités numériques transforment la recherche"
print(compter_mots(phrase))  # Devrait afficher 6

**Solution**

In [None]:
def compter_mots(texte):
    """Compte le nombre de mots dans un texte"""
    mots = texte.split()
    return len(mots)

# Test
phrase = "Les humanités numériques transforment la recherche"
print(compter_mots(phrase))  # Affiche : 6

## Introduction à la Programmation Orientée Objet (POO)

En programmation, on a plusieurs **paradigmes** qui vont définir l'approche informatique en situation d'exploitation. La POO est un des paradigmes qui existent, et Python en accepte plusieurs.     
La POO permet de faire des traitements de données complexes, mais est un peu coûteuse à mettre en place. En POO, on peut considérer que l'on manipule un ensemble d'objets en interaction par exemple. 

### Qu'est-ce qu'un objet ? 

En POO, on crée des classes qui permettent de fabriquer des objets similaires, un peu comme des moules de gâteau.   
On va représenter un objet selon des attributs, qu'il partagera avec tous les objets de sa classe. 

**Sans POO (version compliquée) :**

In [None]:
livre1_titre = "Les Misérables"
livre1_auteur = "Victor Hugo"
livre1_annee = 1862

livre2_titre = "Madame Bovary"
livre2_auteur = "Gustave Flaubert"
livre2_annee = 1857

**Avec POO (version organisée) :**

In [None]:
class Livre:
    """Une classe pour représenter un livre"""
    
    def __init__(self, titre, auteur, annee):
        """Initialise un nouveau livre"""
        self._titre = titre # par convention, les variables précédées d'un _ ne doivent pas être modifiées directement
        self._auteur = auteur
        self._annee = annee
    
    def description(self):
        """Renvoie une description du livre"""
        return f"'{self._titre}' de {self._auteur} ({self._annee})"

# Créer des objets livres
livre1 = Livre("Les Misérables", "Victor Hugo", 1862)
livre2 = Livre("Madame Bovary", "Gustave Flaubert", 1857)

# Utiliser les objets
print(livre1.description()) # On lance une fonction à partir d'un objet appartenant à cette classe
print(livre2._titre)  # Accéder à un attribut

**Pourquoi c'est utile ?**
- Organisation : toutes les informations sur un livre sont regroupées
- Réutilisabilité : on crée facilement plusieurs livres avec la même structure
- Méthodes : on peut ajouter des comportements spécifiques

### Exemple SHS : Classe Document historique

In [None]:
class Document:
    """Représente un document d'archives"""
    
    def __init__(self, cote, titre, date, auteur):
        self._cote = cote
        self._titre = titre
        self._date = date
        self._auteur = auteur
    
    def est_ancien(self):
        """Vérifie si le document a plus de 100 ans"""
        return 2026 - self._date > 100
    
    def fiche(self):
        """Génère une fiche descriptive"""
        ancien = "Oui" if self.est_ancien() else "Non"
        return f"""
        Cote : {self._cote}
        Titre : {self._titre}
        Auteur : {self._auteur}
        Date : {self._date}
        Document ancien (>100 ans) : {ancien}
        """

# Créer des documents
doc1 = Document("AD-001", "Registre paroissial", 1650, "Curé Durand")
doc2 = Document("AD-002", "Procès-verbal conseil", 1995, "Mairie de Limoges")

# Utiliser
print(doc1.fiche())
print(f"Le document {doc2._cote} est ancien: {doc2.est_ancien()}")

### EXERCICE 7 : Créer une classe Personne

Créez une classe "Personne" avec : 
- Attributs : nom, prenom, naissance, profession
- Méthode : `age()` qui calcule l'âge en 2024
- Méthode : `presentation()` qui renvoie une phrase de présentation

In [None]:
# Votre code ici


**Solution**

In [None]:
class Personne:
    def __init__(self, nom, prenom, naissance, profession):
        self.nom = nom
        self.prenom = prenom
        self.naissance = naissance
        self.profession = profession
    
    def age(self):
        return 2024 - self.naissance
    
    def presentation(self):
        return f"{self.prenom} {self.nom}, {self.profession}, {self.age()} ans"

# Test
marie = Personne("Curie", "Marie", 1867, "physicienne")
print(marie.presentation())

## Petit point syntaxe 
*Mais Louis, pourquoi on écrit df.head() pour avoir les premières lignes d'un DataFrame alors qu'on écrit type(df) pour avoir son type ?*    
    
**La différence, c'est la POO** 
    
Si l’action dépend de l’objet → on est sur une méthode, on écrit :      
```objet.methode()```          
**La méthode est une fonction qui est liée à la classe de l'objet sur laquelle on l'applique → Orientation POO**        

Si l’action est générale → on est sur une fonction, on écrit :     
```fonction(objet)```         
**Détachée d'une classe d'objet quelconque**


## Les autres paradigmes de programmation 
----
### La programmation impérative
C'est ce qu'on a fait au début du cours.    
Il s'agit d'une succession d'instructions qui sont effectuées dans l'ordre par l'ordinateur, et qui modifient l'état de la mémoire.    
Il s'agit du paradigme **par défaut** en Python.

**Exemple :**    
```python
total = 0 
for i in range(10):
    total+=1
print(total)
```
→ Les instructions sont suivies dans l'ordre, l'état de la mémoire change au cours de l'éxecution. C'est de la programmation impérative.
#### _Avantages_
* Simple
* Intuitif
* Facile à apprendre
#### _Inconvénients_
* Très difficile à maintenir au bout d'un moment
* Puisque l'état des variables change au fur et à mesure, on peut se retrouver avec des comportements inattendus
#### _Contextes d'utilisation_
* Scripts simples
* Automatisations de tâches
* Tests // prototypes

----


### La programmation procédurale
L'idée de la programmation procédurale est de réduire la duplication de code en créant des **fonctions**.
On définit donc des paramètres et on retourne des valeurs suite à l'exécution des fonctions.
**Exemple :**
```python
def somme(n):
    total = n 
    for i in range(10):
        total+=1
    return total

print(somme(0))
```
→ Dans cet exemple on créé la fonciton somme, qui produit le même effet qu'au dessus. La différence est que l'on peut l'utiliser en l'appelant avec un argument différent à chaque fois, sans avoir ) retaper tout le code. 
#### _Avantages_
* Lisible → On peut retourner à la fonction si besoin, et le code est beaucoup plus court
* Code réutilisable dans le même environnement → Une fois la fonction écrite, on peut l'utiliser à volonté
* Moins de duplication → Pour un même traitement, on n'écrit qu'une seule fois la fonction
#### _Inconvénients_
* Les données sont souvent globales → Elles sont modifiées au fur et à mesure de l'exécution, on peut quand même avoir des comportements inatendus
* Dans un système complexe, c'est assez peu viable
#### _Contextes d'utilisation_
* Scripts qui effectuent la même tâche sur des données diverses
* Automatisation d'une seule tâche sur plusieurs éléments 
* Programmes structurés

----

### La programmation fonctionnelle
Ce sera assez abstrait ici, Python n'est pas à propremment parler un langage fonctionnel, même s'il s'en inspire.     
L'idée est ici que le programme est une composition de fonctions, mais ne modifie pas l'état de la mémoire. On ne **modifie** pas les données, on en **créé** de nouvelles.    
La fonction est une valeur en tant que telle, et peut s'emboîter dans d'autres fonctions.     
**Exemple :**

In [19]:
# Je veux chercher les nombres pairs d'une liste
# Exemple en programmation impérative, qui ne marchera pas : 
nombres = [1, 2, 4, 5, 6, 8, 10]
pairs = []

for i, nombre in enumerate(nombres):
    if nombre % 2 == 0:
        pairs.append(nombres.pop(i))

print(f"Pairs trouvés : {pairs}")
print(f"Nombres restants : {nombres}")

Pairs trouvés : [2, 6, 10]
Nombres restants : [1, 4, 5, 8]


In [None]:
#Exemple en programmation fonctionnelle, qui ne modifie pas les états en mémoire mais créé de nouveaux objets :
nombres = [1, 2, 4, 5, 6, 8, 10]
pairs= [nombre for nombre in nombres if nombre % 2==0]

print(f"Pairs trouvés : {pairs}")
print(f"Nombres restants : {nombres}")


Pairs trouvés : [2, 4, 6, 8, 10]
Nombres restants : [1, 2, 4, 5, 6, 8, 10]


#### _Avantages_
* Code plus sûr, sans effet inattendu
* Facile à tester
* plus simple à réaliser à "grande échelle"


#### _Inconvénients_
* Abstraction plus complexe
* Parfois moins intuitif pour certains personnes

#### _Contextes d'utilisation_
* Quand on veut faire une transformation de données qui ne modifie pas l'état des données précédentes 
* Traitements à grande échelles // parrallélisme 


----

### La programmation déclarative
Ici on décrit le résultat attendu, pas les étapes.    
SQL (bases de données relationnelles) est un très bon exemple : 

**Exemple en SQL :**    
On sélectionne toutes les données provenant de "étudiants" quand la valeur associée à "moyenne" est inférieure ou égale à 10 : 
```sql
SELECT * FROM etudiants WHERE moyenne <=10
```

On déclare ce qu'on veut obtenir. Pas comment. 

----

### La programmation orientée événements

Surtout dans le web. Ici on va réagir à des événements externes. Par exemple, quand vous cliquez sur un bouton et que ça produit quelque chose, c'est de la programmation orientée événements.    
Quand vous visitez une page web aussi, mais on va pas rentrer dans le détail.    

**Exemples en Python de bibliothèques pour faire de la POE :**
* tkinter (construction d'interfaces utilisateur)
* Flask / Django (frameworks de construction d'applications/sites web)
----

Pour résumer : 
|Paradigme | Utilisation|
|--|--|
|Impératif	|Scripts simples|
|Procédural|	Programmes structurés|
|POO	| Applications complexes|
|Fonctionnel	| Transformations de données|
|Déclaratif	| Décrire des règles|
|Événementiel	| Interfaces, web|

## Attention aux effets de bord !

### Objets mutables vs immuables

Certains objets peuvent être modifiés sans être réaffectés : ce sont les objets **mutables**.


In [None]:
# Les listes sont mutables
liste1 = [1, 2, 3]
liste2 = liste1  # liste2 pointe vers le MÊME objet que liste1

liste2.append(4)
print(liste1)  # [1, 2, 3, 4] ← Modifié aussi !
print(liste2)  # [1, 2, 3, 4]

**Solution : faire une copie**

In [None]:
liste1 = [1, 2, 3]
liste2 = liste1.copy()  # Crée une vraie copie

liste2.append(4)
print(liste1)  # [1, 2, 3] ← Non modifié
print(liste2)  # [1, 2, 3, 4]

## Objets immuables
On trouve dans ces objets :
- Les chaînes de caractères `str`
- Les intégraux `int`
- Les décimaux `float`
- Les **booléens** `bool`
- Les **tuples** `tuple`

In [6]:
prenom = "Louis"
id_1=id(prenom)
prenom += "ette"
id_2=id(prenom)
if id_1==id_2:
    print("Les IDs sont les mêmes → il s'agit du même élément stocké en mémoire")
if id_1!=id_2:
    print("Les ID sont différents → Il s'agit de deux éléments différents stockés en mémoire !")

Les ID sont différents → Il s'agit de deux éléments différents stockés en mémoire !


## Les tuples
- Les tuples sont des **structures de données**, **immuables**, en Python. 
- Ils s'écrivent entre parenthèse, chaque item les composant étant séparé par une virgule:
```python
tuple_exemple=("ceci","est","un","tuple")
```
**Mais quelle différence avec une liste ?**    
→ Le tuple étant immuable, on ne peut pas l'ordonner, ou modifier ses valeurs sans le réassigner. Utile pour éviter les effets de bord, complexe pour changer les valeurs de données.

In [None]:
# Définition d'un tuple et d'une liste contenant les mêmes valeurs :
tuple_exemple=(4,5,2,9,7,53,1,6)
liste_exemple=[4,5,2,9,7,53,1,6]

# On essaye de modifier une valeur, la première :
try:
    liste_exemple[0]="modifié"
    print(f"La liste est modifiée : {liste_exemple}")
    tuple_exemple[0]="modifié"
except Exception as e:
    print(f"Eh ben non, on peut pas modifier un tuple :\n{e}")

La liste est modifiée : ['modifié', 5, 2, 9, 7, 53, 1, 6]
Eh ben non, on peut pas modifier un tuple : 
'tuple' object does not support item assignment


## Petit intermède try except
Lorsque l'on veut définir un comportement qui dépend d'une erreur, on utilise try et except (comme au dessus).    
Comme leur nom l'indique, try va essayer d'exécuter le bloc de code indenté en dessous.   
S'il y a une erreur ("Exception"), alors le bloc except sera executé.    
On peut ajouter le fait de **capter** l'erreur, c'est à dire la stocker en mémoire     
```except **exception as e**```    
Auquel cas l'erreur sera stockée sous la variable e    

On peut aller beaucoup plus loin avec les try except, mais ce sera à vous de regarder si ça vous intéresse.


## Les booléens
- Dernier type de données que l'on verra et manipulera ensemble
- Les booléens sont très simples, ils n'acceptent que deux valeurs : ```True``` et ```False```

In [50]:
# Les tests d'équivalences sur des variables renvoient des booléens :
variable="variable"
variable_2="variable"
variable_3=42

def test_bool(i,j):
    return i==j

print(f"Quand un test d'équivalence est réalisé et concluant, le test retourne le booléen : {test_bool(variable, variable_2)}")
print(f"Quand un test d'équivalence est réalisé et non concluant, le test retourne le booléen : {test_bool(variable,variable_3)}")

Quand un test d'équivalence est réalisé et concluant, le test retourne le booléen : True
Quand un test d'équivalence est réalisé et non concluant, le test retourne le booléen : False


In [51]:
# On peut se servir des booléens pour casser des boucles whiles autrement infinies :
nb=0
while test_bool(variable, variable_2): # Ce n'est pas nécessaire d'écrire ==True ici, la condition est présupposée 
    print("toujours True")
    nb+=1
    if nb>5:
        print(f"nb = {nb}, la boucle while se casse")
        break

toujours True
toujours True
toujours True
toujours True
toujours True
toujours True
nb = 6, la boucle while se casse


## Troisième partie : Pandas pour manipuler des tableaux

### Qu'est-ce que Pandas ?

Pandas est une bibliothèque Python pour manipuler des données tabulaires (comme Excel, mais en plus puissant).

**Installation (si nécessaire) :**
```bash
pip install pandas
```

### Créer un DataFrame

Un DataFrame est comme un tableau Excel en Python.

In [37]:
import pandas as pd # Par convention, l'intégralité des gens qui font du Python importent pandas comme ça. 
                    # Cela permet d'appeler les fonctions de la bibliothèque sans avoir à taper "pandas" à chaque fois, on peut simplement taper "pd"

# Méthode 1 : à partir d'un dictionnaire
data = {
    "ville": ["Paris", "Lyon", "Marseille"],
    "population": [2165000, 516000, 869000],
    "region": ["Île-de-France", "Auvergne-Rhône-Alpes", "PACA"]
}

df = pd.DataFrame(data)
print(df)

       ville  population                region
0      Paris     2165000         Île-de-France
1       Lyon      516000  Auvergne-Rhône-Alpes
2  Marseille      869000                  PACA


### Cas d'usage SHS : corpus littéraire


In [38]:
import pandas as pd

corpus = {
    "titre": ["Les Misérables", "Madame Bovary", "Le Père Goriot"],
    "auteur": ["Victor Hugo", "Gustave Flaubert", "Honoré de Balzac"],
    "annee": [1862, 1857, 1835],
    "genre": ["roman", "roman", "roman"]
}

df = pd.DataFrame(corpus)
print(df)

            titre            auteur  annee  genre
0  Les Misérables       Victor Hugo   1862  roman
1   Madame Bovary  Gustave Flaubert   1857  roman
2  Le Père Goriot  Honoré de Balzac   1835  roman


### Manipulations de base

**Afficher les premières lignes :**


In [39]:
df.head()  # 5 premières lignes par défaut
df.head(2)  # 2 premières lignes

Unnamed: 0,titre,auteur,annee,genre
0,Les Misérables,Victor Hugo,1862,roman
1,Madame Bovary,Gustave Flaubert,1857,roman


**Informations sur le DataFrame :**

In [40]:
df.info()  # Types de données, nombre de valeurs
df.shape  # (nombre de lignes, nombre de colonnes)
df.columns  # Noms des colonnes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   titre   3 non-null      object
 1   auteur  3 non-null      object
 2   annee   3 non-null      int64 
 3   genre   3 non-null      object
dtypes: int64(1), object(3)
memory usage: 228.0+ bytes


Index(['titre', 'auteur', 'annee', 'genre'], dtype='object')

**Sélectionner une colonne :**


In [41]:
df["titre"]  # Renvoie une Series (colonne)
df[["titre", "auteur"]]  # Renvoie un DataFrame (plusieurs colonnes)

Unnamed: 0,titre,auteur
0,Les Misérables,Victor Hugo
1,Madame Bovary,Gustave Flaubert
2,Le Père Goriot,Honoré de Balzac


**Filtrer les données :**

In [42]:
# Œuvres après 1850
df_recent = df[df["annee"] > 1850]

# Œuvres d'un auteur spécifique
df_hugo = df[df["auteur"] == "Victor Hugo"]

**Ajouter une colonne :**

In [43]:
# Calculer le siècle
df["siecle"] = (df["annee"] - 1) // 100 + 1

**Trier les données :**

In [44]:
df_trie = df.sort_values("annee")  # Par année croissante
df_trie_desc = df.sort_values("annee", ascending=False)  # Décroissant

### EXERCICE 8 : Créer et manipuler un DataFrame

1. Créez un DataFrame avec 5 personnages historiques (nom, naissance, mort, nationalité)
2. Ajoutez une colonne "siecle" (siècle de naissance)
3. Filtrez les personnages nés avant 1800
4. Triez par date de naissance

In [45]:
# Votre code ici


**Solution**

In [None]:
import pandas as pd

personnages = {
    "nom": ["Napoléon", "Marie Curie", "Louis XIV", "Voltaire", "Simone de Beauvoir"],
    "naissance": [1769, 1867, 1638, 1694, 1908],
    "mort": [1821, 1934, 1715, 1778, 1986],
    "nationalite": ["française", "polonaise", "française", "française", "française"]
}

df = pd.DataFrame(personnages)

# Ajouter le siècle
df["siecle"] = (df["naissance"] - 1) // 100 + 1

# Filtrer avant 1800
df_anciens = df[df["naissance"] < 1800]

# Trier
df_trie = df.sort_values("naissance")

print(df_trie)

### Charger des données depuis un fichier

**CSV (le plus courant) :**

In [46]:
df = pd.read_csv("mes_donnees.csv")

# Avec des options
df = pd.read_csv(
    "donnees.csv",
    sep=";",  # Séparateur (parfois ; au lieu de , => quand votre csv vient d'Excel c'est un point-virgule)
    encoding="utf-8"  # Encodage /!\ IMPORTANT
)

FileNotFoundError: [Errno 2] No such file or directory: 'mes_donnees.csv'

**Excel :**

In [None]:
df = pd.read_excel("donnees.xlsx", sheet_name="Feuille1")

**Sauvegarder :**    
Petit disclaimer : Python **nécessite** de spécifier l'encodage en utf-8 pour les caractère spéciaux français. Si vous ne le faites pas, vous aurez beaucoup de bruit dans vos textes !

In [None]:
df.to_csv("resultat.csv", encoding="utf-8", index=False)  # Sans l'index, sinon ça vous rajoute une colonne
df.to_excel("resultat.xlsx", encoding="utf-8", index=False)

### Cas d'usage complet : analyse d'un recensement fictif


In [None]:
import pandas as pd

# Données fictives d'un recensement
recensement = {
    "nom": ["Dupont", "Martin", "Bernard", "Dubois", "Laurent"],
    "age": [45, 32, 67, 28, 51],
    "profession": ["agriculteur", "commerçant", "retraité", "artisan", "instituteur"],
    "ville": ["Limoges", "Brive", "Limoges", "Tulle", "Limoges"]
}

df = pd.DataFrame(recensement)

# Statistiques de base
print("Âge moyen:", df["age"].mean()) # .mean() → Renvoie la moyenne
print("Âge médian:", df["age"].median()) # .median → Renvoie la médiane
print("Âge minimum:", df["age"].min()) # .min → Renvoie la valeur minimale
print("Âge maximum:", df["age"].max()) # .max → Renvoie la valeur maximale

# Compter les professions
print("\nRépartition des professions:")
print(df["profession"].value_counts()) # .value_counts → pour chaque élément distinct, renvoie le nombre d'occurrences

# Compter par ville
print("\nPersonnes par ville:")
print(df["ville"].value_counts())

# Filtrer : personnes de Limoges
df_limoges = df[df["ville"] == "Limoges"] 
print("\nHabitants de Limoges:")
print(df_limoges)

# Grouper par ville et calculer l'âge moyen
age_par_ville = df.groupby("ville")["age"].mean()
print("\nÂge moyen par ville:")
print(age_par_ville)

### EXERCICE 9 : Analyse d'un corpus

Créez un DataFrame représentant un corpus de 6 textes avec :
- titre, auteur, année, nombre de pages

Puis :
1. Calculez la moyenne des pages
2. Trouvez le texte le plus ancien
3. Comptez le nombre de textes par auteur
4. Filtrez les textes de plus de 300 pages

In [None]:
# Votre code ici


**Solution**

In [None]:
import pandas as pd

corpus = {
    "titre": ["Texte A", "Texte B", "Texte C", "Texte D", "Texte E", "Texte F"],
    "auteur": ["Hugo", "Balzac", "Hugo", "Flaubert", "Balzac", "Hugo"],
    "annee": [1862, 1835, 1831, 1857, 1842, 1869],
    "pages": [450, 380, 520, 340, 290, 410]
}

df = pd.DataFrame(corpus)

# 1. Moyenne des pages
print("Moyenne pages:", df["pages"].mean())

# 2. Texte le plus ancien
plus_ancien = df[df["annee"] == df["annee"].min()]
print("\nTexte le plus ancien:")
print(plus_ancien)

# 3. Nombre de textes par auteur
print("\nTextes par auteur:")
print(df["auteur"].value_counts())

# 4. Textes > 300 pages
df_longs = df[df["pages"] > 300]
print("\nTextes de plus de 300 pages:")
print(df_longs)

