# Cours "Géomatique"
### Louis Maritaud
### louis.maritaud@unilim.fr

## Objectifs pédagogiques
- Comprendre l'intérêt de la programmation au sein des SHS
- Apprendre les bases de Python:
    * Types de données
    * Structures de données
- Se familiariser avec les paradigmes de programmation
- Manipuler des données à l'aide de Pandas

# Introduction : qu'est-ce que c'est que ce truc ?

Vous êtes actuellement sur un Notebook Jupyter, qui est constitué d'une succession de **cellules**, qui contiennent soit du code à exécuter, soit du texte ou des images.

Pour exécuter une cellule, vous pouvez taper `Maj + Entrée` sur le clavier, ou cliquer sur le bouton "play" lorsque vous vous situez dans une cellule (en cliquant dessus).

**Vous pouvez modifier ce que vous voulez dans ce notebook, rien ne sera sauvegardé automatiquement !**

# Séance 1 : Python, l'algorithmique et les Sciences Humaines et Sociales

## Première partie : Python et les Sciences Humaines et Sociales

### Les Humanités Numériques

- La question de l'informatique et des sciences humaines et sociales remonte au milieu du XXème siècle, via notamment les traitements statistiques.
- L'apport informatique aux SHS a pris un essor considérable, jusqu'à construire un champ conceptuel : les humanités numériques.
- Aujourd'hui, être en mesure de coder est une plus-value considérable dans la recherche en SHS et sur le marché du travail.

### Pourquoi coder en SHS ? (1/2)
- Plusieurs points clés : 
    * Manipulation de jeux de données de plus en plus volumineux : _données ouvertes_, _Big Data_, _données photogrammétriques_, etc.
    * Le monde évolue, et les pratiques avec :
        - Exemple de l'intelligence artificielle

#### Petit apparté IA
- C'est quoi l'IA ? Un système qui apprend en autonomie. C'est tout. → Petit problème éthique, aujourd'hui, le produit, [c'est vous](https://arxiv.org/html/2507.12372v1).
- Petit problème logique → un modèle d'IA peut vous dire absolument tout et n'importe quoi : [apprentissage =/= compréhension](https://www.reddit.com/r/aifails/)
- Parlons de BERT :
    - BERT est un type de modèle d'IA basé sur Transformers qui fait des tâches liées au langage.
    - On peut avoir du tagging automatique, du découpage morphosyntaxique, de la prédiction de valeurs etc.
    - Comment on fait un modèle BERT ?
        - On _fine-tune_ un modèle de cette architecture là (ex français : CamemBERT ; FlauBERT) sur des données que l'on crée.
        - Pour une tâche de prédiction d'annotations, on va annoter un ensemble donné, et entraîner le modèle dessus.
        - On vérifie ensuite les faux positifs, les faux négatifs et les bonnes prédictions sur un jeu de données distinct.
        - Si on est content, on peut utiliser le modèle pour annoter de nouveaux éléments.
    - → On reste dans une dynamique assez pauvre.
    - → Les modèles avec chatbot, plus évolués (ChatGPT, Mistral, Claude, Llama, Sora etc) vont effectivement avoir de meilleurs résultats, mais :
       - → Ce que vous leur dites est littéralement utilisé pour les entraîner. Vous savez, vos mémoires ou dossiers que vous demandez de corriger ? 
       - → Si vous mettez un document sur un chatbot, le chatbot peut tout à fait le redonner à un autre utilisateur, **tel quel**.
       - → Si vous mettez un document ou des données *sensibles* sur un chatbot, la justice peut tout à fait vous condamner (1 infraction au RGPD = 5 ans d'emprisonnement ; 200 000€ d'ammende).
       - → 1 requête ChatGPT = 0,34 Wh. 1M requêtes/jour. Multiplié par tous les autres chatbots, ça commence à faire beaucoup trop. 

### Pourquoi coder en SHS ? (2/2)       
Si on reprend :
- Plusieurs points clés : 
    * Manipulation de jeux de données de plus en plus volumineux : _données ouvertes_, _Big Data_, _données photogrammétriques_, etc.
    * Le monde évolue, et les pratiques avec :
        - Exemple de l'intelligence artificielle
        - → Coder, c'est s'émanciper de beaucoup d'éléments négatifs de l'IA : 
            - On peut en construire des plus adaptées
            - On peut en faire tourner en local (pas de fuite de données, pas d'entraînement sur vos données, etc)
            - On peut très souvent assez facilement faire ce qu'on demande au chatbot directement
            - Aujourd'hui, des programmes entiers se montent autour de l'IA dans la recherche, **même en SHS**.
        - Exemple du temps gagné
            - Coder (en python), c'est pouvoir **automatiser** tout un tas de trucs longs et rébarbatifs
               - → Webscrapping
               - → OCR
               - → Tri/recherche dans des données
        - Qui permet d'aller plus loin, de façon globale. 
    * La géographie, et d'autant plus la géomatique, ont toujours été très à la pointe en ce qui concerne le traitement de données ! 


### Différents enjeux, différentes implications

**Code / Script / Programme :**
- Le **code** est constitué de commandes exprimées dans un langage de programmation
- Un **script** est un ensemble de commandes organisé pour effectuer une action donnée
- Un **programme (ou logiciel)** est un ensemble structuré de scripts

**Exemples de langages pour écrire "Hello World!" :**

Python (le plus simple) :
```python
print("Hello World!")
```

JavaScript :
```javascript
console.log("Hello World!")
```

Java (plus verbeux) :
```java
public class Main {
    public static void main(String[] args) {
        System.out.println("Hello World!");
    }
}
```

## Deuxième partie : Faisons du Python

### L'algorithmique : une recette de cuisine

Un algorithme, c'est comme une recette : une suite d'instructions à suivre dans l'ordre.

**Exemple : calculer une moyenne de notes**

In [None]:
# 1. Trouver les notes 
notes = [14, 12, 19, 6, 17, 3]

# 2. Les additionner
total = sum(notes)
print(f"Le total est de {total}")

# 3. Repérer le nombre de notes
nb = len(notes)
print(f'Il existe {nb} notes différentes')

# 4. Diviser la somme par le nombre de notes
moyenne = total / nb
print(f"La moyenne est de {round(moyenne, 2)}")

**Concept clé : les variables**

Une **variable** est comme une boîte avec une étiquette. On y met une valeur qu'on peut réutiliser.
- `notes` est une variable qui contient une **liste** de **nombres**
- `total` est une variable qui contient la somme
- On utilise `=` pour **affecter** une **valeur** à une **variable**

## Les Types de données en Python

### 1. Les nombres

**`int` (entiers) :**

In [None]:
age = 25
annee = 2024
population = 67000000
type(age)  # Renvoie : int

**`float` (décimaux) :**

In [None]:
taille = 1.75
temperature = 20.5
taux = 0.15
type(taille)  # Renvoie : float

### 2. Les textes

**`str` (chaînes de caractères) :**

In [None]:
prenom = "Marie"
ville = 'Paris'
phrase = "Bonjour à tous"
type(prenom)  # Renvoie : str

Attention : `"42"` (avec guillemets) est du texte, pas un nombre !
**Les double guillemets `"` (3) et les guillemets simples `'` (4) permettent de déclarer une chaîne de caractères.**    
Il faut cependant **absolument** que le guillemet ouvrant soit le même que le guillemet fermant.     
Pour déclarer des guillemets au sein de la chaîne de caractères, on les **échappe** :     
On met alors un antislash `\` avant le caractère en question : 

In [None]:
# Sans l'échappement → erreur :

test_echec = "ceci est un guillemet : ""
print(test_echec)

In [None]:
# Avec l'échappement → correct :
test = "ceci est un guillemet : \""
print(test)

**L'échappement des caractères est un concept assez fondamental en Python, on le verra probablement plus tard !**

## EXERCICE 1 : Premiers pas avec les variables

Créez les variables suivantes :
1. Une variable `prenom` avec votre prénom
2. Une variable `age` avec votre âge
3. Une variable `ville` avec votre ville
4. Affichez-les avec `print()`

**Indice :** Pour créer un str qui contient des informations provenant de variables, on utilise un **f-string**.    
Un f-string est s'écrit en mettant la lettre `f` avant les guillemets, et en notant les variables à intégrer entre accolades 

In [None]:
# Votre code ici


print(f"Je m'appelle {prenom}, j'ai {age} ans et j'habite à {ville}") # f-string

**Solution**

In [None]:
# Pour affecter une valeur à une variable, on écrit le nom de la variable, suivi de l'opérateur =, puis la valeur de la variable 
prenom = "Louis" # Une variable entre guillemets est une chaîne de caractères, un string // str
age = 31 # Une variable numérique sans point et sans guillemets est un entier, un integral // int
ville = "Limoges" # Une variable entre guillemets est une chaîne de caractères, un string // str

print(f"Je m'appelle {prenom}, j'ai {age} ans et j'habite à {ville}") # f-string : on écrit la lettre f avant d'ouvrir les guillemets, et on met les variables entre accolades. 
# La commande print permet d'afficher le contenu d'une variable. 

## 3. Les collections de données

### Les listes (`list`)

Une liste permet de regrouper plusieurs éléments dans l'ordre. Les listes peuvent avoir des types mixtes.    
Pour accéder à un élément d'une liste, on utilise son **index**, c'est à dire sa position dans la liste., qu'on positionne après le nom de la variable et entre crochets.    
L'index d'une liste est un `int`     
**Attention, en Python, on compte à partir de 0 !**
```python
liste=["élément 1", "élémént 2", "élément 3"]
#        index 0,     index 1,     index 2
         liste[0]     liste[1]     liste[2]
```

In [None]:
villes = ["Paris", "Lyon", "Marseille", "Limoges"]
annees = [2020, 2021, 2022, 2023]
mixte = [1, "bonjour", 3.14, True]

# Accéder aux éléments par leur index (position)
# En Python, on commence à compter à 0 !
print(villes[0])  # "Paris"
print(villes[2])  # "Marseille"

**Cas d'usage SHS : corpus de textes**

In [None]:
corpus = [
    "Discours du roi Louis XIV",
    "Lettre de Madame de Sévigné",
    "Testament politique de Richelieu"
]

# Compter le nombre de documents
nb_documents = len(corpus)  # len() est une fonction qui renvoie le nombre d'éléments d'une liste, le nombre de caractères dans une chaîne, etc.
print(f"Le corpus contient {nb_documents} documents")

### Les dictionnaires (`dict`)

Un dictionnaire associe une clé à une valeur, comme dans un vrai dictionnaire où on associe un mot à sa définition.

Une entrée, c'est à dire `key+value associée`, s'appelle un `item`.

On réprésente un dictionnaire de la sorte : entre accolades, avec des paires `clé`:`valeur` séparées par des virgules :    
```python
dictionnaire= {    "clé_1" : "valeur_1"  ,     "clé_2" : "valeur_2"   , ...,     "clé_n" : "valeur_n" }
#                 : entre clé et valeur        : entre clé et valeur             : entre clé et valeur 
#             {         Paire 1          ,          Paire 2           ,     ,          Paire n        }
                
```
Dans un dictionnaire, la clé doit être un élément seul. Il peut s'agir d'un `float`, d'un `str` ou d'un `int`, mais vous ne pourrez par exemple pas mettre une liste en clé.  

Cependant, la valeur d'une clé peut être de n'importe quelle sorte. Il peut s'agir d'une liste, d'un autre dictionnaire, ou des autres types de données dont nous parlerons juste après.     

**Pour accéder aux valeurs d'une clé, on écrit le nom de la variable dictionnaire suivi de la clé entre crochets.**    
**Attention ! Si la clé est un `int` ou un `float`, pas de guillemets. Si c'est un `str`, il faudra des guillemets !**


In [None]:
personne = {
    "nom": "Dupont",
    "prenom": "Marie",
    "age": 28,
    "ville": "Lyon"
}

# Accéder aux valeurs via les clés
print(personne["nom"])     # "Dupont"
print(personne["ville"])   # "Lyon"

**Cas d'usage SHS : données structurées**

In [None]:
manuscrit = {
    "titre": "Roman de la Rose",
    "auteur": "Guillaume de Lorris",
    "date": 1230,
    "langue": "ancien français",
    "support": "parchemin"
}

print(f"Le manuscrit '{manuscrit['titre']}' date de {manuscrit['date']}")

**Dictionnaires imbriqués :**    
Puisque les valeurs des clés peuvent avoir des types différents, on peut faire par exemple des dictionnaires imbriqués.       
Pour une meilleure lisibilité, il est tout à fait possible de jouer sur l'indentation.    

In [None]:
archives = {
    "doc_001": {
        "type": "lettre",
        "auteur": "Victor Hugo",
        "date": "1850-03-15"
    },
    "doc_002": {
        "type": "acte notarié",
        "auteur": "Notaire Lebrun",
        "date": "1789-07-14"
    }
}

# Accès en cascade
print(archives["doc_001"]["auteur"])  # "Victor Hugo"

## EXERCICE 2 : Créer un dictionnaire biographique

Créez un dictionnaire représentant une personne historique de votre choix avec :
- nom, prénom, date de naissance, lieu de naissance, profession

Puis affichez une phrase complète avec ces informations.

In [None]:
# Votre code ici


**Solution**

In [None]:
dictionnaire = { # On créé une variable dictionnaire, à laquelle on affecte un dictionnaire (en utilisant les accolades)
    "nom" : "Maritaud", # On crée les paires de clé-valeurs. Chaque clé est à gauche du : et chaque valeur associée est à droite de sa clé.
    "prenom" : "Louis", # On sépare les différentes paires clé-valeur par des virgules
    "date_de_naissance" : "18 décembre 1994",
    "lieu de naissance" : "Nevers",
    "profession" : "ingénieur de recherche"
}
print(f"Je m'appelle {dictionnaire["prenom"]} {dictionnaire["nom"]}, je suis né le {dictionnaire["date_de_naissance"]} à {dictionnaire["lieu de naissance"]}, et je suis {dictionnaire["profession"]}.")

## EXERCICE 3 : Créer une base de données simple

Créez une liste de 3 dictionnaires représentant 3 œuvres littéraires avec :
- titre, auteur, année de publication

In [None]:
# Votre code ici


**Solution**

In [None]:
liste_dictionnaires = [ # On crée une variable liste_dictionnaires à laquelle on associe un type de données "liste" grâce aux crochets.
    {"titre" : "Les Misérables", "auteur":"Victor Hugo", "annee" : "1862"},
    {"titre" : "Magnus", "auteur":"Sylvie Germain", "annee" : "2005"},
    {"titre" : "Umibe no Kafuka", "auteur":"Haruki Murakami", "annee" : "2002"}
]

# Bonus : 
# Pour accéder aux différents items du dictionnaire, on passe par leur index dans la liste.
# Par exemple, pour renvoyer le dictionnaire correspondant à Magnus de Sylvie Germain, on appelle l'index 1 de la liste car il est en deuxième position :
print(f"En appelant l'index 1 de la liste, j'obtiens : \n {liste_dictionnaires[1]}") # \n est un saut de ligne en python
print("\n")
# Puisque ce qui est renvoyé est un dictionnaire (on le voit aux accolades et la succession de clés-valeurs), je peux accéder aux différents éléments dudit dictionnaire : 
print(f"En appelant la clé 'auteur' du dictionnaire qui est renvoyé par l'item à l'index 1 de la liste, j'obtiens : \n '{liste_dictionnaires[1]["auteur"]}'")

print(f"\n{"-"*30}\nPartie 'Bonus'\n{"-"*30}")
# Juste après, on va voir les boucles. Exemple de boucle qui me permet d'afficher toutes les informations d'un coup : 
for k, i in enumerate(liste_dictionnaires):
    print(f"Description de l'oeuvre située à l'index {k} de la liste :")
    for j in i.keys():
        print(f"{j} : {i[j]}")
    print(f"Fin de description de l'oeuvre.\n{"-"*30}")

# Rappel de début de séance 2 ! 
## Ce qu'on a vu 
* Les **types** de données :      
    - `str`, string, chaînes de caractères. Représentées entre guillemets simples ' ou doubles ". En cas de besoin de mettre des guillemets dans un str en tant que caractère, il faut l'échapper en mettant un \ devant : `\" par exemple.    
    **Exemple de str** : `"\"Bonjour !\", dit-il"` , `"42"`     
        
    - `int`, integral, les entiers. Ce sont des chiffres sans virgules, ils n'ont pas de point à l'intérieur.     
    **Exemple de int** : `42`, `4733842`, `0`    
        
    - `float`, float, les décimaux. Les virgules sont représentées par des points.    
    **Exemple de float** : `1.2`, `0.45`    
        
* Les **structures** de données :    
    - **Les listes**, `list`, sont des données ordonnées selon un index qui correspond à leur position dans la liste. On écrit une liste entre crochets `[]`, et on sépare les éléments par des virgules.    
    **Exemple de liste** : `["Ceci", "est", "une", "liste"]`    
        
    - **Les dictionnaires**, `dict`, sont des structures de données organisées autour d'un système de paires clé-valeur. Ils sont représentés entre accolades, chaque paire est séparée par des virgules, et la clé et la valeur sont associées par :    
    **Exemple de dictionnaire** : `{ "Clé_1" : "Valeur 1" , "Clé_2" : "Valeur_2"}`. Les clés des dictionnaires ne peuvent pas être des structures de données. Les valeurs peuvent être n'importe quoi.          