# Un Python au pas de course

Pendant ces deux cours, je vous propose une rapide introduction au language de programmation Python, et ensuite, plus intéressant, une introduction à l'utilisation de Python pour l'analyse de données non-structurées: le "texte brut". Au fil des deux cours, on verra:

- les bases de la syntaxe Python
- les principaux types de données et quelques opérations qui sont possibles avec
- la structuration automatique de texte avec Python
- la détection de motifs dans le texte et la modification de texte
- une introduction à l'analyse du texte par "lecture distante" (analyse statistique et stylistique). Si on a le temps, la reconnaissance d'entités nommées pour identifier les personnes et lieux mentionnés dans le corpus.

Dans ce notebook, on s'intéresse à quelques bases en Python, qui seront étoffées dans les notebooks suivants.

## Introduction: Python, c'est quoi ?

In [None]:
# que va-t-il se passer sous vos yeux ébahis ?
print("hello world!")

La petite fonction `print` est notre meilleure amie puisqu'elle permet d'afficher ce qu'on met entre guillemets (ici `"hello world!"`).

In [None]:
# et ici?
print(2)
print(2*2)
print(2+2)
print(2*2 == 2+2)  # et là que se passe t-il ?

In [None]:
x = 2
print(x + 2)

En quelques lignes, on  voit les bases de ce que c'est un language de programmation : **une calculette en mieux**. On prend des données, on fait les manipule, et ensuite on peut comparer des résultats.

Plus concrètement, un langage de programmation, c'est un ***langage*** structuré qui permet d'interagir avec un ordinateur. Il définit :
- un **vocabulaire** : les mots clés et symboles qu'on utilise pour écrire du code qui ait du sens pour la machine
- une **syntaxe** : les règles de grammaire avec lesquels on combine les termes de notre vocabulaire pour écrire quelque chose qui ait du sens
- des **types de données** : les valeurs qu'on manipule à un programme sont classées en plusieurs grands groupes (les nombres, le texte...). Ces groupes, ou types de données, définissent ce qui est possible de faire avec les différentes valeurs: on ne peut pas faire avec un nombre ce qu'on peut faire avec du texte.

---

## Les bases du langage 

Avec les quelques lignes de code au dessus, **on a déjà vu plusieurs bases du langage**.

---

### Les variables

Toujours devoir réécrire toutes ses valeurs, c'est quand même douloureux. En plus, on va souvent vouloir transformer une donnée en lui faisant subir une série d'opérations, et on a donc besoin de pouvoir stocker et réutiliser nos valeurs.

Pour ça on créée des **variables, qui permettent de stockder nos valeurs**. En appelant notre variable, on pourra accéder à la valeur, la modifier, la redéfinir !

In [None]:
x = 1
x = x+1  # ici, on redéfinit x comme étant égal à x+1, c'est-à-dire 1+1 => 2.
print(x)
x += 1  # pour x = x+1 peut être écrit comme ça pour faire plus rapide
print(x)

La syntaxe pour définir une variable est:

```python
nom_de_variable = <valeur>
```

Le `=` permet *d'assigner une valeur à une variable*. À gauche, le nom de la variable, à droite, la valeur.

Pour nous, une variable, c'est juste **un nom qui permet d'accéder à une valeur**. 

Comme un carton sur lequel on écrit un nom avant de le ranger dans une cave où il prendra la poussière pendant des années. Le nom n'a pas d'importance pour l'ordinateur, mais IL EST TRÈS IMPORTANT DE DONNER DES NOMS DE VARIABLES QUI ONT DU SENS.

In [None]:
# exercice: créer une variable qui s'appelle `y` et qui ait pour valeur trois fois la valeur de `x`

---

### Quelques types de données

Les types de données, c'est un peu douloureux, mais c'est essentiel car ils définissent les opérations possibles pour nos valeurs: on ne pourra pas faire les mêmes opérations sur un nombre et sur du texte, logiquement.

#### ***Les chaînes de caractères (type `str`)***

In [None]:
print("hello world!")

`"hello world"`, c'est du texte, et en Python, le texte est **un type de données: les `string`** (ou chaîne de caractère en français). Une chaîne de caractère est écrite entre des guillemets (simples `'` ou doubles `"`)

```python
"ceci est une chaîne de caractères"
'ça aussi tiens'
```

#### ***Les nombres entiers (type `int`) et décimaux (type `float`)***

In [None]:
print(2+2)

`2` est une valeur de **type nombre entier** (appelé `int` en Python).

Avec des `int`, on peut faire plein de calculs mathématiques avec les signes : 
- `+` : addition (`2+2`)
- `-` : soustraction (`2-2`)
- `*` : multiplication (`2*2`)
- `/` : division (`2/2`)

PS: Les `float` sont un autre type de données pour les nombres décimaux. Un `float` fonctionne exactement comme un `int`. Ils s'écrivent à l'anglo-saxonne avec un `.` à la place de la virgule française : `1.3`, `10.9`...

In [None]:
print(2+2 == 2*2)

#### ***Les booléens (type `bool`)***

Quand on fait `2+2 == 2*2`, on obtient `True` : $2+2$ est bien égal à $2\times{}2$. 

Le résultat d'une comparaison est un *booléen*. Ce type de données ne comprend que 2 valeurs prédéfinies: 
- `True` (quelque chose est vrai)
- `False` (quelque chose est faux)

In [None]:
print(2 == 3)

---

### Les comparaisons

`==` permet de comparer deux valeurs pour vérifier qu'elles sont les mêmes.
- À l'inverse, `!=` permet de vérifier si deux valeurs sont différentes (`1 != 2`).
- Il existe d'autres opérateurs pour comparer deux valeurs
    - `<` : inférieur
    - `>` : supérieur
    - `<=`: inférieur ou égal
    - `>=`: supérieur ou égal

In [None]:
print(2 != 3)
print(2 < 3)
print(2 > 3)

In [None]:
# exercice: créer deux variables, une pour le `2`, l'autre pour le `3`, 
# et refaire le bloc d'au dessus en remplaçant les valeurs par leurs variables.

---

### Utiliser une fonction

Si on revient au tout début, on se rappelle que `print` est une fonction qui affiche ce qui est mis entre parenthèses.

```python
print(2)
```

Une fonction, c'est une opération qui peut être utilisée à différents endroits du code. 
- Comme en maths, elle prend des arguments, effectue des opérations et renvoie un résultat
- Elle a **un nom** qui permet d'identifier la fonction: `print`
- Les **arguments** sont les données sur lesquelles on applique la fonction. Ici `2` est un argument.

**La syntaxe pour utiliser une fonction**, c'est donc: 

```python
nom_de_la_fonction(arguments)
``` 

Lorsqu'une fonction prend plusieurs arguments, les séparer par une virgule.

```python
print("premier argument", "deuxième argument", "troisième argument")
```

In [None]:
# exercice: utiliser print pour afficher `1 2 3 4`

**Le principe d'une fonction, c'est donc qu'elle encapsule une logique qui peut être réutilisée sur différentes données**. 

Les fonctions, c'est essentiel en programmation: ça permet d'éviter de réécrire le même code 100 fois; ça permet aussi d'utiliser du code sans avoir à s'occuper de comment ça marche: on a pas besoin de savoir comment fonctionne `print` pour l'utiliser.

Certaines fonctions, comme `print` sont prédéfinies, mais on verra ensuite que l'on peut écrire nos propres fonctions.

Une autre fonction prédéfinie, c'est `len()` qui permet d'afficher la longueur d'une valeur.

In [None]:
print(len("hello world"))  # à quoi correspond le résultat ?

Attention, `len` ne fonctionne pas sur tous les types de données: certains types n'ont pas de longueur, comme les nombres.

In [None]:
print(len(2))  # oupsi !

---

Comme n'importe quel langage, pour l'apprendre, il faut le pratiquer: s'habituer à lire du code d'abord pour comprendre la syntaxe, et ensuite, s'habituer à en écrire pour réussir à adapter ses envies les plus folles à la logique de Python. 

Contrairement au français ou à une autre langue *normale*, **Python ne pardonne rien**. Si on ne respecte pas les règles du language, alors l'ordinateur ne comprend pas ce qu'on veut dire.

Par exemple:

In [None]:
print("oui" / 2)  # ici, on essaye de diviser "oui" par 2, ce qui n'est bien sûr pas possible.

---

### Pour finir l'introduction : deux micro-exercices :)

#### ***Premier exercice***

Définir deux variables, `a` et `b`, qui stockent respectivement les mots `rhododendron` et `clafoutis`. Stocker leur longueur dans deux autres variables et comparer les longueurs. Ensuite, calculer la différence de longueur entre `rhododendron` et `clafoutis`.

In [None]:
# répondre ici au 1er exercice

#### ***Deuxième exercice***

Afficher le nombre de minutes qu'il y a dans une semaine (sachant qu'il y a 60 minutes par heures, 24h/jour, 7j/semaine)

In [None]:
# répondre ici au 2e exercice

Pour le moment, le ratio prise de tête vs. satisfaction est très déséquilibré. C'est normal, c'est le début ! En plus, on travaille sur des "fausses" données. Tout devient plus drôle une fois que l'on travaille sur des vraies données, avec des vraies questions de recherche, ce que l'on va faire à partir du notebook suivant !