# Table des matières :

* <a href="#Introduction">1. Introduction</a>
* <a href="#Introduciton à la programmation orientée objet">2. Introduction à la programmation orientée objet</a>
    * <a href="#Préalable : Qu'est-ce qu'une fonction ?">2.1. Préalable : Qu'est-ce qu'une fonction ?</a>
    * <a href="#Un peu de vocabulaire : Classes, propriétés, méthodes">2.2. Un peu de vocabulaire : Classes, propriétés, méthodes</a>
    * <a href="#Créer une classe">2.3. Créer une classe</a>
    * <a href="#Rembobinage : Quelques méthodes utiles des structures de données">2.4. Rembobinage : Quelques méthodes utiles des structures de données</a>
* <a href="#Travailler avec des fichiers et utiliser des librairies Python">3. Travailler avec des fichiers et utiliser des librairies Python</a>
    * <a href="#Exemple d'un fichier CSV">3.1. Exemple d'un fichier CSV</a>
* <a href="#gérer les erreurs">4. Gérer les erreurs</a>
* <a href="Les expressions régulières">5. Les expressions régulières</a>

## <div id="Introduction">1. Introduction</div>

Dans ce troisième module, nous tenterons d'aller un peu plus loin dans notre connaissance du langage Python, notamment en nous initiant à la **programmation orientée objet**. L'idée n'est pas tant de devenir expert programmeur que de prendre un peu d'assurance avec la logique qui régit le fonctionnement de nombreuses **bibliothèques** que nous utiliserons dans nos projets de **web scraping**.

Nous apprendrons également à travailler avec des **fichiers**, essentiellement des fichiers structurés (**documents CSV**, **fichiers JSON** ou **XML**) : nous apprendrons à les ouvrir avec Python, en extraire des données ou, au contraire, y écrire des données.

Une fois ces éléments complémentaires vus (et après quelques exercices pour appliquer toutes les connaissances acquises), nous pourrons passer à la pratique avec notre premier projet de **web scraping**.

## <div id="Introduction à la programmation orientée objet">2. Introduction à la programmation orientée objet</div>

Dans le monde de la programmation informatique, il existe plusieurs écoles, plusieurs philosophies et façons de faire. Python est un langage relativement souple qui permet d'écrire des programmes en appliquant les principes de divers **paradigmes**. On parle en effet de **paradigme** en informatique pour désigner ce qui peut se rapporter à une philosophie particulière, des façons de faire et d'appréhender les données que l'on manipule.

Dans notre cas, nous allons nous intéresser plus particulièrement au **paradigme orienté objet** qui est particulièrement représenté dans l'univers Python.

L'idée est assez simple avec la **programmation orientée objet** : tout est objet !

En Python, un **objet** est une **structure de données** (un peu comme les variables) qui peut néanmoins contenir d'autres **variables**, des **fonctions** ou des **classes** (nous y venons dans un instant).

L'idée derrière la **programmation orientée objet** est d'établir une distinction entre ce qu'on pourrait voir comme un "moule" d'un côté et de l'autre, une statue formée à partir de ce moule. Le moule ne donne qu'une forme à notre statue, libre à nous de choisir de la peindre en rouge ou en bleu, de lui adjoindre ensuite un autre morceau pour construire une statue plus grande, de lui retirer des morceaux ou de la détruire complètement.

Si vous êtes familier de la philosophie de Platon, on pourrait voir la **programmation orientée objet** comme une forme de parallèle dans le monde informatique : il existe d'un côté des idées et de l'autre, des objets du monde, qui se rapportent à une idée mais qui n'en sont qu'une expression particulière qui n'en capture pas vraiment l'essence.

Tout ceci paraît peut-être bien compliqué et on pourrait se demander en quoi c'est vraiment utile ? Pourquoi ne pas se contenter des boucles et des quelques fonctions déjà vues, cela permet déjà de faire beaucoup de choses.

Certes, mais il y a un problème de taille : le code que l'on a écrit jusqu'à présent n'est pas **réutilisable**, à moins de s'amuser à faire des copier-coller à tout bout de champ. La **programmation orienté objet** nous aide en définissant une façon particulière de structurer notre code qui le rend **réutilisable** (ce n'est pas sa seule utilité, mais cela en fait partie).

Avant de nous confronter au coeur du sujet en traitant des **classes**, voyons dans un premier temps les **fonctions** qui constituent déjà un premier outil précieux pour rendre notre code **réutilisable**. Selon la taille et la complexité de nos scripts, manipuler des **fonctions** peut se révéler largement suffisant sans que l'on ait besoin de faire appel à des **classes**. Néanmoins, comme nous l'avons mentionné plus tôt, de nombreuses **bibliothèques** Python utilisent des classes et comprendre un peu plus en détail leur fonctionnement permet de mieux appréhender leur fonctionnement et se les approprier ainsi plus facilement.

### <div id="Préalable : Qu'est-ce qu'une fonction ?">2. 1. Préalable : Qu'est-ce qu'une fonction ?</div>

Nous avons précédemment croisé plusieurs **fonctions** bien utiles pour obtenir certaines informations sur les données que nous manipulions. Il n'est peut-être pas inutile d'en faire un bref récapitulatif pour essayer de les mémoriser, au fur et à mesure de notre pratique, on se rendra compte qu'elles sont bien utiles et qu'on est amené à les utiliser quasiment pour chaque script que l'on écrira !

|Fonction|Description|
|---|---|
|`print()`|Affiche à l'écran le contenu d'un objet.|
|`len()`|Renvoie la longueur de la donnée contenue dans l'objet.|
|`type()`|Renvoie le type de données d'un objet.|
|`ìnt()`|Convertit une données en *integer* (nombre entier).|
|`str()`|Convertit une données en chaîne de caractères.|


En réalité, les **fonctions** sont aussi des **objets** que l'on peut créer comme on crée des **variables**.

Tentons de définir ces nouvelles objets : une **fonction** est une série d'opérations encapsulée qui prend un certain nombre de données en entrée et renvoie un certain nombre de données en sortie. Et... C'est tout...

<br>

<img src="img/function.png"/>

Voyons maintenant concrètement dans le code comme tout cela fonctionne, précisément. Reprenons pour cela notre bibliothèque avec laquelle nous avions travaillé dans le module précédent.

In [5]:
bibliotheque = [{
    "auteur": "Georges Sand",
    "titre": "Claudie",
    "genre": "théâtre",
    "annee": "1851"
},
{
    "auteur": "Georges Sand",
    "titre": "Les dames vertes",
    "genre": "roman",
    "annee": "1857"
},
{
    "auteur": "Georges Sand",
    "titre": "La petite fadette",
    "genre": "roman",
    "annee": "1849"
},
{
    "auteur": "Victor Hugo",
    "titre": "Le dernier jour d'un condamné",
    "genre": "roman",
    "annee": "1829"
},
{
    "auteur": "Victor Hugo",
    "titre": "Les misérables",
    "genre": "roman",
    "annee": "1862"
},
{
    "auteur": "Georges Sand",
    "titre": "Les maîtres sonneurs",
    "genre": "roman",
    "annee": "1853"
},
{
    "auteur": "Victor Hugo",
    "titre": "Hernani",
    "genre": "théâtre",
    "annee": "1830"
},
{
    "auteur": "Georges Sand",
    "titre": "Le mariage de Victorine",
    "genre": "théâtre",
    "annee": "1851"
},
{
    "auteur": "Georges Sand",
    "titre": "Comme il vous plaira",
    "genre": "théâtre",
    "annee": "1856"
},
{
    "auteur": "Victor Hugo",
    "titre": "Cromwell",
    "genre": "théâtre",
    "annee": "1827"
}
]

Nous allons définir une fonction qui renvoie la valeur `True` si l'auteure du livre de notre bibliothèque est Georges Sand.

In [13]:
def georges_sand(livre):
    pas_georges_sand = "Georges Sand n'a pas écrit ce livre !"
    if livre["auteur"] == "Georges Sand":
        print("Georges Sand a écrit ce livre !")
        return True
    else:
        print(pas_georges_sand)
        return False

Premier constat : notre code ne renvoie pas d'erreur, mais il ne se passe rien. C'est tout à fait normal.

Une fonction s'utilise en deux étapes :
* D'abord, on **définit** la fonction (d'où le mot-clé `def`)
* Ensuite, on **appelle** notre fonction (on utilise toujours des parenthèses à la suite d'une fonction lorsqu'on l'appelle, c'est d'ailleurs ce qui permet de distinguer les fonctions des autres objets)

Essayons d'appeler notre fonction avant d'expliciter davantage son fonctionnement.

In [14]:
for livre in bibliotheque:
    print(livre["titre"], georges_sand(livre))

Georges Sand a écrit ce livre !
Claudie True
Georges Sand a écrit ce livre !
Les dames vertes True
Georges Sand a écrit ce livre !
La petite fadette True
Georges Sand n'a pas écrit ce livre !
Le dernier jour d'un condamné False
Georges Sand n'a pas écrit ce livre !
Les misérables False
Georges Sand a écrit ce livre !
Les maîtres sonneurs True
Georges Sand n'a pas écrit ce livre !
Hernani False
Georges Sand a écrit ce livre !
Le mariage de Victorine True
Georges Sand a écrit ce livre !
Comme il vous plaira True
Georges Sand n'a pas écrit ce livre !
Cromwell False


Explicitons un peu les différents morceaux de ce code. En Python, une **fonction** se définit à l'aide du mot-clé `def` auquel on fait suivre le nom de notre fonction. Ensuite, on indique entre parenthèses, les **arguments** (ou **paramètres**) de la fonction. Les **arguments** sont les valeurs que la **fonction** prend en entrée.

Au sein de notre **fonction**, on fait référence aux **valeurs d'entrée** à l'aide de la même variable que l'on a défini. Comme vous pouvez le constater, elle n'a pas besoin d'avoir un nom particulier pour désigner les objets qu'elle prendra en entrée (un peu comme lorsqu'on définit une boucle `for`). On aurait aussi bien pu passer un paramètre nommé `x` que cela fonctionnerait tout aussi bien (il aurait fallu alors remplacer la ligne suivante : `if x["auteur"] == "Georges Sand":`.

Le mot-clé `return` permet de renvoyer une nouvelle valeur en sortie. Si l'interpréteur Python arrive à une ligne `return` au sein d'une **fontion**, alors il sort directement du **bloc de la fonction**. Car, vous aurez remarqué que, pour une **fonction** comme pour une boucle ou un bloc **`ìf`/`else`**, on utilise également l'**indentation** pour indiquer à l'interpréteur Python que ces segments de code sont inclus dans un **bloc** particulier.

Avec les **fonctions**, ces blocs se chargent d'une autre propriété : toutes les variables qui sont définies à l'intérieur du **bloc d'une fonction** n'existe qu'en son sein. Voyons cela.

In [10]:
print(pas_georges_sand)

NameError: name 'pas_georges_sand' is not defined

La variable `pas_georges_sand` n'existe pas, nous dit Python. Pourtant, nous l'avons bien définie dans notre **fonction** `georges_sand()`. En fait, cette variable existe bel et bien, mais uniquement dans la **fonction** et n'est accessible que dans le **bloc** correspondant. On parle de la portée d'une **variable** pour désigner cette particularité du comportement des **variables** dans les fonctions.

Les autres **variables** que nous avions défini jusqu'alors étaient des **variables globales**, c'est-à-dire qu'elles sont accessibles partout dans notre code, ceci, tant dans le **bloc d'une fonction** qu'en dehors.

Comme toute autre valeur dans Python, on peut capturer la **sortie d'une fonction** à l'aide d'une variable. Voyons cela.

In [15]:
for livre in bibliotheque:
    auteur = georges_sand(livre)
    print(auteur)

Georges Sand a écrit ce livre !
True
Georges Sand a écrit ce livre !
True
Georges Sand a écrit ce livre !
True
Georges Sand n'a pas écrit ce livre !
False
Georges Sand n'a pas écrit ce livre !
False
Georges Sand a écrit ce livre !
True
Georges Sand n'a pas écrit ce livre !
False
Georges Sand a écrit ce livre !
True
Georges Sand a écrit ce livre !
True
Georges Sand n'a pas écrit ce livre !
False


Lorsque l'on a parlé précédemment des **types de données**, nous n'avons pas mentionné un type assez spécifique qui découle précisément du retour (ou plus exactement de l'absence de retour) de certaines fonctions. C'est le cas de la fonction `print()`. Si elle permet d'afficher la valeur d'une **variable**, par exemple, elle ne renvoie pas spécifiquement de donnée.

In [17]:
test = print("Un cheval blanc.")
print(type(test))

Un cheval blanc.
<class 'NoneType'>


Si notre chaîne de caractère a bel et bien été imprimée à l'écran, notre **variable** `test` est de type `NoneType`. Voyons ce qu'elle contient

In [18]:
print(test)

None


`None` est la réponse que nous fait Python pour nous dire qu'une **variable** ne contient rien. `NoneType` est un type particulier qui s'applique uniquement à la donnée `None`. Il s'agit d'une valeur différente de `False` qui pourra être utile dans certains cas, pour distinguer notamment le fait qu'il n'y a pas de retour de fonction, chose qui peut-être différente d'un retour négatif !

### <div id="Un peu de vocabulaire : Classes, propriétés, méthodes">2. 2. Un peu de vocabulaire : Classes, propriétés, méthodes</div>

Maintenant que nous savons ce qu'est une **fonction**, essayons de creuser un peu plus loin en posant tout d'abord quelques termes propres au **paradigme orienté objet**.

L'idée dans la **programmation orientée objet** est de créer des modèles, dans le même ordre d'idée que les fonctions, que nous pourrons appeler dès que nous en aurons besoin, pour éviter de nous répéter dans le code. Mais au-delà de cet aspect pratique, cela nous permettra également d'organiser notre code de façon structurée en définissant une représentation particulière de nos objets. Ceci nous permettra de **modéliser** nos objets en leur conférant des caractéristiques particulières.

Pour cela, nous utiliserons des **classes**. Une classe est un schéma global qui représente un objet particulier. Cet objet peut être doté de deux types d'éléments distincts :
* Des **propriétés**
* Des **méthodes**

Reprenons l'exemple de notre bibliothèque pour illustrer le propos.

Les **propriétés** sont des caractéristiques que l'on pourrait qualifier de statique d'une classe. Dans le cas d'un livre particulier de notre bibliothèque, une **propriété** d'un livre pourrait être son titre ou son auteur. Il s'agit d'une caractéristique propre à cet objet qui le distingue des autres.

Les **méthodes** sont des actions que l'on peut faire avec cet objet. Dans le cas d'un livre, cela pourrait être, par exemple, "modifier le titre du livre", "le retirer de la bibliothèque", etc.

Dernier point de vocabulaire. Les **classes**, comme les **fonctions**, doivent être définies avant d'être utilisées. Contrairement aux **fonctions**, on ne peut pas vraiement "appeler" une **classe** : on parle plutôt d'**instancier** la classe, c'est-à-dire, créer une **instance** particulière, un exemple particulier parmi une myriade d'autres que l'on pourrait imaginer. Dans le cas de nos livres, une "instance de livre" serait, par exemple, "Le dernier jour d'un condamné" de Victor Hugo. Il dispose d'un titre particulier, d'un auteur particulier mais, comme les autres livres, il a les mêmes particularités : il a un titre, il a un auteur, une date de parution, etc.

Par convention et pour rendre le code plus lisible, on utilise un **constructeur** lorsqu'on définit une **classe** : c'est dans ce bloc que l'on détaille chaque **propriété** de notre classe. Pour cela, on utilise la **fonction** `__init__()`. C'est elle qui va permettre d'attributer à chaque **propriété** de la classe sa valeur correspondante au moment où on **instanciera** notre classe (c'est-à-dire lorsqu'on créra un livre particulier).

### <div id="Créer une classe">2. 3. Créer une classe</div>

In [20]:
class Livre:
    
    def __init__(self, titre, auteur, genre, annee):
        self.titre = titre
        self.auteur = auteur
        self.genre = genre
        self.annee = annee

In [2]:
germinal = Livre("Germinal", "Emile Zola", "roman", 1885)
print(germinal.titre)

Germinal


On a créé un nouveau livre en instanciant notre **classe** `Livre` que l'on a stocké dans une **variable** `germinal`. Cette **variable** est une **instance** de notre **classe** `Livre`.

Nous avons donc là les **propriétés** de notre classe `Livre` auxquelles on peut accéder en appelant directement `.titre` ou `.auteur` sur notre **instance de classe** (c'est-à-dire, un cas particulier que l'on aura créé à partir de notre modèle `Livre`).

A présent, voyons comment ajouter une **méthode** à notre classe. Nous allons créer une **méthode** qui permet d'ajouter un livre que nous venons de créer à notre **variable** `bibliotheque`. Pour cela, il sera utile de se rappeler de la règle de **portée des variables** : une **variable globale** (c'est-à-dire, une **variable** définie en dehors du **bloc d'une fonction** est accessible partout dans notre code, même à l'intérieur du **bloc** de n'importe qu'elle **fonction**, en revanche, une **variable locale**, définie dans le **bloc d'une fonction**, ne sera accessible que dans ce même **bloc**).

Profitons de ce rappel pour détailler un peu le fonctionnement des **objets** défins dans une **classe**. Chaque **méthode** que l'on y définira prendra comme premier **paramètre** la **variable** `self` : celle-ci se réfère directement à l'**instance de classe** elle-même lorsqu'elle est créée. Ainsi, lorsqu'on définit les **propriétés** de notre **classe** `Livre`, celles-ci sont accessibles partout dans notre **classe** sans que l'on soit obligé de les passer en **paramètre** en entrée d'une nouvelle **méthode** que l'on souhaiterait définir.

In [1]:
class Livre:
    
    def __init__(self, titre, auteur, genre, annee):
        self.titre = titre
        self.auteur = auteur
        self.genre = genre
        self.annee = annee
        
    def ajouter_livre(self):
        nouveau_livre = {"auteur": self.auteur,
                         "titre": self.titre,
                         "genre": self.genre,
                         "annee": self.annee}
        bibliotheque.append(nouveau_livre)

Grâce à notre nouvelle **méthode** `.ajouter_livre()`, nous pouvons ajouter un livre que l'on aura créé dans un premier temps comme **instance de classe** `Livre` à notre **variable** `bibliotheque`. Cette **variable** est accessible dans le bloc de notre **classe** `Livre` car il s'agit d'une **variable globale**.

Maintenant que nous comprenons ce qu'est une **méthode de classe**, nous voyons qu'il en existe en réalité de nombreuses déjà existantes que l'on peut appeler sur divers types d'**objets** Python. Si l'on se remémore les **structures de données** que nous avons traité dans le module précédent, chaque type de structure particulière dispose, par exemple, de **méthodes** propres à sa classe (en Python, une **structure de données** ou un **type de données** comme les **chaînes de caractères** sont définies comme des **classes** qui disposent donc de **méthodes** particulières).

Une méthode que nous utiliserons souvent est la **méthode** `.append()` pour les **listes**. Elle permet d'ajouter un nouvel élément à la **liste** en le positionnant en dernier. On pourra accéder à ce dernier élément ajouter en utilisant l'**index** `[-1]` de notre liste.

In [8]:
germinal = Livre("Germinal", "Emile Zola", "roman", 1885)
germinal.ajouter_livre()
# Affichons le dernier livre de la liste
print(bibliotheque[-1])

{'auteur': 'Emile Zola', 'titre': 'Germinal', 'genre': 'roman', 'annee': 1885}


<div class="alert alert-success" role="alert"><strong>Premier exercice :</strong> Créons à présent notre première classe avec laquelle nous modéliserons une structure de donnée similaire à celle que l'on peut retrouver sur les réseaux sociaux. Pour cela, on créera une classe qui contiendra une série de propriétés représentant :
<ul>
    <li>L'auteur d'un post</li>
    <li>Le contenu d'un post</li>
    <li>Sa date de publication</li>
    <li>Ses hashtags</li>
    <li>Les mentions à d'autres utilisateurs</li>
</ul>
Ensuite, on ajoutera une méthode qui permettra d'ajouter un post au fil général du réseau social. On pourra stocker tous les posts dans une variable <code>fil</code> qui représentera le fil général.
</div>

<div class="alert alert-danger" role="alert"><strong>Créer une classe :</strong> Utiliser une classe pour modéliser une structure de données.

<pre>
    <code>
    # Créons d'abord notre variable globale qui contiendra tous les posts du fil d'actualité
    fil = []

    # Ensuite, créons une classe Post
    class Post:

        # On crée notre constructeur dans lequel on déclare toutes nos propriétés de classe
        def __init__(self, auteur, contenu, date, hashtags, mentions):
            self.auteur = auteur
            self.contenu = contenu
            self.date = date
            self.mentions = mentions

        # On crée enfin notre méthode pour ajouter un post au fil d'actualité
        def ajouter_post(self):
            nouveau_post = {"auteur": self.auteur,
                            "contenu": self.contenu,
                            "date": self.date,
                            "mentions": self.mentions}
            fil.append(nouveau_post)
    </code>
</pre>
</div>

### <div id="Rembobinage : Quelques méthodes utiles des structures de données">2. 4. Rembobinage : Quelques méthodes utiles des structures de données</div>

Profitons de notre compréhension nouvelle du concept de **classe** pour faire quelques rappels et un retour sur les structures de données. Celles-ci disposent chacune d'une série de **méthodes** spécifiques qui permettent d'effectuer certains types d'opération (ajouter un élément, en supprimer, effectuer des tris, etc.).

#### <div id="Les méthodes de listes">2. 4. 1. Les méthodes de listes</div>

Commençons par voir les **méthodes** propres aux **listes**, au premier rang desquelles, celle qui permet d'ajouter un nouvel élément. Dans l'exemple précédent, nous avons vu la méthode `.append()` qui est assurément la plus utilisée. Celle-ci permet d'ajouter un élément à l'**index** `[-1]` d'une **liste**. En d'autres termes, elle permet d'ajouter un élément à la fin d'une **liste**.

Il n'est pas très utile d'apprendre toutes ces **méthodes** par coeur, notamment car nous serons rarement amené à toutes les utiliser. Ci-dessous, une liste résumant toutes les méthodes de liste existantes dans Python (le paramètre `elem` désigne l'élément qui sera ajouté/supprimé/modifié dans la liste, si nécessaire, est précisé s'il doit être d'un type particulier). Le comportement par défaut indique l'action de la **méthode** si elle est appelée sans passer d'**arguments**.

Arrêtons-nous un instant sur l'information de la colonne "Inplace". Celle-ci indique si la méthode renvoie une nouvelle liste ou si elle modifie la liste existante. En effet, nous avons vu que les **méthodes** sont en réalité des **fonctions**, cela signie qu'elles peuvent **renvoyer** une valeur, à l'aide du mot-clé `return` qui met directement fin à l'exécution du code d'une **fonction** et renvoie une valeur particulière que l'on peut capturer à l'aide d'une **variable**. Certaines des **méthodes** renvoient ainsi une valeur particulière, d'autres modifient la liste sur laquelle la **méthode** est appelée (cela signifie que si l'on affiche la liste après appel d'une méthode "Inplace", la liste en question devrait être modifiée !).

|Méthode|Description|Comportement par défaut|Inplace|
|---|---|---|---|
|`.append(elem)`|Ajoute le nouvel élément à la fin de la liste.|Aucun|Oui|
|`.extend(elem)`|Ajoute l'ensemble des données d'un élément itérable à la suite de la liste existante.|Aucun|Oui|
|`.insert(i, elem)`|Ajoute un nouvel élément à la liste à l'index `i`.|Aucun|Oui|
|`.remove(elem)`|Retire le premier élément de la liste correspondant à la valeur de `elem`.|Aucun|Oui|
|`.pop(i)`|Retire l'élément présent à l'index `i` de la liste et le renvoie.|Retire le dernier élément de la liste et le renvoie.|Oui (Renvoie aussi une valeur)|
|`.clear()`|Retire tous les éléments de la liste.|Idem|Oui|
|`.index(elem)`|Renvoie l'index correspondant au premier élément ayant la même valeur qu'`elem`.|Aucun|Non|
|`.count(elem)`|Renvoie le nombre d'éléments `elem` présents dans la liste.|Aucun|Non|
|`.sort(key, reverse)`|Trie la liste en fonction du critère `key`. Si `reverse` vaut `True`, renvoie le même tri, mais inversé.|Renvoie la liste triée dans l'ordre alpha-numérique.|Oui|
|`.reverse()`|Inverse l'ordre actuel de la liste.|Idem|Oui|
|`.copy()`|Renvoie une copie de la liste.|Idem|Oui|

Prenons tout de même d'illustrer le fonctionnement de certaines de ces méthodes, en premier lieu, celui de `.extend(elem)` qui ne fonctionne qu'avec une **variable** `elem` qui correspond à un **objet itérable** (c'est-à-dire que l'on peut parcourir à l'aide d'une boucle `for`). Cela comprend notamment les **listes**, les **tuples** et les **dictionnaires** (et d'autres structures moins fréquemment utilisées).

In [27]:
# Avec l'opérateur d'addition
list1 = [1, 2, 3]
lista = ["a", "b", "c"]

list1a = list1 + lista
print(list1a)

# Avec la méthode .extend()
list2 = [4, 5, 6]
listb = ["d", "e", "f"]
list2.extend(listb)
print(list2)

# Avec un dictionnaire (noter que ce sont les clés qui sont ajoutées)
dict1 = {"a": "Abricot", "b": "Banane", "c": "Citron"}
list2.extend(dict1)
print(list2)

# Avec un tuple
tuple1 = ("France", "Espagne", "Irlande")
list2.extend(tuple1)
print(list2)

[1, 2, 3, 'a', 'b', 'c']
[4, 5, 6, 'd', 'e', 'f']
[4, 5, 6, 'd', 'e', 'f', 'a', 'b', 'c']
[4, 5, 6, 'd', 'e', 'f', 'a', 'b', 'c', 'France', 'Espagne', 'Irlande']


Voyons maintenant le cas de la méthode `.remove(elem)`, bien utile, mais souffrant de limites néanmoins. En effet, elle ne permet de supprimer que le premier élément rencontré, ce qui pourra se révéler parfois insuffisant !

In [29]:
list1 = [1, 2, 3, 4, 4]
list1.remove(1)
print(list1)
list1.remove(4)
print(list1)

[2, 3, 4, 4]
[2, 3, 4]


Une autre façon de faire est d'utiliser ``.pop(i)`.

In [30]:
list1 = [1, 2, 3, 4, 4]
list1.pop(0)

1

Notons d'emblée que, contrairement à la méthode `.remove(elem)`, `.pop(i)` renvoie la valeur qu'elle vient de retirer de notre liste.

Voyons à présent comment trier une **liste**. Il existe plusieurs façons de faire, mais en utilisant une **méthode**, c'est avec `.sort()` que l'on procède. Cette **méthode** dispose de deux **arguments** :
* `key` : il permet d'indiquer quelle logique de tri doit être suivie
* `reverse` : il permet d'indiquer si on souhaite obtenir un tri dans l'ordre inverse

In [42]:
list1 = [4, 5, 1, 2, 3]
list1.sort()
print(list1)

[1, 2, 3, 4, 5]


Nous ne couvrirons pas ici toutes les méthodes de tri possibles dans Python. Pour cela, on pourra se référer à la ressource suivante : https://docs.python.org/3/howto/sorting.html#sortinghowto.

#### <div id="Les méthodes de dictionnaires">2. 4. 2. Les méthodes de dictionnaires</div>

Quelques précisions pour commencer sur les **dictionnaires**. A la différence des **listes**, il n'existe pas de **méthode** similaire à `.append(elem)`. Pour ajouter un élément à un **dictionnaire**, on utilise son **index** ainsi que l'**opérateur d'affectation** `=`. Un exemple pour rendre cela plus clair.

In [45]:
dict1 = {"a": "Abricot", "b": "Banane", "c": "Citron"}
dict1["d"] = "Datte"
print(dict1)

{'a': 'Abricot', 'b': 'Banane', 'c': 'Citron', 'd': 'Datte'}


Les **dictionnaires** sont des **structures itérables** un peu particulières. Comme les **listes**, on peut les parcourir à l'aide d'une boucle `for`.

In [50]:
for elem in dict1:
    print(elem)

a
b
c
d


A la différence des **listes** néanmoins, une boucle `for` ne parcourt que les **clés** d'un **dictionnaire**. Voyons une solution pour parcourir les **clés** ainsi que les **valeurs**. Celle-ci consiste à utiliser la **méthode** `.items()` qui renvoie sous forme de **tuples**, le couple **clé-valeur** de chaque entrée du **dictionnaire**.

In [53]:
for key, elem in dict1.items():
    print(key, elem)

a Abricot
b Banane
c Citron
d Datte


In [55]:
for key_value in dict1.items():
    print(key_value)

('a', 'Abricot')
('b', 'Banane')
('c', 'Citron')
('d', 'Datte')


Ci-dessous, une liste des **méthodes** de **dictionnaire** les plus couramment utilisées :

|Méthode|Description|
|---|---|
|`.get(key)`|Renvoie la valeur correspondante à la clé `key` (équivalent à `dict[key]`).|
|`.clear()`|Retire tous les éléments du dictionnaire.|
|`.copy()`|Renvoie une copie du dictionnaire.|
|`.items()`|Renvoie un tuple contenant en premier index la clé et en second la valeur associée.|
|`.keys()`|Renvoie une liste des clés du dictionnaire.|
|`.pop(key)`|Supprime le couple clé-valeur correspondant à la clé `key` et renvoie sa valeur.|
|`.popitem(key)`|Supprime le couple clé-valeur correspondant à la clé `key` et renvoie le tuple clé-valeur.|
|`.values()`|Renvoie une liste des valeurs sans les clés associées.|

## <div id="Travailler avec des fichiers et utiliser des librairies Python">3. Travailler avec des fichiers et utiliser des librairies Python</div>

### <div id="Exemple d'un fichier CSV">3. 1. Exemple d'un fichier CSV</div>

Nous avons vu jusqu'à présent beaucoup de théorie en restant concentré sur la syntaxe du langage Python. Nous entrons maintenant dans une partie plus pratique où nous allons enfin voir plus concrètement comment manipuler des fichiers avec Python.

Il est possible d'ouvrir et de manipuler de nombreux types de fichiers avec Python (image, text, son, etc.). Dans notre cas, nous nous intéresserons essentiellement aux fichiers texte et, en particulier, aux fichiers de **données structurées**.

Commençons sans plus tarder à travailler un fichier **CSV**. Pour rappel, l'acronyme **CSV** désigne *"comma separated values"*, c'est-à-dire, des "valeurs séparées par des virgules". Nous pouvons ouvrir de tels fichiers avec Python et nous appuyer sur la façon particulière dont ils sont construits pour récupérer nos données.

In [66]:
fichier = open("data/module_3-tdf_2020.csv", "r", encoding="utf-8")
contenu = fichier.read()
print(contenu)
fichier.close()

;created_at;hashtags;id;id_str;lang;source;text;truncated;urls;user;user_mentions;favorite_count;retweet_count;retweeted_status
0;Mon Aug 31 14:24:24 +0000 2020;[];1300439298186059777;1300439298186059777;fr;"<a href=""https://mobile.twitter.com"" rel=""nofollow"">Twitter Web App</a>";"⏱️ The gap is reduced to under 2', with 55 km to go.

⏱️ L'écart passe sous la barre des deux minutes, à 55 kilomèt… https://t.co/9c8C97sHKE";True;[{'expanded_url': 'https://twitter.com/i/web/status/1300439298186059777', 'url': 'https://t.co/9c8C97sHKE'}];"{'created_at': 'Tue Jun 08 13:18:00 +0000 2010', 'description': ""La plus grande course cycliste au monde. The world's biggest cycling race. 2019 🏆 : @Eganbernal \n\n🗓️ 29/08/2020 - 20/09/2020\n\n#TDF2020 #TDFunited"", 'favourites_count': 1870, 'followers_count': 3076115, 'following': True, 'friends_count': 929, 'geo_enabled': True, 'id': 153403071, 'id_str': '153403071', 'listed_count': 8926, 'name': 'Tour de France™', 'profile_background_color': 'FAD9

Lorsqu'on parle de manipulation de fichiers, on se trouve nécessairement confronté au problème de l'**encodage**. Sans nous étendre trop longuement sur ce vaste sujet, l'**encodage** désigne simplement un système de correspondance entre un caractère alpha-numérique et une façon de le représenter en langage de plus bas niveau (par exemple, en binaire, comme une série de 0 et de 1).

Aujourd'hui, on ne prend plus trop de risque à parier qu'un fichier est encodé en **UTF-8** : il s'agit du standard **unicode**, de plus en plus utilisé à travers le monde, car capable d'encoder un très grand nombre de caractères (y compris les caractères accentués, les caractères grecs ou arabes, les smileys et autres signes, etc.). Néanmoins, lorsqu'on ouvre un fichier avec Python, il est parfois nécessaire de définir quel encodage Python doit utiliser pour déchiffrer le fichier qu'il doit ouvrir.

Sachez néanmoins qu'il existe d'autres encodages fréquents, notamment le **Latin-1** encore relativement utilisé. Si des caractères s'affichent mal ou que Python renvoie une erreur lors de l'ouverture d'un fichier, il y a de bonnes chances pour que ce soit lié à un problème d'encodage.

Détaillons à présent l'utilisation de la fonction `open()` qui, comme on l'aura compris, permet d'ouvrir des fichiers et de les lire avec Python.

Celle-ci comprend plusieurs **arguments** :
* Le chemin (absolu ou relatif) du fichier
* Le mode d'ouverture
* L'encodage

Elle renvoie un type assez particulier, `_io.TextIOWrapper`. Celui dispose de plusieurs **méthodes** qu'il ne s'agira pas de détailler ici car il est contenu dans une bibliothèque un peu complexe de Python permettant de gérer l'ouverture et l'écriture dans des fichiers. Pour en savoir plus, on pourra se référer à la page dédiée de la documentation de Python : https://docs.python.org/3/library/io.html#module-io.

In [68]:
print(type(fichier))

<class '_io.TextIOWrapper'>


Détaillons simplement que l'on peut accéder au contenu du fichier ouvert à l'aide de la fonction `.open()` grâce à la méthode `.read()`.

Il existe plusieurs façons d'ouvrir un fichier que l'on peut définir dans le mode d'ouverture. Résumons à l'aide du tableau ci-dessous :

|Mode d'ouverture|Description|
|---|---|
|`"r"`|Ouverture en mode lecture.|
|`"w"`|Ouverture en mode écriture.|
|`"a"`|Ouverture en mode ajout.|

### <div id="Listes : Pratique avancée">3. 2. Listes : Pratique avancée</div>

Maintenant que nous avons ouvert notre fichier **CSV**, on souhaiterait pouvoir récupérer chaque ligne du tableau une à une et les stocker dans une **liste**. Rappelons-nous que la spécificité d'un fichier **CSV** tient dans sa structure :
* Les lignes sont séparées par des sauts de ligne (touche Entrée)
* Les colonnes sont séparées par des virgules (ou d'autres caractères, parfois des points-virgules, des barres obliques, etc.)

En Python, on représente un **saut de ligne** à l'aide du caractère `\n`. Cela signifie que si l'on découpe le texte que l'on a extrait de notre fichier **CSV** à chaque fois que l'on rencontre le caractère `\n`, on aura découpé notre tableau ligne par ligne !

Cela tombe bien, il existe précisément dans Python une fonction nommée `.split()` qui permet de découper une **chaîne de caractères** et renvoie une liste qui contient autant d'éléments que de caractères passé en **paramètre** de la méthode. Voyons un exemple.

In [69]:
exemple = "Bonjour. J'apprends à coder en Python. Python est un langage bien utile. Il permet d'ouvrir des fichiers."
decoup = exemple.split(".")
print(decoup)

['Bonjour', " J'apprends à coder en Python", ' Python est un langage bien utile', " Il permet d'ouvrir des fichiers", '']


La chaîne `exemple` a été découpée à chaque fois qu'un point est rencontré. La **méthode** `.split(".")` renvoie une **liste** qui contient quatre **chaînes de caractères**, séparant donc chaque phrase.

En reprenant notre variable `contenu` dans laquelle on a stocké plus tôt le contenu du fichier importé, on peut procéder de la même façon en utilisant `.split("\n")` pour découper la **chaîne de caractères** en une liste où chaque élément correspondra à une ligne du tableau.

In [71]:
tab = contenu.split("\n")
print(len(tab))

51


On voit ainsi que notre tableau contient 51 lignes.

<div class="alert alert-success" role="success"><strong>Deuxième exercice :</strong> A partir du fichier "module_3-tdf_2020.csv" importé dans Python, reconstruire un tableau. Pour ce faire, on pourra choisir de construire une liste de listes (une liste globale qui contient, à chaque index, une liste qui contient à son tour un élément par colonne), ou une liste de dictionnaires (pour chaque index de la liste, on aura un dictionnaire avec une clé correspondante au nom de chaque colonne du tableau).</div>

### <div id="Manipuler des données tabulaires avec la bibliothèque pandas">3. 3. Manipuler des données tabulaires avec la bibliothèque `pandas`</div>

Tout ceci est bien pratique, mais tout de même un peu compliqué. Pour reconstruire un tableau avec notre fichier, il faudrait découper la **chaîne de caractère**

## <div id="Gérer les erreurs">4. Gérer les erreurs</div>

Sources

https://docs.python.org/3/tutorial/datastructures.html