# Atelier Python Session 3

Maintenant que nous avons vus les bases de python, nous allons commencer à faire des chose un peu moins abstraites, et un peu plus utiles! La première opération que nous sera d'une très grande utilité sera d'**ouvrir**, de **lire**, et de **créer** des **fichiers**. Cela nous permettra de manipuler des données un peu plus complexes que ce qu'on a vu jusqu'à là.

## 1. Le package OS

Nous avons terminé la dernière séance en important un package qui s'appelle `random` pour pouvoir créer des chiffres aléatoire. Aujoud'hui nous allons utiliser un autre package qui est très important qui s'appelle `os`. Importons le!

In [None]:
import os

Le package `os` va nous permettre de gérer tous ce qui a à voir avec les dossiers et les fichiers dans notre ordinateur. Voyons quelques fonctions de base. D'abord, `os.getcwd()`.

In [None]:
print(os.getcwd())

Quand on va vouloir manipuler les fichiers, il faut imaginer python qui se déplace dans la hiérarchie des dossiers dans votre ordinateur. Le plupart du temps, il sera mieux de donner un **chemin absolue** vers un fichier, qui est son adresse à partir du dossier racine dans votre ordinateur. Mais on peut aussi donner un **chemin relatif**, qui est la position d'un fichier par rapport à là où se trouve le script python qui lance le processus.

`getcwd()` va nous permettre de trouver ce dossier. Voyez que dans google colab, on se trouve forcement dans un dossier qui s'appelle `/content`. Il s'agit du dossier racine dans lequel on se trouve quand on clique sur le bouton dossier dans le menu de gauche de google colab. Ouvrez-le, vous verrez qu'il y a déjà un dossier dedans qui s'appelle `sample_data` qui est rempli de quelques fichiers qui servent à tester des scripts avec des données de test.

### Chemin vers un fichier

Pour pouvoir dire à python où trouver un fichier, il va falloir que l'on donne son chemin. On peut par exemple écrire le chemin vers le fichier `README.md` dans le dossier `sample_data` de la manière suivante:

In [None]:
chemin = "/content/sample_data/README.md"

Cela fonctionnera ici, néanmoins ce n'est pas une bonne manière de faire les choses. Ceci est parce que si nous souhaitons ouvrir et éxecuter ce script dans un environnment Windows, un chemin ne s'écrit pas de la même manière (on utilisera `\\` à la place de `/`). Du coup, il est préférable d'utiliser la module `os` pour construire nos chemins de fichier qui s'occupera des particulaités des systèmes d'exploitation. Ainsi, notre script sera toujours sûr de fonctionner peu importe le système d'exploitation dans lequel on se trouve.

Pour ce faire, on utiliser la fonction `os.path.join()` (`path` est une sous module de `os`). Voici comment faire:

In [None]:
# Mettons la racine dans un variable afin de n'executer os.getcwd() qu'une seule fois:
racine = os.getcwd()

# Construisons le chemin en donnant des arguments à os.path.join:
chemin = os.path.join(racine, "sample_data", "README.md")
print(chemin)

On peut vérifier que python trouve le bon fichier en utilisant la fonction `os.path.isfile()`. Cette fonction retourne un bool (`True` si le fichier existe, `False` s'il n'existe pas. Sachez qu'on peut faire la même chose avec les dossiers en utilisant `os.path.isdir()`.

In [None]:
print(os.path.isfile(chemin))

## 2. Lecture de fichier

Super! On peut désormais dire à python où touver des fichiers. Maintenant, utilisons-les! Pour ce faire, nous allons utiliser une fonction qui fait partie de python de base, qui s'appelle `open()`.

On mettra le résultat de `open()` dans une variable. Sachez que nous somme en train de créer une **instance** d'une **classe**, et c'est pour cela que nous pouvons utiliser ce que l'on appelle des **méthodes** par la suite sur cette instance (on donne le nom de la variable, un point, puis la méthode qui est comme une fonction qui agit sur la l'instance). On reviendra sur les classes un peu plus tard.

Voici comment ouvrir et lire le contenu d'un fihcier textuel, comme le fichier `.md` définit plus haut:

In [None]:
# D'abord on ouvre le fichier avec open() en donnant comme argument le chemin vers le fichier:
f = open(chemin)

# Puis on it le contenu du fichier avec a méthode read() (et on met dans une variable):
data = f.read()

# Enfin, on ferme le fichier qui est toujours ouvert avec la méthode close():
f.close()

print(data)

Notez que nous **ouvrons** d'abord le fichier, puis on **lit** son contenu - ce n'est pas la même chose! Aussi, on doit fermer ce fichier ouvert pour qu'il n'occupe plus d'éspace dans le mémoire vif de l'ordinateur.

Voila! Nous avons déjà ouvert et lu un fichier en très peu de lignes de code!

### Lire des fichiers structurés - json

Cette méthode est très bien pour lire les fichiers textuels où on souhaite traiter les données comme un string, c'est à dire une suite de caractères. En revanche, il peut nous arriver de vouloir lire des fichiers de données structurés, comme des fichiers **JSON** ou des fichiers **CSV**

Voyons d'abord les fichiers json. Dans le dossier `sample_data` il y a un fichier qui s'appelle `anscombe.json`. Ouvrez-le pour voir le contenu (et définissons le chemin ici comme on a fait auparavant):


In [None]:
chemin = os.path.join(racine, "sample_data", "anscombe.json")

Si vous inspectez le contenu de ce fichier, vous verrez qu'il ressemble quand même pas mal à quelque chose que l'on connait - un `dict` en python. Effectivement, un fichier json et le type de donnée `dict` sont la même chose. Si on veut, on peut enregistrer des données en `dict` en format json.

On peut lire les fichiers json de la même manière qu'un fichier textuel, et on retrouvera le contenu en tant que string. En revanche, cela ne nous permettra pas de faire des opérations comme, par exemple, retrouver un element spécifique dans le dictionnaire (par exemple avec `my_dict["nom_de_cle"]`).

Si on souhaite faire cela, il va falloir décrypter ce contenu textuel en contenu json. Pour ce faire on utilisera un autre package qui s'appelle `json`, qui nous donnera accès à une fonction qui s'appelle `loads()` qui nous permettra de faire exactement ce que l'on cherche.

_(note: le fichier `anscombe.json` n'est pas strictement au format json, car il est en fait une liste. C'est une erreur de la part de google. On va toutefois pouvoir le lire avec `json` comme liste, mais sachez qu'un vrai contenu json s'englobe bien par de `{}` et non des `[]`)._

In [None]:
# D'abord on import le package json
import json

# Puis on lit notre fichier comme avant:
f = open(chemin)
data = f.read()
f.close()

# Cette fois-ci, on utilise json.loads() pour transformer le string en dict:
data_json = json.loads(data)

# Maintenant on peut interagir avec comme une vrai donnée structurée:
for truc in data_json:
  print(truc["X"])

Voila comment lire les fichier json. Sachez ausi qu'il y a une manière un peu plus rapide, qui ne nous oblige pas de lire d'abord en tant que texte, mais directement comme json avec la fonction `json.load()`.

In [None]:
# On peut aussi directement lire en tant que donnée structurée:
f = open(chemin)
data = json.load(f)
f.close()

print(data)

### Les données strucutrées - csv



## Ecriture de fichiers

In [None]:
mon_text = "Bonjour comment ca va ? tres bien ok ok od"


chemin = os.path.join(racine, "sample_data", "NEW_FILE.txt")

# if os.path.isfile(chemin):
#   print("Nooon ! ce fichier existe deja !")
# else:
#   print("okj on est bon")

f = open(chemin, "w")
f.write(mon_text)
f.close()

In [None]:
import json

mon_dict = {
    "bonjour" : 5,
    "bonjdkvjn" : "hello",
    "djfhbskdfhjb" : [0, 1, 2, 3]
}

chemin = os.path.join(racine, "sample_data", "my dict.json")

f = open(chemin, "w")
# f.write(mon_dict)
json.dump(mon_dict, f, indent = 4)
f.close()

## Exercice

1. Je voudrais que vous lisez le fichier json `anscombe.json`, que vous ajoutez un element aux données récuperés, et que vous enregistrez ça dans un un nouveau fichier.
2. Je voudrais que vous ouvrez le fichier markdown "README.md", et que vous me sortez le nombre de caractere "a" qui se trouvent dans ce fichier.
3. Je voudrais la même chose, mais qui compte chaque lettre de l'aphabet, et qui retourne un dict comme le suivant:
{"a" : 23, "b" : 50, ....}
`if "a" in mydict:`

In [None]:
chemin = os.path.join(os.getcwd(), "sample_data", "README.md")
f = open(chemin)
text = f.read()
f.close()

mon_dict = {}

for lettre in text:
  # D'abord on vérifie qu'il s'agit bien d'un lettre:
  if lettre.isalpha():
    # Je transforme la lettre en minuscule:
    lettre_min = lettre.lower()

    if lettre_min in mon_dict:
      mon_dict[lettre_min] = mon_dict[lettre_min] + 1
    else:
      mon_dict[lettre_min] = 1

print(mon_dict)

{'t': 57, 'h': 16, 'i': 55, 's': 62, 'd': 31, 'r': 29, 'e': 49, 'c': 34, 'o': 40, 'y': 13, 'n': 37, 'l': 23, 'u': 14, 'a': 76, 'f': 11, 'w': 11, 'm': 21, 'p': 17, 'g': 14, 'v': 10, 'b': 24, 'x': 4, 'k': 6, 'j': 5, 'z': 2, 'q': 3}


In [None]:
import csv

chemin = os.path.join(os.getcwd(), "sample_data", "mnist_train_small.csv")

ma_liste = []

f = open(chemin)
csv_read = csv.reader(f, delimiter = ",")
for ligne in csv_read:
  ma_liste.append(ligne)
f.close()

print(ma_liste)

Output hidden; open in https://colab.research.google.com to view.

In [None]:
print(ma_liste[1][3])
print(ma_liste[1])

0
['5', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '28', '59', '50', '0', '23', '0', '0', '32', '134', '180', '254', '206', '8', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '4', '96', '216', '233', '254', '248', '215', '231', '215', '215', '236', '254', '250', '181', '27'

In [None]:
nouvelle_liste = [
    [1, 2, 3],
    [4, 5, 6]
]

chemin = os.path.join(os.getcwd(), "sample_data", "nouveau_csv.csv")
f = open(chemin, "w")
writer = csv.writer(f)
for ligne in nouvelle_liste:
  writer.writerow(ligne)
f.close()