# Cours 10


## Lire des fichiers locaux

Savoir lire dans un fichier est une compétence fondamentale en programmation. Cela permet de lire des données et de les manipuler dans un programme.

Voici quelques raisons pour lesquelles il est important de savoir lire des fichiers :

- Accès aux Données : Essentiel pour exploiter les données nécessaires aux analyses.
- Automatisation : Permet le traitement automatisé de grandes quantités de données.
- Interdisciplinarité : Facilite la collaboration et l'utilisation de données entre différents domaines.
- Reproductibilité : Contribue à la reproductibilité des recherches en permettant la vérification des résultats.
- Adaptabilité : Rend capable de gérer divers types de données et formats de fichiers.
- Exploitation des Ressources : Ouvre l'accès à une vaste quantité de ressources éducatives et scientifiques.
- Économie de Ressources : Économise le temps et les efforts, permettant de se concentrer sur l'analyse et l'innovation.


## Importation des fichiers

Pour réussir à manipuler sans trop d'embuches les fichiers externes avec Python, on importera une autre librairy: Pandas. Il faudra que le fichier python (par exemple cours10.py) soit enregistré dans le **même dossier** que le fichier qui contient les données (fichier cs, xlsx, docx, etc.)

```py
import pandas as pd
```
S'il n'est pas installé, on procède comme avec Numpy:
Outils -> Gérer les paquets -> Pandas ->installer


## Fichiers CSV

Dans le monde de la recherche et des sciences et du partage de données, un format de données très populaire est le .csv, qui ressemble à du Excel, mais qui se lit et se manipule avec d'autre éditeurs que celui de Microsoft. Les données disponibles sur les sites gouvernementaux, entre autres, sont disponible en csv.

CSV est l'acronyme de "Comma-Separated Values", ce qui signifie "valeurs séparées par des virgules". Un fichier CSV est un format de fichier texte simple qui stocke des données tabulaires sous forme de texte brut, où chaque ligne du fichier représente une ligne dans la table de données, et les valeurs dans chaque ligne sont séparées par des virgules (ou d'autres délimiteurs comme les points-virgules, les tabulations, etc.).

![extensions.PNG](img/extensions.PNG)


## Travailler avec un fichier externe

Pour réussir à importer et accéder aux données d'un fichier CSV et ensuite pouvoir déplacer son travail sur un autre ordinateur ou plateforme, il faut que les fichiers soient placés dans le même dossier:


![dossier_fichier.PNG](img/dossier_fichier.PNG)


Ensuite, dans votre fichier eclipse_solaire.py, on pourra importer les données:


```py
# Importer la librairie pandas. L'alias utilisé dans la documentation est l'alias pd. 
import pandas as pd

# Lire le fichier CSV. df est un terme utilisé pour datafile. Encoding = "latin1" est pour s'assurer que les caractères francophones soient pris en charge
data = pd.read_csv("eclipse_solaire.csv", encoding = "latin1")

# Afficher un résumé des 5 premières lignes
print(data.head())
```

Le résultat est le suivant:

![sortie1.PNG](img/sortie1.PNG)


## Fonction courantes de `pandas`

C'est une pratique très répandue d'utiliser la variable de type `dataframe` de `pandas`, `data`, pour appeler les diverses fonctions disponibles dans la librairie:


| Fonction                   | Description                                      |
|:---------------------------|:-------------------------------------------------|
| data.`head()`                  | Affiche les 5 premières lignes du fichier.      |
| data.`tail()`                  | Affiche les 5 dernières lignes du fichier.      |
| data.`info()`                  | Affiche des informations sur le fichier.        |
| data['Nom de la colonne']    | Retourne une colonne du fichier selon son titre.                 |
| data.iloc[:, num_colonne]    | Retourne une colonne du fichier selon son index.                 |


### Exemples:

Si on veut de l'information sur le fichier:

```py
data.info()
```
le résultat dans la console:

![sortieInfo.PNG](img/sortieInfo.PNG)


Si on souhaite lire la colonne de température du fichier csv de l'éclipse solaire et mettre les résultats dans une liste, on pourra faire l'une des commandes ci-dessous:

```py
liste = data['Temperature'].tolist()
liste2 = data.iloc[:, 3].tolist()   
``` 

### Exercice

Nous allons faire le graphique de la luminosité selon l'heure. Ne pas oublier d'ajouter d'ajouter la librairie en haut du fichier.

```py
import matplotlib.pyplot as graph
```

1. Mettre les données de la colonne Timestamp dans une liste du nom de votre choix. Les données de temps sont plus complexes, alors voici la commande pour y parvenir:

```py
# Convertir la colonne 'Timestamp' en format datetime
data['Timestamp'] = pd.to_datetime(data['Timestamp']) 
# Mettre les données dans une liste
temps = data['Timestamp'].tolist()
```

2. Mettre les données de la colonne Luminosite (%) dans une liste du nom de votre choix.
3. Maintenant que vous avez 2 listes, faire le graphique de la luminosité en fonction du temps (courbe où les points sont reliés). Voici quelques données intéressantes pour le visuel. 

```py
# Voici un ajout à la commande qui démarre une figure, pour modifier la taille. La valeur par défaut est 6.4 pouces par 4.8 pouces

graph.figure(figsize=(10, 6))

```

- Ajouter un titre: Luminosité au fil du temps
- Ajouter une étiquette en x: Temps
- Ajouter une étiquette en y: Luminosité (%)
- Ajouter le quadrillage
- Ajouter des graduations (ticks) en x avec un angle de 45:

```py
graph.xticks(rotation=45)
```
- Ajouter la commande ci-dessous pour ajuster et optimiser le chevauchement.

```py
graph.tight_layout()
```
TADAAAAAM!

![eclipse_graph.png](img/eclipse_graph.png)


## Trier et filtrer les données

#### Trier les données:


```py
# Trier les données en fonction d'une colonne spécifique
data_triees = data.sort_values(by='nom_de_la_colonne')

# Afficher les données triées
print(data_triees)
```


#### Filtrer les données:

Sur le contenu en chiffre:

```py
# Appliquer un filtre sur les données
data_filtrees = data.query('nom_de_la_colonne > valeur')

# Afficher les données filtrées
print(data_filtrees)
```

Sur le contenu en mot:

```py
# Filtrer les données pour ne garder que les lignes où la colonne contient 'abc'
data_filtrees = data.query('colonne.str.contains("abc", na=False)')  
#na = false c'est pour ne pas considérer les cellules vides

# Afficher les données filtrées
print(data_filtrees)


#Si on a plusieurs valeurs à trier:
data_filtrees = data.query('colonne.str.contains("abc", na=False) or colonne.str.contains("xyz",na=False)')

#Ou bien on fait des listes et on trie avec une boucle for s'il y a trop de valeurs (voir exercice).


```

> Note: ce sont des suggestions à essayer avec la librairie Pandas. Toutes les méthodes utilisées précédemment sur les listes sont valides encore aussi!



## Transformer un CSV en Excel et vice versa

Puisque la version Excel est très populaire et pratique, on peut vouloir l'utiliser pour vérifier des données.

```
# Lire le fichier CSV et charger les données dans un DataFrame
data = pd.read_csv('nom_fichier_csv.csv', encoding = "latin1")

# Écrire les données du DataFrame dans un fichier Excel
data.to_excel('nom_fichier_excel.xlsx', index=False)

# Remplacer la ligne précédente par ceci, si votre fichier contient des termes avec accents:
with pd.ExcelWriter('nom_fichier_excel.xlsx', engine='openpyxl') as writer:
    data.to_excel(writer, index=False)
```

Lorsqu'on a fini et qu'on veut publier ou exporter, on remet en csv!

```py
# Lire le fichier Excel et charger les données dans un DataFrame
data_excel = pd.read_excel('nom_fichier_excel.xlsx', encoding='utf-8')

# Écrire les données du DataFrame dans un fichier CSV
data_excel.to_csv('nom_fichier_csv.csv', index=False)
```
Attention, les opérations ci-haut ne doivent pas être faites à répétition. Si un fichier existe déjà avec un nom, il y aura une erreur si vous essayez de refaire un fichier identique par dessus.

Voici un lien pour récupérer des données réelles en provenance du gouvernement du Québec:
https://www.donneesquebec.ca/organisation/gouvernement-du-quebec/


## Exercice en classe

1. Téléchargez le fichier 'normales-mens-1991-2020.csv' à partir du lien suivant: https://www.donneesquebec.ca/recherche/dataset/normales-climatiques-mensuelles/resource/fae9769d-ef7d-4e7f-805f-079ee29cf292

> La fiche descriptive des données est ici: https://www.donneesquebec.ca/recherche/dataset/normales-climatiques-mensuelles

2. Trouvez le fichier dans vos dossiers, il sera dans le dossier Téléchargement. Copiez le fichier. Allez dans un autre dossier, là où vous conservez les devoirs du cours de programmation. Créez un nouveau dossier nommé exercice_cours10. Dans ce dossier, collez le fichier 'normales-mens-1991-2020.csv'.

3. Créez-vous une nouvelle feuille Python nommée exercice_cours10.py et enregistrez-la dans le même dossier que le fichier csv.

4. Vous êtes maintenant prêts à travailler sur le fichier à l'aide de Python.

5. Récoltez l'information du fichier avec la commande data.info()

6. Créez le fichier Excel du même nom que le CSV. Commentez la commande une fois que vous aurez roulé le code.

7. On souhaite observer les précipitations de pluie et de neige de 4 stations en Mauricie : 'Shawinigan', 'Trois-Rivières-Aqueduc','Sainte-Anne-de-la-Pérade','Charette'. 

8. Le but de cette étape est de faire 4 listes: les mois, la station, la pluie et la neige pour ces 4 stations seulement. Il existe plusieurs méthodes pour faire cela. On en regardera 2:


```py
filtre = data.query('NOM_STATION.str.contains("Shawinigan") or NOM_STATION.str.contains("Trois-Rivières-Aqueduc", na=False) or NOM_STATION.str.contains("Sainte-Anne-de-la-Pérade", na=False)or NOM_STATION.str.contains("Charette", na=False)')
liste_noms = filtre['NOM_STATION'].tolist()
liste_pluie = filtre['PLUIE_NORMALE'].tolist()
liste_neige = filtre['NEIGE_NORMALE'].tolist()
liste_mois = filtre['MOIS'].tolist()
```
ou bien:

```py
lieux = ['Shawinigan', 'Trois-Rivières-Aqueduc','Sainte-Anne-de-la-Pérade','Charette']
stations = data['NOM_STATION'].tolist()
pluie_normale = data['PLUIE_NORMALE'].tolist()
mois = data['MOIS'].tolist()
neige_normale = data['NEIGE_NORMALE'].tolist()
new_stations =[]
new_pluie_normale=[]
new_mois=[]
new_neige_normale=[]

for i in range(len(stations)):
    if stations[i] in lieux:
        new_stations.append(stations[i])
        new_pluie_normale.append(pluie_normale[i])
        new_mois.append(mois[i])
        new_neige_normale.append(neige_normale[i])
```

9. Faites le nuage de points de la pluie par rapport aux mois. Il s'agit ici d'un exercice, les détails ne sont pas précisés, on va minimalement mettre un titre, des titres aux axes, modifier la couleur, et mettre le grillage.

10. Faites le nuage de points de la pluie par rapport à la neige.Il s'agit ici d'un exercice, les détails ne sont pas précisés, on va minimalement mettre un titre, des titres aux axes, modifier la couleur, et mettre le grillage.

11. Faites la moyenne de pluie et expliquez-la.


# Exercice pour pratiquer

Refaire les étapes précédentes pour les PREC_NORMALE (précipitations) et la TMOY_NORMALE (température moyenne normale). Fouillez dans la documentation fournie plus haut pour savoir quelles sont les unités de mesure.

> Un solutionnaire sera fourni ultérieurement.