<div class="alert alert-success">

# P3-1 : Traitement de données en table: Indexation de tables

</div>

**Dans cette série de TP en 4 parties, nous étudierons les points suivants :**
- Ouverture/lecture de fichier csv
- recherche dans la table
- tri
- fusion de tables

Les sources de données exploitées dans ces TP sont extraites de ces sites :

https://sql.sh/736-base-donnees-villes-francaises

https://www.insee.fr/fr/information/3720946


<h2 class="alert alert-info">Rappels préliminaire : manipulation de fichier texte</h2>

Exécutez les cellules suivantes pour vous remettre les idées en place.

In [1]:
# chemin vers le fichier à créer
nom_fichier = "fichier-test.txt"

# ouverture du fichier
f = open(nom_fichier, 'w', encoding='utf-8')

# écriture (bien remarquer le \n à la fin de chaque ligne si on veut un saut de ligne)
f.write('fichier test\n')
f.write('nouvelle ligne\n')
f.write('dernière ligne du fichier')

# fermeture du fichier
f.close()

In [2]:
# chemin vers le fichier déjà existant
nom_fichier = "fichier-test.txt"

# ouverture du fichier
f = open(nom_fichier, 'r', encoding='utf-8')

# lecture ligne par ligne (tant qu'on n'atteint pas une ligne vide)
ligne = None
while ligne != '':
    ligne = f.read()
    print(ligne)

# fermeture du fichier
f.close()

fichier test
nouvelle ligne
dernière ligne du fichier



### Autre méthode : mot clef  `with`
Il est possible d'utiliser la syntaxe suivante, plus condensée, et qui permet de fermer le fichier automatiquement sans le spécifier explicitement.

In [3]:
with open('fichier-test.txt', 'r', encoding='utf-8') as f:
    for ligne in f: # on peut aussi parcourir le contenu d'un fichier comme une séquence avec une boucle for
        print(ligne)

fichier test

nouvelle ligne

dernière ligne du fichier


La méthode  `readlines()` renvoie une liste qui contient chaque ligne du fichier :

In [5]:
with open('fichier-test.txt', 'r', encoding='utf-8') as f:
    fichier_complet = f.readlines() 

print(fichier_complet)

['fichier test\n', 'nouvelle ligne\n', 'dernière ligne du fichier']


<h2 class="alert alert-info">Lecture écriture d'un fichier csv¶</h2>


Voir la doc officielle Pyton : https://docs.python.org/fr/3/library/csv.html

<div class="alert alert-danger">
    
## Lecture sous forme d'un tableau doublement indexé

Un fichier **csv** est un simple fichier texte qui contient des données structurées :
- chaque ligne du fichier contient un enregistrement qui donne les valeurs de plusieurs attributs (ou champs ou descripteurs).
- les champs sont séparés par un autre caractère spécifique (virgule, point-virgule, tabulation...)


Le module `csv` permet de charger un fichier **csv**  pour lire les données qu'il contient.

Il fournit un objet *lecteur* (**reader**) qui contient chaque ligne du fichier. 

On pourra transformer cet objet en une véritable liste Python et manipuler cette liste comme nous savons le faire.

On obtient ainsi un tableau doublement indexé : `table[i]` représente un enregistrement complet (une ligne du fichier) et `table[i][j]` représente une valeur pour un champ donné.


</div>

In [6]:
import csv

<div class="alert alert-warning">
    
Exo : ouvrir le fichier departement-19_virg.csv dans un éditeur de texte, puis dans un tableur, et enfin exécuter la cellue suivante.
    
</div>

In [27]:
# Observer cet exemple concret :
with open('departement-19.csv', 'r', encoding='utf-8') as fichier:
    lecteur = csv.reader(fichier, delimiter=',')
    table1 = list(lecteur)

<div class="alert alert-warning">
    
Exo : Exploitation de du tableau `table1`. <br>Les 3 questions suivantes nécessitent simplement de manipuler correctement la variable `table1`.
    
</div>

1. Afficher la liste des descipteurs. (*rep = ['dep', 'reg', 'cheflieu', 'tncc', 'ncc', 'nccenr', 'libelle']*)
2. Afficher le 1er enregistrement. (*rep = ['01', '84', '01053', '5', 'AIN', 'Ain', 'Ain']*)
3. Afficher le 5ème champ du 1er enregistrement. (*rep = AIN*)

In [28]:
# liste des descripteurs
print(table1[0])

# affichage du 1er enregistrement :
print(table1[1])

# affichage du 5ème champ du 1er enregistrement :
print(table1[1][4])

['dep', 'reg', 'cheflieu', 'tncc', 'ncc', 'nccenr', 'libelle']
['01', '84', '01053', '5', 'AIN', 'Ain', 'Ain']
AIN


<div class="alert alert-danger">
    
## Lecture sous forme d'un tableau de p-uplets nommés (dictionnaires)
Le module `csv`  fournit également un autre objet *lecteur* (**DictReader**) qui contient chaque ligne du fichier sous forme de dictionnaire.

Cet objet peut se transformer en liste Python et dans ce cas `table[i]` représente un enregistrement complet (une ligne du fichier) et `table[i][nom_du_champ]` représente une valeur pour un champ donné.
</div>

Si le paramètre **fieldnames** est omis, la 1ère ligne du fichier csv est lue pour connaître les decripteurs (clefs du dictionnaire) des enregistrements.

On peut accéder à ces decripteurs avec l'attribut **fieldnames** de l'objet lecteur défini.

On peut aussi définir une liste de decripteurs si la 1ère ligne du fichier csv n'en contient pas.

<div class="alert alert-warning">
    
Exo : Exécuter la cellue suivante.
    
</div>

In [30]:
with open('departement-19.csv', 'r') as fichier:
    lecteur = csv.DictReader(fichier, delimiter=',')
    champs = lecteur.fieldnames # contient la liste des champs à la 1ère ligne du fichier
    table2 = list(lecteur)

<div class="alert alert-warning">
    
Exo : Exploitation de du tableau `table2`. <br>Les 3 questions suivantes nécessitent simplement de manipuler correctement la variable `table2`, ou la variable `champs`.
    
</div>

1. Afficher la liste des descipteurs. (*rep = ['dep', 'reg', 'cheflieu', 'tncc', 'ncc', 'nccenr', 'libelle']*)
2. Afficher le 1er enregistrement. (*rep = {'dep': '01', 'reg': '84', 'cheflieu': '01053', 'tncc': '5', 'ncc': 'AIN', 'nccenr': 'Ain', 'libelle': 'Ain'}*)
3. Afficher le champ 'ncc' du 1er enregistrement. (*rep = AIN*)

In [31]:
# liste des descripteurs
print(champs)

# affichage du 1er enregistrement :
print(table2[0])

# affichage du champ 'ncc' du 1er enregistrement :
print(table2[0]['ncc'])

['dep', 'reg', 'cheflieu', 'tncc', 'ncc', 'nccenr', 'libelle']
{'dep': '01', 'reg': '84', 'cheflieu': '01053', 'tncc': '5', 'ncc': 'AIN', 'nccenr': 'Ain', 'libelle': 'Ain'}
AIN


<div class="alert alert-danger">
    <em>Conclusion : différence d'accès aux descripteurs</em>

- `table1[0]`  contient la liste des descripteurs si on a utilisé  la méthode `reader`.<br>
- `table2[0]` contient le 1er enregistrement si on a utilisé  la méthode `DictReader`.
</div>

<div class="alert alert-warning">
    
**Exo : Lecture d'un fichier texte tabulé.**
    
 On donne ici le même fichier texte mais dans ce cas les champs sont séparés par des tabulations : `departement-19_tab.csv`
    
- Ouvrir ce fichier avec un éditeur de texte pour voir à quoi il ressemble dans un 1er temps.
- Ouvrir ce fichier en Python et vérifier la possibilité d'accéder aux informations qu'il contient.
    
*Remarque :* En Python (comme dans beaucoup de langages), la tabulation se note par le caractère `\t`.

</div>

In [32]:
with open('departement-19_tab.csv', 'r') as fichier:
    lecteur = csv.DictReader(fichier, delimiter='\t')
    champs = lecteur.fieldnames # contient la liste des champs à la 1ère ligne du fichier
    table = list(lecteur)

# liste des descripteurs
print(champs)

# affichage des 4 premiers enregistrements :
print()
for i in range(4):
    print(table[i])

# affichage du champ 'ncc' du 1er enregistrement
print()
print(table[0]['ncc'])

['dep', 'reg', 'cheflieu', 'tncc', 'ncc', 'nccenr', 'libelle']

{'dep': '01', 'reg': '84', 'cheflieu': '01053', 'tncc': '5', 'ncc': 'AIN', 'nccenr': 'Ain', 'libelle': 'Ain'}
{'dep': '02', 'reg': '32', 'cheflieu': '02408', 'tncc': '5', 'ncc': 'AISNE', 'nccenr': 'Aisne', 'libelle': 'Aisne'}
{'dep': '03', 'reg': '84', 'cheflieu': '03190', 'tncc': '5', 'ncc': 'ALLIER', 'nccenr': 'Allier', 'libelle': 'Allier'}
{'dep': '04', 'reg': '93', 'cheflieu': '04070', 'tncc': '4', 'ncc': 'ALPES DE HAUTE PROVENCE', 'nccenr': 'Alpes-de-Haute-Provence', 'libelle': 'Alpes-de-Haute-Provence'}

AIN
