# Fichiers CSV - Base de données SQL

## 1 - Les fichiers CSV

Le format de fichier CSV sert le plus souvent à représenter des tableaux de données. Ces formats sont souvent utilisés par les tableurs ( excel, libre office, google doc... ), par les bases de données et par de nombreux logiciels. Ce format de données étant très répandu, on le trouve très souvent en entrée ou en sortie d'une application.
Il n'existe pas de standard pour les fichiers CSV, et la connaissance de plusieurs caratéristiques sont utiles pour pouvoir lire ces fichiers:
- Le/les caractères de fin de ligne ( LF ou CR-LF )
- Le caractères séparateur de champ ( , ; ou parfois | )
- Le délimiteurs de chaines de caractères ( " ' ou aucun )
- L'encodage des caractères ( UTF-8, ASCII, ISO8859-1, ... )
- Le caractère spéarateur de décimales ( , . ) ou le séparateur de millier si il existe
- etc ....

Documentation python: https://docs.python.org/fr/3/library/csv.html

Exemple de tableau de données en CSV:

| Caractéristiques  | Mercure  | Venus  | Terre  | Mars  | Jupiter  | Saturne  | Uranus  | Neptune |
|-------------------|----------|--------|--------|-------|----------|----------|---------|---------|
| Diamètre (km)  | 4 878  | 12 104  | 12 756  | 6 794  | 142 984  | 120 536  | 51 118  | 49 528 |
| Circonférence (km)  | 15324,689  | 38019,554  | 40024  | 21318,84  | 449197,484  | 378675,012  | 160591,933  | 155596,8 |
| Périhélie (millions de km)  | 45,9  | 107,4  | 147,1  | 206,6  | 740,5  | 1 352,6  | 2 741,3  | 4 456 |
| Aphélie (millions de km)  | 69,7  | 109  | 152,1  | 249,2  | 815,6  | 1 514,5  | 3 013,6  | 4 545,7 |
| Distance Moyenne avec le Soleil (millions de km)  | 57,8  | 108,2  | 149,6  | 227,9  | 778,6  | 1 433,5  | 2 872,5  | 4 495,1 |
| Température Moyenne (°C)  | 167  | 465  | 15  | -65  | -54  | -150  | -210  | -220 |
| Masse (Terre = 1)  | 0,0553  | 0,81  | 1  | 0,11  | 318  | 95,1  | 14,5  | 17,1 |
| Période de Révolution (an)  | 0,24  | 0,615  | 1  | 1,88  | 11,86  | 29,46  | 84  | 164,79 |
| Rotation sur son axe  | 58j 15 h 38min  | 243j  | 23 h 56min 4s  | 24 h 37min 23s  | 9 h 50min  | 11.5 h  | 17 h 24min  | 16 h 3min |
| Attraction gravitationnelle (N/kg)  | 3,78  | 8,6  | 9,81  | 3,72  | 24,892  | 10,584  | 8,624  | 11,27 |
| Temps Lumière Soleil-Planète (min)  | 3,2  | 6,012  | 8  | 12,66  | 43,24  | 79,44  | 159,7  | 249,81 |


Les données en format CSV:
```
 Caractéristiques  ; Mercure  ; Venus  ; Terre  ; Mars  ; Jupiter  ; Saturne  ; Uranus  ; Neptune 
 Diamètre (km)  ;4878;12104;12756;6794;142984;120536;51118;49528 
 Circonférence (km)  ;15324,689;38019,554;40024;21318,84;449197,484;378675,012;160591,933;155596,8 
 Périhélie (millions de km)  ;45,9;107,4;147,1;206,6;740,5;1352,6;2741,3;4456 
 Aphélie (millions de km)  ;69,7;109;152,1;249,2;815,6;1514,5;3013,6;4545,7 
 Distance Moyenne avec le Soleil (millions de km)  ;57,8;108,2;149,6;227,9;778,6;1433,5;2872,5;4495,1 
 Température Moyenne (°C)  ;167;465;15;-65;-54;-150;-210;-220 
 Masse (Terre = 1)  ;0,0553;0,81;1;0,11;318;95,1;14,5;17,1 
 Période de Révolution (an)  ;0,24;0,615;1;1,88;11,86;29,46;84;164,79 
 Rotation sur son axe  ; 58j 15 h 38min  ; 243j  ; 23 h 56min 4s  ; 24 h 37min 23s  ; 9 h 50min  ; 11.5 h  ; 17 h 24min  ; 16 h 3min  
 Attraction gravitationnelle (N/kg)  ;3,78;8,6;9,81;3,72;24,892;10,584;8,624;11,27 
 Temps Lumière Soleil-Planète (min)  ;3,2;6,012;8;12,66;43,24;79,44;159,7;249,81
```


### 1.1 Lecture de fichier CSV
Nous allons lire les données du fichier departement.csv

Déterminer les caractéristiques du fichier

In [5]:
# Lit tout
import csv

with open('departement.csv', encoding="utf8") as fichier_csv:
    lecteur_csv = csv.reader(fichier_csv, delimiter=',')
    
    nombre_lignes = 0
    # Lire les lignes du fichier une par une
    for ligne in lecteur_csv:
        # Les champs sont lus dans une liste
        print(ligne[0],ligne[1],ligne[2],ligne[3],ligne[4],ligne[5])
        nombre_lignes += 1
        
    print('\nNombre de lignes lues dans le fichier: {}'.format(nombre_lignes))


1 01 Ain AIN ain A500
2 02 Aisne AISNE aisne A250
3 03 Allier ALLIER allier A460
5 05 Hautes-Alpes HAUTES-ALPES hautes-alpes H32412
4 04 Alpes-de-Haute-Provence ALPES-DE-HAUTE-PROVENCE alpes-de-haute-provence A412316152
6 06 Alpes-Maritimes ALPES-MARITIMES alpes-maritimes A41256352
7 07 Ardèche ARDÈCHE ardeche A632
8 08 Ardennes ARDENNES ardennes A6352
9 09 Ariège ARIÈGE ariege A620
10 10 Aube AUBE aube A100
11 11 Aude AUDE aude A300
12 12 Aveyron AVEYRON aveyron A165
13 13 Bouches-du-Rhône BOUCHES-DU-RHÔNE bouches-du-rhone B2365
14 14 Calvados CALVADOS calvados C4132
15 15 Cantal CANTAL cantal C534
16 16 Charente CHARENTE charente C653
17 17 Charente-Maritime CHARENTE-MARITIME charente-maritime C6535635
18 18 Cher CHER cher C600
19 19 Corrèze CORRÈZE correze C620
20 2a Corse-du-sud CORSE-DU-SUD corse-du-sud C62323
21 2b Haute-corse HAUTE-CORSE haute-corse H3262
22 21 Côte-d'or CÔTE-D'OR cote-dor C360
23 22 Côtes-d'armor CÔTES-D'ARMOR cotes-darmor C323656
24 23 Creuse CREUSE creuse C62

### Exercice : 
Lire le fichier departement.csv et n'afficher que les DOM/TOM.

In [10]:
# Afficher les DOM/TOM


### 1.2 écriture dans un fichier CSV

In [12]:
# enregistrer les DOM/TOM dans un fichier CSV
import csv

with open('departement.csv', encoding="utf8") as fichier_csv:
    lecteur_csv = csv.reader(fichier_csv, delimiter=',', quotechar='"')

    with open('dom_tom.csv', 'w', newline='') as fichier_csv_sortie:
        enregistreur_csv = csv.writer(fichier_csv_sortie)
    
        for ligne in lecteur_csv:
        
            departement = ligne[1]
            if departement[0:2] == "97":
                enregistreur_csv.writerow( [ ligne[1], ligne[2] ] ) # écrire une ligne dans le fichier CSV


## 2 - Les bases de données SQL
Pour simplifier la configuration nous allons utiliser la base de données SQLlite qui est directement intégrée dans Python et ne demande pas l'instalation d'un serveur de base de données. Le fonctionnement est le même avec une base de données comme MySQL. Le langage SQL dispose de plusieures variantes qui diffèrent principalement par les options disponibles.

Le langage SQL dispose de 4 types de commandes:
- Les instructions de manipulation de données: INSERT, UPDATE, DELETE, SELECT
- Les instructions de définition de données : CREATE, DROP, ALTER
- Les instructions de contrôle des données: GRANT, REVOKE
- Les instructions de contrôle de transactions: COMMIT, ROLLBACK

Comme une feuille dans un tableur, une table contient plusieurs enregistrements ( lignes ) contenant chacuns plusieurs champs ( colonnes ).


### 2.1 Création d'une base de données
Dans SQLlite, créer revient à créer un fichier dans le dossier courant. Ouvrir et fermer la base de données suiffit à la créer, ainsi que le fichier correspondant.

In [14]:
# creation de la base de données
import sqlite3 

connexion_bdd = sqlite3.connect('mabasededonnees.db')
curseur = connexion_bdd.cursor() 


# Fermer la connexion 
connexion_bdd.close

print("Base de données crée avec succès")

Base de données crée


### 2.2 Créer une table dans la base de données

Pour créer une table, on utilise la requête SQL :
```
CREATE TABLE departement ( 
  dep_code varchar(3) NOT NULL, 
  dep_desc varchar(100) NOT NULL
) 
```
Cette requête crée la table departement avec 2 champs: dep_code pour le code de département et dep_desc pour le nom du département.

In [2]:
# creation de la table departement (vide)
import sqlite3 

# connexion à la base de données
connexion_bdd = sqlite3.connect('mabasededonnees.db')
curseur = connexion_bdd.cursor() 

# Création de la requete SQL
requete = "CREATE TABLE departement ( \
  dep_code varchar(3) NOT NULL, \
  dep_desc varchar(100) NOT NULL \
)" 

# Exécution de la requete 
curseur.execute(requete) 

# Enregistrer definitivement les données
connexion_bdd.commit() 

# Fermer la connexion 
connexion_bdd.close
print("Table departement crée.")

Table departement crée.


### 2.3 Ajouter des lignes dans une table
Pour ajouter des lignes dans une table on utilise la requête SQL :
```
INSERT INTO departement (dep_code,dep_desc) 
VALUES ('42', 'Loire :)' )
```

In [5]:
# Ajouter une ligne dans la table departement
import sqlite3 

# connexion à la base de données
connexion_bdd = sqlite3.connect('mabasededonnees.db')
curseur = connexion_bdd.cursor() 

code_departement = ""
nom_departement = ""

while code_departement != "fin":
    code_departement = input("Entrez un code de département (fin pour terminer):")
    if code_departement != "fin":
        nom_departement = input("Entrez le nom du département:")
        
        # Création de la requete SQL
        requete = " INSERT INTO departement (dep_code,dep_desc) \
                    VALUES ('{}', '{}' ) ". format( code_departement, nom_departement )
        
        # Exécution de la requete 
        curseur.execute(requete) 
        # Enregistrer definitivement les données
        connexion_bdd.commit() 
        print( "Une ligne à été ajoutée dans la table\n")

# Fermer la connexion 
connexion_bdd.close
print("")

Entrez un code de département (fin pour terminer):fin



### 2.4 Lecture d'une table
Pour lire les données d'une table on utilise une requête SQL:
```
SELECT * FROM departement
SELECT * FROM departement WHERE dep_code = "42"
```

In [3]:
# lecture de la table
import sqlite3 

# connexion à la base de données
connexion_bdd = sqlite3.connect('mabasededonnees.db')
curseur = connexion_bdd.cursor() 

# Création de la requete SQL
requete = "SELECT * FROM departement"

# Exécution de la requete 
resultat = curseur.execute(requete) 

for enregistrement in resultat:
  print(enregistrement)

# Enregistrer definitivement les données
connexion_bdd.commit() 

# Fermer la connexion 
connexion_bdd.close
print("")




### 2.5 Effacer un enregistrement
Pour effacer un enregistrement d'une table on utilise la requête SQL:
```
DELETE FROM departement WHERE dep_code = "42"
```

In [8]:
# Effacer un enregistrement
import sqlite3 

# connexion à la base de données
connexion_bdd = sqlite3.connect('mabasededonnees.db')
curseur = connexion_bdd.cursor() 

# Création de la requete SQL
requete = "DELETE FROM departement WHERE dep_code = '42' "

# Exécution de la requete 
resultat = curseur.execute(requete) 

# Enregistrer definitivement les données
connexion_bdd.commit() 

# Fermer la connexion 
connexion_bdd.close
print("")




### 2.6 Exercice
Lire les données du fichier departement.csv et ajouter les enregistrements dans la table département

In [None]:
# Insérer les données du fichier departement.csv


## 3 - Proposition de solutions

In [9]:
# afficher les DOM/TOM    
import csv

with open('departement.csv', encoding="utf8") as fichier_csv:
    lecteur_csv = csv.reader(fichier_csv, delimiter=',', quotechar='"')
    
    nombre_lignes = 0
    for ligne in lecteur_csv:
        
        departement = ligne[1]
        if departement[0:2] == "97":
          print(ligne[1],ligne[2])
        
        nombre_lignes += 1
        
    print('\nNombre de lignes lues dans le fichier: {}'.format(nombre_lignes))


976 Mayotte
971 Guadeloupe
973 Guyane
972 Martinique
974 Réunion

Nombre de lignes lues dans le fichier: 101


In [12]:
# Insérer les données du fichier departement.csv
import csv
import sqlite3 

connexion_bdd = sqlite3.connect('mabasededonnees.db')
curseur = connexion_bdd.cursor() 

nombre_lignes = 0

with open('departement.csv', encoding="utf8") as fichier_csv:
    lecteur_csv = csv.reader(fichier_csv, delimiter=',')
    
    for ligne in lecteur_csv:

        # Création de la requete 
        requete = "INSERT INTO departement (dep_code,dep_desc) \
          VALUES (\"{}\", \"{}\")".format(ligne[1], ligne[2])

        # print(requete)

        # Insérer une ligne de données 
        curseur.execute( requete )
        # Commettre ou engager les données
        connexion_bdd.commit()
    
        nombre_lignes += 1
    

# Fermer la connexion 
connexion_bdd.close
print('Nombre de lignes ajoutées:{}'.format(nombre_lignes))

Nombre de lignes ajoutées:101
