# <div style = "text-align: center; color:#124660">Tutoriel - Importer des données d'un fichier csv ou txt</div>

L'objectif de ce tutoriel est de construire un programme simple permettant d'importer tout type de données d'un fichier csv ou txt généré par différents logiciels comme :
* Avimeca
* Regressi
* Avistep
* Tracker
* Logger Pro
* Pymecavideo
* Excel
* et plein d'autres...

Il est possible de construire un programme plus ou moins élaboré, en définissant manuellement les caractéristiques de chaque fichier csv ou txt, ou en automatisant complètement l'importation de données.

# <div style = "color:#124660"> 1. Les différents formats des fichiers de données csv et txt</div>

Lorsqu'on veut exporter des données d'un logiciel, il est possible de les enregistrer au format csv ou txt, mais malheureusement il n'existe pas de format standard d'exportation de ces données.   
Les fichiers exportés comportent :
* une en-tête d'une ou plusieurs lignes pour décrire le contenu du fichier
* des données séparées entre elles par des séparateurs (**;** ou **,** ou **espace** ou **tabulation**)

!!! abstract Composition de quelques fichiers csv ou txt
Voici 4 exemples de fichiers exportés par Régressi, Tracker ou Pymecavideo (d'autres fichiers d'autres logiciels sont joints à ce tutoriel et sont visionnables en cliquant sur le trombonne dans le bandeau du haut) :
||$regressi.csv$|$regressi.txt$|$tracker.txt$|$pymecavideo.csv$|
|:-|:--|:-|:-|:-|
|$Séparateur$|$","$|$tabulation$|$";"$|$tabulation$|
|$Entête$|$\ =\ 2\ lignes$|$2\ lignes$|$ 2\ lignes$|$ 12\ lignes$|
|$Écriture\\décimale$|$Avec\ un\ "."$|$Avec\ un\ "."$|$Avec\ une\ ","$|$Avec\ une\ ","$|
|$Fichier$|<div style="vertical-align: top;">$t,x,y\\s,m,m\\0.08,0,0.00236\\0.12,-0.0684,0.12\\0.16,-0.134,0.224\\0.2,-0.203,0.311\\0.24,-0.274,0.382\\0.28,-0.342,0.434\\0.32,-0.41,0.469\\0.36,-0.479,0.495\\0.4,-0.547,0.5\\0.44,-0.616,0.488\\0.48,-0.682,0.465\\0.52,-0.752,0.422\\0.56,-0.823,0.366\\0.6,-0.889,0.29\\0.64,-0.955,0.203\\0.68,-1.02,0.101\\0.72,-1.09,-0.0165\\0.76,-1.15,-0.146\\0.8,-1.21,-0.295$ </div>| <div style="vertical-align: top;">$t\quad x\quad y\\s\quad m\quad m\\0.08\quad 0\quad 0.00236\\0.12\quad -0.0684\quad 0.12\\0.16\quad -0.134\quad 0.224\\0.2\quad -0.203\quad 0.311\\0.24\quad -0.274\quad 0.382\\0.28\quad -0.342\quad 0.434\\0.32\quad -0.41\quad 0.469\\0.36\quad -0.479\quad 0.495\\0.4\quad -0.547\quad 0.5\\0.44\quad -0.616\quad 0.488\\0.48\quad -0.682\quad 0.465\\0.52\quad -0.752\quad 0.422\\0.56\quad -0.823\quad 0.366\\0.6\quad -0.889\quad 0.29\\0.64\quad -0.955\quad 0.203\\0.68\quad -1.02\quad 0.101\\0.72\quad -1.09\quad -0.0165\\0.76\quad -1.15\quad -0.146\\0.8\quad -1.21\quad -0.295$ </div>|$;masse A;;\\t;x;y;\\0,000;4,441E-16;-2,408E-3\\0,040;-9,631E-2;0,173\\0,080;-0,202;0,332\\0,120;-0,303;0,462\\0,160;-0,414;0,559\\0,200;-0,515;0,640\\0,240;-0,614;0,701\\0,280;-0,720;0,732\\0,320;-0,816;0,739\\0,360;-0,917;0,720\\0,400;-1,023;0,681\\0,440;-1,115;0,624\\0,480;-1,226;0,542\\0,520;-1,324;0,424\\0,560;-1,428;0,299\\0,600;-1,529;0,144\\0,640;-1,625;-3,130E-2\\0,680;-1,726;-0,229\\0,720;-1,816;-0,445\\0,760;-1,897;-0,672$|$ \#pymecavideo\\ \#video = C:/Users/*****/***.avi\\ \#sens axe des X = 1\\ \#sens axe des Y = 1\\ \#origine de pointage = (320.00...\\ \#index de depart = 3\\ \#echelle 0.96400...\\ \#echelle pointee en (242.00...\\ \#intervalle de temps : 0.040000\\ \#suivi de 1 point(s)\\ \#temps en seconde, positions en mètre\\ \#\\0,00\quad 0,563499\quad -0,157780\\0,04\quad 0,498697\quad -0,033810\\0,08\quad 0,431077\quad 0,061985\\0,12\quad 0,360640\quad 0,149327\\0,16\quad 0,293020\quad 0,219765\\0,20\quad 0,222582\quad 0,273297\\0,24\quad 0,152145\quad 0,309925\\0,28\quad 0,084525\quad 0,332465\\0,32\quad 0,019722\quad 0,340917\\0,36\quad -0,047897\quad 0,329647\\0,40\quad -0,118335\quad 0,304290\\0,44\quad -0,185955\quad 0,262027\\0,48\quad -0,256392\quad 0,202860\\0,52\quad -0,318377\quad 0,132422\\0,56\quad -0,388815\quad 0,047897\\0,60\quad -0,459252\quad -0,059167\\0,64\quad -0,518419\quad -0,174685\\0,68\quad -0,583222\quad -0,309925\\0,72\quad -0,645207\quad -0,453617\\0,76\quad -0,707192\quad -0,605762$|
!!!

---
---

# <div style = "color:#124660"> 2. Différentes façon d'importer un fichier csv ou txt</div>
Dans cette partie, nous allons travailler avec le fichier 𝑡𝑟𝑎𝑐𝑘𝑒𝑟.𝑡𝑥𝑡 (qui est déjà joint à ce tutoriel)


## Méthode 1 : importation via numpy $^{★☆☆}$
Cette méthode d'extraction de données est une des plus simples. Alors, commençons par elle
!!! example Pas à pas
1. Pour l'utiliser, il faut intégrer le module numpy au programme
```python
import numpy as np
```

2. Il suffit ensuite de lire le fichier " *tracker.txt* ", en précisant que le séparateur est " ; " et la taille de l'entête est 2 (comme vu dans la partie 1). Toutes les valeurs sont enregistrées dans la variable `donnees` 
```python
# Lecture du fichier CSV
donnees = np.genfromtxt('tracker.txt', delimiter=';', skip_header=2)
```
3. En théorie, c'est déjà terminé ! Ce serait génial, mais parfois cela ne fonctionne pas si les valeurs décimales sont écrites avec une " , " comme séparateur. Il est donc nécessaire de vérifier s'il y a des " , " et de les remplacer par des " . ".
```python
# On lit le fichier et on remplace les virgules par des points (à ne pas faire si le séparateur est une ',')
with open('tracker.txt') as fichierCSV:
    lignes = fichierCSV.readlines()
lignes = [ligne.replace(',', '.') for ligne in lignes]
```
!!!


A priori, maintenant, c'est vraiment terminé. Voilà le code à exécuter :

In [None]:
import numpy as np

# On lit le fichier et on remplace les virgules par des points (à ne pas faire si le séparateur est une ',')
with open('tracker.txt') as fichierCSV:
    lignes = fichierCSV.readlines()
lignes = [ligne.replace(',', '.') for ligne in lignes]

# On convertit les lignes en tableau NumPy qu'on transpose pour obtenir des colonnes
donnees = np.genfromtxt(lignes, delimiter=';', skip_header=2).T

Regardons ce que ça donne :

In [None]:
print ("Données de la première colonne :\n",donnees[0],"\n")
print ("Données de la deuxième colonne :\n",donnees[1],"\n")
print ("Données de la troisième colonne :\n",donnees[2],"\n")

!!! note Application
>Réécris ce programme sous forme d'une fonction avec les paramètres suivants :
>* nom_du_fichier
>* separateur
>* entete (valeur entière uniquement)
>
>Modifie le programme en conséquence
>
```python
import numpy as np

def extraire_donnees_np(nom_du_fichier, separateur, entete:int):

    # Lire le fichier et remplacer les virgules par des points
    # A MODIFIER 
    with open('tracker.txt') as fichierCSV:
        lignes = fichierCSV.readlines()

    # A MODIFIER : N'effectue cette ligne de code que si le séparateur est différent de ','
        lignes = [ligne.replace(',', '.') for ligne in lignes]

    # Convertir les lignes en tableau NumPy qu'on transpose pour obtenir des colonnes
    # A MODIFIER 
    donnees = np.genfromtxt(lignes, delimiter=';', skip_header=2).T
    
    # A MODIFIER
    return ...
```
>*<div style = "color : brown">une correction est proposée à la fin du tutoriel</div>*
!!!

À toi de jouer :

In [None]:
import numpy as np

def extraire_donnees_np(nom_du_fichier, separateur, entete:int):
    return ...

Teste ta fonction sur les 3 fichiers de données ci-dessous et vérifie qu'il n'y a pas d'erreur

In [None]:
tracker_tab = extraire_donnees_np ('tracker.txt', ';', 2)
print ("Abscisses issues de Tracker\n",tracker_tab[1],"\n")
print ("Ordonnées issues de Tracker\n",tracker_tab[2],"\n")

In [None]:
regressi_csv_tab = extraire_donnees_np ('regressi.csv', ',', 2)
print ("Abscisses issues de Regressi\n",regressi_csv_tab[1],"\n")
print ("Ordonnées issues de Regressi\n",regressi_csv_tab[2],"\n")

In [None]:
# Le caractère correspondant à une tabulation est '\t'
regressi_csv_tab = extraire_donnees_np ('pymecavideo.csv', '\t', 12)
print ("Abscisses issues de Pymecavideo\n",regressi_csv_tab[1],"\n")
print ("Ordonnées issues de Pymecavideo\n",regressi_csv_tab[2],"\n")

Essaie d'extraire les abscisses et les ordonnées du fichier regressi.txt (déjà inclus dans ce tutoriel). Aide-toi de la partie 1 pour voir la composition du fichier.

In [None]:
# affiche les abscisses et les ordonnées dans regressi.txt

Voilà, tu disposes à présent d'un programme qui lit tous les fichiers de données venant de n'importe quel logiciel !

---
## Méthode 2 : importation via  pandas $^{★☆☆}$
Cette méthode est à peu près aussi simple que numpy, mais nécessite l'installation de la bibliothèque pandas, ce qui n'est pas forcément un souci (en tout cas, elle est sur Capytale)

!!! example Pas à pas
1. On intègre la bibliothèque pandas à notre programme
```python
import pandas
```
2. On lit le fichier de données pour récupérer toutes les valeurs présentes en spécifiant :
>* le nom du fichier de données *(ici = tracker.txt)*
>* le caractère utilisé pour séparer les valeurs du fichier : sep $\quad$ *(ici = " ; ")*
>* le nombre de ligne de l'entête à enlever : skiprows $\quad$$\quad$$\quad$ *(ici = 2 lignes)*
>* le caractère utilisé pour le séparateur décimal : ',' ou '.' $\quad$$\quad$ *(ici = " , ")*
```python
# On lit le fichier de données sans l'entête (skiprows). Les valeurs attendues sont des valeurs décimales.
tableauCSV = pandas.read_csv("tracker.txt", sep= ';', skiprows= 2, dtype= float, decimal= ',', header= None)
```
3. On copie chaque colonne du fichier dans une liste
```python
donnees= []
# On copie chaque colonne du fichier dans la liste donnees
for valeur in tableauCSV.columns:
    donnees.append(tableauCSV[valeur].tolist())
```
!!!
Voilà c'est déjà fini ! Voilà le code à exécuter :

In [None]:
import pandas

# On lit le fichier de données sans l'entête (skiprows). Les valeurs attendues sont des valeurs décimales.
tableauCSV = pandas.read_csv("tracker.txt", sep= ';', skiprows= 2, dtype= float, decimal= ',', header= None)

donnees= []

# On copie chaque colonne du fichier dans la liste donnees
for valeur in tableauCSV.columns:
    donnees.append(tableauCSV[valeur].tolist())

Regardons ce que ça donne :

In [None]:
print ("Données de la première colonne :\n",donnees[0],"\n")
print ("Données de la deuxième colonne :\n",donnees[1],"\n")
print ("Données de la troisième colonne :\n",donnees[2],"\n")

!!! note Application
>Réécris ce programme sous forme d'une fonction avec les paramètres suivants :
>* nom_du_fichier
>* separateur de colonne
>* entete (valeur entière uniquement)
>* séparateur décimal (',' ou '.')
>
>Modifie le programme en conséquence  
>
```python
import pandas

def extraire_donnees_pandas(nom_du_fichier, separateur, entete:int):

    # On lit le fichier de données sans l'entête (skiprows). Les valeurs attendues sont des valeurs décimales.
    # A MODIFIER
    tableauCSV = pandas.read_csv("tracker.txt", sep= ';', skiprows= 2, dtype= float, decimal= ',', header= None)

    donnees= []

    # On copie chaque colonne du fichier dans la liste donnees
    for valeur in tableauCSV.columns:
        donnees.append(tableauCSV[valeur].tolist())
    
    # A MODIFIER
    return ...
```
> *<div style = "color : brown">une correction est proposée à la fin du tutoriel</div>*
!!!

À toi de jouer :

In [1]:
import pandas

def extraire_donnees_pandas(nom_du_fichier, separateur_col, entete:int, separateur_dec):
    return ...

Teste ta fonction sur les 3 fichiers de données ci-dessous et vérifie qu'il n'y a pas d'erreur

In [None]:
tracker_tab = extraire_donnees_pandas ('tracker.txt', ';', 2)
print ("Abscisses issues de Tracker\n",tracker_tab[1],"\n")
print ("Ordonnées issues de Tracker\n",tracker_tab[2],"\n")

In [None]:
regressi_csv_tab = extraire_donnees_pandas ('regressi.csv', ',', 2,'.')
print ("Abscisses issues de Regressi\n",regressi_csv_tab[1],"\n")
print ("Ordonnées issues de Regressi\n",regressi_csv_tab[2],"\n")

In [None]:
# Le caractère correspondant à une tabulation est '\t'
regressi_csv_tab = extraire_donnees_pandas ('pymecavideo.csv', '\t', 12,',')
print ("Abscisses issues de Pymecavideo\n",regressi_csv_tab[1],"\n")
print ("Ordonnées issues de Pymecavideo\n",regressi_csv_tab[2],"\n")

Essaie d'extraire les abscisses et les ordonnées du fichier regressi.txt (déjà inclus dans ce tutoriel). Aide-toi de la partie 1 pour voir la composition du fichier.

In [None]:
# affiche les abscisses et les ordonnées dans regressi.txt

Voilà, cela fait un deuxième programme à utliser tel quel pour lire n'importe quel fichier de données

---
## Méthode 3 : méthode csv $^{★★☆}$
Cette méthode est un peu moins évidente que les deux premières, mais elle fonctionnera dans tous les environnements, car elle ne nécessite l'installation d'aucune bibliothèque.
!!! example Pas à pas
1. Pour l'utiliser, on intègre d'abord le module csv
```python
import csv
```

2. On lit ensuite le fichier " *tracker.txt* ", en précisant le séparateur " ; " (comme vu dans la partie 1). Toutes les valeurs sont enregistrées dans `tableauCSV`
```python
with open("tracker.txt") as fichierCSV:
    tableauCSV = csv.reader(fichierCSV, delimiter=';')
```
3. On demande ensuite à ignorer toutes les lignes de l'entête qui ne contiennent pas de valeurs. On utilise pour cela la fonction `next()` autant de fois qu'il y a de ligne à ignorer (ici 2 lignes)
```python
# L'entête du fichier tracker.txt contient 2 lignes, on ignore donc les deux premières lignes
next(tableauCSV)
next(tableauCSV)
```
4. On copie ensuite chacune des valeurs de tableauCSV dans des listes : *donnees*
```python
donnees = []
# On lit chaque ligne du fichier
for ligne in tableauCSV:
    
    #On initialise donnees pour qu'il contienne une liste par colonne du fichier de données
    while len(donnees) < len(ligne):
        donnees.append([])
    
    # Dans chaque ligne, on lit les valeurs de chaque colonne et on les ajoute à la liste donnees
    for i in range(len(ligne)):
        donnees[i] += ligne[i]
```
5. Comme les valeurs copiées sont des chaînes de caractères et non des valeurs numériques, on modifie le code en ajoutant la fonction `float()` pour les convertir. Mais attention, les valeurs doivent être écrites avec des " . " comme séparateur, on convertit donc, s'il y en a, les "," par des "." à l'aide de la fonction `replace()`.

```python
    # Dans chaque ligne, on lit les valeurs de chaque colonne et on les ajoute à la liste donnees
    for i in range(len(ligne)):
        donnees[i] += float(ligne[i].replace(',', '.')) 
```
6. Il est plus sûr de vérifier que la chaîne de caractères est bien convertible en valeur numérique. on utilise l'instruction `try` pour capter une éventuelle erreur sans interrompre le programme.

```python
    # Dans chaque ligne, on lit les valeurs de chaque colonne et on les ajoute à la liste donnees
    for i in range(len(ligne)):
        try:
            # On remplace les , par des . de la chaîne de caractère et on tente de convertir en nombre
            donnees[i] += float(ligne[i].replace(',', '.'))
        except ValueError:
            # Si la conversion n'a pas réussi, c'est que ce n'est pas une valeur numérique
            print("le fichier de données contient des valeurs non numériques")
            pass
```
!!!    

Ca y est, on en a fini !  Voilà le code à exécuter :

In [None]:
import csv
with open("tracker.txt") as fichierCSV:
    tableauCSV = csv.reader(fichierCSV, delimiter=';')
    
    next(tableauCSV)
    next(tableauCSV)
    
    donnees = []

    for ligne in tableauCSV:
        
        while len(donnees) < len(ligne):
            donnees.append([])
        
        for i in range(len(ligne)):
            try:
                # On remplace les , par des . de la chaîne de caractère et on tente de convertir en nombre
                donnees[i].append(float(ligne[i].replace(',', '.')))
            except ValueError:
                # Si la conversion n'a pas réussi, ce n'est donc pas une valeur numérique, on ne la met pas dans donnees
                # à décommenter si besoin : print("le fichier de données contient des valeurs non numériques : ",ligne[i])
                pass

Regardons ce que ça donne :

In [None]:
print ("Données de la première colonne :\n",donnees[0],"\n")
print ("Données de la deuxième colonne :\n",donnees[1],"\n")
print ("Données de la troisième colonne :\n",donnees[2],"\n")

!!! note Application
>Réécris ce programme sous forme d'une fonction avec les paramètres suivants :
>* nom_du_fichier
>* separateur
>* entete (valeur entière uniquement)
>
>Modifie le programme en conséquence  
>
```python
import csv

def extraire_donnees_csv (nom_du_fichier, separateur, entete:int):
    
    # A MODIFIER
    with open("tracker.txt") as fichierCSV:
        # A MODIFIER
        tableauCSV = csv.reader(fichierCSV, delimiter=';')

        # A MODIFIER
        next(tableauCSV)
        next(tableauCSV)

        donnees = []

        for ligne in tableauCSV:

            while len(donnees) < len(ligne):
                donnees.append([])

            for i in range(len(ligne)):
                try:
                    # On remplace les , par des . de la chaîne de caractère et on tente de convertir en nombre
                    donnees[i].append(float(ligne[i].replace(',', '.')))
                except ValueError:
                    # Si la conversion n'a pas réussi, c'est que ce n'est pas une valeur numérique
                    # print("le fichier de données contient des valeurs non numériques : ",ligne[i])
                    pass
    # A MODIFIER
    return ...
```
> *<div style = "color : brown">une correction est proposée à la fin du tutoriel</div>*
!!!

À toi de jouer :


In [None]:
import csv

def extraire_donnees_csv (nom_du_fichier, separateur, entete:int):
    return ...

>Si ton programme est bon, tu dois pouvoir exécuter les codes suivant sans erreur.

In [None]:
tracker_tab = extraire_donnees_csv ('tracker.txt', ';', 2)
print ("Abscisses issues de Tracker\n",tracker_tab[1],"\n")
print ("Ordonnées issues de Tracker\n",tracker_tab[2],"\n")

In [None]:
regressi_csv_tab = extraire_donnees_csv ('regressi.csv', ',', 2)
print ("Abscisses issues de Regressi\n",regressi_csv_tab[1],"\n")
print ("Ordonnées issues de Regressi\n",regressi_csv_tab[2],"\n")

In [None]:
# Le caractère correspondant à une tabulation est '\t'
regressi_csv_tab = extraire_donnees_csv ('pymecavideo.csv', '\t', 12)
print ("Abscisses issues de Pymecavideo\n",regressi_csv_tab[1],"\n")
print ("Ordonnées issues de Pymecavideo\n",regressi_csv_tab[2],"\n")

Essaie d'extraire les abscisses et les ordonnées du fichier regressi.txt (déjà inclus dans ce tutoriel). Aide-toi de la partie 1 pour voir la composition du fichier.

In [None]:
# affiche les abscisses et les ordonnées dans regressi.txt

# <div style = "color:#124660"> 3. Importer de façon automatique un fichier csv ou txt $^{★★★}$</div>
L'idéal serait de créer un script permettant d'importer des données d'un fichier csv ou txt sans rien paramétrer. Plus besoin d'aller regarder le contenu du fichier, le script le lit automatiquement !

## Corrections
??? tip correction de la méthode numpy
```python
import numpy as np

def extraire_donnees_np (nom_du_fichier, separateur, entete:int):

    # Lire le fichier et remplacer les virgules par des points
    with open(nom_du_fichier) as fichierCSV:
        lignes = fichierCSV.readlines()

    if separateur !=',':
        lignes = [ligne.replace(',', '.') for ligne in lignes]

    # Convertir les lignes en tableau NumPy qu'on transpose pour obtenir des colonnes
    donnees = np.genfromtxt(lignes, delimiter=separateur, skip_header=entete).T
    
    return donnees
```
!!!

??? tip correction de la méthode pandas
```python
import pandas

def extraire_donnees_pandas (nom_du_fichier, separateur_col, entete:int, separateur_dec):
    
    # On lit le fichier de données sans l'entête (skiprowws). Les valeurs attendues sont des valeurs décimales.
    tableauCSV = pandas.read_csv(nom_du_fichier, sep = separateur_col, skiprows = entete, dtype = float, decimal = separateur_dec, header = None)
    
    donnees= []

    # On copie chaque colonne du fichier dans la liste donnees
    for valeur in tableauCSV.columns:
        donnees.append(tableauCSV[valeur].tolist())

    return donnees
```
!!!

??? tip correction de la méthode csv
```python
import csv

def extraire_donnees_csv (nom_du_fichier, separateur, entete:int:
    
    with open(nom_du_fichier) as fichierCSV:
        tableauCSV = csv.reader(fichierCSV, delimiter=separateur)

        for i in range(entete) :
            next(tableauCSV)

        donnees = []

        for ligne in tableauCSV:

            while len(donnees) < len(ligne):
                donnees.append([])

            for i in range(len(ligne)):
                try:
                    # On remplace les , par des . de la chaîne de caractère et on tente de convertir en nombre
                    donnees[i].append(float(ligne[i].replace(',', '.')))
                except ValueError:
                    # Si la conversion n'a pas réussi, c'est que ce n'est pas une valeur numérique
                    #print("le fichier de données contient des valeurs non numériques : ",ligne[i])
                    pass
    return donnees
```
!!!