# NumPy : charger des données à partir de fichiers
La cellule suivante importe NumPy et déclare une variable vers le fichier à utiliser. Nous allons utiliser le fichier de comptage de la SNCF.

In [None]:
import numpy as np
file_path = '../assets/comptage-voyageurs-trains-transilien.csv'
museums_file_path = "../assets/frequentation-des-musees-de-france.csv"

Il s'agit maintenant de charger ce fichier. Il y a deux fonctions qui permettent de charger un fichier CSV.

## Avec loadtxt()

La fonction `loadtxt()` permet de charger un fichier dans un `narray`. Il est donc indispensable que toutes les données soient du même type.

Les paramètres de la fonction `loadtxt()` utilisés ici sont :
* le path vers le fichier à charger
* `delimiter` informe sur le délimiteur entre les données
* `skiprows` permet d'ignorer un certain nombre de lignes, par défaut à 0, ici ce paramètre permet d'ignorer l'en-tête
* `usecols` est une liste des colonnes à utiliser, c'est à dire des données à charger.

In [None]:
sncf_data = np.loadtxt(file_path, delimiter=";", skiprows=1, usecols=[-1])

In [None]:
sncf_data

In [None]:
sncf_data.dtype

## Avec nunmpy.genfromtxt
`genfromtxt` offre plus de souplesse sur le chargement des données en effectuant deux boucles : la première charge les données sous la sorme d'une séquence de chaines de caractères et la seconde réalise la convertion dans le type adapté. Il s'agit alors de *structured datatypes*.

La cellule suivante montre un chargement de base.

In [None]:
np.genfromtxt(file_path, delimiter=";", names=True)

Par défaut, les données sont considérées être des `float`. Il est possible d'inposer le datatype par colonne afin de retrouver toutes nos informations.

In [None]:
datatype = ('U50', 'f8', 'U10', 'f8', 'U50', 'U50', 'U50', 'f8')
np.genfromtxt(file_path, delimiter=";", names=True, dtype=datatype)

In [None]:
np.genfromtxt(file_path, delimiter=";", names=True, dtype=datatype)['Montants']

Numpy propose également une fonction de tri qui retourne une copie de l'array.

In [None]:
np.sort(np.genfromtxt(file_path, delimiter=";", names=True, dtype=datatype), order=('Date_de_comptage', 'Nom_gare'))

Il est également possible au chargement de filtrer les colonnes

In [None]:
np.genfromtxt(file_path, delimiter=";", names=True, dtype=datatype, usecols=(0, -1))

In [None]:
import matplotlib.pyplot as plt

plt.style.use('seaborn-dark')
plt.plot(np.arange(len(sncf_data)), sncf_data)

In [None]:
s_data = np.genfromtxt(file_path, delimiter=";", names=True, dtype=datatype, usecols=(0, -1))

plt.plot(np.arange(len(s_data)), s_data['Montants'])

In [None]:
plt.scatter(np.arange(len(s_data)), s_data['Montants'])

In [None]:
user_param = None
DEFAULT_PARAM = "value"
print(user_param or DEFAULT_PARAM)

genfromtxt peut aussi gérer les données manquantes. Le fichier du comptage des visites des musées contient des comptages vides. Par défaut, une valeur de type entier est remplacé par `-1`

In [None]:
datatype = (int, 'U50', 'U50', 'U50', 'U50', int, int)
np.genfromtxt(museums_file_path, delimiter=";", names=True, dtype=datatype)

Le paramètre `missing_values` permet d'identifier une valeur manquante. C'est principalement utile si il y a un identifiant tel que `N/A` ou `???`. `filling_values` permettent d'indiquer par quel valeur remplacer la valeur manquante.

In [None]:
datatype = (int, 'U50', 'U50', 'U50', 'U50', int, int)
np.genfromtxt(museums_file_path, delimiter=";", names=True, dtype=datatype,
              missing_values={'Entrées':""}, filling_values={'Entrées':0})

In [None]:
museum_data = np.genfromtxt(museums_file_path, delimiter=";", names=True, dtype=datatype,
                            missing_values={'Entrées':""}, filling_values={'Entrées':0})

np.sort(museum_data, order=("REF_DU_MUSEE", "Année"))