# Datasets

Nous détaillons dans cette section l'installation ainsi que la manipulation des _Datasets_ dans
notre projet.

[Retour au sommaire](../README.md#table-des-matières)

In [2]:
import os
import sys

from matplotlib import pyplot as plt
import numpy as np

if os.getcwd().endswith("docs"):
    sys.path.append(os.path.join(os.getcwd(), ".."))

## Datasets Utilisés

Deux _Datasets_ sont utilisés dans ce projet : _Iris_ et _EMNIST_. Nous utilisons le premier pour
vérifier le fonctionnement de nos algorithmes. Le second, lui, est utilisé afin de comparer les
performances de nos différents algorithmes.

Un script d'installation est disponible dans `datasets/install_datasets.py`. Pensez à l'exécuter
avant toute exécution de code !

## Manipulations

Une classe `Dataset` a été implémentée au sein du module `ias`. Cette classe permet de manipuler les deux datasets à la volée, sans importation ni lecture des données explicite pour l'utilisateur.

Par exemple, le code suivant permet d'importer le dataset _Iris_ et de travailler avec.

In [3]:
from ias.Datasets import Iris

print(f"Nombre de classes : {Iris.class_number}")

Le nom des classes ainsi que la description des _features_ est également disponible. Celles-ci se présentent sous la forme de tableaux, dans l'ordre d'apparition pour les données.

La classe codée par 0 est la première dans le tableau des noms des classes, et de même pour le nom des _features_.

In [4]:
print(f"Classes disponibles (dans l'ordre) : {Iris.class_names}")
print(f"Nom des Features (dans l'ordre) : {Iris.features_names}")
print()

print("Quelques elements du dataset : ")

random_indexes = np.random.choice(range(len(Iris.labels)), 5, replace=False)

for i in random_indexes:
    print(f"Element n°{i:<3} -> Attributs : {Iris.attributes[i]}, Label : {Iris.labels[i]}, Classe : {Iris.class_names[Iris.labels[i]]}")

Pour le dataset _EMNIST_ :

In [5]:
from ias.Datasets import Emnist

index_img = np.random.randint(0, len(Emnist.labels))

plt.imshow(Emnist.attributes[index_img].reshape(28, 28).T)
plt.title(f"Image d'un {Emnist.labels[index_img]}")
plt.show()

## Fonction Annexe

Une fonction `split_dataset` est également présente dans le module `ias`. Cette fonction permet de séparer un _Dataset_ en deux ensemble, un pour entrainer nos modèles et un pour les tester.

Le paramètre permet de défini le ratio du partage :
- si un `float` est donné en paramètre, il s'agit alors du ratio du nombre d'éléments dans l'ensemble d'entrainement sur le nombre d'éléments au total;
- si un `int` est donné en paramètre, il s'agit alors du nombre d'éléments dans l'ensemble d'entrainement.

Pour une séparation en 60-40 du dataset _Iris_, on utilise la fonction de la manière suivante :

In [6]:
from ias import split_dataset

iris_train_x, iris_train_y, iris_test_x, iris_test_y = split_dataset(0.6, Iris)

## Sources

Vous trouverez les datasets aux adresses suivantes :

- _Iris_ : [https://archive-beta.ics.uci.edu/dataset/53/iris](https://archive-beta.ics.uci.edu/dataset/53/iris)
- _EMNIST_ : [https://www.nist.gov/itl/products-and-services/emnist-dataset](https://www.nist.gov/itl/products-and-services/emnist-dataset)


[Retour au sommaire](../README.md#table-des-matières)