# 7\. [**Utilitaires de chargement de jeux de données**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/7_datasets.ipynb)</br>([*Dataset loading utilities*](https://scikit-learn.org/stable/datasets.html))

Le package `sklearn.datasets` intègre certains petits jeux de données de démonstration, comme introduits dans la section [**Premiers pas**](https://scikit-learn.org/stable/tutorial/basic/tutorial.html#loading-example-dataset).

Ce package propose également des fonctions d'aide pour télécharger des jeux de données plus volumineux, couramment utilisés par la communauté de l'apprentissage automatique pour évaluer les algorithmes sur des données provenant du "monde réel".

Pour évaluer l'impact de l'échelle du jeu de données (`n_samples` et `n_features`) tout en contrôlant les propriétés statistiques des données (typiquement la corrélation et l'informativité des caractéristiques), il est également possible de générer des données synthétiques.

**API générale des jeux de données.** Il existe trois principaux types d'interfaces de jeux de données qui peuvent être utilisées pour obtenir des jeux de données en fonction du type souhaité.

**Les chargeurs de jeux de données.** Ils permettent de charger de petits jeux de données standard, décrits dans la section [**Jeux de données jouets** (7.1)](https://scikit-learn.org/stable/datasets/toy_dataset.html).

**Les téléchargeurs de jeux de données.** Ils permettent de télécharger et de charger des jeux de données plus volumineux, décrits dans la section [**Jeux de données du monde réel** (7.2)](https://scikit-learn.org/stable/datasets/real_world.html).

Les fonctions de chargeurs et de téléchargeurs renvoient toutes deux un objet [**`Bunch`**](https://scikit-learn.org/stable/modules/generated/sklearn.utils.Bunch.html) contenant au moins deux éléments : un tableau de forme `n_samples * n_features` avec la clé `data` (sauf pour `20newsgroups`) et un tableau Numpy de longueur `n_samples` contenant les valeurs cibles, avec la clé `target`.

L'objet Bunch est un dictionnaire qui expose ses clés en tant qu'attributs. Pour plus d'informations sur l'objet Bunch, consultez la documentation sur [**`Bunch`**](https://scikit-learn.org/stable/modules/generated/sklearn.utils.Bunch.html).

Il est également possible, pour presque toutes ces fonctions, de contraindre la sortie à être un tuple contenant uniquement les données et la cible, en définissant le paramètre `return_X_y` sur `True`.

Les jeux de données contiennent également une description complète dans leur attribut `DESCR` et certains contiennent `feature_names` et `target_names`. Consultez les descriptions des jeux de données ci-dessous pour plus de détails.

**Les fonctions de génération de jeux de données.** Elles permettent de générer des jeux de données synthétiques contrôlés, décrits dans la section [**Jeux de données générés** (7.3)](https://scikit-learn.org/stable/datasets/sample_generators.html).

Les fonctions de génération de jeux de données. Elles peuvent être utilisées pour générer des jeux de données synthétiques contrôlés, décrits dans la section "Jeux de données générés".

Ces fonctions renvoient un tuple `(X, y)` composé d'un tableau Numpy `X` de forme `n_samples * n_features` et d'un tableau de longueur `n_samples` contenant les cibles `y`.

De plus, il existe également des outils divers pour charger des jeux de données au format ou à partir d'emplacements autres, décrits dans la section [**Chargement d'autres jeux de données**](https://scikit-learn.org/stable/datasets/loading_other_datasets.html).

* **Volume** : 35 pages, x exemples
* **Reste** : 35 pages, x exemples

✘ 7.1. [**Jeux de données jouets**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/7_datasets.ipynb#toy_dataset)
([*Toy datasets*](https://scikit-learn.org/stable/datasets/toy_dataset.html))
* **Volume** : 11 pages, x exemples
* **Reste** : 11 pages, x exemples
* ✘ 7.1.1. [**Jeu de données des prix des maisons de Boston**]()
([*Boston house prices dataset*]())
* ✘ 7.1.2. [**Jeu de données des plantes d'Iris**]()
([*Iris plants dataset*]())
* ✘ 7.1.3. [**Jeu de données sur le diabète**]()
([*Diabetes dataset*]())
* ✘ 7.1.4. [**Jeu de données de reconnaissance optique de chiffres écrits à la main**]()
([*Optical recognition of handwritten digits dataset*]())
* ✘ 7.1.5. [**Jeu de données de Linnerrud**]()
([*Linnerrud dataset*]())
* ✘ 7.1.6. [**Jeu de données de reconnaissance de vins**]()
([*Wine recognition dataset*]())
* ✘ 7.1.7. [**Jeu de données du Wisconsin pour le diagnostic du cancer du sein**]()
([*Breast cancer wisconsin (diagnostic) dataset*]())

✘ 7.2. [**Jeux de données du monde réel**]()
([*Real world datasets*]())
* **Volume** : 15 pages, x exemples
* **Reste** : 15 pages, x exemples
* ✘ 7.2.1. [**Jeu de données des visages Olivetti**]()
([*The Olivetti faces dataset*]())
* ✘ 7.2.2. [**Jeu de données de texte des 20 newsgroups**]()
([*The 20 newsgroups text dataset*]())
* ✘ 7.2.3. [**Jeu de données de reconnaissance faciale Labeled Faces in the Wild**]()
([*The Labeled Faces in the Wild face recognition dataset*]())
* ✘ 7.2.4. [**Jeu de données des types de couverture forestière**]()
([*Forest covertypes*]())
* ✘ 7.2.5. [**Jeu de données RCV1**]()
([*RCV1 dataset*]())
* ✘ 7.2.6. [**Jeu de données Kddcup 99**]()
([*Kddcup 99 dataset*]())
* ✘ 7.2.7. [**Jeu de données de l'immobilier californien**]()
([*California Housing dataset*]())

✘ 7.3. [**Jeux de données générés**]()
([*Generated datasets*]())
* **Volume** : 3 pages, x exemples
* **Reste** : 3 pages, x exemples
* ✘ 7.3.1. [**Générateurs pour la classification et le clustering**]()
([*Generators for classification and clustering*]())
* ✘ 7.3.2. [**Générateurs pour la régression**]()
([*Generators for regression*]())
* ✘ 7.3.3. [**Générateurs pour l'apprentissage de variétés**]()
([*Generators for manifold learning*]())
* ✘ 7.3.4. [**Générateurs pour la décomposition**]()
([*Generators for decomposition*]())

✘ 7.4. [**Chargement d'autres jeux de données**]()
([*Loading other datasets*]())
* **Volume** : 6 pages, x exemples
* **Reste** : 6 pages, x exemples
* ✘ 7.4.1. [**Images d'exemple**]()
([*Sample images*]())
* ✘ 7.4.2. [**Jeux de données au format svmlight / libsvm**]()
([*Datasets in svmlight / libsvm format*]())
* ✘ 7.4.3. [**Téléchargement de jeux de données depuis le dépôt openml.org**]()
([*Downloading datasets from the openml.org repository*]())
* ✘ 7.4.4. [**Chargement depuis des jeux de données externes**]()
([*Loading from external datasets*]())

# <a id='toy-datasets'></a> 7.1. Jeux de données jouets

scikit-learn est livré avec quelques petits jeux de données standards qui ne nécessitent pas de téléchargement depuis un site externe.

Ils peuvent être chargés à l'aide des fonctions suivantes :

* [**`load_iris`**](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris)`(*[, return_X_y, as_frame])` : Charge et renvoie le jeu de données iris (classification) [40 exemples].
* [**`load_diabetes`**](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html)`(*[, return_X_y, as_frame, scaled])` : Charge et renvoie le jeu de données diabetes (régression) [15 exemples].
* [**`load_digits`**](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html)`(*[, n_class, return_X_y, as_frame])` : Charge et renvoie le jeu de données digits (classification) [27 exemples].
* [**`load_linnerud**`](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html)`(*[, return_X_y, as_frame])` : Charge et renvoie le jeu de données Linnerud sur l'exercice physique [aucun exemple].
* [**`load_wine`**](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html)`(*[, return_X_y, as_frame])` : Charge et renvoie le jeu de données wine (classification) [3 exemples].
* [**`load_breast_cancer`**](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer)`(*[, return_X_y, as_frame])` : Charge et renvoie le jeu de données breast cancer wisconsin (classification) [3 exemples].

Ces jeux de données sont utiles pour illustrer rapidement le comportement des différents algorithmes implémentés dans scikit-learn. Cependant, ils sont souvent trop petits pour être représentatifs des tâches d'apprentissage automatique du monde réel.

## <a id='iris-plants-dataset'></a> 7.1.1. Jeu de données des plantes Iris

Caractéristiques du jeu de données :
* **Nombre d'instances** : 150 (50 dans chacune des trois classes)
* **Nombre d'attributs** : 4 attributs numériques prédictifs et la classe
* **Informations sur les attributs** :
    * longueur du sépale en cm
    * largeur du sépale en cm
    * longueur du pétale en cm
    * largeur du pétale en cm
    * classe :
        * Iris-Setosa
        * Iris-Versicolour
        * Iris-Virginica
* **Statistiques sommaires** :
    * longueur du sépale : 4.3, 7.9, 5.84, 0.83, 0.7826
    * largeur du sépale : 2.0, 4.4, 3.05, 0.43, -0.4194
    * longueur du pétale : 1.0, 6.9, 3.76, 1.76, 0.9490  (élevé !)
    * largeur du pétale : 0.1, 2.5, 1.20, 0.76, 0.9565  (élevé !)
* **Valeurs manquantes** : Aucune
* **Répartition des classes** : 33,3 % pour chacune des 3 classes.
* **Créateur** : R.A. Fisher
* **Donateur** : Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
* **Date** : Juillet 1988

La célèbre [base de données Iris](https://en.wikipedia.org/wiki/Iris_flower_data_set), utilisée pour la première fois par Sir [R.A. Fisher](https://en.wikipedia.org/wiki/Ronald_Fisher). Le jeu de données est extrait de l'article de Fisher. Notez qu'il est identique à celui utilisé dans R, mais différent de celui du référentiel [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php), qui comporte deux points de données incorrects.

Il s'agit peut-être de la base de données la plus connue dans la littérature de la reconnaissance de formes. L'article de Fisher est un classique dans le domaine et est encore fréquemment cité à ce jour (voir, par exemple, Duda & Hart). Le jeu de données contient 3 classes de 50 instances chacune, où chaque classe correspond à un type de plante iris. Une classe est linéairement séparable des deux autres ; ces dernières ne sont PAS linéairement séparables entre elles.

### Références

* Fisher, R.A. "The use of multiple measurements in taxonomic problems" Annual Eugenics, 7, Part II, 179-188 (1936); également dans "Contributions to Mathematical Statistics" (John Wiley, NY, 1950).
* Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. Voir la page 218.
* Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially Exposed Environments".

## <a id='diabetes-dataset'></a> 7.1.2. Jeu de données sur le diabète

Dix variables de base, l'âge, le sexe, l'indice de masse corporelle, la pression artérielle moyenne et six mesures de sérum sanguin, ont été obtenues pour chacun des n = 442 patients atteints de diabète, ainsi que la variable d'intérêt, une mesure quantitative de la progression de la maladie un an après le début.

Caractéristiques du jeu de données :
* **Nombre d'instances** : 442
* **Nombre d'attributs** : Les 10 premières colonnes sont des valeurs prédictives numériques
* **Cible** : La colonne 11 est une mesure quantitative de la progression de la maladie un an après le début
* **Informations sur les attributs** :
    * âge en années
    * sexe
    * indice de masse corporelle (IMC)
    * pression artérielle moyenne
    * s1 tc, cholestérol total du sérum sanguin
    * s2 ldl, lipoprotéines de basse densité (LDL)
    * s3 hdl, lipoprotéines de haute densité (HDL)
    * s4 tch, cholestérol total / HDL
    * s5 ltg, possiblement le logarithme du niveau de triglycérides sériques
    * s6 glu, taux de sucre dans le sang

Remarque : Chacune de ces 10 variables prédictives a été centrée sur la moyenne et mise à l'échelle par l'écart-type multiplié par la racine carrée de `n_samples` (c'est-à-dire que la somme des carrés de chaque colonne est égale à 1).

URL source : https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

Pour plus d'informations, voir : Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) "Least Angle Regression," Annals of Statistics (avec discussion), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

## <a id='optical-recognition-of-handwritten-digits-dataset'></a> 7.1.3. Jeu de données de reconnaissance optique des chiffres manuscrits

Caractéristiques du jeu de données :
* **Nombre d'instances** : 1797
* **Nombre d'attributs** : 64
* **Informations sur les attributs** : Image 8x8 de pixels entiers dans la plage de 0 à 16.
* **Valeurs d'attributs manquantes** : Aucune
* **Créateur** : Alpaydin (alpaydin ‘@’ boun.edu.tr)
* **Date** : Juillet 1998

Il s'agit d'une copie de l'ensemble de test des jeux de données de chiffres manuscrits de l'UCI ML (https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits).

Le jeu de données contient des images de chiffres manuscrits : 10 classes où chaque classe correspond à un chiffre.

Des programmes de prétraitement mis à disposition par le NIST ont été utilisés pour extraire des images normalisées de chiffres manuscrits à partir d'un formulaire pré-imprimé. Sur un total de 43 personnes, 30 ont contribué à l'ensemble d'entraînement et 13 autres à l'ensemble de test. Les images de 32x32 pixels sont divisées en blocs non superposés de 4x4 pixels et le nombre de pixels allumés est compté dans chaque bloc. Cela génère une matrice d'entrée de 8x8 où chaque élément est un entier dans la plage de 0 à 16. Cela réduit la dimensionnalité et confère une invariance aux petites distorsions.

Pour plus d'informations sur les routines de prétraitement du NIST, voir M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994.

### Références

* C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.
* Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.
* Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear dimensionality reduction using relevance weighted LDA. School of Electrical and Electronic Engineering Nanyang Technological University. 2005.
* Claudio Gentile. A New Approximate Maximal Margin Classification Algorithm. NIPS. 2000.

## <a id='linnerrud-dataset'></a> 7.1.4. Jeu de données Linnerrud

Caractéristiques du jeu de données :
* **Nombre d'instances** : 20
* **Nombre d'attributs** : 3
* **Valeurs d'attributs manquantes** : Aucune

Le jeu de données Linnerrud est un jeu de données de régression multi-sortie. Il se compose de trois variables d'exercice (données) et de trois variables physiologiques (cibles) collectées auprès de vingt hommes d'âge moyen dans un club de fitness :
* **Physiologique - Fichier CSV contenant 20 observations sur 3 variables physiologiques** :
    * Poids, Tour de taille et Pouls.
* **Exercice - Fichier CSV contenant 20 observations sur 3 variables d'exercice** :
    * Tractions, Redressements assis et Sauts.

### Références

* Tenenhaus, M. (1998). La régression PLS : théorie et pratique. Paris : Éditions Technic.

## <a id='wine-recognition-dataset'></a> 7.1.5. Jeu de données Wine Recognition

Caractéristiques du jeu de données :
- **Nombre d'instances** : 178
- **Nombre d'attributs** : 13 (numériques) + la classe
- **Information sur les attributs**
    - Les attributs représentent différentes mesures chimiques des vins.
    - Alcohol (Alcool)
    - Malic acid (Acide malique)
    - Ash (Cendres)
    - Alcalinity of ash (Alcalinité des cendres)
    - Magnesium (Magnésium)
    - Total phenols (Phénols totaux)
    - Flavanoids (Flavonoïdes)
    - Nonflavanoid phenols (Phénols non flavonoïdes)
    - Proanthocyanins (Proanthocyanidines)
    - Color intensity (Intensité de la couleur)
    - Hue (Teinte)
    - OD280/OD315 of diluted wines (OD280/OD315 des vins dilués)
    - Proline
- Il n'y a aucune valeur manquante dans le jeu de données.
- **Répartition des classes** : class_0 (59), class_1 (71), class_2 (48).

**Résumé statistique** :
|Attribut|Minimum|Maximum|Moyenne|Écart type|
|---|---|---|---|---|
|Alcohol|11.0|14.8|13.0|0.8|
|Malic Acid|0.74|5.80|2.34|1.12|
|Ash|1.36|3.23|2.36|0.27|
|Alcalinity of Ash|10.6|30.0|19.5|3.3|
|Magnesium|70.0|162.0|99.7|14.3|
|Total Phenols|0.98|3.88|2.29|0.63|
|Flavanoids|0.34|5.08|2.03|1.00|
|Nonflavanoid Phenols|0.13|0.66|0.36|0.12|
|Proanthocyanins|0.41|3.58|1.59|0.57|
|Colour Intensity|1.3|13.0|5.1|2.3|
|Hue|0.48|1.71|0.96|0.23|
|OD280/OD315 of diluted wines|1.27|4.00|2.61|0.71|
|Proline|278|1680|746|315|

Ce jeu de données est une copie des ensembles de données UCI ML Wine Recognition (https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data). Il présente les résultats d'une analyse chimique de vins cultivés dans la même région en Italie par trois producteurs différents. Il existe treize mesures différentes pour les différents constituants des trois types de vin.

### Références

- Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy.
- Lichman, M. (2013). UCI Machine Learning Repository [https://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
- S. Aeberhard, D. Coomans and O. de Vel, Comparison of Classifiers in High Dimensional Settings, Tech. Rep. no. 92-02, (1992), Dept. of Computer Science and Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Also submitted to Technometrics).
- S. Aeberhard, D. Coomans and O. de Vel, “THE CLASSIFICATION PERFORMANCE OF RDA” Tech. Rep. no. 92-01, (1992), Dept. of Computer Science and Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Also submitted to Journal of Chemometrics).

## <a id='wine-recognition-dataset'></a> 7.1.6. Jeu de données du cancer du sein du Wisconsin (diagnostic)

Caractéristiques de l'ensemble de données :
- **Nombre d'instances** : 569
- **Nombre d'attributs** : 30 attributs numériques prédictifs et la classe
- **Informations sur les attributs** :
    - rayon (moyenne des distances du centre aux points sur le périmètre)
    - texture (écart-type des valeurs d'échelle de gris)
    - périmètre
    - surface
    - lissage (variation locale des longueurs de rayon)
    - compacité (périmètre^2 / surface - 1.0)
    - concavité (gravité des parties concaves du contour)
    - points concaves (nombre de parties concaves du contour)
    - symétrie
    - dimension fractale ("approximation de la ligne côtière" - 1)

Les moyennes, les erreurs standard et les "pires" ou les plus grandes valeurs (moyenne des trois pires/plus grandes valeurs) de ces caractéristiques ont été calculées pour chaque image, donnant ainsi 30 caractéristiques. Par exemple, le champ 0 correspond au rayon moyen, le champ 10 au rayon SE et le champ 20 au pire rayon.

- **Classes** :
    - WDBC-Maligne
    - WDBC-Bénigne
- **Valeurs manquantes d'attributs** : Aucune
- **Répartition des classes** :
    - 212 - Maligne
    - 357 - Bénigne
- **Créateurs** :
    - Dr. William H. Wolberg
    - W. Nick Street
    - Olvi L. Mangasarian
- **Donateur** : Nick Street
- **Date** : Novembre 1995

Il s'agit d'une copie des ensembles de données [UCI ML Breast Cancer Wisconsin (Diagnostic)](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)). Les caractéristiques sont calculées à partir d'une image numérisée d'une aspiration à l'aiguille fine (FNA) d'une masse mammaire. Elles décrivent les caractéristiques des noyaux cellulaires présents dans l'image.

Le plan de séparation décrit ci-dessus a été obtenu à l'aide de la méthode Multisurface Method-Tree (MSM-T) [K. P. Bennett, "Decision Tree Construction Via Linear Programming." Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992], une méthode de classification qui utilise la programmation linéaire pour construire un arbre de décision. Les caractéristiques pertinentes ont été sélectionnées en effectuant une recherche exhaustive dans l'espace des 1 à 4 caractéristiques et des 1 à 3 plans de séparation.

Le programme linéaire réel utilisé pour obtenir le plan de séparation dans l'espace tridimensionnel est décrit dans : - - [K. P. Bennett et O. L. Mangasarian : "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets", Optimization Methods and Software 1, 1992, 23-34].

Cette base de données est également disponible via le serveur FTP de l'UW CS :

    ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

### Références

- W.N. Street, W.H. Wolberg et O.L. Mangasarian. Extraction de caractéristiques nucléaires pour le diagnostic des tumeurs mammaires. IS&T/SPIE 1993 Symposium international sur l'imagerie électronique : science et technologie, volume 1905, pages 861-870, San Jose, CA, 1993.
- O.L. Mangasarian, W.N. Street et W.H. Wolberg. Diagnostic et pronostic du cancer du sein par programmation linéaire. Operations Research, 43(4), pages 570-577, juillet-août 1995.
- W.H. Wolberg, W.N. Street et O.L. Mangasarian. Techniques d'apprentissage automatique pour diagnostiquer le cancer du sein à partir d'aspirations à l'aiguille fine. Cancer Letters 77 (1994) 163-171.