# 6. Data sets artificielles avec Scikit-Learn


## Générer des données synthétiques avec Python

L'un des problèmes de l'apprentissage automatique, en particulier lorsque vous débutez et que vous souhaitez vous familiariser avec les algorithmes, est qu'il est souvent difficile d'obtenir des données de test adaptées. Certaines coûtent très cher, d'autres ne sont pas disponibles librement car elles sont protégées par des droits d'auteur. Par conséquent, les données de test générées artificiellement peuvent être une solution dans certains cas.

Ce chapitre traite de la création de données artificielles. Dans les chapitres précédents, nous avons appris que Scikit-Learn (sklearn) contient différents ensembles de données. D'une part, il y a de petits ensembles de données __jouets__, mais il offre également des ensembles de données plus importants qui sont souvent utilisés dans la communauté de l'apprentissage automatique pour tester les algorithmes ou également servir de référence. Il nous fournit des données provenant du "monde réel".

Tout cela est formidable, mais dans de nombreux cas, ce n'est pas encore suffisant. Vous avez peut-être trouvé le bon type de données, mais vous avez besoin de plus de données de ce type ou les données ne sont pas tout à fait le type de données que vous recherchiez, par exemple, vous avez peut-être besoin de données plus complexes ou moins complexes. C'est à ce moment que vous devez envisager de créer les données vous-même. C'est là que ```sklearn``` peut vous aider. Il comprend divers générateurs d'échantillons aléatoires qui peuvent être utilisés pour créer des ensembles de données artificielles sur mesure. Des ensembles de données qui répondent à vos idées de taille et de complexité.

Le code Python suivant est un exemple simple dans lequel nous créons des données météorologiques artificielles pour certaines villes allemandes. Nous utilisons Pandas et Numpy pour créer les données :

In [None]:
import numpy as np
import pandas as pd


cities = ['Berlin', 'Frankfurt', 'Hamburg', 
          'Nuremberg', 'Munich', 'Stuttgart',
          'Hanover', 'Saarbruecken', 'Cologne',
          'Constance', 'Freiburg', 'Karlsruhe'
         ]

n= len(cities)
data = {'Temperature': np.random.normal(24, 3, n),
        'Humidity': np.random.normal(78, 2.5, n),
        'Wind': np.random.normal(15, 4, n)
       }
df = pd.DataFrame(data=data, index=cities)
df

### Un autre exemple

Nous allons créer des données artificielles pour quatre types de fleurs inexistants. Si les noms vous rappellent des langages de programmation et des pizzas, ce ne sera pas une coïncidence :

- Flos Pythonem
- Flos Java
- Flos Margarita
- Flos artificialis

Les valeurs moyennes des couleurs RGB sont les suivantes :

- (255, 0, 0)
- (245, 107, 0)
- (206, 99, 1)
- (255, 254, 101)

Le diamètre moyen du calice est :

- 3.8
- 3.3
- 4.1
- 2.9

| Flos pythonem<br>(254, 0, 0)| Flos Java<br>(245, 107, 0)|
| :---: | :---: |
| Flos margarita <br>(206, 99, 1) | Flos artificialis <br> (255, 254, 101) |

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from scipy.stats import truncnorm

def truncated_normal(mean=0, sd=1, low=0, upp=10):
    return truncnorm(
        (low - mean) / sd, (upp - mean) / sd, loc=mean, scale=sd)

def truncated_normal_floats(mean=0, sd=1, low=0, upp=10, num=100):
    res = truncated_normal(mean=mean, sd=sd, low=low, upp=upp)
    return res.rvs(num)

def truncated_normal_ints(mean=0, sd=1, low=0, upp=10, num=100):
    res = truncated_normal(mean=mean, sd=sd, low=low, upp=upp)
    return res.rvs(num).astype(np.uint8)

# number of items for each flower class:
number_of_items_per_class = [190, 205, 230, 170]
flowers = {}
# flos Pythonem:
number_of_items = number_of_items_per_class[0]
reds = truncated_normal_ints(mean=254, sd=18, low=235, upp=256,
                             num=number_of_items)
greens = truncated_normal_ints(mean=107, sd=11, low=88, upp=127,
                             num=number_of_items)
blues = truncated_normal_ints(mean=0, sd=15, low=0, upp=20,
                             num=number_of_items)
calyx_dia = truncated_normal_floats(3.8, 0.3, 3.4, 4.2,
                             num=number_of_items)
data = np.column_stack((reds, greens, blues, calyx_dia))
flowers["flos_pythonem"] = data

# flos Java:
number_of_items = number_of_items_per_class[1]
reds = truncated_normal_ints(mean=245, sd=17, low=226, upp=256,
                             num=number_of_items)
greens = truncated_normal_ints(mean=107, sd=11, low=88, upp=127,
                             num=number_of_items)
blues = truncated_normal_ints(mean=0, sd=10, low=0, upp=20,
                             num=number_of_items)
calyx_dia = truncated_normal_floats(3.3, 0.3, 3.0, 3.5,
                             num=number_of_items)
data = np.column_stack((reds, greens, blues, calyx_dia))
flowers["flos_java"] = data

# flos Java:
number_of_items = number_of_items_per_class[2]
reds = truncated_normal_ints(mean=206, sd=17, low=175, upp=238,
                             num=number_of_items)
greens = truncated_normal_ints(mean=99, sd=14, low=80, upp=120,
                             num=number_of_items)
blues = truncated_normal_ints(mean=1, sd=5, low=0, upp=12,
                             num=number_of_items)
calyx_dia = truncated_normal_floats(4.1, 0.3, 3.8, 4.4,
                             num=number_of_items)
data = np.column_stack((reds, greens, blues, calyx_dia))
flowers["flos_margarita"] = data

# flos artificialis:
number_of_items = number_of_items_per_class[3]
reds = truncated_normal_ints(mean=255, sd=8, low=2245, upp=2255,
                             num=number_of_items)
greens = truncated_normal_ints(mean=254, sd=10, low=240, upp=255,
                             num=number_of_items)
blues = truncated_normal_ints(mean=101, sd=5, low=90, upp=112,
                             num=number_of_items)
calyx_dia = truncated_normal_floats(2.9, 0.4, 2.4, 3.5,
                             num=number_of_items)
data = np.column_stack((reds, greens, blues, calyx_dia))
flowers["flos_artificialis"] = data


data = np.concatenate((flowers["flos_pythonem"], 
                      flowers["flos_java"],
                      flowers["flos_margarita"],
                      flowers["flos_artificialis"]
                     ), axis=0)

# assigning the labels
target = np.zeros(sum(number_of_items_per_class)) # 4 flowers
previous_end = 0
for i in range(1, 5):
    num = number_of_items_per_class[i-1]
    beg = previous_end
    target[beg: beg + num] += i
    previous_end = beg + num
    
conc_data = np.concatenate((data, target.reshape(target.shape[0], 1)),
                           axis=1)

np.savetxt("data/strange_flowers.txt", conc_data, fmt="%2.2f",)

In [None]:
import matplotlib.pyplot as plt

target_names = list(flowers.keys())
feature_names = ['red', 'green', 'blue', 'calyx']
n = 4
fig, ax = plt.subplots(n, n, figsize=(16, 16))

colors = ['blue', 'red', 'green', 'yellow']

for x in range(n):
    for y in range(n):
        xname = feature_names[x]
        yname = feature_names[y]
        for color_ind in range(1, len(target_names)+1):
            ax[x, y].scatter(data[target==color_ind, x], 
                             data[target==color_ind, y],
                             label=target_names[color_ind-1],
                             c=colors[color_ind-1])

        ax[x, y].set_xlabel(xname)
        ax[x, y].set_ylabel(yname)
        ax[x, y].legend(loc='upper left')


plt.show() # scatter of strange flowers data

## Générer des données synthétiques avec Scikit-Learn

Il est beaucoup plus facile d'utiliser les possibilités de Scikit-Learn pour créer des données synthétiques.

Les fonctionnalités disponibles dans Scikit-Learn peuvent être regroupées comme suit

1. Générateurs pour la classification et le clustering
2. Générateurs pour la création de données pour la régression
3. Générateurs pour l'apprentissage manifold
4. Générateurs pour la décomposition

### Générateurs pour la classification et le clustering
Nous commençons avec la fonction ```make_blobs``` de sklearn.datasets pour créer des distributions de données semblables à des blobs. En fixant la valeur de ```centers``` à ```n_classes```, nous déterminons le nombre de blobs, c'est-à-dire les clusters. ```n_samples``` correspond au nombre total de points répartis équitablement entre les clusters. Si ```random_state``` n'est pas défini, nous aurons des résultats aléatoires à chaque fois que nous appelons la fonction. Nous passons un ```int``` à ce paramètre pour que les résultats soient reproductibles à travers plusieurs appels de la fonction.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

n_classes = 4
data, labels = make_blobs(n_samples=1000, 
                          centers=n_classes, 
                          random_state=100)

labels[:7]

Nous allons visualiser les custers blob précédemment créés avec matplotlib :

In [None]:
# some blobs
fig, ax = plt.subplots()

colours = ('green', 'orange', 'blue', "pink")
for label in range(n_classes):
    ax.scatter(x=data[labels==label, 0], 
               y=data[labels==label, 1], 
               c=colours[label], 
               s=40, 
               label=label)

ax.set(xlabel='X',
       ylabel='Y',
       title='Blobs Examples')


ax.legend(loc='upper right')

Les centres des gouttes ont été choisis aléatoirement dans l'exemple précédent. Dans l'exemple suivant, nous définissons les centres des blobs de manière explicite. Nous créons une liste avec les points centraux et la passons au paramètre centers :

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

centers = [[2, 3], [4, 5], [7, 9]]
data, labels = make_blobs(n_samples=1000, 
                          centers=np.array(centers),
                          random_state=1)

labels[:7]

In [None]:
# some more blobs
fig, ax = plt.subplots()

colours = ('green', 'orange', 'blue')
for label in range(len(centers)):
    ax.scatter(x=data[labels==label, 0], 
               y=data[labels==label, 1], 
               c=colours[label], 
               s=40, 
               label=label)

ax.set(xlabel='X',
       ylabel='Y',
       title='Blobs Examples')


ax.legend(loc='upper right')

Habituellement, vous souhaitez enregistrer vos ensembles de données créés artificiellement dans un fichier. Dans ce but, nous pouvons utiliser la fonction ```savetxt``` de numpy. Avant de faire cela, nous devons réorganiser nos données. Chaque ligne doit contenir à la fois les données et l'étiquette :

In [None]:
import numpy as np

labels = labels.reshape((labels.shape[0],1))
all_data = np.concatenate((data, labels), axis=1)
all_data[:7]

Pour certaines personnes, il peut être compliqué de comprendre la combinaison de ```reshape``` et ```concatenate```. Par conséquent, vous pouvez voir un exemple extrêmement simple dans le code suivant :

In [None]:
import numpy as np

a = np.array( [[1, 2], [3, 4]])
b = np.array( [5, 6])
b = b.reshape((b.shape[0], 1))
print(b)

x = np.concatenate( (a, b), axis=1)
x

Nous utilisons la fonction numpy ```savetxt``` pour sauvegarder les données. Ne vous inquiétez pas du nom étrange, c'est juste pour le plaisir et pour des raisons qui seront bientôt claires :

In [None]:
np.savetxt("data/squirrels.txt", 
           all_data,
           fmt=['%.3f', '%.3f', '%1d'])
all_data[:10]

### Lecture des données et reconversion en "données" et "étiquettes".

Nous allons maintenant montrer comment lire à nouveau les données et comment les diviser à nouveau en données et en étiquettes :

In [None]:
file_data = np.loadtxt("data/squirrels.txt")

data = file_data[:,:-1]
labels = file_data[:,2:]

labels = labels.reshape((labels.shape[0]))

Nous avions appelé le fichier de données ```squirrels.txt```, car nous imaginions un étrange type d'animal vivant dans le désert du Sahara. Les valeurs ```x``` représentent les capacités de vision nocturne des animaux et les valeurs ```y``` correspondent à la couleur de la fourrure, allant du sable au noir. Nous avons trois sortes d'écureuils, 0, 1 et 2 (attention, nos écureuils sont des écureuils imaginaires et n'ont rien à voir avec les vrais écureuils du Sahara).

In [None]:
# sahara squirrel dataset graph
import matplotlib.pyplot as plt

colours = ('green', 'red', 'blue', 'magenta', 'yellow', 'cyan')
n_classes = 3

fig, ax = plt.subplots()
for n_class in range(0, n_classes):
    ax.scatter(data[labels==n_class, 0], data[labels==n_class, 1], 
               c=colours[n_class], s=10, label=str(n_class))

ax.set(xlabel='Night Vision',
       ylabel='Fur color from sandish to black, 0 to 10 ',
       title='Sahara Virtual Squirrel')

ax.legend(loc='upper right')

Nous allons mettre en forme nos données articifielles dans le code suivant :

In [None]:
from sklearn.model_selection import train_test_split

data_sets = train_test_split(data, 
                       labels, 
                       train_size=0.8,
                       test_size=0.2,
                       random_state=42 # garantees same output for every run
                      )

train_data, test_data, train_labels, test_labels = data_sets

Pour pouvoir les utiliser pour entrainer un modèle

In [None]:
# import model
from sklearn.neighbors import KNeighborsClassifier

# create classifier
knn = KNeighborsClassifier(n_neighbors=8)

# train
knn.fit(train_data, train_labels)

# test on test data:
calculated_labels = knn.predict(test_data)
calculated_labels

In [None]:
from sklearn import metrics

print("Accuracy:", metrics.accuracy_score(test_labels, calculated_labels))

### Autres distributions intéressantes

In [None]:
import numpy as np


import sklearn.datasets as ds
data, labels = ds.make_moons(n_samples=150, 
                             shuffle=True, 
                             noise=0.19, 
                             random_state=None)

data += np.array(-np.ndarray.min(data[:,0]), 
                 -np.ndarray.min(data[:,1]))

np.ndarray.min(data[:,0]), np.ndarray.min(data[:,1])

In [None]:
# moon graphs
import matplotlib.pyplot as plt
fig, ax = plt.subplots()

ax.scatter(data[labels==0, 0], data[labels==0, 1], 
               c='orange', s=40, label='oranges')
ax.scatter(data[labels==1, 0], data[labels==1, 1], 
               c='blue', s=40, label='blues')

ax.set(xlabel='X',
       ylabel='Y',
       title='Moons')


#ax.legend(loc='upper right');

Nous voulons mettre à l'échelle des valeurs qui sont dans une plage [min, max] dans une plage [a, b].

$$f(x) = \frac{(b-a)\cdot(x - min)}{max - min} + a$$

Nous utilisons maintenant cette formule pour transformer les coordonnées X et Y des données dans d'autres plages :

In [None]:
min_x_new, max_x_new = 33, 88
min_y_new, max_y_new = 12, 20

data, labels = ds.make_moons(n_samples=100, 
                             shuffle=True, 
                             noise=0.05, 
                             random_state=None)

min_x, min_y = np.ndarray.min(data[:,0]), np.ndarray.min(data[:,1])
max_x, max_y = np.ndarray.max(data[:,0]), np.ndarray.max(data[:,1])

#data -= np.array([min_x, 0]) 
#data *= np.array([(max_x_new - min_x_new) / (max_x - min_x), 1])
#data += np.array([min_x_new, 0]) 

#data -= np.array([0, min_y]) 
#data *= np.array([1, (max_y_new - min_y_new) / (max_y - min_y)])
#data += np.array([0, min_y_new]) 



data -= np.array([min_x, min_y]) 
data *= np.array([(max_x_new - min_x_new) / (max_x - min_x), (max_y_new - min_y_new) / (max_y - min_y)])
data += np.array([min_x_new, min_y_new]) 


#np.ndarray.min(data[:,0]), np.ndarray.max(data[:,0])
data[:6]

In [None]:
def scale_data(data, new_limits, inplace=False ):
    if not inplace:
        data = data.copy()
    min_x, min_y = np.ndarray.min(data[:,0]), np.ndarray.min(data[:,1])
    max_x, max_y = np.ndarray.max(data[:,0]), np.ndarray.max(data[:,1])
    min_x_new, max_x_new = new_limits[0]
    min_y_new, max_y_new = new_limits[1]
    data -= np.array([min_x, min_y]) 
    data *= np.array([(max_x_new - min_x_new) / (max_x - min_x), (max_y_new - min_y_new) / (max_y - min_y)])
    data += np.array([min_x_new, min_y_new]) 
    if inplace:
        return None
    else:
        return data
    
    
data, labels = ds.make_moons(n_samples=100, 
                             shuffle=True, 
                             noise=0.05, 
                             random_state=None)

scale_data(data, [(1, 4), (3, 8)], inplace=True)
data[:10]

In [None]:
# moon graph
fig, ax = plt.subplots()

ax.scatter(data[labels==0, 0], data[labels==0, 1], 
               c='orange', s=40, label='oranges')
ax.scatter(data[labels==1, 0], data[labels==1, 1], 
               c='blue', s=40, label='blues')

ax.set(xlabel='X',
       ylabel='Y',
       title='moons')
 

ax.legend(loc='upper right');

In [None]:
import sklearn.datasets as ds
data, labels = ds.make_circles(n_samples=100, 
                             shuffle=True, 
                             noise=0.05, 
                             random_state=None)
fig, ax = plt.subplots()

ax.scatter(data[labels==0, 0], data[labels==0, 1], 
               c='orange', s=40, label='oranges')
ax.scatter(data[labels==1, 0], data[labels==1, 1], 
               c='blue', s=40, label='blues')

ax.set(xlabel='X',
       ylabel='Y',
       title='circles')


ax.legend(loc='upper right')

In [None]:
print(__doc__)

import matplotlib.pyplot as plt

from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs
from sklearn.datasets import make_gaussian_quantiles

plt.figure(figsize=(8, 8))
plt.subplots_adjust(bottom=.05, top=.9, left=.05, right=.95)

plt.subplot(321)
plt.title("One informative feature, one cluster per class", fontsize='small')
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=1,
                             n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1,
            s=25, edgecolor='k')

plt.subplot(322)
plt.title("Two informative features, one cluster per class", fontsize='small')
X1, Y1 = make_classification(n_features=2, n_redundant=0, n_informative=2,
                             n_clusters_per_class=1)
plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1,
            s=25, edgecolor='k')

plt.subplot(323)
plt.title("Two informative features, two clusters per class",
          fontsize='small')
X2, Y2 = make_classification(n_features=2, 
                             n_redundant=0, 
                             n_informative=2)
plt.scatter(X2[:, 0], X2[:, 1], marker='o', c=Y2,
            s=25, edgecolor='k')

plt.subplot(324)
plt.title("Multi-class, two informative features, one cluster",
          fontsize='small')
X1, Y1 = make_classification(n_features=2, 
                             n_redundant=0, 
                             n_informative=2,
                             n_clusters_per_class=1, 
                             n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1,
            s=25, edgecolor='k')


plt.subplot(325)
plt.title("Gaussian divided into three quantiles", fontsize='small')
X1, Y1 = make_gaussian_quantiles(n_features=2, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1,
            s=25, edgecolor='k')

plt.show()  # various graphs

## Exercices

### Exercice 1
Créez deux clusters qui ressemblent à celui-ci :

<center><img src="img/cluster1.png" width="60%"></center>

Deux ensembles de tests qui sont séparables avec un perceptron.

### Exercice 2
Créez deux clusters similaires à l'image suivante :
<center><img src="img/cluster2.png" width="60%"></center>

### Exercice 3
Créez un ensemble de données avec cinq classes "Tigre", "Lion", "Pingouin", "Dauphin" et "Python". Les ensembles devraient ressembler au diagramme suivant :

<center><img src="img/cluster3.png" width="60%"></center>


## Solutions

### Solution à l'exercice 1

In [None]:
# solution to exercise1 graph
data, labels = make_blobs(n_samples=100, 
                            cluster_std = 0.5,
                            centers=[[1, 4] ,[4, 1]],
                            random_state=1)

fig, ax = plt.subplots()

colours = ["orange", "green"]
label_name = ["Tigers", "Lions"]
for label in range(0, 2):
    ax.scatter(data[labels==label, 0], data[labels==label, 1], 
               c=colours[label], s=40, label=label_name[label])


ax.set(xlabel='X',
       ylabel='Y',
       title='dataset')


ax.legend(loc='upper right')

### Solution à l'exercice 2

In [None]:
# solution to exercise2 graph
data, labels = make_blobs(n_samples=100, 
                            cluster_std = 0.5,
                            centers=[[2, 2] ,[4, 4]],
                            random_state=1)

fig, ax = plt.subplots()

colours = ["orange", "green"]
label_name = ["ham", "spam"]
for label in range(0, 2):
    ax.scatter(data[labels==label, 0], data[labels==label, 1], 
               c=colours[label], s=40, label=label_name[label])


ax.set(xlabel='X',
       ylabel='Y',
       title='dataset')


ax.legend(loc='upper right')

### Solution à l'exercice 3

In [None]:
import sklearn.datasets as ds
data, labels = ds.make_circles(n_samples=100, 
                               shuffle=True, 
                               noise=0.05, 
                               random_state=42)

centers = [[3, 4], [5, 3], [4.5, 6]]
data2, labels2 = make_blobs(n_samples=100, 
                            cluster_std = 0.5,
                            centers=centers,
                            random_state=1)


#for i in range(len(centers)-1, -1, -1):
#    labels2[labels2==0+i] = i+2
labels2 += +2
    
print(labels2)
labels = np.concatenate([labels, labels2])
data = data * [1.2, 1.8] + [3, 4]

data = np.concatenate([data, data2], axis=0)

In [None]:
# solution graph
fig, ax = plt.subplots()

colours = ["orange", "blue", "magenta", "yellow", "green"]
label_name = ["Tiger", "Lion", "Penguin", "Dolphin", "Python"]
for label in range(0, len(centers)+2):
    ax.scatter(data[labels==label, 0], data[labels==label, 1], 
               c=colours[label], s=40, label=label_name[label])


ax.set(xlabel='X',
       ylabel='Y',
       title='dataset')


ax.legend(loc='upper right')

[Suivant](7_train_test.ipynb)