# Chargement de données dans TensorFlow 2.0

Ce notebook présente comment charger des fichiers de différent types dans TensorFlow 2.0.  
Les types de fichiers traités dans le notebook sont les suivants:

1. Tensor
2. Fichier CSV

Pour charger un fichier dans TensorFlow, il faut utiliser l'API `tf.data.Dataset`

## Chargement des bibliothèques utiles

In [351]:
import numpy as np
import pandas as pd 
import tensorflow as tf
from functools import partial


print('TensorFlow vertion: ', tf.version.VERSION )

TensorFlow vertion:  2.1.0


In [270]:
# Améliorer la lecture des valeures numpy
# (precision=3) Limiter à 3 les chiffres après la virgule
# (suppress=True) Supprimer la notation scientifique

np.set_printoptions(precision=3, suppress=True)

# Tensor

Charger les données d'un tensor dans TensorFlow avec `.from_tensors`et `.from_tensor_slices`

In [280]:
def show_data(dataset):
    for elem in dataset:
        print(elem.numpy())
    
# 2D Tensor (Rank-2)
t1 = tf.constant([[2, 3], [3, 5]])
# .from_tensorsCréer un dataset contenant seulement un élément
ds1 = tf.data.Dataset.from_tensors(t)

# 2D Tensor (Rank-2)
t2 = tf.constant([[2, 3], [3, 5]])
# .from_tensor_slices créer un dataset contennant autant d'éléments que lignes qui le composent 
ds2 = tf.data.Dataset.from_tensor_slices(t)

print('.from_tensors:')
show_data(ds1)
print()
print('.from_tensor_slice:')
show_data(ds2)

.from_tensors:
[[2 3]
 [3 5]]

.from_tensor_slice:
[2 3]
[3 5]


# Fichier CSV

1. Charger les données dans TensorFlow à partir d'un dataframe pandas.
2. Charger les données d'un fichier csv en utilisant l'API `experimental.make_csv_datase`.

### Analyser les données avant de les charger dans TensorFlow

- Les données utilisées sont issues des logements Parisiens disposant d'un encadrement de loyer.  
Dans cet exemple le but est de prédire le loyer (ref) d'un appartement en fonction du nombre de pièce, époque, le quartier et la zone.

Explorer les données avant de les importer dans TensorFlow.

In [293]:
file_path = './data/logement-encadrement-des-loyers.csv'
df = pd.read_csv(file_path, sep=';' )
df.head()

Unnamed: 0,id_zone,id_quartier,nom_quartier,piece,epoque,meuble_txt,ref,max,min,annee,ville,code_grand_quartier,geo_shape,geo_point_2d
0,11,77,Belleville,4,Avant 1946,non meublé,21.4,25.68,14.98,2020,PARIS,7512077,"{""type"": ""Polygon"", ""coordinates"": [[[2.383226...","48.8715312006,2.38754923985"
1,13,75,Amérique,3,1971-1990,non meublé,16.7,20.04,11.69,2020,PARIS,7511975,"{""type"": ""Polygon"", ""coordinates"": [[[2.409402...","48.8816381673,2.39544016662"
2,13,74,Pont-de-Flandre,2,1971-1990,meublé,20.2,24.24,14.14,2020,PARIS,7511974,"{""type"": ""Polygon"", ""coordinates"": [[[2.384878...","48.8955557746,2.38477722927"
3,13,75,Amérique,1,1971-1990,meublé,24.0,28.8,16.8,2020,PARIS,7511975,"{""type"": ""Polygon"", ""coordinates"": [[[2.409402...","48.8816381673,2.39544016662"
4,13,78,Saint-Fargeau,1,Avant 1946,meublé,29.4,35.28,20.58,2020,PARIS,7512078,"{""type"": ""Polygon"", ""coordinates"": [[[2.413813...","48.8710347391,2.40617153015"


In [294]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2560 entries, 0 to 2559
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id_zone              2560 non-null   int64  
 1   id_quartier          2560 non-null   int64  
 2   nom_quartier         2560 non-null   object 
 3   piece                2560 non-null   int64  
 4   epoque               2560 non-null   object 
 5   meuble_txt           2560 non-null   object 
 6   ref                  2560 non-null   float64
 7   max                  2560 non-null   float64
 8   min                  2560 non-null   float64
 9   annee                2560 non-null   int64  
 10  ville                2560 non-null   object 
 11  code_grand_quartier  2560 non-null   int64  
 12  geo_shape            2560 non-null   object 
 13  geo_point_2d         2560 non-null   object 
dtypes: float64(3), int64(5), object(6)
memory usage: 280.1+ KB


In [296]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_zone,2560.0,6.6625,4.225585,1.0,3.0,5.0,11.0,14.0
id_quartier,2560.0,40.5,23.096718,1.0,20.75,40.5,60.25,80.0
piece,2560.0,2.5,1.118252,1.0,1.75,2.5,3.25,4.0
ref,2560.0,25.72723,4.181951,14.6,22.9,25.3,28.3,39.6
max,2560.0,30.87267,5.018341,17.52,27.48,30.36,33.96,47.52
min,2560.0,18.00906,2.927365,10.22,16.03,17.71,19.81,27.72
annee,2560.0,2020.0,0.0,2020.0,2020.0,2020.0,2020.0,2020.0
code_grand_quartier,2560.0,7511090.0,599.811459,7510101.0,7510595.75,7511090.5,7511585.25,7512080.0


## Créer trois jeux de données
1. Un jeux de données pour l'entrainement du model (80% des 90% de l'ensemble des données)
2. Un jeux de données pour l'évaluation du model (20% des 90% de l'ensemble des données
3. Un jeux de données pour réaliser des testes (10% de l'ensemble des donnée du fichier)

In [300]:
def df_row_to_split(df, frac):
    '''Cette fonction permet de déterminer le nombre de ligne du dataframe à retourner en fonc'''
    percent = frac * 100
    return round(df_sample.shape[0] * percent / 100)

# Mélanger les données du dataframe
df_sample = df.sample(frac=1, random_state=21).reset_index(drop=False)

# Prendre environ 90% des données pour l'entrainement et l'évaluation du model
row_nb = df_row_to_split(df, 0.9)
train_eval_data = df_sample[:row_nb].drop(['index'], axis=1)

# Prendre environ 10% des données pour tester du model sur de nouvelle données
test_data = df_sample[row_nb:].drop(['index'], axis=1)
test_data.to_csv('./data/test.csv', index=False)

# Prendre 80% des données du dataframe train_eval pour l'entrainement du model
row_nb = df_row_to_split(train_eval_data, 0.8)
train_data = train_eval_data[:row_nb]
train_data.to_csv('./data/train.csv', index=False)

# Prendre 20% des données du dataframe train_eval pour l'évaluation du model
eval_data = train_eval_data[row_nb:]
eval_data.to_csv('./data/eval.csv', index=False)


### Pré-traitement des données

Traiter les données du dataframe avant de la charger dans TensorFlow.

1. Les valeurs de la colonne `epoque` ne sont pas de type continue, elles sont de type string.  
Les données de cette colonne doivent être transformé pour pouvoir être utiliser.

2. Supprimer les colonnes non utilisées

In [333]:
def df_processed(df, features, label):
    '''Traitement des données avant le chargement dans tensorFlow'''
    
    df_processed = df.copy()
    df_processed.columns
    
    # Listes des noms des colonnes
    features_label = features + label
    # Supprimer les colonnes non utilisées
    col_to_remove = [col_name for col_name in df_processed.columns.tolist() if col_name not in features_label]
    
    return df_processed.drop(col_to_remove, axis=1)

def one_hot_encoding(df, col_names):
    '''Cette fonction permet de traiter les colonnes avec des données catégoriel
    en utilisant la methode de one-hot encoding'''
    
    for col_name in col_names:
        df[col_name] = pd.Categorical(df[col_name])
        df[col_name] = df[col_name].cat.codes
        
    return df

In [334]:
# Créer les dataframe pandas 

df_train = pd.read_csv('./data/train.csv', sep=',')
df_eval = pd.read_csv('./data/eval.csv', sep=',')
df_test = pd.read_csv('./data/test.csv', sep=',')

In [335]:
label_col_name = ['ref']
features_col_name = ['piece', 'epoque', 'id_zone', 'id_quartier'] 

# Pré-traitement du dataframe avant le chargement dans TensforFlow
df_train_processed = df_processed(df_train, features_col_name, label_col_name)
df_eval_processed = df_processed(df_eval, features_col_name, label_col_name)

# Utiliser la methode du 'One Hote Encoding' pour traiter les données de type catégoriel
df_train_processed = one_hot_encoding(df_train_processed, ['epoque'])
df_eval_processed.epoque = one_hot_encoding(df_eval_processed, ['epoque'])

df_train_processed.head(2)

Unnamed: 0,id_zone,id_quartier,piece,epoque,ref
0,9,70,1,1,24.2
1,10,44,2,2,28.0


### Charger les dataframes pandas dans TensFlow

In [331]:
def show_data(dataset, nb_row):
    '''Cette fonction permet d'afficher les exemples d'un tensor'''
    
    for feat, label in dataset.take(nb_row):
        print('Features: {}, Label: {}'.format(feat, label))

In [332]:
# Valeures à prédire 
label_train = df_train_processed.pop(label_col_name[0])
label_eval = df_eval_processed.pop(label_col_name[0])

# Charger les données dans tensorFlow avec tf.data.Dataset.from_tensor_slices
train_dataset = tf.data.Dataset.from_tensor_slices((df_train_processed.values, label_train.values))
eval_dataset = tf.data.Dataset.from_tensor_slices((df_eval_processed.values, label_eval.values))

show_data(train_dataset, 1)

Features: [ 9 70  1  1], Label: 24.2


### Mélanger les données données et créer des minis batch

Si les données non pas déjà été mélangé:
- `dataset.shuffle(len(df), seed=(21)).batch(nb_of_exemple)`

Dans notre cas les données ont déjà été mélangé précédemment.

In [344]:
# Les minis batch sont volontairement petit pour une meilleure lisibilité des exemples
train_data_set = train_dataset.batch(2)
eval_data_set = eval_dataset.batch(2)

Le paramètre `seed` permet de garder les données mélanger dans le même ordre et ça, peu importe le nombre de fois qu' est exécuté le code.

Les ` mini batch` permettent de générer le calcul de la fonction `loss`, de calculer les `gradients` sur un ensemble d'exemples et non pas un exemple à la fois, ce qui permet d'accélérer l'entrainement et de tirer un meilleur parti du GPU qui est plus efficient pour réaliser des calculs matriciels.

In [345]:
show_data(train_data_set, 2)

Features: [[ 9 70  1  1]
 [10 44  2  2]], Label: [24.2 28. ]
Features: [[14 76  4  3]
 [13 73  1  1]], Label: [20.1 24. ]


# Charger les données d'un fichier csv en utilisant l'API `experimental.make_csv_datase`.

Si le besoin est d'importer un ensemble important de fichiers, utiliser la fonction `tf.data.experimental.make_csv_dataset` 

In [349]:
def get_dataset(file_path, **kwargs):
    '''Cette fonction permet de charger un fichier CSV ou plusieurs fichiers dans un répertoire'''
    
    dataset = tf.data.experimental.make_csv_dataset(
        file_pattern=file_path,
        batch_size=3,
        na_value="?",
        ignore_errors=True, 
        num_epochs=1,
        **kwargs)
    
    return dataset

def show_data(dataset):
    '''Cette fonction permet d'afficher les données contenue dans les mini batch'''
    
    for batch, label in dataset.take(1):
        for key, value in batch.items():
            print("{:20s}: {}".format(key, value.numpy()))
        print()
        print('{:20s}: {}'.format('Labels', label.numpy()))

### Importer les fichiers csv dans TensorFlow

In [200]:
train_file = './data/train.csv'
eval_file = './data/eval.csv'

# Liste des colonnes à sélectioner dans le fichier
SELECT_COLUMNS = ['id_zone','id_quartier', 'piece', 'epoque', 'ref']

# Attribuer un format de données à chaque colonne (Optionel)
DEFAULTS = [tf.int32, tf.int32, tf.int32, tf.string, tf.float32]

raw_train_data = get_dataset(train_file,
                             label_name='ref',
                             select_columns=SELECT_COLUMNS,
                             column_defaults=DEFAULTS)

raw_eval_data = get_dataset(eval_file,
                            label_name='ref',
                            select_columns=SELECT_COLUMNS,
                            column_defaults=DEFAULTS)

In [201]:
show_data(raw_train_data)

id_zone             : [14 13  5]
id_quartier         : [79 50 53]
piece               : [1 1 1]
epoque              : [b'Apres 1990' b'Apres 1990' b'Apres 1990']

Labels              : [29.  23.1 31.5]


### Pré-traitement des données numerique

In [202]:
class PackNumericFeatures(object):
    '''Cette class permet de créer un vecteur avec toutes les caratéristiques'''
    def __init__(self, names):
        self.names = names

    def __call__(self, features, labels):
        numeric_features = [features.pop(name) for name in self.names]
        # Mettre les données numéric au format de type float32
        numeric_features = [tf.cast(feat, tf.float32) for feat in numeric_features]
        # Empiler les données dans un vecteur
        numeric_features = tf.stack(numeric_features, axis=-1)
        # Ajouter le vecteur aux caractéristiques
        features['numeric'] = numeric_features
        
        return features, labels

In [203]:
NUMERIC_FEATURES = ['piece', 'id_zone', 'id_quartier']

# Créer un vecteur contenant les valeurs numéric qui sera ingéré par le model
packed_train_ds = raw_train_data.map(PackNumericFeatures(NUMERIC_FEATURES))

In [204]:
show_data(packed_train_ds)

epoque              : [b'Apres 1990' b'1946-1970' b'1946-1970']
numeric             : [[ 4.  9. 46.]
 [ 2.  1. 23.]
 [ 2. 11. 39.]]

Labels              : [20.  30.1 25. ]


In [205]:
example_batch, labels_batch = next(iter(packed_train_ds))

### Normaliser les caratéristiques

Les données de type continue doivent toujours être normalisé.   
Normaliser les données permet d'accélérer la recherche du minima de la fonction de perte durant la descente des gradients

In [350]:
def standar_scaler(data, mean, std):
    '''
    Cette fonction permet de normaliser les variables (data) pour qu'elles aient une moyenne nulle et une variance
    égale à 1. Pour une variable, cela correspond à retrancher à chaque observation la moyenne (mean) de la variable et à diviser chaque observation
    par l'écart-type (std).
    '''
    
    return (data-mean) / std

def mix_max_scaler(data, min_, max_):
    '''
    Cette fonction permet de normaliser une variable pour qu'elles evoluent en 0 et 1.
    Pratique si besoin de probabilité.
    '''
    return (data-min_) / (max_ - min_)

In [206]:
desc = pd.read_csv(train_file, sep=',')[NUMERIC_FEATURES].describe()
desc

Unnamed: 0,piece,id_zone,id_quartier
count,2048.0,2048.0,2048.0
mean,2.492188,6.644043,40.350586
std,1.117406,4.217204,23.005896
min,1.0,1.0,1.0
25%,1.0,3.0,20.0
50%,2.0,5.0,40.0
75%,3.0,11.0,60.0
max,4.0,14.0,80.0


In [207]:
MEAN = np.array(desc.T['mean'])
STD = np.array(desc.T['mean'])
MAX = np.array(desc.T['max'])
MIN = np.array(desc.T['min'])

print('Mean            : ', MEAN)
print('Ecart-Type (std): ', STD)
print('Max             : ', MAX)
print('Min             : ', MIN)

Mean            :  [ 2.4921875   6.64404297 40.35058594]
Ecart-Type (std):  [ 2.4921875   6.64404297 40.35058594]
Max             :  [ 4. 14. 80.]
Min             :  [1. 1. 1.]


In [225]:
from functools import partial

# Lier les valeures mean et std aux fonctions de normalisation
standar_scaler = partial(standar_scaler, mean=MEAN, std=STD)
mix_max_scaler = partial(mix_max_scaler, min_=MIN, max_=MAX)

numeric_column = tf.feature_column.numeric_column('numeric',
                                                  normalizer_fn=standar_scaler,
                                                  shape=[len(NUMERIC_FEATURES)])
numeric_column = [numeric_column]
numeric_column

[NumericColumn(key='numeric', shape=(3,), default_value=None, dtype=tf.float32, normalizer_fn=functools.partial(<function standar_scaler at 0x13a6fc560>, mean=array([ 2.4921875 ,  6.64404297, 40.35058594]), std=array([ 2.4921875 ,  6.64404297, 40.35058594])))]

In [228]:
example_batch['numeric']

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[ 1.,  3., 32.],
       [ 4., 11., 77.],
       [ 2., 10., 44.]], dtype=float32)>

In [229]:
# Normaliser les caratéristiques dans tous les mini batch
numeric_layer = tf.keras.layers.DenseFeatures(numeric_column)
numeric_layer(example_batch).numpy()

array([[-0.59874606, -0.5484677 , -0.2069508 ],
       [ 0.6050157 ,  0.6556184 ,  0.90827465],
       [-0.19749217,  0.50510764,  0.09044265]], dtype=float32)

### Traiter les données catégoriel

Certaines des colonnes du fichier contiennent des données catégoriel de type string,  
Réaliser un `one-hot encoding`  en utilsant l'API `tf.feature_column` et `indicator_column`

In [251]:
CATEGORIES = {'epoque': ['Avant 1946', '1971-1990', 'Apres 1990', '1946-1970']}

In [252]:
categorical_column = []

for feature, vocab in CATEGORIES.items():
    cat_col = (tf.feature_column.
               categorical_column_with_vocabulary_list(key=feature, vocabulary_list=vocab))
    
    categorical_column.append(tf.feature_column.indicator_column(cat_col))
    
categorical_column

[IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='epoque', vocabulary_list=('Avant 1946', '1971-1990', 'Apres 1990', '1946-1970'), dtype=tf.string, default_value=-1, num_oov_buckets=0))]

In [257]:
categorial_layer = tf.keras.layers.DenseFeatures(categorical_column)
print(categorial_layer(example_batch).numpy())

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]


### Combiner toutes les couches traitées

In [266]:
preprocessing_layer = tf.keras.layers.DenseFeatures(categorical_column+numeric_column)
print(preprocessing_layer(example_batch).numpy()[0])

[ 1.          0.          0.          0.         -0.59874606 -0.5484677
 -0.2069508 ]


# Fin

L'étape suivante serait d'utiliser `tf.keras.Sequential` avec les données de `preprocessing_layer`.       
Mais ce n'est pas l'objectif de ce notebook

# Resources 
1. Charger les données text - lien: https://www.tensorflow.org/tutorials/load_data/text
2. TF.text - lien:  https://www.tensorflow.org/tutorials/tensorflow_text/intro
3. Charger des images - https://www.tensorflow.org/tutorials/load_data/images
4. Lire les données d'un dataframe pandas - https://www.tensorflow.org/tutorials/load_data/pandas_dataframe   