# TensorFlow Data visualisation (TFDV) et Facets 

Le biais peut se manifester dans n'importe quelle partie d'un pipeline d'apprentissage machine typique, depuis un ensemble de données non représentatif jusqu'aux représentations du modèle appris, en passant par la manière dont les résultats sont présentés à l'utilisateur. Les erreurs qui résultent de ce biais peuvent avoir un impact disproportionné sur certains utilisateurs plus que sur d'autres.

[TensorFlow Data Validation](https://www.tensorflow.org/tfx/data_validation/get_started) (TFDV) est un outil qui permet d'analyser un ensemble données afin de trouver des problèmes potentiels, tels que des valeurs manquantes et des déséquilibres de données - qui peuvent conduire à des disparités d'équité.  L'outil TFDV analyse les données de formation et de service pour calculer des statistiques descriptives, déduire un schéma et détecter des anomalies dans les données.  [Aperçu des facettes](https://pair-code.github.io/facets/) fournit une visualisation succincte de ces statistiques pour faciliter la navigation. Le TFDV et Facets sont des outils qui font partie des [Indicateurs d'équité](https://www.tensorflow.org/tfx/fairness_indicators).

### Import des bibliothèques nesessaires

In [1]:
import pandas as pd
import tensorflow_data_validation as tfdv
from witwidget.notebook.visualization import WitConfigBuilder
from witwidget.notebook.visualization import WitWidget

### Générer des statistiques et facets à partir d'un dataframe pandas

In [2]:
# Charger les données d'un fichier CSV dans un dataframe pandas
df = pd.read_csv('./logement-encadrement-des-loyers.csv', sep=';')
df.head()

Unnamed: 0,id_zone,id_quartier,nom_quartier,piece,epoque,meuble_txt,ref,max,min,annee,ville,code_grand_quartier,geo_shape,geo_point_2d
0,11,77,Belleville,4,Avant 1946,non meublé,21.4,25.68,14.98,2020,PARIS,7512077,"{""type"": ""Polygon"", ""coordinates"": [[[2.383226...","48.8715312006,2.38754923985"
1,13,75,Amérique,3,1971-1990,non meublé,16.7,20.04,11.69,2020,PARIS,7511975,"{""type"": ""Polygon"", ""coordinates"": [[[2.409402...","48.8816381673,2.39544016662"
2,13,74,Pont-de-Flandre,2,1971-1990,meublé,20.2,24.24,14.14,2020,PARIS,7511974,"{""type"": ""Polygon"", ""coordinates"": [[[2.384878...","48.8955557746,2.38477722927"
3,13,75,Amérique,1,1971-1990,meublé,24.0,28.8,16.8,2020,PARIS,7511975,"{""type"": ""Polygon"", ""coordinates"": [[[2.409402...","48.8816381673,2.39544016662"
4,13,78,Saint-Fargeau,1,Avant 1946,meublé,29.4,35.28,20.58,2020,PARIS,7512078,"{""type"": ""Polygon"", ""coordinates"": [[[2.413813...","48.8710347391,2.40617153015"


In [4]:
# Générer les statistiques à partir d'un dataframe pandas
stats = tfdv.generate_statistics_from_dataframe(df)
# Visualisation des statistiques (Facets)
tfdv.visualize_statistics(stats)