# S05 - Pandas profiling - Survol

`pandas_profiling` est une librairie intéressante pour explorer vos données. **Elle n'est cependant pas installée par défaut dans Anaconda.** Dans ce notebook, nous ferons un bref aperçu de `pandas_profiling`; pour plus d'informations, référez vous à la [documentation](https://pandas-profiling.ydata.ai/docs/master/index.html).

# Installer pandas_profiling

## Anaconda
Pour installer `pandas_profiling`, vous devez ouvrir un *Anaconda Prompt*. Dans cette console, vous écrivez ensuite

```
conda install -c conda-forge pandas-profiling
```
    
et appuyez sur Entrée.

Après un certain temps, du texte sera affiché dans votre console et il vous demandera si vous souhaitez continuer. Appuyez simplement sur Entrée pour continuer.

## Google Colab
Si vous êtes dans Google Colab, il suffit d'exécuter la cellule suivante afin de pouvoir utiliser `pandas_profiling`. Si vous utilisez un Jupyter Notebook, veuillez prioriser la procédure précédente.

In [None]:
# pour Google Colab seulement
!pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip 

# Importer pandas_profiling
Pour importer `pandas_profiling`, faites ce qui suit:

In [None]:
import pandas as pd
from pandas_profiling import ProfileReport

# Importer des données
Importons maintenant un jeu de données.

In [None]:
url = 'https://raw.githubusercontent.com/acedesci/scanalytics/master/data/Supply_Chain_Shipment_Pricing_Data.csv'
df = pd.read_csv(url)
df.head()

# Générer et consulter un profil
Nous générons maintenant le rapport de profil.

In [None]:
profile = ProfileReport(df,
                        title='Pandas Profiling Report',
                        html={'style':{'full_width':True}})

Nous pouvons accéder à ce rapport de trois manières. **Prendre note que la première approche peut prendre un temps considérable et ne fonctionne par sur Google Colab.** La première approche consiste à utiliser des widgets (voir ci-dessous).

In [None]:
profile.to_widgets()

La deuxième approche consiste en un rapport HTML (voir ci-dessous).

In [None]:
profile.to_notebook_iframe()

La troisième approche consiste en l'enregistrement de ces données sous la forme d'un rapport HTML ou de données json. Si vous voulez générer un fichier de rapport HTML, enregistrez le `ProfileReport` dans un objet et utilisez la fonction `to_file()`, comme suit.

In [None]:
file_name = "pandas_profiling_report.html"
profile.to_file(file_name) # sauvegarder le rapport

Pour Colab, vous devez télécharger ce fichier pour l'enregistrer en utilisant le code ci-dessous.

In [None]:
from google.colab import files

files.download(file_name)