<a href="https://colab.research.google.com/github/mars241/CheckPoints/blob/main/Veille_Techno_Retours_PyConFr_2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **[1. POLARS](https://www.pola.rs/)**

Bibliothèque de **traitement de données** concurrente de Pandas :

* beaucoup plus rapide que Pandas
* traitement optimisé notamment grâce [au lazy mode](https://www.youtube.com/watch?v=5WzHc4Gb0f8)
* méthodes de join intéressantes (cross join, semi join)
* possibilité de convertir Polars en Pandas (et vice versa)

**Prise en main : [article](https://towardsdatascience.com/getting-started-with-the-polars-dataframe-library-6f9e1c014c5c) ou [vidéo](https://www.youtube.com/watch?v=VHqn7ufiilE)**

In [None]:
pip install polars

In [None]:
import polars as pl

In [None]:
url = "https://raw.githubusercontent.com/murpi/wilddata/master/quests/weather2019.csv"
df = pl.read_csv(url)
df.head()

In [None]:
# Exemple de filtrage
df.filter(pl.col('MAX_TEMPERATURE_C') >= 15)

# **[2.DIRTY CAT](https://dirty-cat.github.io/stable/)**

Bibliothèque développée par l'INRIA (co-développeurs de SciKit Learn) qui applique divers **algorithmes de Machine Learning pour nettoyer de façon automatique des données catégorielles "sales"**(qui ont mal été saisies, par exemple).
Une [démo de l'utilisation de l'algo *SimilarityEncoder*](https://towardsdatascience.com/similarity-encoding-for-dirty-categories-using-dirty-cat-d9f0b581a552) est disponible sur Towards Data Science.

# **[3. DATAPANE](https://datapane.com/)**

Bibliothèque qui sert à générer de **jolies applications web à partir de notebooks Jupyter.** Elles sont statiques pour l'instant, mais de l'interactivité (avec des _inputs_) est prévue dans les versions à venir => mises à jour à surveiller !

In [None]:
pip install datapane

In [None]:
import datapane as dp
import pandas as pd

import altair as alt    # outil de dataviz
from vega_datasets import data as vega_data    # pour télécharger un dataset

In [None]:
dataset = vega_data.iris()
df = pd.DataFrame(dataset)
df.head()

In [None]:
# Générer une DataTable interactive. Requêtes SQL possibles.
dp.DataTable(df)

In [None]:
# Afficher des indicateurs clés
nb1 = dp.BigNumber(
        heading="Percentage points",
        value="84%",
        change="2%",
        is_upward_change=True,
    )
nb2 = dp.BigNumber(
        heading="Percentage points",
        value="63%",
        change="2%",
        is_upward_change=False,
    )
nb3 =  dp.BigNumber(
        heading="Points",
        value="1234",
        change="200",
        is_upward_change=True,
    )

dp.Group(nb1, nb2, nb3, columns=3)

In [None]:
# Intégrer une vidéo
dp.Embed(url='https://www.youtube.com/watch?v=_KS_yZBI71s&t')

In [None]:
pip install folium

In [None]:
# Générer une carte centrée sur les coordonnées indiquées
import folium

m = folium.Map(location=[45.74631, 4.82716])

dp.Plot(m)

In [None]:
# Générer un scatter plot avec Altair. Compatible aussi avec Plotly, Matplotlib/Seaborn, Bokeh.
columns = list(dataset.columns)
params = {"x_axis": "sepalLength", "y_axis": "sepalWidth", "color": "species"}

fig = (
        alt.Chart(dataset)
        .mark_point()
        .encode(
            x=alt.X(params["x_axis"], scale=alt.Scale(zero=False)),
            y=alt.X(params["y_axis"], scale=alt.Scale(zero=False)),
            color=params["color"],
            tooltip=columns,
        )
    )

dp.Plot(fig)

In [None]:
# Générer une application avec 4 onglets ("blocks")
App = dp.Select(
            blocks =[
                dp.DataTable(df, label="Data"),
                dp.Plot(fig, label="Plot"),
                dp.Plot(m, label="Map"),
                dp.Embed(url='https://www.youtube.com/watch?v=_KS_yZBI71s&t', label="Video")
            ]
        )

In [None]:
# Lancer l'application en local
dp.serve_app(App)