Cours : [DLC] SQL pour Débutant(e)s Jour 6 - Les Outils Avancés 
Lien : https://www.youtube.com/watch?v=mc4zOX1j7_A&list=PLyh35eYRez8cAEBfi1LWN70Cs77bBvCOp&index=6

Github le coin stat : https://github.com/LeCoinStat/LeCoinStat/tree/main/Bien_Debuter_SQL
Fichiers Github récupérés : https://github.com/LeCoinStat/LeCoinStat/tree/main/Bien_Debuter_SQL/Jour6

In [1]:
import duckdb
from skimpy import skim

In [2]:
# Connection à la librairie duckdb
conn = duckdb.connect()

## Fichier des ventes

In [3]:
# Requête SQL : récupération de toutes les données du fichier .csv en DF
sales_df = conn.execute(
    """
    SELECT *
    FROM read_csv_auto('data/indexE/Ventes.csv', header=True)
    """
).df()

In [4]:
# Stats de la DF
skim(sales_df)

In [5]:
# Enregistrement de la DF en BD virtuelle (requête SQL : VIEW)
conn.register('sales_db', sales_df)

<duckdb.duckdb.DuckDBPyConnection at 0x2512b7427b0>

## Fichier des employés

In [6]:
# Requête SQL : récupération de toutes les données du fichier .csv en DF
employees_df = conn.execute(
    """
    SELECT *
    FROM read_csv_auto('data/indexE/Employes.csv', header=True)
    """
).df()

In [7]:
# Stats de la DF
skim(employees_df)

In [8]:
# Enregistrement de la DF en BD virtuelle (requête SQL : VIEW)
conn.register('employees_db', employees_df)

<duckdb.duckdb.DuckDBPyConnection at 0x2512b7427b0>

## Fichier des clients

In [9]:
# Requête SQL : récupération de toutes les données du fichier .csv en DF
customers_df = conn.execute(
    """
    SELECT *
    FROM read_csv_auto('data/indexE/Clients.csv', header=True)
    """
).df()

In [10]:
# Stats de la DF
skim(customers_df)

In [11]:
# Enregistrement de la DF en BD virtuelle (requête SQL : VIEW)
conn.register('customers_db', customers_df)

<duckdb.duckdb.DuckDBPyConnection at 0x2512b7427b0>

## Requêtes SQL

#### Donner le top 3 des meilleurs vendeurs en terme de CA par année (DENSE_RANK)

Étape 1 : CA par année et par employé puis répartition par année avec l'instruction PARTITION BY

In [38]:
topemployees_df = conn.execute(
    """
    -- Champs à récupérer
    SELECT
        e.Nom
        , e.Prenom
        , YEAR(s.DateVente) AS Annee
        , ROUND(SUM(s.MontantTotal), 0) AS "Ventes annuelles"
        -- Fonction de fenêtrage
        , DENSE_RANK() OVER(
            -- Regroupage
            PARTITION BY YEAR(s.DateVente)
            -- Trie
            ORDER BY ROUND(SUM(s.MontantTotal), 0) DESC
        ) AS Classement
    -- BD à récupérer
    FROM employees_db e
    JOIN sales_db s
    ON e.EmployeID = s.EmployeID
    -- TCD
    GROUP BY
        e.Nom
        , e.prenom
        , Annee
    -- Trie
    ORDER BY Annee ASC
    """
).df()

Étape 2 : récupération de la requête ci-avant créée en tant que vue

In [39]:
conn.register('topemployees_db', topemployees_df)

<duckdb.duckdb.DuckDBPyConnection at 0x2512b7427b0>

In [40]:
conn.execute(
    """
    -- Champs récupérés
    SELECT *
    -- BD récupérée
    FROM topemployees_db
    -- Filtre
    WHERE Classement BETWEEN 1 AND 3
    """
).df()

Unnamed: 0,Nom,Prenom,Annee,Ventes annuelles,Classement
0,Thompson,Travis,2020,43999.0,1
1,Gordon,Gabriella,2020,30099.0,2
2,Weaver,Brandon,2020,23099.0,3
3,Lucero,Lindsey,2021,45499.0,1
4,Wilson,Kathy,2021,34999.0,2
5,Webster,Tommy,2021,23999.0,3
6,Edwards,Kirsten,2022,92998.0,1
7,Ramsey,Bryan,2022,45999.0,2
8,Powers,Louis,2022,27499.0,3
9,Collins,Diana,2023,25899.0,1


#### Donner le top 3 des meilleurs clients en terme de chiffre d'affaires par année et par trimestre

Étape 1 : CA par trimestre par client et classement par année / trimestre

In [43]:
topcustomers_df = conn.execute(
    """
    -- Champs à récupérer
    SELECT
        c.ClientID
        , c.Nom
        , c.Prenom
        , YEAR(s.DateVente) AS Annee
        , QUARTER(s.DateVente) AS Trimestre
        , ROUND(SUM(s.MontantTotal), 0) AS "CA trimestriel"
        -- Fonction de fenêtrage
        , DENSE_RANK() OVER(
            -- Regroupage
            PARTITION BY(
                YEAR(s.DateVente)
                , QUARTER(s.DateVente)
            )
            -- Trie 
            ORDER BY ROUND(SUM(s.MontantTotal), 0) DESC
        ) AS Classement
    -- BD à récupérer
    FROM customers_db c
    JOIN sales_db s
    ON c.ClientID = s.ClientID
    -- TCD
    GROUP BY
        c.ClientID
        , c.Nom
        , c.Prenom
        , Annee
        , Trimestre
    -- Trie
    ORDER BY
        Annee ASC
        , Trimestre ASC
    """
).df()

Étape 2 : récupération de la requête ci-avant créée en tant que vue

In [45]:
conn.register('topcustomers_db', topcustomers_df)

<duckdb.duckdb.DuckDBPyConnection at 0x2512b7427b0>

In [47]:
conn.execute(
    """
    -- Champs à récupérer
    SELECT *
    -- BD à récupérer
    FROM topcustomers_db
    -- Filtre
    WHERE Classement BETWEEN 1 AND 3
    """
).df()

Unnamed: 0,ClientID,Nom,Prenom,Annee,Trimestre,CA trimestriel,Classement
0,6,Scott,Jacob,2020,1,30099.0,1
1,4,Perez,Stephanie,2020,1,25499.0,2
2,83,Phillips,Karen,2020,1,2660.0,3
3,27,Brown,Danielle,2020,2,9999.0,1
4,95,Kennedy,Julie,2020,2,4479.0,2
5,37,Glenn,Monica,2020,2,2400.0,3
6,62,Williams,Yesenia,2020,3,43999.0,1
7,7,Rodriguez,Megan,2020,3,18549.0,2
8,21,Cordova,Brittany,2020,3,15000.0,3
9,51,Patterson,Paul,2020,4,21299.0,1
