# Intro rapide à SQL
SQL est le langage de base de données - database (DB) - le plus répandu. Probablement à raison ! Le TP suppose des connaissances de base en SQL et utilisera un serveur MySQL à l'adresse `http://mysql`. 

SQL a connu un vif regain d'intérêt depuis l'ère cloud grâce à des service d'infra SQL managées et elastiques:
- managée : il suffit de se connecter à un cloud provider pour créer et requêter des tables
- elastique : les ressources sont adaptables à la demande, parfois rien que pour le temps d'une requête

Exemple de SQL managé : AWS Athena, Google Cloud Platform, ... Exemple chez Le Bon Coin avec AWS Athena : 200Go de tables lues, filtrées, jointure réalisées en 2 secondes.

Le SQL non managé est encore très répandu car simple à mettre en place, simple et puissant à utilliser.

In [1]:
import mysql.connector
import pandas as pd

# MySQL connection details
mysql_host = 'mysql'
mysql_user = 'root' # blabla 
mysql_password = 'rootpassword'
mysql_database = 'workshop_db'

# Create a connection to the MySQL database
conn = mysql.connector.connect(
    host=mysql_host,
    user=mysql_user,
    password=mysql_password,
    database=mysql_database
)


# UC-1 : description data

- Q1: Combien y a-t-il de bières dans la DB ?
- Q2: Top10 brasseries les plus représentées avec le nombre de bière par brasserie ?
- Q3: Top10 des bières les plus fortes (ABV) en France ?
- Q4: Par pays, nombre de brasseries qui proposent des bières de type `Porter` et ABV moyen de celles-ci ?
- Q5: Mediane du nombre de bière par pays ?

In [2]:
%%time
# Q1
full_join_query = """SELECT count(*)
FROM beers
WHERE TRUE
AND descript like '%oak%'
AND descript like '%cask%'
;"""
df = pd.read_sql_query(full_join_query, con=conn)
df

CPU times: user 122 ms, sys: 8.05 ms, total: 130 ms
Wall time: 164 ms




Unnamed: 0,count(*)
0,8


In [9]:
%%time
# Q2
full_join_query =  """SELECT brew.name as brewery, count(*)
FROM beers
JOIN breweries as brew on brew.id = beers.brewery_id
WHERE TRUE
GROUP BY brew.name
ORDER BY 2 DESC
LIMIT 10
;"""
df = pd.read_sql_query(full_join_query, con=conn)
df

CPU times: user 3.77 ms, sys: 0 ns, total: 3.77 ms
Wall time: 41.8 ms




Unnamed: 0,brewery,count(*)
0,Midnight Sun Brewing Co.,57
1,Rogue Ales,49
2,Anheuser-Busch,38
3,Troegs Brewing,37
4,Egan Brewing,37
5,Boston Beer Company,36
6,Titletown Brewing,34
7,F.X. Matt Brewing,34
8,Sierra Nevada Brewing Co.,33
9,Stone Brewing Co.,32


In [9]:
pd.read_sql_query("select * from breweries_geocode limit 1;", con=conn).style

  pd.read_sql_query("select * from breweries_geocode limit 1;", con=conn).style


Unnamed: 0,id,brewery_id,latitude,longitude,accuracy
0,1,1,30.2234,-97.7697,ROOFTOP


In [7]:
%%time
# Q3
full_join_query = """
SELECT beers.name, abv
FROM beers
JOIN breweries on beers.brewery_id = breweries.id
WHERE TRUE
AND breweries.country = 'France'
ORDER BY 2 DESC
LIMIT 10
;"""
df = pd.read_sql_query(full_join_query, con=conn)
df

CPU times: user 3.94 ms, sys: 0 ns, total: 3.94 ms
Wall time: 31.6 ms




Unnamed: 0,name,abv
0,Belzebuth,13.0
1,3 Monts,8.5
2,Gavroche French Red Ale,8.5
3,Yeti,8.0
4,Jenlain Blonde,7.5
5,Blonde,7.5
6,Les Sans Culottes,7.0
7,Framboise,6.0
8,Jenlain St Druon de Sebourg,6.0
9,Castelain St.Amand French Country Ale,5.9


In [14]:
%%time
# Q4
full_join_query = """
WITH porter_db AS (
    SELECT beers.id, abv, brewery_id
    FROM beers
    JOIN styles on styles.id = beers.style_id
    WHERE styles.style_name like '%Porter%'
),
beers_country AS (
    SELECT breweries.country as country, abv
    FROM porter_db
    JOIN breweries on breweries.id = porter_db.brewery_id
)

SELECT country, count(*), avg(abv)
FROM beers_country
GROUP BY 1
ORDER BY 2 DESC
;"""
df = pd.read_sql_query(full_join_query, con=conn)
df

CPU times: user 4.5 ms, sys: 168 μs, total: 4.66 ms
Wall time: 44.4 ms




Unnamed: 0,country,count(*),avg(abv)
0,United States,234,2.330556
1,United Kingdom,14,3.95
2,Canada,5,0.0
3,Spain,3,3.733333
4,Russia,2,7.0
5,Sweden,1,5.5
6,Poland,1,8.3
7,Denmark,1,8.0
8,Norway,1,7.0
9,Germany,1,7.1


In [20]:
%%time
# Q5 - observation : certaines opérations "simples" sont un peu compliquées à réaliser en SQL
q = """
WITH country_cnt AS (
    SELECT 
        brew.country AS country,
        COUNT(*) AS cnt
    FROM beers
    JOIN breweries AS brew ON brew.id = beers.brewery_id
    GROUP BY brew.country
    ORDER BY cnt DESC
), ranked_countries AS (
    SELECT
        country, cnt, ROW_NUMBER() OVER (ORDER BY cnt) as rnk
    FROM country_cnt
), nlines AS (
    SELECT count(*) as nn
    FROM country_cnt
), proxy_median AS (
    SELECT 
        country, cnt, POWER((rnk / nn) - 1/2, 2) as proxmed
    FROM ranked_countries
    LEFT JOIN nlines ON TRUE
)
SELECT * 
FROM proxy_median
ORDER BY proxmed ASC
LIMIT 1
;"""
df = pd.read_sql_query(q, con=conn)
df

CPU times: user 3.7 ms, sys: 0 ns, total: 3.7 ms
Wall time: 41.8 ms




Unnamed: 0,country,cnt,proxmed
0,Jamaica,3,6.7e-05


In [None]:
# your code

# UC-2 : préparer un dataset de ranking 
Tout moteur de recherche/search-engine - **SE** - nécessite de la configuration ... beaucoup de configuration. Une des configuration très orientée "data" est le calcul que l'index doit opérer pour scorer chaque réponse possible face à une requête. L'apprentissage statistique de ce score s'appelle *Learning to Rank*  - **LTR** - et nécessite des connaissances poussées en machine learning. 

Cette tâche LTR se base sur les *feedbacks implicites* des utilisateurs face au moteur de recherche. Commençons par un exemple. Quand vous cherchez un objet sur LeBonCoin, vous laissez plusieurs informations *implicites* sur votre perception des résultats proposés : les item sur lesquels vous avez cliqués bien sûr mais également ceux que vous avez probablement *vu* sans cliquer dessus ... Ces "vues sans clics" sont une précieuse information implicite sur les jugement que vous avez porté aux résultats proposés. Pour ce TP nous nous limiterons à ce concept de "vu x click" mais il est possible d'aller plus loin (dwell-time, hierarchisation des interactions explicites, ...). 

On appelle *Search Engine Results Page* - **SERP** - la liste des résultats classés par un SE. Un document qui figure dans les résulats d'une recherche a donc une position (son rang) au sein de la **SERP**.

Exemple, où :
- `query` est la recherche réalisée par un user et qui a débouché sur une SERP
- `clicked_id` : l'id de la bière cliquée par le user
- `user_id` l'id de l'utilisateur (simplifions en disant que c'est même l'id d'une recherche) : permet de retrouver tous les résultats proposés dans **une** recherche
- `id_in_serp` : l'id d'une bière figurant dans la SERP
- `pos_in_serp` : la position/le rang de la bière `id_in_serp` dans la SERP issue de la recherche 

In [15]:
pd.read_sql_query("""
SELECT * 
FROM `beers_feedback` 
where user_id = 'ecfde3aa-7fc5-11ef-9d1e-0242ac120005'
;""", con=conn)

  pd.read_sql_query("""


Unnamed: 0,query,clicked_id,user_id,id_in_serp,pos_in_serp
0,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,1431,1
1,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,5209,2
2,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,4643,3
3,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,4812,4
4,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,5166,5
5,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,4755,6
6,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,4462,7
7,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,5007,8
8,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,5279,9
9,German-style hefeweizen with banana notes,4643,ecfde3aa-7fc5-11ef-9d1e-0242ac120005,4280,10


In [26]:
pd.read_sql_query("""
SELECT count(*) 
FROM `beers_feedback` 
;""", con=conn)

  pd.read_sql_query("""


Unnamed: 0,count(*)
0,15520


In [19]:
q = "SELECT * FROM `beers_feedback` ORDER BY RAND() LIMIT 5 ;"
pd.read_sql_query(q, con=conn)

  pd.read_sql_query(q, con=conn)


Unnamed: 0,query,clicked_id,user_id,id_in_serp,pos_in_serp
0,chocolate stout under 6% ABV,1056,ecfdc6f4-7fc5-11ef-9d1e-0242ac120005,4800,13
1,dry stout,345,ecfd839c-7fc5-11ef-9d1e-0242ac120005,5093,7
2,malty amber ale,982,ecfd3a40-7fc5-11ef-9d1e-0242ac120005,4676,14
3,strong bitter ale,2225,ecfd4832-7fc5-11ef-9d1e-0242ac120005,1421,12
4,high abv belgian style ale,5192,ecfe833c-7fc5-11ef-9d1e-0242ac120005,4059,15


Un travail préliminaire au LTR est la constitution d'un dataset qui permet d'aggréger ces feedbacks laissés par tous les utilisateurs ayant réalisé la même query. Chacun a vu et cliqué selon ses propres impressions de pertinence et il convient de "moyenner" tout cela pour obtenir des appréciations globales. L'objectif d'un tel dataset est de pouvoir lister des exemples de triplets `(query, document, note)` qui permet de savoir que face à une *query* `milky stout low bitterness`, un *document* `Super bitter beer brewed with organic roasted barley and chocolate` aura une pertinence de *1/4* (arbitraire). 

Implémenter le modèle d'agrégation de feedback "cascade model" [1] (pour la culture, **inutile d'avoir lu l'article** pour le TD) qui propose une approche pragmatique pour obtenir ces données. La méthode est la suivante :
- pour chaque recherche utilisateur:
    - étudier la position de l'id cliqué dans la SERP - soit `clicked_pos_in_serp` cette information
    - Considérer que tout doc situés "au-dessus dans la SERP" (càd quand `pos_in_serp <= clicked_pos_in_serp`) avait été vu par l'utilisateur
    - Récapituler tous ces documents "vus et cliqués" et "vus mais pas cliqués"
- Pour chaque recherche et bière cliquée (`clicked_id`), calculer la "probabilité de clic sachant qu'elle a été vue", càd le nombre de fois qu'elle a été cliquée divisé par le nombre de fois où elle a été vue


[1] https://dl.acm.org/doi/abs/10.1145/1341531.1341545

In [44]:
%%time
q = """
WITH clicked_pos AS (
    SELECT query, user_id, pos_in_serp as clicked_pos_in_serp
    FROM `beers_feedback` 
    WHERE TRUE
    AND clicked_id = id_in_serp
), db_and_clicked_and_seen AS (
    SELECT 
        beers_feedback.*, 
        CASE WHEN pos_in_serp <= clicked_pos_in_serp THEN 1 ELSE 0 END as seen,
        CASE WHEN pos_in_serp = clicked_pos_in_serp THEN 1 ELSE 0 END as clicked
    FROM beers_feedback
    LEFT JOIN clicked_pos on clicked_pos.user_id = beers_feedback.user_id
),
cascade_probas AS (
    SELECT
        query, id_in_serp as beer_id, SUM(seen) as n_seen, SUM(clicked) as n_clicked, SUM(clicked)/SUM(seen) as click_proba_cascade
        FROM db_and_clicked_and_seen
        WHERE TRUE
        AND 
            seen = 1
        GROUP BY query, id_in_serp
        ORDER BY query, click_proba_cascade
)

SELECT
    query,
    beer_id,
    click_proba_cascade,
    n_seen,
    n_clicked
FROM cascade_probas
WHERE True
AND n_seen > 10
ORDER BY click_proba_cascade DESC
LIMIT 10
;
"""
pd.read_sql_query(q, conn).style

CPU times: user 4.21 ms, sys: 0 ns, total: 4.21 ms
Wall time: 35 ms




Unnamed: 0,query,beer_id,click_proba_cascade,n_seen,n_clicked
0,non-alcoholic christmas ale,2216,0.5,12.0,6.0
1,tropical flavored IPA,2922,0.4615,13.0,6.0
2,malty amber ale,3740,0.4545,11.0,5.0
3,fruity sour,481,0.4167,12.0,5.0
4,malty scotch ale,5783,0.3571,14.0,5.0
5,smoky rauchbier,3364,0.3333,15.0,5.0
6,milky stout,2001,0.3333,12.0,4.0
7,bitter sour,4442,0.3333,12.0,4.0
8,low alcool pils,1641,0.3077,13.0,4.0
9,light IPA,4506,0.3077,13.0,4.0


In [None]:
q = f"""
WITH clicked_pos AS (
    SELECT query, user_id, pos_in_serp as clicked_pos_in_serp
    FROM `beers_feedback` 
    WHERE TRUE
    AND clicked_id = id_in_serp
), 
db_and_clicked_and_seen AS (
    SELECT 
        beers_feedback.*, 
        CASE WHEN pos_in_serp <= clicked_pos_in_serp THEN 1 ELSE 0 END as seen,
        CASE WHEN pos_in_serp = clicked_pos_in_serp THEN 1 ELSE 0 END as clicked
    FROM beers_feedback
    LEFT JOIN clicked_pos on clicked_pos.user_id = beers_feedback.user_id
),
cascade_probas AS (
    SELECT
        query, id_in_serp, SUM(seen) as n_seen, SUM(clicked) as n_clicked, SUM(clicked)/SUM(seen) as click_proba_cascade
        FROM db_and_clicked_and_seen
        WHERE TRUE
        AND 
            seen = 1
        GROUP BY query, id_in_serp
        ORDER BY query, click_proba_cascade
)
SELECT 
    query, descript, click_proba_cascade
    FROM cascade_probas
    JOIN beers on beers.id = cascade_probas.id_in_serp
    WHERE TRUE
    AND length(descript) > 1
;"""
df = pd.read_sql_query(q, con=conn)
df

In [None]:
%%time
# your code
q = f"""

;"""
df = pd.read_sql_query(q, con=conn)
df.head(10).style

# UC-3 : récupérer les docs qui parlent d'un mot

Peut-on utiliser SQL pour réaliser un mini moteur de recherche ? Pour différentes requêtes (`query` en anglais) textuelles très simples à base de mot-clef, retrouver les bières qui semblent répondre à la demande. Exemples :
- trouver les bières ou les brasseries qui parlent de bières "fine"
- idem pour "juicy"
- idem pour "genuine"
- idem pour les bières mâturées dans des "oak cask" (fûts en chêne) -> combien y en a-t-il ? $N_1$
   - idem pour les bières qui évoquent uniquement "cask" -> combien y en a-t-il ? $N_{1,1}$
   - idem pour celles ne parlant que de "oak" -> combien y en a-t-il ? $N_{1,2}$
- idem pour les bières qui évoquent "oak" et "cask" -> combien y en a-t-il ? $N_{2}$

In [None]:
QUERY = "cask"

q = f"""

;"""
pd.read_sql_query(q, con=conn).head(10).style

# UC-3 bis : déterminer la langue des descriptions de chaque bière

In [24]:
import requests

def get_embedding(text: str):
    url = "http://vectorizer:8000/embed"
    payload = {"text": text}
    
    response = requests.post(url, json=payload)
    try:
        response.raise_for_status()  # Raise an exception for HTTP errors
        return response.json()["vector"]
    except:
        return []


In [46]:
import langdetect

In [47]:
langdetect.detect("je m'appelle François")

'fr'

# UC-4 : vectorisation des description des bières
Préparer le recours à un service de vectorisation qui permettra de convertir la connaissance sur une bière en un vecteur numérique. Ce vecteur permet de sythétiser mathématiquement l'information disponible sur une bière et sa brasserie et pourra être réutilisé plus tard dans un moteur de recherche.
à faire :
- Préparer une description la plus complète possible pour chaque bière
- envoyer ces descriptions une à une via un appel HTTP sur Jina (voir instruction plus bas)

**Découpez le travail** : chacun travaillera sur un sous-ensemble de bières selon l'`id` de chaque bière `beers.id`. 
Vous êtes 12, je propose donc la répartition suivante :
- ADAM.LUCAS --> s'occuper des `beers.id` égaux à 0 modulo 12
- ALIEINIK.OLHA --> s'occuper des `beers.id` égaux à 1 modulo 12
- ARNOUT.FABRICE --> s'occuper des `beers.id` égaux à 2 modulo 12
- BEDIER.DORIANE --> s'occuper des `beers.id` égaux à 3 modulo 12
- CASTRO.MOUCHERON --> s'occuper des `beers.id` égaux à 4 modulo 12
- COLIN.KEVIN --> s'occuper des `beers.id` égaux à 5 modulo 12
- FRASELLE.NADEGE --> s'occuper des `beers.id` égaux à 6 modulo 12
- KUKSA.OLEKSANDRA --> s'occuper des `beers.id` égaux à 7 modulo 12
- LOPES.VAZ.ALEXIS --> s'occuper des `beers.id` égaux à 8 modulo 12
- REITER.ROMAIN --> s'occuper des `beers.id` égaux à 9 modulo 12
- RICHIER.MARCUS --> s'occuper des `beers.id` égaux à 10 modulo 12
- VINOT.MATHIEU --> s'occuper des `beers.id` égaux à 11 modulo 12

## Service de vectorisation Jina
Nous allons faire appel à un service de vectorisation externe [https://jina.ai](https://jina.ai) qui propose gratuitement 1M token de vectorisation. 
Quand vous voudrez vectoriser un texte, suivez la doc de [https://jina.ai/embeddings/](https://jina.ai/embeddings/). 

Nous utiliserons **TOUS le MÊME modèle d'embedding** : `jina-embeddings-v2-base-en` ! Faites donc attention à appeler le bon

In [None]:
# your code

Essayons de construire d'avoir tous le même schéma de texte à vectoriser :
`the beer BEER_NAME from brewery BREWERY_NAME (BREWERY_DESCRIPTION) is defined as BEER_DESCRIPTION. Spec of the beer are: ABV=ABV_VALUE, IBU=IBU_VALUE, SRM=SRM_VALUE`

#### Instructions pour appeler le service Jina
En plus de la doc sur leur site, voici un snippet de code:

In [None]:
import requests

EMBEDDING_NAME = "jina-embeddings-v2-base-en"
url = 'https://api.jina.ai/v1/embeddings'

headers = {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer jina_85ba1ab9e5ff4017b3d216ebb8734f27xzJ9WyoYBFwqks9lOaNLHryw_Yyz'
}

sentences_to_vec = ["Hi i'm a student at Université de Lorraine", "This is big data workshop"]
data = {
    'model': EMBEDDING_NAME,
    'normalized': True,
    'embedding_type': 'float',
    'input': sentences_to_vec
}

response = requests.post(url, headers=headers, json=data)

Exemple avec mon propre code pour appeler Jina

In [None]:
import requests
from typing import List
import numpy as np
from rich.progress import track, Progress

def batched(iterable, batch_size=16):
    l = len(iterable)
    for ndx in range(0, l, batch_size):
        yield iterable[ndx:min(ndx + batch_size, l)]

class JinaEmbedder:
    
    URL = 'https://api.jina.ai/v1/embeddings'
    EMBEDDING_NAME = "jina-embeddings-v2-base-en"
    bearer_token = 'Bearer jina_85ba1ab9e5ff4017b3d216ebb8734f27xzJ9WyoYBFwqks9lOaNLHryw_Yyz'

    @staticmethod
    def http_json_to_vec(http_json: dict):
        return np.array(
            [
                sentence["embedding"]
                for sentence in http_json["data"]
            ]
        )

    @classmethod
    def _get_header(cls) -> dict:
        return {
            'Content-Type': 'application/json',
            'Authorization': cls.bearer_token
        }

    @classmethod
    def _embed_one_batch(cls, batch: List[str]) -> requests.Response:
        headers = cls._get_header()
        data = {
            'model': cls.EMBEDDING_NAME,
            'normalized': True,
            'embedding_type': 'float',
            'input': batch
        }
        
        return requests.post(cls.URL, headers=headers, json=data)

    @classmethod
    def embed(cls, str_to_vectorize: List[str] | str, batch_size=256) -> np.ndarray:
        if isinstance(str_to_vectorize, str):
            str_to_vectorize = [str_to_vectorize]

        embeddings = []
        with Progress() as progress:
            for i, batch in progress.track(enumerate(batched(str_to_vectorize, batch_size=batch_size))):
                progress.print(f"batch {i}...")
                response = cls._embed_one_batch(batch)
        
                if (sc:=response.status_code) != 200:
                    print("Warning ! Batch", i, "has status code", sc, "-> skipping")
                    embeddings.append(np.array([None]*len(batch)))
                else:
                    embeddings.append(JinaEmbedder.http_json_to_vec(response.json()))
        return np.vstack(embeddings)

In [None]:
# your code
q = """
WITH data AS (
    SELECT 
        beers.id, beers.name, beers.abv, beers.ibu, beers.srm, beers.descript as beer_descr,
        brew.descript as brewer_descript, brew.name as brewery,
        styles.style_name
    FROM beers
    LEFT JOIN breweries as brew on brew.id = beers.brewery_id
    LEFT JOIN styles on styles.id = beers.style_id
), descriptions AS (
    SELECT 
        id,
        CONCAT('the beer ', name, ' from brewery ', brewery, ' (', brewer_descript, ') crafts the beer ', name, ' defined as ', beer_descr, '. Spec of the beer are: ABV=', abv, ', IBU=', ibu, ', SRM=', srm) as to_vectorize
    FROM data
)
SELECT 
    id, to_vectorize
FROM descriptions
WHERE True
    AND id % 12 = 3
;"""
df = pd.read_sql_query(q, con=conn)

In [None]:
df.head(4).style

# UC-5 : answer question in corpa

**impossible en SQL**

**Grandes lignes :** trouvons les documents qui répondent à une question. Exemple : à partir de la description vectorisée à UC-4 pour chaque bière, comment trouver les bières qui répondent à une description plus complète ? Exemple:
- "very bitter beer with smoky taste"
- "fruity sour - balanced sourness"
- "weird beer"
