# Intro to Spark

**Disclaimer:** TP plus compliqué !

**Spark** est un système de calcul hautement parallélisé :
- au niveau du stockage : la data est fragmentée, dupliquée, répartie sur un nombre quelconque de disques/servers
- au niveau du calcul : les calculs s'exécutent en parallèle sur plusieurs machines, chacune sur sa portion de data

Spark en tant que tel est un framework qui a des implémentation dans plusieurs langages :
- Python via PySpark (ce qe nous utiliserons)
- Scala
- R
- Java

## Quelques informations en vrac sur Spark
### Hardware
- Spark peut s'installer sur un grand nombre de machines situées dans un même réseau. Elles pourront ensuite se reconnaître et collaborer. 1 unité de calcul = 1 noeud.
- Spark fonctionne sur le mode master/worker : un noeud est désigné `master` et jouera le rôle de chef d'orchestre pour que les autres noeuds `workers` exécutent les tâches dans le bon ordre
- Les noeuds Spark communiquent énormément entre eux pour s'échanger des informations et surtout des données

### Software
- Un code Spark / PySpark doit utiliser les primitives Spark pour que tout s'exécute selon la logique Spark
- Le code pyspark est transmis au noeud `master` qui le lit et prépare l'orchestration des calculs selon les `workers` qu'il a à disposition. Seuls les `workers` manipuleront la donnée (sauf exception)
- Spark est *lazy* : `master` ne lance réellement aucun calcul tant qu'il n'a pas lu d'opération impliquant l'affichage ou l'écriture des résultats
- Corrolaire du *lazy* : sans précaution, Spark peut répéter plusieurs fois les mêmes calculs ... Exemple avec 2 chaînes de transformation data `A -> B -> C -> D` suivi de `A -> B -> E`. Les étapes intermédiaires `A -> B` sont identiques mais pour calculer `D` et `E`, Spark risque de les exécuter 2 fois. Apprendre à manipuler les méthodes [cache](https://spark.apache.org/docs/3.5.3/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.cache.html?highlight=cache) !

### Framework
- Spark se base sur des `DataFrame` très proches en terme d'utilisation des `pandas.DataFrame` donc pas de panique :)
- Spark gère tout ce que sait gérer SQL mais part de fichiers plats (ici CSV) : join, select, etc ...
- PySpark permet de gérer tout ces concepts avec la facilité d'accès du Python
- PySpark est TRÈS typé et a besoin de connaître les types de chaque colonne manipulées
- Spark est TRÈS flexible en terme de configuration et d'exécution et cela peut sembler déroutant pour des exemples simples

### Organisation du calcul
En informatique, à chaque architecture ses optimisations :
- en local sur 1 CPU, un calcul possède peu d'optimisation : simple et linéaire, possiblement async
- en local sur multi CPU, un calcul doit être prévu pour paralléliser les exécutions sur plusieurs coeurs physiques
- en local sur mono/multi GPU, un calcul doit être hautement parallélisable, découpable en tranche de data qui tiennent en GPU-RAM
- en multi machine multi GPU, idem que plus haut avec bande passante importante entre machine pour échange d'information

... Spark gère le multi machine, multi CPU, multi RAM, multi disque : calculs hautement parallélisés grâce à la magie de Spark, data échangées au mieux entre machine (possiblement avec l'aide humaine).
__Spark est toujours prêt à gérer un contexte d'exécution très complexe__ => il faut s'attendre à beaucoup d'overhead sur des cas simples

**Les opérations s'exécutent sur des workers séparés, en parallèle**, il faut donc parfois faire "un peu attention" à la façon dont on demande à Spark de *partitionner* sa data.

## À retenir

1. Spark et son implémentation PySpark sont très puissant car gèrent un parallélisme quasi infini et réglable à 100%
2. PySpark a un coût d'entrée pour se couler dans le moule Spark mais permet de réaliser des opérations très complexes avec la simplicité du Python
3. Votre notebook n'exécutera n'a pas accès à la data manipulée et n'effectuera aucun calculs ; il les transmettra au Spark Master qui les répartira entre ses workers qui ont accès à la data

## Exemple de code Spark

In [1]:
import pyspark
from pyspark.sql import SparkSession
import pandas as pd
import numpy as np

In [2]:
# Initialize PySpark session
spark = SparkSession.builder \
    .appName("JupyterHub PySpark Example") \
    .master("spark://spark-master:7077") \
    .config("spark.executor.memory", "2g") \
    .getOrCreate() 

# /!\ Tout se fera à partir de cet object magique `spark`

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/10/14 07:49:45 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [3]:
data = [("Alice", 1), ("Bob", 2), ("Catherine", 3)]
df = spark.createDataFrame(data, ["Name", "Value"])

# Show the dataframe
df.show()

                                                                                

+---------+-----+
|     Name|Value|
+---------+-----+
|    Alice|    1|
|      Bob|    2|
|Catherine|    3|
+---------+-----+



In [4]:
from pyspark.sql import functions as F
from pyspark.sql.types import StringType, FloatType, ArrayType, StructField, StructType, DoubleType

In [5]:
df_beers = spark.read.csv("/datasets/csv/beers.csv", header=True)
df_beers.head()

                                                                                

Row(id='1', brewery_id='812', name='Hocus Pocus', cat_id='11', style_id='116', abv='4.5', ibu='0', srm='0', upc='0', filepath=None, descript='Our take on a classic summer ale.  A toast to weeds, rays, and summer haze.  A light, crisp ale for mowing lawns, hitting lazy fly balls, and communing with nature, Hocus Pocus is offered up as a summer sacrifice to clodless days.', add_user=None, last_mod=None)

In [6]:
# Define a specific funtion to map beer names
@F.udf(returnType=StringType())
def revert_cap_name(name: str):
    return name[::-1].upper()


df_beers.withColumn("reverse_capitalized", revert_cap_name(F.col("name"))).select("name", "reverse_capitalized").show()

[Stage 4:>                                                          (0 + 1) / 1]

+--------------------+--------------------+
|                name| reverse_capitalized|
+--------------------+--------------------+
|         Hocus Pocus|         SUCOP SUCOH|
| 2010-07-22 20:00:20| 02:00:02 22-70-0102|
|   Grimbergen Blonde|   EDNOLB NEGREBMIRG|
|Widdershins Barle...|ENIWYELRAB SNIHSR...|
|             Lucifer|             REFICUL|
|              Bitter|              RETTIB|
|       Winter Warmer|       REMRAW RETNIW|
|Winter Welcome 20...|8002-7002 EMOCLEW...|
|       Oatmeal Stout|       TUOTS LAEMTAO|
|     Espresso Porter|     RETROP OSSERPSE|
|     Chocolate Stout|     TUOTS ETALOCOHC|
|Hitachino Nest Re...|WERB REGNIG LAER ...|
|         JuJu Ginger|         REGNIG UJUJ|
|      The Kidd Lager|      REGAL DDIK EHT|
|      Imperial Stout|      TUOTS LAIREPMI|
|Oak-Aged Belgian ...|LEPIRT NAIGLEB DE...|
|         Ultrablonde|         EDNOLBARTLU|
|  Wiesen Edel Weisse|  ESSIEW LEDE NESEIW|
|    Old Foghorn 2001|    1002 NROHGOF DLO|
|           Framboise|          

                                                                                

## Observations
Que remarque-t-on tout de suite ?

# Uses cases

# UC-1 : description data

- Q1: Combien y a-t-il de bières dans la DB ?
- Q2: Top10 brasseries les plus représentées avec le nombre de bière par brasserie ?
- Q3: Top10 des bières les plus fortes (ABV) en France ?
- Q4: Par pays, nombre de brasseries qui proposent des bières de type `Porter` et ABV moyen de celles-ci ?
- Q5: Mediane du nombre de bière par pays ?

In [7]:
df_beers = spark.read.csv("/datasets/csv/beers.csv", header=True)
df_breweries = spark.read.csv("/datasets/csv/breweries.csv", header=True)

In [8]:
%%time 
n_beers = df_beers.count()
print(f"Q1: {n_beers} dans la DB")

Q1: 7060 dans la DB
CPU times: user 2.67 ms, sys: 323 μs, total: 2.99 ms
Wall time: 663 ms


In [9]:
%%time
print("Q2")
dd = (df_beers
      .join(df_breweries, on=df_beers.brewery_id == df_breweries.id)
      .groupby("country")
      .count()
      .sort(F.col("count").desc())
      .limit(10)
)
dd.show()

Q2


[Stage 11:>                                                         (0 + 1) / 1]

+--------------+-----+
|       country|count|
+--------------+-----+
| United States| 4552|
|       Belgium|  331|
|       Germany|  302|
|United Kingdom|  210|
|        Canada|  156|
|   Netherlands|   29|
|   Switzerland|   25|
|       Austria|   25|
|     Australia|   24|
|        Norway|   22|
+--------------+-----+

CPU times: user 7.49 ms, sys: 478 μs, total: 7.97 ms
Wall time: 1.78 s


                                                                                

In [10]:
%%time
# Q3

@F.udf(returnType=FloatType())
def safe_cast_to_float(str_float: str):
    return float(str_float)

df_beers_brewers = (
    df_beers
    .join(df_breweries.withColumnRenamed("name", "brewer_name"), on=df_beers.brewery_id == df_breweries.id)
).cache()

print("Q3")
dd = (df_beers_brewers
      .filter(F.col("country") == F.lit("France"))
      .withColumn("abv_float", safe_cast_to_float(F.col("abv")))
      .sort(F.col("abv_float").desc())
      .select(["name", "abv_float", "country"])
      .limit(10)
)
dd.show()

Q3


24/10/14 07:50:01 WARN SparkStringUtils: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.
[Stage 15:>                                                         (0 + 1) / 1]

+--------------------+---------+-------+
|                name|abv_float|country|
+--------------------+---------+-------+
|           Belzebuth|     13.0| France|
|Gavroche French R...|      8.5| France|
|             3 Monts|      8.5| France|
|                Yeti|      8.0| France|
|      Jenlain Blonde|      7.5| France|
|              Blonde|      7.5| France|
|   Les Sans Culottes|      7.0| France|
|           Framboise|      6.0| France|
|Jenlain St Druon ...|      6.0| France|
|Castelain St.Aman...|      5.9| France|
+--------------------+---------+-------+

CPU times: user 10.7 ms, sys: 4.27 ms, total: 14.9 ms
Wall time: 2.35 s


                                                                                

In [11]:
%%time
print("Q4")
df_style = spark.read.csv("/datasets/csv/styles.csv", header=True)
target_style_id = df_style.filter(F.lower(F.col("style_name")) == "porter").select(F.col("id").alias("style_id"))
dd = (
    df_beers_brewers
    .join(target_style_id, how="inner", on="style_id")
    .withColumn("abv_float", safe_cast_to_float(F.col("abv")))
    .select(["name", "brewer_name", "abv_float", "country"])
    .groupby("country")
    .agg(F.avg("abv_float").alias("avg_abv"), F.countDistinct("brewer_name").alias("n_brewer_having_porter"))
    .show()
)

Q4
+--------------+------------------+----------------------+
|       country|           avg_abv|n_brewer_having_porter|
+--------------+------------------+----------------------+
|        Russia|               7.0|                     1|
|        Sweden|               5.5|                     1|
|       Germany| 7.099999904632568|                     1|
| United States|2.3305555541291194|                   216|
|     Lithuania| 6.800000190734863|                     1|
|        Norway|               7.0|                     1|
|       Denmark|               8.0|                     1|
|   Switzerland|               4.5|                     1|
|        Canada|               0.0|                     5|
|Czech Republic|               8.0|                     1|
|         Japan|               0.0|                     1|
|        Poland| 8.300000190734863|                     1|
|     Australia|               0.0|                     1|
|United Kingdom|3.9500000136239186|                  

In [12]:
dd = (
    df_beers_brewers
    .groupby("country")
    .count()
)
dd.cache()

DataFrame[country: string, count: bigint]

In [13]:
%%time
print("Q5:", dd.agg(F.median("count")).first()[0])



Q5: 3.0
CPU times: user 15.2 ms, sys: 5.4 ms, total: 20.6 ms
Wall time: 5.87 s


                                                                                

Voyons la différence de vitesse avec une version Numpy local

In [14]:
obs = dd.toPandas()

                                                                                

In [15]:
%%time
print("Q5 version local via Numpy:", np.median(obs["count"]))

Q5 version local via Numpy: 3.0
CPU times: user 1.64 ms, sys: 209 μs, total: 1.85 ms
Wall time: 1.71 ms


# UC-2 : préparer un dataset de ranking 
Tout moteur de recherche/search-engine - **SE** - nécessite de la configuration ... beaucoup de configuration. Une des configuration très orientée "data" est le calcul que l'index doit opérer pour scorer chaque réponse possible face à une requête. L'apprentissage statistique de ce score s'appelle *Learning to Rank*  - **LTR** - et nécessite des connaissances poussées en machine learning. 

Cette tâche LTR se base sur les *feedbacks implicites* des utilisateurs face au moteur de recherche. Commençons par un exemple. Quand vous cherchez un objet sur LeBonCoin, vous laissez plusieurs informations *implicites* sur votre perception des résultats proposés : les item sur lesquels vous avez cliqués bien sûr mais également ceux que vous avez probablement *vu* sans cliquer dessus ... Ces "vues sans clics" sont une précieuse information implicite sur les jugement que vous avez porté aux résultats proposés. Pour ce TP nous nous limiterons à ce concept de "vu x click" mais il est possible d'aller plus loin (dwell-time, hierarchisation des interactions explicites, ...). 

On appelle *Search Engine Results Page* - **SERP** - la liste des résultats classés par un SE. Un document qui figure dans les résulats d'une recherche a donc une position (son rang) au sein de la **SERP**.

Exemple, où :
- `query` est la recherche réalisée par un user et qui a débouché sur une SERP
- `clicked_id` : l'id de la bière cliquée par le user
- `user_id` l'id de l'utilisateur (simplifions en disant que c'est même l'id d'une recherche) : permet de retrouver tous les résultats proposés dans **une** recherche
- `id_in_serp` : l'id d'une bière figurant dans la SERP
- `pos_in_serp` : la position/le rang de la bière `id_in_serp` dans la SERP issue de la recherche 

In [16]:
df_pref = spark.read.csv("/datasets/beers_feedback.csv", header=True, inferSchema=True)
df_pref.limit(3).show()

[Stage 36:>                                                         (0 + 1) / 1]

+-----------+----------+--------------------+----------+-----------+
|      query|clicked_id|             user_id|id_in_serp|pos_in_serp|
+-----------+----------+--------------------+----------+-----------+
|fruity sour|      4442|ecfce536-7fc5-11e...|      4442|          1|
|fruity sour|      4442|ecfce536-7fc5-11e...|       475|          2|
|fruity sour|      4442|ecfce536-7fc5-11e...|       481|          3|
+-----------+----------+--------------------+----------+-----------+



                                                                                

Un travail préliminaire au LTR est la constitution d'un dataset qui permet d'aggréger ces feedbacks laissés par tous les utilisateurs ayant réalisé la même query. Chacun a vu et cliqué selon ses propres impressions de pertinence et il convient de "moyenner" tout cela pour obtenir des appréciations globales. L'objectif d'un tel dataset est de pouvoir lister des exemples de triplets `(query, document, note)` qui permet de savoir que face à une *query* `milky stout low bitterness`, un *document* `Super bitter beer brewed with organic roasted barley and chocolate` aura une pertinence de *1/4* (arbitraire). 

Implémenter le modèle d'agrégation de feedback "cascade model" [1] (pour la culture, **inutile d'avoir lu l'article** pour le TD) qui propose une approche pragmatique pour obtenir ces données. La méthode est la suivante :
- pour chaque recherche utilisateur:
    - étudier la position de l'id cliqué dans la SERP - soit `clicked_pos_in_serp` cette information
    - Considérer que tout doc situés "au-dessus dans la SERP" (càd quand `pos_in_serp <= clicked_pos_in_serp`) avait été vu par l'utilisateur
    - Récapituler tous ces documents "vus et cliqués" et "vus mais pas cliqués"
- Pour chaque recherche et bière cliquée (`clicked_id`), calculer la "probabilité de clic sachant qu'elle a été vue", càd le nombre de fois qu'elle a été cliquée divisé par le nombre de fois où elle a été vue


[1] https://dl.acm.org/doi/abs/10.1145/1341531.1341545

In [17]:
# your code

# UC-3 : récupérer les docs qui parlent d'un mot

Peut-on utiliser SQL pour réaliser un mini moteur de recherche ? Pour différentes requêtes (`query` en anglais) textuelles très simples à base de mot-clef, retrouver les bières qui semblent répondre à la demande. Exemples :
- trouver les bières ou les brasseries qui parlent de bières "fine"
- idem pour "juicy"
- idem pour "genuine"
- idem pour les bières mâturées dans des "oak cask" (fûts en chêne) -> combien y en a-t-il ? $N_1$
   - idem pour les bières qui évoquent uniquement "cask" -> combien y en a-t-il ? $N_{1,1}$
   - idem pour celles ne parlant que de "oak" -> combien y en a-t-il ? $N_{1,2}$
- idem pour les bières qui évoquent "oak" et "cask" -> combien y en a-t-il ? $N_{2}$

In [18]:
# your code

# UC-4 : vectorisation des description des bières
Préparer le recours à un service de vectorisation qui permettra de convertir la connaissance sur une bière en un vecteur numérique. Ce vecteur permet de sythétiser mathématiquement l'information disponible sur une bière et sa brasserie et pourra être réutilisé plus tard dans un moteur de recherche.
à faire :
- Préparer une description la plus complète possible pour chaque bière
- envoyer ces descriptions une à une via un appel HTTP sur Jina (voir instruction plus bas)

**Découpez le travail** : chacun travaillera sur un sous-ensemble de bières selon l'`id` de chaque bière `beers.id`. 
Vous êtes 12, je propose donc la répartition suivante :
- ADAM.LUCAS --> s'occuper des `beers.id` égaux à 0 modulo 12
- ALIEINIK.OLHA --> s'occuper des `beers.id` égaux à 1 modulo 12
- ARNOUT.FABRICE --> s'occuper des `beers.id` égaux à 2 modulo 12
- BEDIER.DORIANE --> s'occuper des `beers.id` égaux à 3 modulo 12
- CASTRO.MOUCHERON --> s'occuper des `beers.id` égaux à 4 modulo 12
- COLIN.KEVIN --> s'occuper des `beers.id` égaux à 5 modulo 12
- FRASELLE.NADEGE --> s'occuper des `beers.id` égaux à 6 modulo 12
- KUKSA.OLEKSANDRA --> s'occuper des `beers.id` égaux à 7 modulo 12
- LOPES.VAZ.ALEXIS --> s'occuper des `beers.id` égaux à 8 modulo 12
- REITER.ROMAIN --> s'occuper des `beers.id` égaux à 9 modulo 12
- RICHIER.MARCUS --> s'occuper des `beers.id` égaux à 10 modulo 12
- VINOT.MATHIEU --> s'occuper des `beers.id` égaux à 11 modulo 12

## Service de vectorisation Jina
Nous allons faire appel à un service de vectorisation externe [https://jina.ai](https://jina.ai) qui propose gratuitement 1M token de vectorisation. 
Quand vous voudrez vectoriser un texte, suivez la doc de [https://jina.ai/embeddings/](https://jina.ai/embeddings/). 

Nous utiliserons **TOUS le MÊME modèle d'embedding** : `jina-embeddings-v2-base-en` ! Faites donc attention à appeler le bon

Essayons de construire d'avoir tous le même schéma de texte à vectoriser :
`the beer BEER_NAME from brewery BREWERY_NAME (BREWERY_DESCRIPTION) is defined as BEER_DESCRIPTION. Spec of the beer are: ABV=ABV_VALUE, IBU=IBU_VALUE, SRM=SRM_VALUE`

#### Instructions pour appeler le service Jina
En plus de la doc sur leur site, voici un snippet de code:

In [19]:
import requests

EMBEDDING_NAME = "jina-embeddings-v2-base-en"
url = 'https://api.jina.ai/v1/embeddings'

headers = {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer jina_85ba1ab9e5ff4017b3d216ebb8734f27xzJ9WyoYBFwqks9lOaNLHryw_Yyz'
}

sentences_to_vec = ["Hi i'm a student at Université de Lorraine", "This is big data workshop"]
data = {
    'model': EMBEDDING_NAME,
    'normalized': True,
    'embedding_type': 'float',
    'input': sentences_to_vec
}

response = requests.post(url, headers=headers, json=data)

Rappel de la classe `JinaEmbedder`:

In [None]:
import requests
from typing import List
import numpy as np
from rich.progress import track, Progress

def batched(iterable, batch_size=16):
    l = len(iterable)
    for ndx in range(0, l, batch_size):
        yield iterable[ndx:min(ndx + batch_size, l)]

class JinaEmbedder:
    
    URL = 'https://api.jina.ai/v1/embeddings'
    EMBEDDING_NAME = "jina-embeddings-v2-base-en"
    bearer_token = 'Bearer jina_85ba1ab9e5ff4017b3d216ebb8734f27xzJ9WyoYBFwqks9lOaNLHryw_Yyz'

    @staticmethod
    def http_json_to_vec(http_json: dict):
        return np.array(
            [
                sentence["embedding"]
                for sentence in http_json["data"]
            ]
        )

    @classmethod
    def _get_header(cls) -> dict:
        return {
            'Content-Type': 'application/json',
            'Authorization': cls.bearer_token
        }

    @classmethod
    def _embed_one_batch(cls, batch: List[str]) -> requests.Response:
        headers = cls._get_header()
        data = {
            'model': cls.EMBEDDING_NAME,
            'normalized': True,
            'embedding_type': 'float',
            'input': batch
        }
        
        return requests.post(cls.URL, headers=headers, json=data)

    @classmethod
    def embed(cls, str_to_vectorize: List[str] | str, batch_size=256) -> np.ndarray:
        if isinstance(str_to_vectorize, str):
            str_to_vectorize = [str_to_vectorize]

        embeddings = []
        with Progress() as progress:
            for i, batch in progress.track(enumerate(batched(str_to_vectorize, batch_size=batch_size))):
                progress.print(f"batch {i}...")
                response = cls._embed_one_batch(batch)
        
                if (sc:=response.status_code) != 200:
                    print("Warning ! Batch", i, "has status code", sc, "-> skipping")
                    embeddings.append(np.array([None]*len(batch)))
                else:
                    embeddings.append(JinaEmbedder.http_json_to_vec(response.json()))
        return np.vstack(embeddings)

In [20]:
# your code

# UC-5 : answer question in corpa

**Question difficile en Spark**

**Grandes lignes :** trouvons les documents qui répondent à une question. Exemple : à partir de la description vectorisée à UC-4 pour chaque bière, comment trouver les bières qui répondent à une description plus complète ? Exemple:
- "very bitter beer with smoky taste"
- "fruity sour - balanced sourness"
- "weird beer"

Voir la doc [Spark ML lib - feature extraction](https://spark.apache.org/docs/latest/api/python/reference/pyspark.mllib.html#feature) pour trouver des idées (TF-IDF, Word2Vec), ou utiliser le résultats de vos vectorisation de UC-4.

In [42]:
queries = ["very bitter beer with smoky taste", "fruity sour - balanced sourness", "weird beer"]

In [43]:
from pyspark.mllib.feature import HashingTF, IDF

In [44]:
df_corpus = (
    df_description
    .withColumn("to_vec", craft_to_txt_vectorize("beer_name", "brewer_name", "beer_text", "brewer_text", "abv", "ibu", "srm"))
    .repartition(2)
    .select("id", "to_vec")
)
df_corpus.limit(2).show()

[Stage 53:>                                                         (0 + 1) / 1]

+---+--------------------+
| id|              to_vec|
+---+--------------------+
|100|The rewery Nebras...|
|529|The rewery Brasse...|
+---+--------------------+



                                                                                

In [45]:
from pyspark.ml.feature import HashingTF, IDF

def create_tf_and_idf_from_corpus(df_corpus):
    tf = HashingTF(inputCol="tokenized", outputCol="raw_features")
    df = tf.transform(df_corpus.withColumn("tokenized", F.split("to_vec", " ")))
    idf = IDF(inputCol="raw_features", outputCol="features").fit(df)
    return tf, idf

def turn_to_tf_idf(df_docs, tf, idf):
    docs_tf = tf.transform(df_docs.withColumn("tokenized", F.split("to_vec", " ")))
    docs_tfidf = idf.transform(docs_tf)
    return docs_tfidf

In [46]:
# Pre compute TF and IDF
tf, idf = create_tf_and_idf_from_corpus(df_corpus)

                                                                                

In [49]:
# apply on corpus and queries
corpus_tfidf = turn_to_tf_idf(df_corpus, tf, idf)

queries_df = spark.createDataFrame(pd.DataFrame(data={"to_vec": queries}))
queries_tfidf = turn_to_tf_idf(queries_df, tf, idf)

In [50]:
# broadcast queries to every partitions
broadcast_queries_tfidf = spark.sparkContext.broadcast(queries_tfidf.select(["features", "tokenized"]).collect())

24/10/14 08:01:40 WARN DAGScheduler: Broadcasting large task binary with size 4.0 MiB
                                                                                

In [52]:

# Function to compute dot product
def compute_dot_product(doc_vec, query_vec):
    #if isinstance(doc_vec, SparseVector):
    doc_vec = doc_vec.toArray()
    #if isinstance(query_vec, SparseVector):
    query_vec = query_vec.toArray()
    return float(doc_vec.dot(query_vec))

# Register UDF for dot product
dot_product_udf = F.udf(compute_dot_product, DoubleType())

# Explode the broadcasted queries_df into rows
queries_rdd = spark.sparkContext.parallelize(broadcast_queries_tfidf.value)
queries_df_expanded = spark.createDataFrame(queries_rdd)

# Cross join docs_df with expanded queries_df
cross_joined_df = corpus_tfidf.alias("corpus").crossJoin(queries_df_expanded.alias("queries"))

                                                                                

In [53]:
# Apply the dot product UDF
result_df = cross_joined_df.withColumn(
    "dot_product",
    dot_product_udf(cross_joined_df["corpus.features"], cross_joined_df["queries.features"])
).cache()

# Show result
result_df.show()

24/10/14 08:01:53 WARN DAGScheduler: Broadcasting large task binary with size 4.0 MiB
24/10/14 08:01:55 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB

+----+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+------------------+
|  id|              to_vec|           tokenized|        raw_features|            features|            features|           tokenized|       dot_product|
+----+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+------------------+
| 100|The rewery Nebras...|[The, rewery, Neb...|(262144,[7058,760...|(262144,[7058,760...|(262144,[66208,12...|[very, bitter, be...|               0.0|
| 529|The rewery Brasse...|[The, rewery, Bra...|(262144,[7606,812...|(262144,[7606,812...|(262144,[66208,12...|[very, bitter, be...|               0.0|
| 686|The rewery Elysia...|[The, rewery, Ely...|(262144,[7606,187...|(262144,[7606,187...|(262144,[66208,12...|[very, bitter, be...|               0.0|
| 674|The rewery Big Ti...|[The, rewery, Big...|(262144,[1641,462...|(262144,[1641,462..

24/10/14 08:02:20 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB
                                                                                

In [54]:
result_df.sort("dot_product", ascending=False).limit(10).show()

24/10/14 08:02:20 WARN DAGScheduler: Broadcasting large task binary with size 4.1 MiB


+----+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+------------------+
|  id|              to_vec|           tokenized|        raw_features|            features|            features|           tokenized|       dot_product|
+----+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+------------------+
|5518|The rewery Sabmil...|[The, rewery, Sab...|(262144,[7058,760...|(262144,[7058,760...|(262144,[66208,12...|[very, bitter, be...|105.79780515834159|
|3602|The rewery Boston...|[The, rewery, Bos...|(262144,[336,1578...|(262144,[336,1578...|(262144,[16704,27...|[fruity, sour, -,...| 83.91526396115003|
|5171|The rewery Roy Pi...|[The, rewery, Roy...|(262144,[991,1581...|(262144,[991,1581...|(262144,[66208,12...|[very, bitter, be...| 78.46171430817284|
| 439|The rewery New Be...|[The, rewery, New...|(262144,[535,3456...|(262144,[535,3456..