# Construire un moteur de recherche d'emploi  

Compétences: c1 c2 c3 c4 c5 c20  
Keywords: Scraping, Scrapy, MongoDB, RSS, Flask, Open Data, client-serveur, URL, Requete HTTP  

## Description  

Construire un moteur de recherche d'emploi à partir de données bruts présentes sur le web et develloper une application client-serveur pour acceder aux données.

## Contexte  

Face à la montée du chômage systémique liée aux perturbations sur le marché du travail, les demandeurs d'emploi vont drastiquement augmenter et les emplois évoluer.
Cela va occasionner un fort besoin en recherche d'emploi.  
  
Dans ce contexte, M. Pontier CEO de la société FlashBot cherche à développer un moteur de recherche d'emploi et à fait appel à votre expertise.  
Il cherche à construire un système permettant d'agréger des offres d'emploi à partir de données disponibles sur l'Internet, à la fois rapidement et de manière innovante.  
L'objectif étant de faciliter la recherche d'emploi et de maximiser les chances qu'un demandeur d'emploi trouve une offre adaptée pour lui.  
  
Plusieurs pateformes existantes offrent des API permettant de rechercher des offres d'emplois. Cependant les données sont dispersées, hétérogènes et ne permettent pas de faire de l'offre adaptée.  

Aujourd'hui M. Pontier cherche à exploiter un **flux RSS** à partir du lien suivant : http://rss.jobsearch.monster.com/rssquery.ashx?q=big+data  
  
La mission consiste à exploiter ce lien pour récolter le maximum de fiches d'emploi et les stocker en BDD afin de les rendre accessibles et faciliter l'ajout de nouveaux documents.
Pour ce faire le client suggère l'utilisation d'une BDD **NoSQL** orientée document qui s'appelle MongoDB dans le but de faciliter :  
* Ajout de nouveaux documents avec des formats différents  
* Recherche d'informations textuelles  
  
Enfin, le client souhaite créer une application client-serveur permettant à un utilisateur de rechercher les offres d'emploi dans sa BDD à partir de requetes **HTTP**.  
  
En résumé, le client vous demande de designer et implémenter un systéme avec les caractéristiques suivantes :  
* Un bot/programme en python pour récolter les données et les envoyer à la BDD  

**Attention ! Limitez votre nombre de requêtes pour la phase de test pour ne pas vous faire bannir du site cible !!!**  

* Pour chaque document vous devez créer une entrée dans la BDD orientée document MongoDB avec tout les champs présents (titre, description du poste, etc ...)  
* Chaque document inséré en BDD devra avoir un champ correspondant au terme de recherche utilisé lors de la requête au flux RSS  
* Le nombre d'éléments dans la BDD doit être optimisé, c'est à dire que les doublons doivent être ecartés  
* Une application client-serveur pour permettre de faire des requêtes à la BDD : page permettant de faire une recherche textuelle sur l'ensemble des documents récupérés et de retourner la liste des 10 premiers documents les plus pertinents  

### Bonus Tech  

* Améliorer le retour d'une requête client en affichant le nombre de documents qui ont matché une recherche  
* Créer une nouvelle route dans votre serveur/backend pour afficher les statistiques de votre BDD depuis une requête client :  
    * nombre total de documents  
    * nombre total de mots uniques dans l'ensemble des documents  
    * nombre total de mots non uniques  
* Créer un fichier requirements.txt permettant d'installer automatiquement les dépendances python  

### Bonus Data  

* Comment peut-on mesurer la pertinence pour le classement des documents ? Comment est-elle mesurée ?  
* Afficher la distribution (histogramme) de la répartition des offres d'emploi par métier  
* Quels sont les 20 mots les plus fréquents dans les offres d'emplois ? (En dehors des **stopwords**) Quels sont les 10 bi-gram les plus fréquents ?  
* Combien d'offres d'emploi différentes avez-vous pu trouver sur Monster ? Pouvez-vous augmenter ce nombre avec un lexique différent ?  

## Ressources  

MongoDB :  
* https://www.mongodb.com/  
* https://docs.mongodb.com/  

Scrapy :  
* https://scrapy.org  
* https://docs.scrapy.org  

## Livrables  

Un git par apprenant avec les éléments suivants :  
1. Le bot, qui doit pouvoir être lancé pour alimenter la base de données.
2. Le serveur, qui doit pouvoir être lancé et servir (ie répondre) à des requetes HTTP.
3. Un fichier Readme.md qui décrit succinctement votre code et explique comment lancer votre programme, les éventuels arguments et comment effectuer les requêtes de recherche.

## Modalités pédagogiques  

* Durée = 3 jours  
* Collaboration en trinôme  


## Travail collaboratif sous Kanban Flow

https://kanbanflow.com/board/Sr329EA  


## MongoDB Installation with docker

```
sudo apt install docker.io
mkdir -p ~/data-mongodb
docker run -d -p 27017:27017 -v ~/src/data/mongo-docker:/data/db --name mongodb mongo:4.2 
docker exec -it mongodb mongo
```

## MongoDB server start

`sudo docker start mongodb`

## Start the MongoDB client

`sudo docker exec -it mongodb mongo`

## Create MonsterDB database in MongoDB

`> show dbs`

admin   0.000GB

config  0.000GB

local   0.000GB

`> use MonsterDB`

switched to db MonsterDB

`> show dbs`

MonsterDB  0.000GB

admin      0.000GB

config     0.000GB

local      0.000GB

## Create ficheJob collection in MonsterDB database

`> db.createCollection("ficheJob")`

{ "ok" : 1 }

## Insert a document in ficheJob collection

```
> db.ficheJob.insert(
... {
...     title : "Big Data Developer",
...     description : "FL-Tampa, Our client, one of the largest financial services firms, is seeking a Big Data Developer Location: Tampa, FL Position Type: Contract Job Responsibilities: -Gather various data points from multiple sources within and load to big data Hadoop solution. -Transform data into usable form per user requirements. -Implement proper controls to protect integrity of data and limit use of sensitive data to una",
... 
...     link: "http://jobview.monster.com/Big-Data-Developer-Job-Tampa-FL-US-221978898.aspx",
...     guid: "221978898",
...     pubDate: "Thu, 12 Nov 2020 02:31:23 GMT"
...   }
...  )
```

WriteResult({ "nInserted" : 1 })


In [1]:
# Pymongo installation & import for python exchange with MongoDB
import pymongo
from pymongo import MongoClient

client = MongoClient()

# Connexion to MonsterDB in MongoDB
db = client.MonsterDB
collection = db.ficheJob
collection

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'MonsterDB'), 'ficheJob')

In [2]:
import pprint

# What are the documents in collection "ficheJob" of MonsterDB
pprint.pprint(collection.find_one())

{'_id': ObjectId('5fb54b0414d931c591f7beb9'),
 'description': ['VA-Herndon, Big Data Engineer JobDiva # 20-07366 Find your '
                 'next opportunity in Financial Services! Eclaro is looking '
                 'for a Big Data Engineer for our client in Herndon, VA. '
                 'Eclaro’s client is a leading housing lender, providing '
                 'financing for private and commercial for many Americans. If '
                 'you’re up to the challenge, then take a chance at this '
                 'rewarding opportunity! Responsibilities: Support the team in '
                 'the writi'],
 'guid': ['222124629'],
 'link': ['http://jobview.monster.com/Big-Data-Engineer-Job-Herndon-VA-US-222124629.aspx'],
 'pubDate': ['Tue, 17 Nov 2020 14:01:46 GMT'],
 'query': 'machine learning',
 'title': ['Big Data Engineer']}


In [3]:
db.list_collection_names()

['collection', 'ficheJob']

In [4]:
# Wget installation & import for downloading RSS query of monster.com
import wget

url = 'http://rss.jobsearch.monster.com/rssquery.ashx?q=big%20data'
flux_RSS = wget.download(url)
flux_RSS

'rssquery.ashx'

## Scrapy installation  

* https://docs.scrapy.org/en/latest/intro/tutorial.html  

## Monster_scrapy project creation  

`scrapy startproject Monster_scrapy` 


## Flashbot integration into Monster_scrapy project / spiders folder

```
-- -*- coding: utf-8 -*-
import scrapy
from scrapy import Request

from pprint import pprint


class FlashbotSpider(scrapy.Spider):
    name = 'flashbot'
    allowed_domains = ['rss.jobsearch.monster.com']

    # Start the crawler at this URLs
    start_urls = ['file:///home/olivier/Documents/Briefes/20201112_Brief_Moteur_Recherche_Emploi/rssquery.ashx']
    # start_urls = ['http://rss.jobsearch.monster.com/rssquery.ashx?q={query}']

    #thesaurus = ["machine learning", "machine", "learning", "big data", "big", "data"]
    thesaurus = ["machine learning"]

    LOG_LEVEL = "INFO"

    def parse(self, response):

        # We start with this url
        url = self.start_urls[0]

        # Build and send a request for each word of the thesaurus
        for query in self.thesaurus:
            target = url.format(query=query)
            print("fetching the URL: %s" % target)
            if target.startswith("file://"):
                r = Request(target, callback=self.scrapit, dont_filter=True)
            else:
                r = Request(target, callback=self.scrapit)
            r.meta['query'] = query
            yield r

    def scrapit(self, response):
        query = response.meta["query"]

        # Scrap the data
        for doc in response.xpath("//item"):
            # Base item with query used to this response
            item = {"query": query}

            item["title"] = doc.xpath("title/text()").extract()
            item["description"] = doc.xpath("description/text()").extract()
            item["link"] = doc.xpath("link/text()").extract()
            item["pubDate"] = doc.xpath("pubDate/text()").extract()
            item["guid"] = doc.xpath("guid/text()").extract()
            #pprint(item, indent=2)
            print("item scraped:", item["title"])
            yield item
```

## Contraintes M. Pontier  

les features suivantes dans le bot :  

* les bot doivent avoir un "dowload delay" de 200 millisecondes  

-- settings.py  
-- Configure a delay for requests for the same website (default: 0)  
-- See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay  
-- See also autothrottle settings and docs  

DOWNLOAD_DELAY = 0.2 # 200 ms of delay  

* les bots doivent respecter le robots.txt  

-- settings.py  
-- Obey robots.txt rules  

ROBOTSTXT_OBEY = True  

* les bots doivents se faire passer pour un Browser/navigateur Opera  

-- settings.py  
-- Crawl responsibly by identifying yourself (and your website) on the user-agent  

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36 OPR/72.0.3815.320'  


## Flashbot execution  

`scrapy crawl flashbot -o rss_items.json` 

-- Returned items are stored in rss_items.json file  


In [5]:
import json

with open('./Monster_scrapy/rss_items.json') as f:
    file_data = json.load(f)

for ident in file_data:
    guid = ident ["guid"] [0]
    rest = collection.find({"guid": guid})
    if rest.count() == 0:
        collection.insert_one(ident)
        print("document inserted", ident ["title"])


  if __name__ == '__main__':


In [6]:
collection.count_documents({})

25

## Text search in MongoDB shell

`> db.ficheJob.createIndex( { name: "text", description: "text" } )`

{
	"createdCollectionAutomatically" : false,
	"numIndexesBefore" : 1,
	"numIndexesAfter" : 2,
	"ok" : 1
}

`> db.ficheJob.find( { $text: { $search: "hadoop" } } )`

{ "_id" : ObjectId("5fb53d9bcac6d399ed37be2f"), "query" : "machine learning", "title" : [ "Big Data Administrator" ], "description" : [ "DC-Washington, ALTA IT Services is seeking a Sr. Big Data Administrator with at least 7 years of experience. Please contact ebrient@altaits.com Hadoop Administrator Contract ​​​​​​​Washington DC Tasks: • Lead and provide technical solutions and expertise for project teams and customers • Provide daily technical support for the Building environments and Enterprise Data Platforms (EDP) • Analyze, recommend and imp" ], "link" : [ "http://jobview.monster.com/Big-Data-Administrator-Job-Washington-DC-US-221174788.aspx" ], "pubDate" : [ "Tue, 17 Nov 2020 08:32:57 GMT" ], "guid" : [ "221174788" ] }
{ "_id" : ObjectId("5fb53d9bcac6d399ed37be32"), "query" : "machine learning", "title" : [ "Big Data (Hadoop) Developer" ], "description" : [ "NJ-Newark, Big Data (Hadoop) Developer Location: Newark, NJ Duration: 6+ month contract to hire Interview process: Phone and WebEx Req. # 20-01275 Contact: Brian Anderson D. 952-562-4101 Our client has an opening for a Data Engineer/Data Wrangler who will be responsible for delivering data on-prem and Cloud applications. The ideal candidate would be responsible for developing and delivering Data Lake solutio" ], "link" : [ "http://jobview.monster.com/Big-Data-Hadoop-Developer-Job-Newark-NJ-US-221298399.aspx" ], "pubDate" : [ "Tue, 17 Nov 2020 00:05:59 GMT" ], "guid" : [ "221298399" ] }
{ "_id" : ObjectId("5fb53d9bcac6d399ed37be38"), "query" : "machine learning", "title" : [ "Senior Data Engineer - Remote" ], "description" : [ "CA-Pasadena, Job Title: Senior Data Engineer - Remote Job Location: REMOTE Job Duration: Direct-hire, Full-Time Requirements: Python, Big Data tools, Hadoop, Spark, AWS, Kubernetes, Docker, ETL Pipelines Must currently have or being willing/able to obtain top secret clearance TS/SCI We are a leading technology and analytics firm, merging the newest tools in AI, Machine Learning, and Big Data to provide new and" ], "link" : [ "http://jobview.monster.com/Senior-Data-Engineer-Remote-Job-Pasadena-CA-US-222108738.aspx" ], "pubDate" : [ "Tue, 17 Nov 2020 05:21:13 GMT" ], "guid" : [ "222108738" ] }
