# Présentation des outils

###### Deux outils pour réaliser le Web Scrapping: Beautifulsoup et request
#### -BeautifulSoup : 
c'est ube bibliothèque Python pour l'extraction des données de documents HTML et XML.Il permet une
une navigation facile dans les structures de pages.
#### -Requests :
C'est aussi une bibliothèque python pour effectuer les requêtes HTTP. Il est utilisé pour récupérer le
contenu de la page web

### Importation des packages

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

## Objectif du projet

Dans ce projet, je souhaite préparer la base de donnée pour un système de recommandation  des produits immédiatement disponible en utilisant du
webscrapping des données du site Veditex (https://www.veditex.com). Pour ce faire, je vais récupérer les informations suivantes à partir du site :

1. **URL du produit** : L'URL du produit pour accéder à la page cible.
2. **Nom** : Le nom unique du produit.
3. **Marque** : La marque du produit.
4. **Prix** : Le prix du produit.
5. **Disponibilité** : La disponibilité du produit(immédiat ou dans qwuelqwues jours.

## Web scraping

In [2]:
#url du site
url="https://www.veditex.com/"

In [3]:
#fonction get_soup pour récupérer le contenu de la page web 
def get_soup(url):
    page_source = requests.get(url)
    soup = BeautifulSoup(page_source.content,'html.parser')
    return soup

In [4]:
#récupération des urls des diférents produits
def get_url_produits(url):
    soup = get_soup(url)
    all_elt = soup.find_all("div",class_="MENU-DEROULANT")
    urls = []
    for elt in all_elt:
        url = elt.find('a')['href']
        urls.append(url)
    return urls

In [5]:
def get_produits(url):
    """
    Cette founction récupère les détails des produits disponible sur le site.

    Paramètres : l'url du site  Veditex pour différents produits(hygiene,chaussure,etc...)

    Retourne :
        data : Un dataframe contenant les détails des produits qui sont le nom du produit, sa amrque,
        son prix et sa disponibilité.
    """
    soup = get_soup(url)
    #récupération du bloc des produits
    elements=soup.findAll("div",class_="itemProduit itemVertical col col-12")
    marques=[]
    noms=[]
    prixs=[]
    disponibilites=[]
    for elt in elements:
        #récupération de la marque de chaque produit
        marque= elt.find("span",class_="marque_nom").text
        #récupération du nom de chaque produit
        nom=elt.find("a",class_="lienPage").text
        #récupération du de chaque produit
        prix=elt.find("span",class_="prixHT").text.strip("HT")
        #récupération de la disponibilité de chaque produit
        disponibilite=elt.find("span",class_="bulle_dispo").text
        marques.append(marque)
        noms.append(nom)
        prixs.append(prix)
        disponibilites.append(disponibilite)
    data=pd.DataFrame({"Noms":noms,"Marques":marques,"Prix":prixs,"Disponibilites":disponibilites})
    return data

In [6]:
#appel de la fonction get_produits pour récupérer les données des produits d'hygiene
url_hygiene="https://www.veditex.com/Catalogue/Hygiene/c472.html"
data=get_produits(url_hygiene)

In [7]:
#cette fonction récupère les produits contenus sur toutes les pages
def get_reste_data(page_size=4,num_page=50):
    data=pd.DataFrame()
    #num_page=[24,48]
    for i in range(0,num_page,page_size):
        url=f"https://www.veditex.com/Catalogue/Hygiene/c472-ProduitList-{i}-{page_size}.html"
        df=get_produits(url)
        data_final=pd.concat([data,df])
    return data_final.reset_index().drop("index",axis=1)

In [8]:
#appel de la fonction get_reste_data pour récupérer les données des produits d'hygiene
data_final=get_reste_data(page_size=150,num_page=60)

In [9]:
data_final

Unnamed: 0,Noms,Marques,Prix,Disponibilites
0,Masques pliable FFP2 [VR202F-03C],VEDITEX,"4,00 €",Disponible immédiatement
1,GEL HYDROALCOOLIQUE [SEPGEL],VEDITEX,"6,80 €",Disponible immédiatement
2,Masque à usage unique FFP2 x50 [LEEMED],COFRA,"5,23 €",Disponible immédiatement
3,Chaussure de sécurité basse S3 [ONYX],UNIWORK,"35,84 €",Disponible immédiatement
4,Chaussure de sécurité PLUTONE - S2 SRC [PLUTONE],UNIWORK,"27,52 €",Disponible immédiatement
...,...,...,...,...
66,Chaussure de sécurité antibactérienne X-LIGHT ...,ABEBA,"71,86 €",Disponible sous 8-10 jours
67,Chaussure de sécurité basse avec fermeture vel...,ABEBA,"81,87 €",Disponible sous 8-10 jours
68,Chaussure de sécurité basse antibactérienne AN...,ABEBA,"81,87 €",Disponible sous 8-10 jours
69,Sabot sans sécurité DYNAMIC - OB A E FO SRC ES...,ABEBA,"46,30 €",Disponible sous 8-10 jours


In [10]:
#appel de la fonction get_produits pour récupérer les données des produits des vetement de travail
url_vetement="https://www.veditex.com/Catalogue/vetement-travail/c157.html"
data=get_produits(url_vetement)
data

Unnamed: 0,Noms,Marques,Prix,Disponibilites
0,T-shirt de travail homme manches courtes [1943],PIONIER,"16,30 €",Disponible immédiatement
1,T-shirt manches courtes homme col rond GRAPHIC...,DIADORA,"15,00 €",Disponible immédiatement
2,T-shirt de travail col rond SPOTROK [3559/3560],MOLINEL - MUZELLE,"14,30 €",Disponible sous 8-10 jours
3,T-shirt homme manches courtes col rond CLASSIC...,CLIQUE,"6,26 €",Disponible immédiatement
4,T-shirt homme col rond manches courtes [029340...,CLIQUE,"7,73 €",Disponible immédiatement
5,T-shirt femme manches courtes col rond CLASSIC...,CLIQUE,"3,98 €",Disponible immédiatement
6,T-shirt femme col rond coton premium [029341],CLIQUE,"7,52 €",Disponible immédiatement
7,Gilet sans manches haute visibilité - CLASSE 2...,PORTWEST,"2,80 €",Disponible immédiatement
8,Gilet haute visibilité double ceinture - CLASS...,PORTWEST,"2,80 €",Disponible immédiatement
9,Parka haute visibilité - CLASSE 3 [70410],COVERGUARD,"40,20 €",Disponible immédiatement


In [None]:
#appel de la fonction get_produits pour récupérer les données des chaussures
#url_chaussure="https://www.veditex.com/Catalogue/chaussures-securite/c59.html"
#data=get_produits(url_chaussure)

In [None]:
#appel de la fonction get_produits pour récupérer les données des produits de EPI
#url_epi="https://www.veditex.com/Catalogue/epi/c369.html"
#data=get_produits(url_epi)

In [None]:
#appel de la fonction get_produits pour récupérer les données des produits d'acceswsoires
#url_accesoie="https://www.veditex.com/Catalogue/accessoires-travail/c347.html"
#data=get_produits(url_accessoire)