## Case study: étude de l'offre et du positionnement de Freeglisse

**_Contexte_**

Olist aimerait désormais **augmenter son offre sur le segment du sport**, en incitant des marketplaces d'articles de sport à rejoindre la plateforme. Pour affiner sa stratégie vis-à-vis de ce type de vendeurs, Olist a besoin **d'analyser leur offre et leur positionnement**, pour mieux connaitre le marché sur lequel ils évoluent.

En particulier, les Sales d'Olist s'intéressent à **FreeGlisse**, une plateforme de vente en ligne de matériel de ski d'occasion. Leur ojectif est d'emmagasiner le plus d’informations possibles à partir de ce que FreeGlisse affiche sur son site web : https://freeglisse.com/fr/12-ski-occasion
<br><br>

**_Instructions_**

Olist voudrait se concentrer dans un premier temps sur le segment des **skis**. Les informations à étudier incluent : **le nombre d'annonces sur les skis**, les **prix** pratiqués, la **répartition de l’offre entre les différentes sous-catégories**, eventuellement la **profondeur des stocks** (= le nombre de produits disponibles, ou le nombre de tailles disponibles par produit), et tout ce que vous pensez qui serait **intéressant pour analyser le positionnement marché de FreeGlisse**.

Ces informations seraient d’autant plus intéressantes si elles étaient étudiées **par type de ski** (indiqué dans la Fiche Technique de chaque ski). N'hésitez pas à effectuer les regroupements qui vous semblent pertinents, à faire des analyses quantitatives et qualitatives, en utilisant **pandas** et en faisant de beaux **graphiques**. Pour les graphiques, vous utiliserez **Power BI**.

Côté technique, 2 compétences pourront être mises en oeuvre: le **crawling** entre les différentes pages du site, pour observer l’ensemble des offres de skis d’occasion (ici, pas besoin de selenium - des techniques plus simples seront possibles), et le **scraping des pages individuelles**, avec différentes infos à aller chercher.

Pour finir, l'objectif de ce cas est aussi de tirer de ces analyses des **insights business**, en particulier des **conclusions sur le positionnement commercial de FreeGlisse et les spécificités qu'il pourrait apporter à Olist**.
<br><br>

Pour extraire efficacement les informations des pages HTML, il est crucial de choisir les **bonnes méthodes de sélection** des éléments. Les méthodes **find()** et **find_all()** de BeautifulSoup sont couramment utilisées pour trouver des éléments dans un document HTML. Cependant, les méthodes **.select()** et **.select_one()** offrent une alternative plus **puissante et flexible**.

**_Présentation_**

En groupe, vous devrez **analyser les informations issues du scraping**, puis en fin de projet **présenter en environ 5 minutes** votre analyse à des Product Managers d'Olist (jurys de Databirdies), sous forme de **dashboard PowerBI**. L'essentiel est que la présentation soit **visuelle et intelligible par des stakeholders non-tech**.

### Utilité des Méthodes .select() et .select_one()

**.select():**

Cette méthode permet de sélectionner des éléments en utilisant des sélecteurs CSS, offrant ainsi une manière plus précise et flexible de cibler des éléments spécifiques dans le HTML

**.select_one():**

Cette méthode est similaire à .select(), mais elle ne retourne qu'un seul élément, le premier correspondant au sélecteur CSS fourni. C'est pratique lorsque vous savez qu'il n'y a qu'un seul élément correspondant au sélecteur ou lorsque vous souhaitez obtenir un élément spécifique sans avoir à parcourir une liste.

#### Avantages des Méthodes .select() et .select_one()

**_Flexibilité et Précision_**

Les sélecteurs CSS utilisés dans .select() permettent une sélection plus fine et plus flexible des éléments, surtout lorsque vous avez des structures HTML complexes.

**_Performances_**

Pour des opérations de sélection plus complexes ou spécifiques, .select() et .select_one() peuvent être plus performantes que find() et find_all(), car elles exploitent les sélecteurs CSS natifs qui sont optimisés pour ces tâches.

**_Syntaxe Moderne_**

L'utilisation des sélecteurs CSS est généralement plus intuitive et moderne, ce qui peut rendre le code plus lisible et facile à maintenir.

### C'est l'heure pour vous de scraper !

In [None]:
!pip install bs4



In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
page = requests.get("https://freeglisse.com/fr/12-ski-occasion")
page.status_code

200

In [None]:
soup = BeautifulSoup(page.content)

In [None]:
def remplir_nom_type_cat_niv() :
  liste_tags = soup.find_all('h2',{"class" :"h3 product-title"})
  for t in liste_tags :
      lien = t.find('a')["href"]# On va sur la page du produit
      p = requests.get(lien)
      s = BeautifulSoup(p.content)
      Nom = s.find('h1').get_text().strip()#On récupère son nom
      Noms.append(Nom)
      if "Pack" in Nom : #Pour les packs, la fiche technique est sur la page de base
        sous_tag = s.find('section',{"class":"product-features"}).find_all('dd')
        Type.append(sous_tag[0].get_text())
        Categorie.append(sous_tag[1].get_text())
        Niveau.append(sous_tag[2].get_text())
      else : # Pour les autres, il faut aller chercher l'onglet product details
        sous_tag = s.select_one('#product-details').find_all('dd')
        Type.append(sous_tag[0].get_text())
        Categorie.append(sous_tag[1].get_text())
        Niveau.append(sous_tag[2].get_text())


In [None]:
def remplir_prix() :
  tags = soup.find_all('span',{"class":"price"})
  for t in tags :
    Prix.append(t.get_text().strip()[:-2])


In [83]:
Noms = []
Prix = []
Type=[]
Categorie=[]
Niveau=[]

i = 0
while i <= 100 :
  remplir_prix()
  remplir_nom_type_cat_niv()
  print(f"Page {i} faite.")
# Récupérer le lien pour la page suivante
  lien = soup.find('a',{"class" : "next js-search-link"})
  if lien == None :
    break
  else :
    p = requests.get(lien["href"])
    soup = BeautifulSoup(p.content)
    i += 1


Page 0 faite.
Page 1 faite.
Page 2 faite.
Page 3 faite.
Page 4 faite.
Page 5 faite.
Page 6 faite.
Page 7 faite.
Page 8 faite.
Page 9 faite.
Page 10 faite.
Page 11 faite.
Page 12 faite.
Page 13 faite.
Page 14 faite.
Page 15 faite.
Page 16 faite.
Page 17 faite.
Page 18 faite.
Page 19 faite.
Page 20 faite.
Page 21 faite.
Page 22 faite.
Page 23 faite.
Page 24 faite.
Page 25 faite.
Page 26 faite.
Page 27 faite.
Page 28 faite.
Page 29 faite.
Page 30 faite.
Page 31 faite.
Page 32 faite.
Page 33 faite.
Page 34 faite.
Page 35 faite.
Page 36 faite.
Page 37 faite.
Page 38 faite.
Page 39 faite.
Page 40 faite.
Page 41 faite.
Page 42 faite.
Page 43 faite.
Page 44 faite.
Page 45 faite.
Page 46 faite.
Page 47 faite.
Page 48 faite.
Page 49 faite.
Page 50 faite.
Page 51 faite.
Page 52 faite.
Page 53 faite.
Page 54 faite.
Page 55 faite.
Page 56 faite.
Page 57 faite.
Page 58 faite.
Page 59 faite.
Page 60 faite.
Page 61 faite.
Page 62 faite.
Page 63 faite.
Page 64 faite.
Page 65 faite.
Page 66 faite.
Page 

In [84]:
dico={"Produit" : Noms, "Prix" : Prix, "Type" : Type, "Categorie" : Categorie, "Niveau" : Niveau}

In [85]:
df=pd.DataFrame(dico)
df.head()

Unnamed: 0,Produit,Prix,Type,Categorie,Niveau
0,Pack Complet Junior Rossignol Star Wars,7520,Piste,Junior,Débutant
1,Pack Complet Junior Dynastar Team Speed,8320,Piste,Junior,Loisir sport
2,Pack Complet Performant Rossignol Hero MTE,9600,Piste,Junior,Loisir sport
3,Pack Piste Complet Femme Wedze Cross 550,15520,Piste,Femme,Débutant
4,Pack complet occasion Junior Rossignol Hero Ju...,9120,Piste,Junior,Loisir sport


In [86]:
Marques = ['Zag','Marcel Livet','Dynamic','Movement','Line','Roxy','Scott','QEO','K2','Kastle','Rossignol','Dynastar','Wedze','Salomon', 'Lacroix','Fischer','Nordica','Blizzard', 'Elan','Volkl','Head','Atomic','Exonde','Tecnopro']

In [87]:
def trouve_marque(prod):
  for m in Marques:
    if m in prod:
      return m
    else:
      continue
  return 'Autre'

In [88]:
df['Marque']=df['Produit'].apply(trouve_marque)

In [89]:
df.head()

Unnamed: 0,Produit,Prix,Type,Categorie,Niveau,Marque
0,Pack Complet Junior Rossignol Star Wars,7520,Piste,Junior,Débutant,Rossignol
1,Pack Complet Junior Dynastar Team Speed,8320,Piste,Junior,Loisir sport,Dynastar
2,Pack Complet Performant Rossignol Hero MTE,9600,Piste,Junior,Loisir sport,Rossignol
3,Pack Piste Complet Femme Wedze Cross 550,15520,Piste,Femme,Débutant,Wedze
4,Pack complet occasion Junior Rossignol Hero Ju...,9120,Piste,Junior,Loisir sport,Rossignol


In [90]:
df.shape

(2354, 6)

In [91]:
df.to_csv('Data_Free_Glisse.csv',sep=';')