# Jour 11 - Olist x Freeglisse scraping case

<br>
<center>
<img src="https://res-2.cloudinary.com/crunchbase-production/image/upload/c_lpad,f_auto,q_auto:eco/h8ccwg5vhjcoqu1qfuwv" style="display:inline-block;" width=190>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img alt="Logo Freeglisse" src="https://freeglisse.com/img/ski-destock-logo-1569515072.jpg" width=250 style="display:inline-block;" >

## Case study: étude de l'offre et du positionnement de Freeglisse



**_Contexte_**

Olist aimerait désormais **augmenter son offre sur le segment du sport**, en incitant des marketplaces d'articles de sport à rejoindre la plateforme. Pour affiner sa stratégie vis-à-vis de ce type de vendeurs, Olist a besoin **d'analyser leur offre et leur positionnement**, pour mieux connaitre le marché sur lequel ils évoluent.

En particulier, les Sales d'Olist s'intéressent à **FreeGlisse**, une plateforme de vente en ligne de matériel de ski d'occasion. Leur ojectif est d'emmagasiner le plus d’informations possibles à partir de ce que FreeGlisse affiche sur son site web.
<br><br>

**_Instructions_**

Olist voudrait se concentrer dans un premier temps sur le segment des **skis**. Les informations à étudier incluent : **le nombre d'annonces sur les skis**, les **prix** pratiqués, la **répartition de l’offre entre les différentes sous-catégories**, eventuellement la **profondeur des stocks**, et tout ce que vous pensez qui serait **intéressant pour analyser le positionnement marché de FreeGlisse**.

Ces informations seraient d’autant plus intéressantes si elles étaient étudiées **par type de ski** (indiqué dans la Fiche Technique de chaque ski). N'hésitez pas à effectuer les regroupements qui vous semblent pertinents, à faire des analyses quantitatives et qualitatives, en utilisant **pandas** et en faisant de beaux **graphiques**. Pour les graphiques, vous pouvez utiliser **Google Data Studio**.

Côté technique, 2 compétences pourront être mises en oeuvre: le **crawling** entre les différentes pages du site, pour observer l’ensemble des offres de skis d’occasion (ici, pas besoin de selenium - des techniques plus simples seront possibles), et le **scraping des pages individuelles**, avec différentes infos à aller chercher.

Pour finir, l'objectif de ce cas est aussi de tirer de ces analyses des **insights business**, en particulier des **conclusions sur le positionnement commercial de FreeGlisse et les spécificités qu'il pourrait apporter à Olist**.
<br><br>

**_Présentation_**

En groupe, vous devrez **analyser les informations issues du scraping**, puis en fin de projet **présenter en environ 5 minutes** votre analyse à des Product Managers d'Olist (jurys de Databirdies), sous forme de **dashboard Data Studio**. L'essentiel est que la présentation soit **visuelle et intelligible par des stakeholders non-tech**.

## Bonus: compilation des données Freeglisse

Quelques mois plus tard, Olist vous rappelle. Un partenariat a été noué avec FreeGlisse, et les produits d'occasion du site seront désormais vendus sur la plateforme Olist! 

En revanche, les équipes d'Olist n'ont pas le temps de gérer à la main le transfert des annonces d'un site à l'autre. Ils ont besoin de vous pour **rassembler toutes les informations sur les skis d’occasion dans un fichier unique (excel ou csv)**, et pour **enregistrer l’ensemble des photos**, afin de pouvoir rapidement créer des fiches produit sur Olist. Ils comptent sur vous pour leur présenter un dossier bien organisé, afin que le transfert vers leur plateforme soit le plus simple possible.

Si vous avez le temps de vous lancer dans ce projet, vous pouvez inclure une courte partie là-dessus (slide ou section de notebook) dans votre **présentation finale**, afin **d'expliquer aux équipes d'Olist comment l'information est organisée**.

In [1]:
import os
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from bs4 import BeautifulSoup
import requests
from jupyterthemes import jtplot
jtplot.style(theme='onedork')
from tqdm import tqdm

In [2]:
# stock the URL of the search for all 2nd hand pairs of ski
URL = "https://freeglisse.com/fr/12-ski-occasion?id_category=12&n=1607"

In [3]:
# Scrap the content of the search page
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

<!DOCTYPE HTML>
<!--[if lt IE 7]><html class="no-js lt-ie9 lt-ie8 lt-ie7" lang="fr-fr"><![endif]-->
<!--[if IE 7]><html class="no-js lt-ie9 lt-ie8 ie7" lang="fr-fr"><![endif]-->
<!--[if IE 8]><html class="no-js lt-ie9 ie8" lang="fr-fr"><![endif]-->
<!--[if gt IE 8]><html class="no-js ie9" lang="fr-fr"><![endif]-->
<html lang="fr-fr">
 <head>
  <meta charset="utf-8"/>
  <title>
   Ski occasion - Ski d'occasion - Skis occasions - Freeglisse.com
  </title>
  <meta content="Ski occasion" name="description"/>
  <meta content="ski occasion" name="keywords"/>
  <meta content="PrestaShop" name="generator"/>
  <meta content="index,follow" name="robots"/>
  <meta content="width=device-width, minimum-scale=0.25, maximum-scale=1.0, initial-scale=1.0" name="viewport"/>
  <meta content="yes" name="apple-mobile-web-app-capable"/>
  <link href="/img/favicon.ico?1611904566" rel="icon" type="image/vnd.microsoft.icon"/>
  <link href="/img/favicon.ico?1611904566" rel="shortcut icon" type="image/x-icon"/>


In [4]:
'''
We observed that all items where linking to a url through the 'product_img_link' class
so we filtered the content on this class
'''
content = soup.find_all(class_='product_img_link')
content[0]

<a class="product_img_link" href="https://freeglisse.com/fr/ski-de-fond-occasion-alternatif-norme-sns/15483-ski-de-fond-occasion-toutes-marques-fixation-vieux-sns.html" itemprop="url" title="Ski de fond occasion Toutes marques + fixation vieux sns"> <img alt="Ski de fond occasion Toutes marques + fixation vieux sns" class="replace-2x img-responsive lazy" data-original="https://freeglisse.com/43793-home_default/ski-de-fond-occasion-toutes-marques-fixation-vieux-sns.jpg" height="500" itemprop="image" src="/img/loadingAnimation.gif" title="Ski de fond occasion Toutes marques + fixation vieux sns" width="500"/> </a>

In [5]:
'''
Then we extract the url associated to every image and store it in a list.
The final list then has 1 url per item on the search result page
'''
content_urls = [i['href'] for i in content]
content_urls

['https://freeglisse.com/fr/ski-de-fond-occasion-alternatif-norme-sns/15483-ski-de-fond-occasion-toutes-marques-fixation-vieux-sns.html',
 'https://freeglisse.com/fr/ski-occasion-adulte-pas-cher/15149-ski-occasion-volkl-rt1-fixations.html',
 'https://freeglisse.com/fr/ski-de-fond-occasion-alternatif-norme-sns/15468-ski-de-fond-occasion-toutes-marques-fixation-sns-profil.html',
 'https://freeglisse.com/fr/ski-occasion-junior-pas-cher/1795-ski-occasion-junior-toutes-marques-a-19-fixations.html',
 'https://freeglisse.com/fr/ski-occasion-adulte-pas-cher/15162-ski-occasion-adulte-salomon-a-19-fixations.html',
 'https://freeglisse.com/fr/ski-occasion-adulte-pas-cher/15163-ski-occasion-adulte-dynastar-a-19-fixations.html',
 'https://freeglisse.com/fr/ski-occasion-adulte-pas-cher/15166-ski-occasion-adulte-rossignol-a-19-fixations.html',
 'https://freeglisse.com/fr/ski-occasion-adulte-pas-cher/15167-ski-occasion-adulte-atomic-a-19-fixations.html',
 'https://freeglisse.com/fr/ski-occasion-adulte

In [6]:
len(content_urls)

20

In [7]:
test_url = content_urls[7]
test_page = requests.get(test_url)
test_soup = BeautifulSoup(test_page.content, 'html.parser')
print(test_soup.prettify())

<!DOCTYPE HTML>
<!--[if lt IE 7]><html class="no-js lt-ie9 lt-ie8 lt-ie7" lang="fr-fr"><![endif]-->
<!--[if IE 7]><html class="no-js lt-ie9 lt-ie8 ie7" lang="fr-fr"><![endif]-->
<!--[if IE 8]><html class="no-js lt-ie9 ie8" lang="fr-fr"><![endif]-->
<!--[if gt IE 8]><html class="no-js ie9" lang="fr-fr"><![endif]-->
<html lang="fr-fr">
 <head>
  <meta charset="utf-8"/>
  <title>
   Ski occasion adulte toutes Marques 19 € + Fixations
  </title>
  <meta content="Ski alpin occasion adulte pas cher, toutes marques pour 19 euros avec Fixations. Achat de ski alpin occasion pas cher. Découvrez notre choix de skis occasion" name="description"/>
  <meta content="PrestaShop" name="generator"/>
  <meta content="index,follow" name="robots"/>
  <meta content="width=device-width, minimum-scale=0.25, maximum-scale=1.0, initial-scale=1.0" name="viewport"/>
  <meta content="yes" name="apple-mobile-web-app-capable"/>
  <link href="/img/favicon.ico?1611904566" rel="icon" type="image/vnd.microsoft.icon"/>
 

In [8]:
# extract the name of the item
test_content_name = test_soup.find('h1').get_text()
test_content_name

'Ski occasion adulte Atomic à 19€ + Fixations'

In [9]:
# extract the price of the item
test_content_price = test_soup.find(id='our_price_display')['content']
test_content_price

'19'

In [32]:
# extract the score
test_content_rating = test_soup.find(class_='netreviews_note_generale').get_text()
test_content_rating_value = test_content_rating.split()[0]
test_content_rating_value

'5'

In [11]:
# extract the number of reviews
test_content_review_count = test_soup.find(id='reviewCount').get_text()
test_content_review_count

' 1'

In [12]:
# extract product description ATTENTION: text must be cleaned
test_content_description = test_soup.find(id='product-description-tab-content').get_text()
test_content_description

"Nous déstockons un lot important de skis paraboliques de location de marque Atomic au prix de 19€ la paire (prix d'une journée de location).\xa0Attention la photo montre un exemple de ski ce n'est pas ceux que vous recevrez."

In [13]:
# extract product utilisateur
test_content_user = test_soup.find(class_='table-data-sheet').get_text(',')
test_content_user_value = test_content_user.split('Utilisateur')[1].split(',')[1]
test_content_user_value

'Mixte'

In [14]:
# extract product type
test_content_type = test_soup.find(class_='table-data-sheet').get_text(',')
test_content_type_value = test_content_user.split('Type')[1].split(',')[1]
test_content_type_value

'Piste'

In [15]:
# extract product 'niveau'
test_content_level = test_soup.find(class_='table-data-sheet').get_text(',')
test_content_level_value = test_content_user.split('Niveau')[1].split(',')[1]
test_content_level_value

'Loisir'

In [16]:
# extract reference
test_content_ref = test_soup.find(itemprop='sku')['content']
test_content_ref

'15167'

In [33]:
list_for_df = [test_url,
               test_content_ref,
               test_content_name,
               test_content_price,
               test_content_rating_value,
               test_content_review_count,
               test_content_type_value,
               test_content_level_value,
               test_content_user_value,
               test_content_description]
list_for_df

['https://freeglisse.com/fr/ski-occasion-adulte-pas-cher/15167-ski-occasion-adulte-atomic-a-19-fixations.html',
 '15167',
 'Ski occasion adulte Atomic à 19€ + Fixations',
 '19',
 '5',
 ' 1',
 'Piste',
 'Loisir',
 'Mixte',
 "Nous déstockons un lot important de skis paraboliques de location de marque Atomic au prix de 19€ la paire (prix d'une journée de location).\xa0Attention la photo montre un exemple de ski ce n'est pas ceux que vous recevrez."]

In [34]:
scraped_ski_df= pd.DataFrame([list_for_df],
                             columns=['url','ref','name','price','rating','review_count','type','level','user','description'])
scraped_ski_df

Unnamed: 0,url,ref,name,price,rating,review_count,type,level,user,description
0,https://freeglisse.com/fr/ski-occasion-adulte-...,15167,Ski occasion adulte Atomic à 19€ + Fixations,19,5,1,Piste,Loisir,Mixte,Nous déstockons un lot important de skis parab...


In [19]:
scraped_ski_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   url           0 non-null      object
 1   ref           0 non-null      object
 2   name          0 non-null      object
 3   price         0 non-null      object
 4   rating        0 non-null      object
 5   review_count  0 non-null      object
 6   type          0 non-null      object
 7   level         0 non-null      object
 8   user          0 non-null      object
 9   description   0 non-null      object
dtypes: object(10)
memory usage: 0.0+ bytes


AttributeError: 'list' object has no attribute 'to_frame'

In [None]:
pd.concat([scraped_ski_df,list_for_df], axis=0)

In [None]:
### For Loop for all items at once