In [100]:
import urllib
import bs4
import pandas as pd
import numpy as np
from urllib import request

# Fontions
Les trois fonctions suivantes permettent de récupérer, à partir d'un page internet d'une bouteille du site https://www.leaandsandeman.co.uk/, la description, le prix et le nom de la bouteille. Chaque fonction prend en entrée l'url associée à la bouteille.

ATTENTION : Le prix est ici en livres

In [101]:
def find_description(url):
    request_text = request.urlopen(url).read()
    page = bs4.BeautifulSoup(request_text,'lxml')
    return(page.findAll('meta',{'property' : 'og:description'})[0].get('content'))

In [102]:
def find_price(url):
    request_text = request.urlopen(url).read()
    page = bs4.BeautifulSoup(request_text,'lxml')
    return(float(page.findAll('td',{'class' : 'price'})[0].findAll('span')[-1].text.replace(',','')))    

In [103]:
def find_name(url):
    request_text = request.urlopen(url).read()
    page = bs4.BeautifulSoup(request_text,'lxml')
    return(page.findAll('meta',{'name' : 'twitter:title'})[0].get('content'))

### Exemples

In [104]:
url1 = 'https://www.leaandsandeman.co.uk/wine/2018-CHATEAU-BELLE-GARDE-Bordeaux-44166-00.html?pack=39543&categoryFilter=30&page=0&sortOption=2&resultsPerPage=12&minResultsPerPage=12'
description = find_description(url1)
price =  find_price(url1)
name = find_name(url1)
print([description,price,name])

["From a good vintage and always delivering incredible value for money, Eric Duffau's brilliant Château Belle Garde is one of our longest standing listings. Leaf tea, cassis, plum and tobacco aromas are backed by a well balanced palate. Again dark fruited, with some nice tannic structure, this has lovely definition with the tobacco and cedar notes allowing for a sleek finish.", 11.5, '2018 CHÂTEAU BELLE GARDE Bordeaux']


# Création base de données

### Récupération des url
On créé ici une liste des url associé à chaque vin du site présenté précédemment. Vous pouvez allez voir le modèle de ces pages avec cet exemple : https://www.leaandsandeman.co.uk/wine/2018-CHATEAU-BELLE-GARDE-Bordeaux-44166-00.html?pack=39543&categoryFilter=30&page=0&sortOption=2&resultsPerPage=12&minResultsPerPage=12

In [107]:
liste_url_general_redwine = ['https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=0&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=1&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=2&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=3&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=4&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=5&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=6&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=7&minResultsPerPage=12&sortOption=2&categoryFilter=24','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=8&minResultsPerPage=12&sortOption=2&categoryFilter=24']
liste_url_general_whitewine = ['https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=0&minResultsPerPage=12&sortOption=2&categoryFilter=52','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=1&minResultsPerPage=12&sortOption=2&categoryFilter=52','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=2&minResultsPerPage=12&sortOption=2&categoryFilter=52','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=3&minResultsPerPage=12&sortOption=2&categoryFilter=52','https://www.leaandsandeman.co.uk/search.html?&resultsPerPage=48&page=4&minResultsPerPage=12&sortOption=2&categoryFilter=52']
liste_url_general = liste_url_general_redwine + liste_url_general_whitewine
liste_url = []
for url_general in liste_url_general:
    request_text = request.urlopen(url_general).read()
    page = bs4.BeautifulSoup(request_text,'lxml')
    liste_a = page.findAll('a',{'class' : 'restit blue'})
    for ele in liste_a:
        liste_url.append(ele.get('href'))
print('Nous avons récupéré '+str(len(liste_url))+' url associés à des vins')

Nous avons récupéré 597 url associés à des vins


### Création de la base de données
On récupère ensuite les données qui nous intéressent pour chaque vin.

In [113]:
liste_nom = []
liste_prix = []
liste_avis = []
for url in liste_url:
    url = 'https://www.leaandsandeman.co.uk'+url
    request_text = request.urlopen(url).read()
    page = bs4.BeautifulSoup(request_text,'lxml')
    B = page.findAll('meta',{'property' : 'og:description'})[0].get('content')
    if B == '': #quand il n'y a pas de description
        liste_avis.append('NaN')
    else:
        liste_avis.append(B)
    A = page.findAll('td',{'class' : 'price'})
    if len(A) == 0: #quand le prix n'est pas indiqué sur le site
        liste_prix.append('NaN')
    else:
        liste_prix.append(float(page.findAll('td',{'class' : 'price'})[0].findAll('span')[-1].text.replace(',','')))
    liste_nom.append(page.findAll('meta',{'name' : 'twitter:title'})[0].get('content'))
Data = pd.DataFrame(np.array([liste_nom,liste_prix,liste_avis]).T,columns=['nom','prix','avis'])
Data.head()

Unnamed: 0,nom,prix,avis
0,2019 CABERNET SAUVIGNON Camina,8.5,"A real gentle soul this, a subtle leafiness, t..."
1,2019 CAMINA Tempranillo,8.5,Juicy cranberry and redcurrant fruits on the n...
2,2018 MERLOT-CABERNET-CARIGNAN Domaine Saint Félix,8.5,Ripely juicy and bright with a core of red fru...
3,2019 MERLOT Domaine les Yeuses,8.5,
4,2019 LA PETITE SYRAH Domaine les Yeuses,,The 2019 is another little gem from Domaine Le...


On remarque que des données sont manquantes. Pour certains vin que le site n'a plus en stock, le site n'affiche pas le prix, il est alors indiqué NaN dans la base de données. Pour certains vins, il n'y a pas de description, dans ce cas, il est également indiqué NaN.

In [115]:
Data.shape

(597, 3)