# WEB SCRAPING

Le web scraping est une technique qu'on utilise pour extraire de manière automatique des données souvent structurées qui se trouve sur une ou plusieurs pages d'un site web. Le web scraping peut se faire en utilisant un langage de programmation comme nous l'avons réalise dans ce projet. Nous avons utilisé le package beautefulSoup de Python pour la réalisation de ce projet. Mais il existe d'autre module qu'on peut utilisés tels selenium, scrapy, etc.

## import des modules

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [2]:
url = 'https://www.fasttrack.co.uk/league-tables/tech-track-100/league-table/'
r = requests.get(url)
html_doc = r.text
soup = BeautifulSoup(html_doc)

## Pour obtenir le titre de la page html 

In [3]:
print(soup.title.get_text())


        League table - Fast Track    


# Pour voir comment notre page html est structurée on utilise la méthode prettify()

In [23]:
# print(soup.prettify())

# Les données que nous voulons extraire se trouve sur l'élément table. Donc on utilise la méthode find_all()

In [5]:
table = soup.find_all('table', attrs={'class': "tableSorter2"})

## Dans l'élément table, nous avons des élément table header (th) qui vont contenir les noms des colonnes des données.

In [6]:
columns = soup.find_all('th')

In [7]:
columns

[<th>Rank</th>,
 <th>Company</th>,
 <th class="">Location</th>,
 <th class="no-word-wrap">Year end</th>,
 <th class="" style="text-align:right;">Annual sales rise over 3 years</th>,
 <th class="" style="text-align:right;">Latest sales £000s</th>,
 <th class="" style="text-align:right;">Staff</th>,
 <th class="">Comment</th>]

In [9]:
col_name = []
for th in columns:
    col_name.append(th.get_text())

In [10]:
col_name

['Rank',
 'Company',
 'Location',
 'Year end',
 'Annual sales rise over 3 years',
 'Latest sales £000s',
 'Staff',
 'Comment']

## Les données se trouvent sur l'élément table data. Pour avoir l'ensemble des données on applique la méthode find_all() sur l'élément td.

In [11]:
dt = soup.find_all('td')

## Un peu de maths avec list comprehion

Les contenus des colonnes se trouves à des positions particulières. Par exemple si on prend la colonne 'Rank' qui se  trouve à indice 0, à'indice 8 puis à l'indece 16 ainsi de suite. Donc ce que nous constatons c'est que le reste de la division euclidienne de l'indice  des données de cette colonne par 8 est égal 0. De même que la colonne 'Company' dont ses données se trouvent sur l'indice 1, indice 9, indice 17 ainsi de suite. Donc le reste de la divion euclidienne de ces indices par 8 est 1. On fait de même avec les autres colonnes.  

In [12]:
rank = [dt[i].getText() for i in range(len(dt)) if i%8==0]
company = [dt[i].getText() for i in range(len(dt)) if i%8==1]
location = [dt[i].getText() for i in range(len(dt)) if i%8==2]
yearend = [dt[i].getText() for i in range(len(dt)) if i%8==3]
salesrise = [dt[i].getText() for i in range(len(dt)) if i%8==4]
sales = [dt[i].getText() for i in range(len(dt)) if i%8==5]
staff = [dt[i].getText() for i in range(len(dt)) if i%8==6]
comments = [dt[i].getText() for i in range(len(dt)) if i%8==7]

In [13]:
# data1 est une liste de liste. c'est une variable qui stocke les données de nos colonnes
data1 = [rank, company, location, yearend, salesrise, sales, staff, comments] 
# la variable dictionnaire est utisée ici pour stocker les données dans un dictionnaire. Les clés vont être les 
# noms des colonnes de notre jeu de données et las valeurs sont les lignes.
dictionnaire = dict([(col_name[i], data1[i]) for i in range(len(col_name))])

## Transormation de notre dicyionnaire en un dataframe

 On utilie le module pandas de Python. Pandas est un module très intéressant qu'on utilise souvent pour travailler avec les données structurées ou semi-structurées en python.

In [14]:
df = pd.DataFrame(dictionnaire)

In [15]:
df.head()

Unnamed: 0,Rank,Company,Location,Year end,Annual sales rise over 3 years,Latest sales £000s,Staff,Comment
0,1,RevolutDigital banking services provider,East London,Dec 18,507.56%,"*58,300",700,Valued at $1.7bn in 2018 and reported to be ra...
1,2,BizumaB2B e-commerce platform,Central London,Mar 19,315.18%,"*26,414",114,Connects wholesale buyers and sellers from ove...
2,3,Global-eCross-border ecommerce solutions,Central London,Dec 18,303.09%,29297,28,Its technology helps ecommerce retailers local...
3,4,Jungle CreationsSocial media & ecommerce services,East London,Dec 18,302.53%,"*15,972",159,Launched the first-ever delivery-only restaura...
4,5,Oxford Nanopore TechnologiesDNA analysis techn...,Oxford,Dec 18,251.87%,"*32,500",439,Has raised £451m in funding and was valued at ...


In [179]:
df['Latest sales £000s'] = df['Latest sales £000s'].str.replace('*', '')

In [180]:
df.head()

Unnamed: 0,Rank,Company,Location,Year end,Annual sales rise over 3 years,Latest sales £000s,Staff,Comment
0,1,RevolutDigital banking services provider,East London,Dec 18,507.56%,58300,700,Valued at $1.7bn in 2018 and reported to be ra...
1,2,BizumaB2B e-commerce platform,Central London,Mar 19,315.18%,26414,114,Connects wholesale buyers and sellers from ove...
2,3,Global-eCross-border ecommerce solutions,Central London,Dec 18,303.09%,29297,28,Its technology helps ecommerce retailers local...
3,4,Jungle CreationsSocial media & ecommerce services,East London,Dec 18,302.53%,15972,159,Launched the first-ever delivery-only restaura...
4,5,Oxford Nanopore TechnologiesDNA analysis techn...,Oxford,Dec 18,251.87%,32500,439,Has raised £451m in funding and was valued at ...


## Stockage des données dans une base de données postegresql

In [16]:
from sqlalchemy import create_engine
import psycopg2

In [17]:
DATABASE_URI = 'postgres+psycopg2://enterprisedb:password@localhost:5444/test'

In [20]:
engine = create_engine(DATABASE_URI)
database_web_scrapring = "Web_scraping"

In [21]:
df.to_sql(datbase_web_scrapring, engine.connect())

## Extraction des données dans un fichier excel

In [22]:
df.to_excel("web_scraping.xlsx")