# Web Scraping

L'objectif de ce notebook est de pouvoir déduire les sentiments d'un texte selon la data fournie.
Pour cela, nous allons déduire les sentiments de textes financiers, provenant d'un data scrappé depuis le site ft.com.

## Creation des Données à l'aide du site

##### Voici les différentes librairies utilisées dans notre script de scraping

In [1]:
from bs4 import BeautifulSoup
import requests

##### Lien du Site

In [2]:
url = 'https://www.ft.com/global-economy'
response = requests.get(url)

##### On parse le document HTML du site

In [3]:
soup = BeautifulSoup(response.text, 'html.parser')

##### On récupère la div "o-teaser__heading" où se trouve les informations financières du site

In [4]:
div = soup.find_all("div", {"class": "o-teaser__heading"})
div_time = soup.find_all('time',{"class": "o-date"})
div_article = soup.find_all("div", {"class": "o-teaser--article"})
div_title_article = [div.find("div", {"class": "o-teaser__heading"}) for div in div_article]

##### Titre pour le fichier de data

In [5]:
title = "News_Financieres;"

##### Creation du fichier de data extrait du site à l'aide du Web Scrapping

In [6]:
with open('data_WebScrapping.csv', 'w', encoding='utf-8') as csv_file:
    csv_file.write(title + '\n')
    for x in div_title_article:
        csv_file.write(x.getText() + ";" + '\n')

## Nettoyons et mettons en forme les data afin de les fournir à notre modèle

Nous alonns fournir ces données aux modèles précedement réalisé.

### Libraries

##### Voici les différentes librairies utilisées dans notre modèle

In [7]:
import pandas as pd

### Load Data

##### Chargeons les datas issues des datas scrapées

In [8]:
df = pd.read_csv("data_WebScrapping.csv", sep=';')

##### Affichons les valeurs du fichier

In [9]:
df.head()

Unnamed: 0,News_Financieres,Unnamed: 1
0,Yen slides as new Bank of Japan governor stick...,
1,What is US trade policy? Premium content,
2,Why Taiwan matters to the world,
3,FirstFT: China responds to Taiwan’s US visit w...,
4,Beijing chooses targets carefully as it goes o...,


##### Dimension du tableau

In [10]:
df.shape

(25, 2)

##### Supprimons les colonnes inutiles

In [11]:
df = df.drop(columns="Unnamed: 1")

In [12]:
df.head()

Unnamed: 0,News_Financieres
0,Yen slides as new Bank of Japan governor stick...
1,What is US trade policy? Premium content
2,Why Taiwan matters to the world
3,FirstFT: China responds to Taiwan’s US visit w...
4,Beijing chooses targets carefully as it goes o...


##### Choisissons une valeur aléatoire afin de tester les datas

In [13]:
df.iloc[24].News_Financieres

'India’s central bank holds interest rates amid global banking turbulence'

##### Décrivons les différentes valeurs du tableau (count, mean, top, freq)

In [14]:
df.describe()

Unnamed: 0,News_Financieres
count,25
unique,25
top,Yen slides as new Bank of Japan governor stick...
freq,1


##### Observons les types des valeurs du tableau

In [15]:
df.dtypes

News_Financieres    object
dtype: object

##### Vérifions la présence de valeurs nulles dans le tableau

In [16]:
df.isna().sum()

News_Financieres    0
dtype: int64

### Data Analysis

##### Affichons les valeurs souhaitées

In [17]:
df.News_Financieres

0     Yen slides as new Bank of Japan governor stick...
1              What is US trade policy? Premium content
2                       Why Taiwan matters to the world
3     FirstFT: China responds to Taiwan’s US visit w...
4     Beijing chooses targets carefully as it goes o...
5     Ghana’s bilateral creditors set to clear way f...
6     Croatia’s central bank boss defends euro as co...
7       Why America’s big companies keep getting bigger
8     Banking tremors leave a legacy of credit contr...
9     Global economy fends off geopolitical and bank...
10                              Milestones and meetings
11    If tech is driving the ‘productivity bandwagon...
12    Ambition is needed to rebuild trust in multila...
13                  Will US inflation continue to slow?
14    US data raises hopes Fed’s efforts to curb inf...
15    US jobs growth slowed in March as Fed put brak...
16    Russia’s foreign minister threatens to scrap U...
17       FirstFT: US jobs market shows signs of 

## Models

##### Utilisons le modèle de la partie précedente afin de déterminer le sentiment du texte

In [18]:
from joblib import load
model = load('model.joblib')

In [19]:
pred = model.predict(df.News_Financieres)
print(pred)

['neutral' 'neutral' 'neutral' 'positive' 'positive' 'neutral' 'neutral'
 'positive' 'neutral' 'neutral' 'neutral' 'neutral' 'neutral' 'neutral'
 'positive' 'negative' 'positive' 'negative' 'neutral' 'positive'
 'neutral' 'positive' 'neutral' 'neutral' 'neutral']
