# Web Scraping

In [1]:
!pip install requests
import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd



### Obtain list of news from the coverpage

URL definition:

In [2]:
# url definition
url = "https://nos.nl/"

List of news:

In [3]:
# Request
requests.get(url)

<Response [200]>

In [7]:
# We'll save in coverpage the cover page content
coverpage = requests.get(url).content

In [6]:
soup = BeautifulSoup(coverpage, 'lxml')
soup

<!DOCTYPE html>
<html lang="nl"><head><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1" name="viewport"/><style>
    #nprogress {
      pointer-events: none;
    }
    #nprogress .bar {
      background: #e61e14;
      position: fixed;
      z-index: 9999;
      top: 0;
      left: 0;
      width: 100%;
      height: 3px;
    }
    #nprogress .peg {
      display: block;
      position: absolute;
      right: 0px;
      width: 100px;
      height: 100%;
      box-shadow: 0 0 10px #e61e14, 0 0 5px #e61e14;
      opacity: 1;
      -webkit-transform: rotate(3deg) translate(0px, -4px);
      -ms-transform: rotate(3deg) translate(0px, -4px);
      transform: rotate(3deg) translate(0px, -4px);
    }
    #nprogress .spinner {
      display: block;
      position: fixed;
      z-index: 1031;
      top: 15px;
      right: 15px;
    }
    #nprogress .spinner-icon {
      width: 18px;
      height: 18px;
      box-sizing: border-box;
      border: solid 2px transparent;
 

In [90]:
# News identification
coverpage_headlines = soup.find_all('h2', class_='sc-2d866c3b-0 dypUEp')
len(coverpage_headlines)

107

Now we have a list in which every element is a news article:

In [91]:
coverpage_headlines[0]

<h2 class="sc-2d866c3b-0 dypUEp">Run op lastminutes door matig lenteweer, maar dagjesmensen blijven niet weg</h2>

In [92]:
n=0
title = coverpage_headlines[n].get_text()
title

'Run op lastminutes door matig lenteweer, maar dagjesmensen blijven niet weg'

In [94]:
coverpage_body = soup.find_all('p', class_='sc-2d866c3b-1 jPkGEE')
coverpage_body

[<p class="sc-2d866c3b-1 jPkGEE">Niemand raakte gewond. De snelweg tussen Breukelen en Vinkeveen werd geheel afgesloten.</p>,
 <p class="sc-2d866c3b-1 jPkGEE">Amerikaanse torpedo's joegen het Japanse schip in 1942 naar de zeebodem. De Amerikanen wisten niet dat er Australische krijgsgevangenen aan boord waren. Het wrak ligt op 4000 meter diepte.</p>,
 <p class="sc-2d866c3b-1 jPkGEE">Steeds meer landen maken zich op om hun burgers uit het land te evacueren. Dat is echter lastig omdat het vliegveld bij de hoofdstad gesloten is.</p>,
 <p class="sc-2d866c3b-1 jPkGEE">De tweevoudig olympisch kampioene heeft bewust gekozen voor de prestigieuze marathon van Londen, waar zondag de complete wereldtop van start gaat. "Dit is wat ze wilde. Ze wil tegen de besten lopen", zegt manager Jos Hermens.</p>,
 <p class="sc-2d866c3b-1 jPkGEE">Hoewel de precieze prijs verschilt per pomp, is het volgens analisten duidelijk dat de prijs niet snel weer zal zakken en waarschijnlijk zelfs verder stijgt.</p>,
 <p

In [95]:
len(coverpage_body)

22

In [96]:
coverpage_body[0].get_text()

'Niemand raakte gewond. De snelweg tussen Breukelen en Vinkeveen werd geheel afgesloten.'

### Let's extract the text from the articles:

First, we'll define the number of articles we want:

In [109]:
number_of_articles = 10

In [110]:
# Empty lists for content, links and titles
news_headlines = []
news_content = []

for n in np.arange(0, number_of_articles):
    
    # Getting the title
    headline = coverpage_headlines[n].get_text()
    news_headlines.append(headline)
    
    # Reading the content (divided in paragraphs)
    content = coverpage_body[n].get_text()
    news_content.append(content)

In [111]:
coverpage_body[0]

<p class="sc-2d866c3b-1 jPkGEE">Niemand raakte gewond. De snelweg tussen Breukelen en Vinkeveen werd geheel afgesloten.</p>

Let's put them into:
* a dataset which will the input of the models (`df_features`)
* a dataset with the title and the link (`df_show_info`)

In [112]:
# creating a df
news_headlines = pd.DataFrame(
    {'Article Headline': news_headlines})

# creating a df
news_content = pd.DataFrame(
     {'Article Content': news_content})

In [113]:
news_headlines = news_headlines.drop_duplicates()
news_headlines

Unnamed: 0,Article Headline
0,"Run op lastminutes door matig lenteweer, maar ..."
1,"BBB kiest in provincie voor VVD, PvdA en zelfs..."
3,Touringcar brandt uit op A2 bij Breukelen
5,Scheepswrak met ruim 1000 slachtoffers WO II n...
6,Gevechten in Sudan barsten weer los na kort st...
7,Hassan bij marathondebuut tegen wereldtop: 'Ge...
8,Weer hogere prijs aan de pomp: hoe komt het?
9,Al bij start oorlog informatie gelekt • Russis...


In [114]:
news_content

Unnamed: 0,Article Content
0,Niemand raakte gewond. De snelweg tussen Breuk...
1,Amerikaanse torpedo's joegen het Japanse schip...
2,Steeds meer landen maken zich op om hun burger...
3,De tweevoudig olympisch kampioene heeft bewust...
4,"Hoewel de precieze prijs verschilt per pomp, i..."
5,In dit liveblog lees je de belangrijkste ontwi...
6,"Er vielen daarnaast tien gewonden, waarvan er ..."
7,Wrexham AFC staat op het punt te promoveren na...
8,De arrestatie van strafrechtadvocaat Inez Wesk...
9,Een advocatenkantoor heeft op verzoek van het ...
