# Web Scraping

In [13]:
import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd

### Obtain list of news from the coverpage

In [14]:
# URL definition
url = "https://nos.nl/"

In [15]:
# Request list of news
requests.get(url)

<Response [200]>

In [16]:
# Save content from coverpage
coverpage = requests.get(url).content
soup = BeautifulSoup(coverpage, 'lxml')

In [17]:
# Select headers h2
coverpage_headlines = soup.find_all('h2', class_='sc-2d866c3b-0 dypUEp')
len(coverpage_headlines)

107

In [18]:
# Checking the first headline
coverpage_headlines[0]

<h2 class="sc-2d866c3b-0 dypUEp">'Na advocaat Weski ook neef Ridouan Taghi aangehouden'</h2>

In [19]:
# Getting only the text part
coverpage_headlines[0].get_text()

"'Na advocaat Weski ook neef Ridouan Taghi aangehouden'"

In [20]:
# Select body p
coverpage_body = soup.find_all('p', class_='sc-2d866c3b-1 jPkGEE')
len(coverpage_body)

22

In [21]:
# Checking the first headline
coverpage_body[0].get_text()

'De praalwagens vertrokken vanochtend iets na 09.00 uur uit Noordwijk, op weg naar Haarlem. Langs de weg worden ruim een miljoen bezoekers verwacht.'

In [22]:
## Creating a for loop to extract all content

In [23]:
# Defining the number of articles we want
number_of_articles = 10

# Empty lists for headlines and content
news_headlines = []
news_content = []

# Loop where the headlines and content are added to the empty lists
for n in np.arange(0, number_of_articles):
    
    # Getting the title
    headline = coverpage_headlines[n].get_text()
    news_headlines.append(headline)
    
    # Getting the content (divided in paragraphs)
    content = coverpage_body[n].get_text()
    news_content.append(content)

In [24]:
# Creating dataframes
news_headlines = pd.DataFrame(
    {'Article Headline': news_headlines})

news_content = pd.DataFrame(
     {'Article Content': news_content})

In [25]:
# Showing the list with the news headlines
news_headlines = news_headlines.drop_duplicates()
news_headlines

Unnamed: 0,Article Headline
0,'Na advocaat Weski ook neef Ridouan Taghi aang...
1,Nederland bereidt risicovolle evacuatie uit Su...
3,De poncho's zijn gewild bij bloemencorso in de...
5,"BBB kiest in provincie voor VVD, PvdA en zelfs..."
6,"Run op lastminutes door matig lenteweer, maar ..."
7,Man mishandelt NS-medewerker en geeft politiem...
8,Touringcar brandt uit op A2 bij Breukelen
9,Scheepswrak met ruim 1000 slachtoffers WO II n...


In [26]:
# Showing the list with the news content
news_content

Unnamed: 0,Article Content
0,De praalwagens vertrokken vanochtend iets na 0...
1,"De verkenningsfase is achter de rug, tijd om t..."
2,Begin volgende week wordt het opnieuw niet war...
3,De NS-medewerker en de politieman hebben aangi...
4,Niemand raakte gewond. De snelweg was geheel d...
5,Amerikaanse torpedo's joegen het Japanse schip...
6,Humphries stond in Australië bekend als een va...
7,De tweevoudig olympisch kampioene heeft bewust...
8,In dit liveblog lees je de belangrijkste ontwi...
9,Steeds meer landen maken zich op om hun burger...
