# Web Scraping

## Extract all current news headlines from the website:
news.google.de

In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

In [2]:
page = requests.get("https://news.google.de")
page.ok

True

In [3]:
%time
soup = BeautifulSoup(page.content, 'html.parser')

CPU times: user 3 µs, sys: 0 ns, total: 3 µs
Wall time: 5.72 µs


In [4]:
h_3 = soup.find_all(f"h3")

In [5]:
all_headings = [x.get_text() for x in h_3]
all_headings

['Sanofi will Biontech-Pfizer-Impfstoff in Frankfurt produzieren',
 'AstraZeneca-Impfstoff: Spahn erwägt Änderung der Impfreihenfolge',
 'Das Vertrauen in Astra-Zeneca ist enttäuscht',
 'Bidens erstes Telefonat mit Putin: Viele Konfliktthemen - in einem einig | tagesschau.de',
 'Reaktion auf Enthüllungsvideo: Putins Nawalny-Dilemma',
 'Neuer US-Außenminister Blinken: Credo: Kooperation | tagesschau.de']

## Go to www.zeit.de
Extract on the right hand side the most viewed articles ("Meistgelesene Artikel"), i.e. the article title and the link to the article

In [6]:
page = requests.get("http://www.zeit.de")
#page = requests.get('https://en.wikipedia.org/wiki/Albert_Einstein')
page.ok

True

In [7]:
soup = BeautifulSoup(page.content, 'html.parser')
soup

<!DOCTYPE html>

<html class="no-js" lang="de">
<head>
<meta charset="utf-8"/>
<title>ZEIT ONLINE | Nachrichten, Hintergründe und Debatten</title>
<meta content="Aktuelle Nachrichten, Kommentare, Analysen und Hintergrundberichte aus Politik, Wirtschaft, Gesellschaft, Wissen, Kultur und Sport lesen Sie auf ZEIT ONLINE. Aktuelle Nachrichten, Kommentare, Analysen und Hintergrundberichte aus Politik, Wirtschaft, Gesellschaft, Wissen, Kultur und Sport lesen Sie auf ZEIT.de. Aktuelle Nachrichten, Kommentare, Analysen und Hintergrundberichte aus Politik, Wirtschaft, Gesellschaft, Wissen, Kultur und Sport lesen Sie bei der ZEIT. Aktuelle Nachrichten, Kommentare, Analysen und Hintergrundberichte aus Politik, Wirtschaft, Gesellschaft, Wissen, Kultur und Sport – die ZEIT. Aktuelle News, Kommentare, Analysen und Hintergrundberichte aus Politik, Wirtschaft, Gesellschaft, Wissen, Kultur und Sport lesen Sie auf ZEIT ONLINE." name="description"/>
<meta content="Homepage" name="keywords"/>
<meta conten

In [8]:
panel = soup.find(id = "buzz-mostread")
print (panel)

<div aria-labelledby="buzz-mostread-label" id="buzz-mostread" role="region">
<ol class="buzz-box__teasers">
<li>
<article class="teaser-buzz has-bookmark-icon" data-unique-id="http://xml.zeit.de/wirtschaft/unternehmen/2021-01/hennes-mauritz-stellenabbau-muetter-elternzeit-deutschland">
<a class="teaser-buzz__combined-link" href="https://www.zeit.de/wirtschaft/unternehmen/2021-01/hennes-mauritz-stellenabbau-muetter-elternzeit-deutschland" title="Hennes &amp; Mauritz - H&amp;M will 800 Mitarbeiter entlassen – offenbar vor allem Mütter">
<div class="teaser-buzz__container">
<h3 class="teaser-buzz__heading">
<span class="teaser-buzz__kicker">Hennes &amp; Mauritz</span><span class="visually-hidden">: </span><span class="teaser-buzz__title">H&amp;M will 800 Mitarbeiter entlassen – offenbar vor allem Mütter</span>
</h3>
<span class="teaser-buzz__metadata"><svg aria-hidden="true" class="svg-symbol teaser-buzz__icon" height="11" preserveaspectratio="xMinYMin meet" viewbox="0 0 22 11" width="22"

In [9]:
articles = []
for a in  panel.find_all("article"):
    link = a.find ("a")["href"]
    title = a.find("span", class_="teaser-buzz__title").get_text()
    articles.append ((title, link))
articles

[('H&M will 800 Mitarbeiter entlassen – offenbar vor allem Mütter',
  'https://www.zeit.de/wirtschaft/unternehmen/2021-01/hennes-mauritz-stellenabbau-muetter-elternzeit-deutschland'),
 ('Die Illusion von der Einigkeit',
  'https://www.zeit.de/politik/ausland/2021-01/impeachment-donald-trump-anklage-us-senat-sturm-kapitol-schuld'),
 ('Europa verliert den Impfwettkampf',
  'https://www.zeit.de/politik/ausland/2021-01/eu-kommission-astrazeneca-corona-impfstoff-produktion-engpass')]

## Extract the final table of soccer Bundesliga results from last season from the "sportschau" website: https://www.sportschau.de/fussball/bundesliga/spieltag/index.html

In [10]:
page = requests.get("http://www.sportschau.de/fussball/bundesliga/spieltag/index.html")
page.ok

True

In [11]:
tables = pd.read_html(page.content)

In [12]:
current_table = tables[1]
current_table.drop ("Unnamed: 2", axis = 1)
current_table.fillna("")
current_table

Unnamed: 0,R,V,Unnamed: 2,Verein,Sp,S,U,N,Tore,TD,P,Quali
0,1,(1),,"Bayern München (M,P)",18,13,3,2,53:25,28,42,CL
1,2,(2),,RB Leipzig,18,10,5,3,31:17,14,35,CL
2,3,(3),,Bayer 04 Leverkusen,18,9,5,4,32:18,14,32,CL
3,4,(5),,VfL Wolfsburg,18,8,8,2,27:19,8,32,CL
4,5,(7),,Borussia Mönchengladbach,18,8,7,3,35:28,7,31,EL
5,6,(8),,Eintracht Frankfurt,18,7,9,2,35:27,8,30,ECO
6,7,(4),,Borussia Dortmund,18,9,2,7,35:26,9,29,
7,8,(6),,1. FC Union Berlin,18,7,7,4,33:23,10,28,
8,9,(9),,SC Freiburg,18,7,6,5,33:29,4,27,
9,10,(10),,VfB Stuttgart (N),18,5,7,6,33:29,4,22,


# Strawpoll.me
Use selenium to fill the survey (https://www.strawpoll.me/17785963) 30 times with different options.

In [None]:
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from tqdm.notebook import tqdm
driver = webdriver.Chrome() # spinning up driver takes some time

In [None]:
driver.get("https://www.strawpoll.me/17785963")

In [None]:
for i in tqdm(range(30)):
    driver.get("https://www.strawpoll.me/17785963")
    option = driver.find_element_by_xpath('//*[@id="field-options-r"]')
    #option = driver.find_element_by_xpath("//input[@type='radio' and @value='141313426']")
    option.click()
    time.sleep(1)
    driver.find_element_by_xpath("//*[.='Vote']").click()
    time.sleep(2)