**Web Scraping und Data Mining in Python**

# Pandas Text und Data Munging

Jan Riebling, *University Wuppertal*

# Wget

## Allgemein

GNU Wget ist ein Kommandozeilentool welches rekursiven Download von Dateien ermöglicht. Insbesondere geeignet für den Download von Dateien oder das rekursive durchsuchen großer Webseiten.

Dokumentation: [https://www.gnu.org/software/wget/](https://www.gnu.org/software/wget/)

Eine Windows-Variante ist auf [Sourceforge](https://sourceforge.net/projects/gnuwin32/files/wget/) verfügbar.

## `wget`

```bash
man wget
```

## Basis-Download

Einfacher Download einer URL:

In [None]:
%%bash
wget 'https://download.uni-mainz.de/RePEc/pdf/Discussion_Paper_2202.pdf'

## Rekursiver Download

Automatisierter Download ganzer Webseiten und enthaltener Daten, welcher sehr präzise eingestellt werden kann.

Beispiel: Download sämtlicher PDFs der IPP Webseite.

In [2]:
%%bash
wget \
    --recursive \
    --no-directories \
    --no-parents \
    --accept pdf \
    'https://ipp-mainz.uni-mainz.de/'


# Selenium

## Browser Automatisierung

* Selenium erlaubt es einen installierten Webbrowser mittels Pythoncode zu kontrollieren.
* Hierfür ist folgendes nötig:
    * Eine Installation von [Selenium für Python](https://www.selenium.dev/).
    * Ein Webbrowser.
    * [Driver]() für den Webbrowser.
    
Ein Überblicksartikel zur Installation findet sich [hier](https://intoli.com/blog/running-selenium-with-headless-chrome/).

## Headless Chrome

Um den eigenen Browser nicht verwenden zu müssen und keinen vollständigen zweiten Browser zu installieren, kann Headless Chrome verwendet werden. Hierbei handelt es sich um einen Chromebrowser ohne Benutzeroberfläche.

Um die Verbindung zwischen dem Browser und Selenium herzustellen ist die ChromeDriver Bibliothek nötig. Diese muss entsprechend für das jeweilige Betriebssystem installiert werden.

In [3]:
from selenium import webdriver
from bs4 import BeautifulSoup

## Configure webdriver instance
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument("start-maximized")

## Initialize WebDriver (headless chrome)
driver = webdriver.Chrome(options=options)

## Wait for page to load: 60 seconds
driver.implicitly_wait(60)

## Load URL
url = 'https://ipp-mainz.uni-mainz.de/'

driver.get(url)
    
## Get screenshot for debugging
driver.save_screenshot('screenshot.png')

True

![Selenium Screenshot](screenshot.png)