**Web Scraping und Data Mining in Python**

# Anaconda Distribution und `conda` Package-Management

Jan R. Riebling, *Universität Wuppertal*

# Python

## Eigenschaften

* Vollständige, open-source, high-level Programmiersprache ([Docs](https://docs.python.org/3/index.html)).
* Große [Standardbibliothek](https://docs.python.org/3/library/index.html).
* Kann durch zusätzliche Bibliotheken (Packages) erweitert werden. Index der Python Pakete: [PyPI](https://pypi.org/).

## Hello World!

Erstes Beispiel in jeder Sprache: Ausgabe von `Hello World!`. Erlaubt die Eigenschaften der Sprache abzuschätzen.

In [1]:
print('Hello World!')

Hello World!


## Web-Scraping Bibliotheken

* [urllib](https://docs.python.org/3/library/urllib.html): Python-Standardbibliothek für das Auflösen von URLs, inklusive [HowTo](https://docs.python.org/3/howto/urllib2.html).
* [Beautiful Soup](https://beautiful-soup-4.readthedocs.io/en/latest/): Python Bibliothek zur Extraktion von Daten aus HTML- und XML-Dokumenten.
* [Selenium](https://selenium-python.readthedocs.io/): Bibliothek für automatisierte Tests, erlaubt das Fernsteuern eines Browsers.

##  IPython

Python Distribution, auf interaktives, wissenschaftliches Programmieren ausgelegt.

**Anaconda**: IPython Paket mit einer Vielzahl von vorinstallierten Modulen und Konfigurationen für wissenschaftliche Anwendungen. Funktioniert normalerweise "out-of-the-box".

**Spyder**: In Anconda enthaltene IDE (Integrated Development Environment). Entwicklungsumgebung für komplexe Programmiertätigkeiten und Entwicklung von eigenen Funktionen / Objekten / Modulen.

**Jupyter Notebook**: Vormaliges IPython Notebook. Browserbasierte Analyse- und Visualisierungsumgebung. Erlaubt die Kombination von Text, Code und Output.

## Shells und Kommandozeilen

* **Terminal**: Kommuniziert mit dem Betriebssystem/Mainframe. In modernen Systemen emuliert oder virtualisiert.
* **Kommandozeile/Commandshell**: Direkter Zugriff auf die Funktionen des Betriebssystems vermittlet durch eine bestimmte Shell-Sprache.
* **(I)Python-Shell**: Kommandozeilenzugriff auf den Interpreter. Für schnelle Tests und sehr erfahrene Benutzer. IPythons Shell kommt mit einer Reihe von hilfreichen Zusatzbefehlen, sogenannten „magics“.


## Navigation

Öffnen eines Terminals / Shell / Kommandozeile.

Die wichtigsten Shell-Befehle für:

* Linux/Unix/MacOS: [Link](http://www.shellbefehle.de/befehle/)
* Windows: [Link](https://www.script-example.com/themen/cmd_Batch_Befehle.php)

In [1]:
## Magie gibt es auch im Notebook

%lsmagic

Available line magics:
%alias  %alias_magic  %autoawait  %autocall  %automagic  %autosave  %bookmark  %cat  %cd  %clear  %colors  %conda  %config  %connect_info  %cp  %debug  %dhist  %dirs  %doctest_mode  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %lf  %lk  %ll  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %lx  %macro  %magic  %man  %matplotlib  %mkdir  %more  %mv  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %rep  %rerun  %reset  %reset_selective  %rm  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%pypy  %%

## Hilfestellung

1. `-h`, `--help`, `?` oder auf irgendwas mit „Help“/„Hilfe“ klicken.
2. Die Dokumentation lesen. Auf linux funktioniert oft `man <name des Befehls>`.
3. Jemanden fragen der sich auskennt, zum Beispiel auf [Stack Overflow](https://stackoverflow.com/).
4. Googlen hilft.

# Anaconda

## Scientific Python Distribution

Abgestimmtes Komplettpaket zahlreicher Pythonbibliotheken mit notwendigen Dependenzen und einer Vielzahl von Programmen. Wichtige Entwicklungsumgebungen:

**Spyder**: **S**cientific **Py**thon **d**evelopment **e**nvi**r**onment (d.h. ein fancy Editor). Spezifische Unterstützung für wissenschaftliches Arbeiten. Wirkt kompliziert ist jedoch benutzerfreundlicher als das Notebook.

**Jupyter Notebook**: Erlaubt flüssiges schreiben und interaktive Datenanalyse. Spezifische Veränderungen am Notebook selbst erfordern tiefgehendere Programmierkenntnisse.

## Anaconda Hilfsprogramme

* `conda`: Anaconda Paket-Manager. Erlaubt die Installation und Verwaltung von zusätzlichen Python Modulen und Umgebungen (environments).
* `pip`: PyPi Paket-Manager. Verfügt über ein größeres Repositorium als conda, ist jedoch in seiner Funktionalität begrenzter. Zudem kann es Probleme mit Dependenzen geben.
* `nbconvert`: Befehlszeilen Konvertierung für Notebooks. Benutzt [Pandoc](https://pandoc.org/) in Verbindung mit [Jinja2](http://jinja.pocoo.org/) Vorlagen (templates) und erlaubt eine Konvertierung in eine Vielzahl von Formaten (z.B.: Markdown, reST, HTML, LaTeX, PDF, etc.).

# `conda` 

## Package Management

* Erlaubt Installation/Update/Entfernung von zusätzlichen Paketen.
* Beachtet Dependenzen.
* Parallele Installation verschiedener Umgebungen.
* Siehe [docs](https://docs.conda.io/projects/conda/en/latest/).

## Bedienung

Aufruf auf der Kommandozeile: `conda --help`,

oder als IPython Magic: `%conda --help`

## Installation

```.bash
conda install <Name des Pakets>
```

## Upgrade aller Pakete

```.bash
conda update --all
```

## Environments

`conda` erlaubt die Erzeugung von Entwicklungsumgebungen, welche spezifische Pakete und Versionen festlegt.

* Unterschiedliche Pakete für unterschiedliche Projekte.
* Replizierbarkeit.
* Projektweit einheitliche Umgebung.