**Web Scraping und Data Mining in Python**

# Schleifen und logische Bedingungen

Jan Riebling, *Universität Bamberg*

# Schleifen

## Grundlegende Operationen

* Input
* Output
* Operationen (logisch & mathematisch)
* *Iterationen*
* *Control Flow* (Prozessteuerung)

## Iteration

Zwei Arten von Schleifen (siehe auch [Python Docs](https://docs.python.org/2/tutorial/controlflow.html)): 

* `for` x `in` Sequenz:  
  Für alle Elemente von x tue y.
* `while` Bedingung:  
  Solange die Bedingung x erfült ist wiederhole y.

„Funktionale“ Alternative:

* `map()`

## `while`

1. Prüfe Bedingung.
2. Wenn (IFF) Bedingung wahr:
    2. Führe Operation aus.
    2. Gehe zu 1.
3. Wenn Bedingung nicht erfüllt:
    3. Beende Schleife

## Sonnenblumenkerne

Das Wachstum einiger natürlicher Prozesse folgt der Fibonacci-Serie:

$$  
f_n =
\begin{cases}
  f_n = n,           & \text{if $n \le 2$} \\
  f_{n-1} + f_{n-2}, & \text{if $n \gt 2$}
\end{cases} 
$$

$f = 0, 1, 1, 2, 3, 5, 8, 13, \dots$

In [1]:
## Als while Schleife?

## `for`

1. Für erstes Element der Sequenz s:
    1. Führe Operation aus
    2. Rufe `__next__()` (nächstes Element)
    3. Wenn kein weiteres Element:
        1. Beende Schleife.
    4. Sonst:
        1. Gehe zu 1.


## Bsp. Wörter zählen

Aufgabe: Durch eine Liste mit Wörtern gehen und die Häufigkeit jedes Wortes zurück geben.

In [3]:
## Vorbereitung:

spamskit = '''Well, there's egg and bacon; \
egg sausage and bacon; \
egg and spam; egg bacon and spam; \
egg bacon sausage and spam; \
spam bacon sausage and spam; \
spam egg spam spam bacon and spam; \
spam sausage spam spam bacon spam tomato and spam;'''

tokens = spamskit.split(' ')

print(tokens)

['Well,', "there's", 'egg', 'and', 'bacon;', 'egg', 'sausage', 'and', 'bacon;', 'egg', 'and', 'spam;', 'egg', 'bacon', 'and', 'spam;', 'egg', 'bacon', 'sausage', 'and', 'spam;', 'spam', 'bacon', 'sausage', 'and', 'spam;', 'spam', 'egg', 'spam', 'spam', 'bacon', 'and', 'spam;', 'spam', 'sausage', 'spam', 'spam', 'bacon', 'spam', 'tomato', 'and', 'spam;']


In [2]:
## Häufigkeit der Tokens als for-Schleife?

## List comprehension

`for`-Schleifen können auch in der Form von *list comprehensions* geschrieben werden. Dies stellt oft eine präzisere  aber weniger lesbare Schreibweise dar. Zudem sind list comprehensions fast immer schneller:

`[i for i in x]`

In [26]:
## Übung
[(token, tokens.count(token)) for token in set(tokens) if len(token) > 3]

[('Well,', 1),
 ('bacon', 5),
 ('tomato', 1),
 ('spam;', 6),
 ('bacon;', 2),
 ('spam', 8),
 ('sausage', 4),
 ("there's", 1)]

List Comprehensions können auch mit Bedingungen versehen werden:

`[i for i in x if Bedingung]`

In [35]:
## Übung

[('sausage', 4), ('spam;', 6), ('spam', 8)]

# Boolsches Algebra

## `if`

> For of all sad words of tongue or pen, The saddest are these: 'It might have been!' 

> *John Greenleaf Whittier*, Maud Muller

## Control flow

* `if` prüft eine Bedingung und führt nachfolgende Operationen nur dann aus, wenn die Bedingung erfüllt ist.
* `else`  Führt Operation nur dann aus, wenn das vorangegangene `if` nicht erfüllt wurde. Muss nach `if` stehen.
* `elif` muss nach `if` und vor `else` (optional) stehen. Prüft eine weitere `if`-Bedingung.

In [28]:
if 1 < 2:
    print('Wahr!')
else:
    print('Falsch!')

Wahr!


In [29]:
zahl = input('Ganze Zahl eingeben: ')

if not zahl.isdigit():
    print('Does not compute')
elif int(zahl) % 2 != 0:
    print('Ungerade!')
else:
    print('Gerade!')

Ganze Zahl eingeben: 5
Ungerade!


## Boolsche Ausdrücke

* `True` und `False`.
* `1` und `0`.
*  `None` ist immer `False`.
* Leere Objekte (`''`, `[]`, `()`, `{}`, etc.) evaluieren immer als `False`.

Siehe auch [Python Docs](https://docs.python.org/2/library/stdtypes.html#truth-value-testing)

## Prüfung

* Logische Äquivalenz: `==`.
* Ungleichheiten: `<`, `<=`, `>`, `>=`, `!=`.
* Identität: `is`, `not is`.
* Mitgliedschaft: `in`, `not in`.

## Boolsche Operatoren

Algebraische Struktur, die logische (und mengentheoretische) Operatoren abbildet:

| Logik | Zeichen  | Syntax |
|:------|:--------:|:-------|
| UND   | $\wedge$ | `and`  |
| ODER  | $\lor$   | `or`   |
| NICHT | $\neg$   | `not`  |


## `and`

| Ausdruck          | Wahrheitswert |
|-------------------|---------------|
| `True and True`   | `True`        |
| `True and False`  | `False`       |
| `False and True`  | `False`       |
| `False and False` | `False`       |

In [30]:
False and False

False

## `or`

| Ausdruck          | Wahrheitswert |
|-------------------|---------------|
| `True and True`   | `True`        |
| `True and False`  | `True`        |
| `False and True`  | `True`        |
| `False and False` | `False`       |

In [4]:
False or True

True

## Priorität der Operatoren

Von der niedrigsten zur höchsten:

1. lambda
1. if – else
1. or
1. and
1. not x
1. in, not in, is, is not, <, <=, >, >=, !=, ==

Siehe auch [Python Reference](https://docs.python.org/3/reference/expressions.html#operator-precedence)

## Short circuit evaluation

Python evaluiert der Reihe nach und nicht zwangsläufig den gesamten Ausdruck: 

* Bei `or`: Wenn der erste Operand `True` ist, gilt der ganze Ausdruck als wahr.
* Bei `and`: Wenn der erste Operand `False` ist, gilt der ganze Ausdruck als falsch.

Siehe dazu [hier](https://en.wikibooks.org/wiki/Non-Programmer%27s_Tutorial_for_Python_3/Boolean_Expressions).

In [1]:
True or False or False

True

In [9]:
False and True and True

False

## Präzise aber nicht pedantisch

![conditionals](https://imgs.xkcd.com/comics/conditionals.png)