**Web Scraping und Data Mining in Python**

# Sequenzen und Container

Jan Riebling, *Universität Wuppertal*

# Sequenzen

## Allgemein

Beliebig lange Verknüpfung von Elementen, die mit einem *Index* abgerufen werden können. Sequenzen können *veränderlich* oder *unveränderlich* sein. Strings sind unveränderliche Sequenzen.

## Liste (Objektkette)

Listen sind veränderbare Sequenzen. Sie werden mit `[` begonnen und mit `]`geschlossen. Einzelne Elemente, die eines beliebigen Typs sein können, werden mit `,` voneinander getrennt. Listen haben einen Index.

In [1]:
## Liste beliebiger Objekte
import pandas as pd

L = ['A', 1, 4.5, pd.Series(), [1, 2, 3]]

L

  L = ['A', 1, 4.5, pd.Series(), [1, 2, 3]]


['A', 1, 4.5, Series([], dtype: float64), [1, 2, 3]]

In [40]:
L[1] = [1, 2, 3]

L

['A', [1, 2, 3], 4.5, Series([], dtype: float64), [1, 2, 3]]

## Tupel

Unveränderliche Sequenzen beliebiger Objekte, werden mit `(` begonnen und mit `)` geschlossen. Haben alle Eigenschaften von Listen, können aber nicht im nachhinein verändert werden!

In [43]:
t = ('A', 1, 4.5, pd.Series())

t[1] = [1, 2, 4]

TypeError: 'tuple' object does not support item assignment

*Unveränderlichkeit* bedeutet, dass keine Elemente in eine bestehende Sequenz eingefügt werden können.

In [42]:
## Kein Einfügen in den bestehenden String
hello = 'Hello _!'
hello[6:7] = 'World'
hello

TypeError: 'str' object does not support item assignment

## Listen sind veränderlich (Splicing)

In [4]:
L = [5, 9, 0.5]

L[2:2] = 'A'

L

[5, 9, 'A', 0.5]

## List-of-tuples

Ermöglicht die parallele Iteration über Objekte. Kann mittels `zip()` aus gleich langen Sequenzen generiert werden.

In [5]:
years = [1988, 1964, 1912, 1996, 2008, 1976]
places = ['Seoul', 'Tokio', 'Stockholm', 'Atlanta', 'Peking', 'Montreal']

sommer = list(zip(years, places))

print(sommer)

[(1988, 'Seoul'), (1964, 'Tokio'), (1912, 'Stockholm'), (1996, 'Atlanta'), (2008, 'Peking'), (1976, 'Montreal')]


## Paralelle Iteration

In [6]:
for year, city in sommer:
    if year < 1988:
        print(city, ':', year)
        

Tokio : 1964
Stockholm : 1912
Montreal : 1976


# Sets (Mengen)

Wird mit der Funktion `set()` initialisiert. Entsprechen weitestgehend dem mathematischen Konzept einer Menge. Kann dazu genutzt werden um Sammlungen von Elementen auf ihre eineindeutigen Elemente (Logik: Typen) einzugrenzen oder auf Mitgliedschaft zu testen. Ausführlichere Dokumentation [hier](https://docs.python.org/3/tutorial/datastructures.html#sets).

In [51]:
fridge = set(['Butter', 'Spezi', 'Bacon', 'Bacon', 'Bacon'])
'Bacon' in fridge

True

## Set-Operatoren

* **Schnittmenge**:
Die Menge $U$ derjenigen Elemente, die in allen Mengen die zur Schnittmenge gehören enthalten sind. In Python lässt sich die Schnittmenge mehrerer Mengen durch den `&`-Operator erzeugen. 
$$ U = A \cap B$$ 
* **Vereinigungsmenge**: Die Menge $U$ derjenigen Elemente, die mindestens in einer der Teilmengen vorkommen. Lässt sich entweder durch die Verwendung eines `|`-Operators oder durch die `set`-Methode `.union()` erzeugen. $$U = A \cup B$$  
* **Differenz**: Bestimmt hinsichtlich zweier Mengen ($A$, $B$), ist die Restmenge $U$ die Menge aller Elemente die nur in $A$ vorkommt. Wird in Python entweder durch den `-`-Operator oder die Methode `.difference()` erzeugt.
$$A \setminus B$$ 
* **Symmetrische Differenz**: Bestimmt hinsichtlich zweier Mengen ($A$, $B$), ist dies die Menge $U$ aller Elemente, die nicht in der Schnittmenge $A \cap B$ enthalten sind. In Python wird eine symmetrische Differenz mittels des `^`-Operators oder durch die Methode `.symmetric_difference()` gebildet.  
$$A \triangle B$$

## Beispiel

In [54]:
groceries = set(['Bacon', 'Butter', 'Eggs', 'Spam'])

groceries ^ fridge

{'Eggs', 'Spam', 'Spezi'}

# Diktionäre (mapping)

## Python `dict`

Ungeordnete Sammlung von Elementen die jeweils über einen einzigartigen Schlüssel angesprochen werden können. Diktionäre werden mit `{` geöffnet und mit `}` geschlossen. `key-value` Paare bestehen jeweils aus einem Schlüssel und dem dazugehörigen Wert, beides wird mit `:` von einander getrennt. Die Abtrennung unterschiedlicher Paare geschieht mit `,`.

```python
D = {key1: value1, 
     key2: value2, 
     ...}
```

In [1]:
D = {'Vorname': 'Thomas', 'Nachname': 'Mustermann' }

print(D['Vorname'])
print(D['Nachname'])

Thomas
Mustermann


## Keine Sequenz, kein Index

Werte können im Diktionär nur über den entsprechenden Schlüssel angesprochen werden. Jedoch können Diktionäre (mit ihren eigenen Methoden) problemlos in andere Typen konvertiert werden, die über einen Index verfügen.

In [57]:
D

{'Nachname': 'Mustermann', 'Vorname': 'Thomas'}

## Diktionär-Methoden der Transformation

Welchen Typ haben die resultierenden Datentypen?

In [58]:
## Schlüssel ausgeben
print(D.keys())

## Werte ausgeben
print(D.values())

## Paare (Elemente) ausgeben
print(D.items())

dict_keys(['Vorname', 'Nachname'])
dict_values(['Thomas', 'Mustermann'])
dict_items([('Vorname', 'Thomas'), ('Nachname', 'Mustermann')])


## Diktionäre sind Hash-Tables

Bei Pythons `dict` handelt es sich technisch betrachtet um [*hashtables*](http://en.wikipedia.org/wiki/Hash_table). Dabei handelt es sich um eine äußerst elegante und leistungsfähige Art Daten zu verwalten.

![Hash table](http://upload.wikimedia.org/wikipedia/commons/thumb/7/7d/Hash_table_3_1_1_0_1_0_0_SP.svg/315px-Hash_table_3_1_1_0_1_0_0_SP.svg.png)