**Web Scraping und Data Mining in Python**


# Daten und Datensätze

Jan Riebling, *University Wuppertal*

# Datensätze

## Tabellen

Darstellung und Verwaltung von Daten in Form einer Tabelle, bestehend aus:

* *Zeilen*: Enthält die Ausprägungen für einen spezifischen Merkmalsträger.
* *Spalten*: Enthält alle gemessenen Werte einer spezifischen Variablen.
* Zellen: Enthalten die Elementarsätze, die konkreten Messungen einer Variablen an einem Merkmalsträger.  

In [4]:
L = [['ID', 'Alter', 'Netto'],
     ['A', 23, 25000],
     ['B', 25, 60000],
     ['C', 68, 14000]]

L[0][1]

'Alter'

## Besser: Arrays

* Wie gestaffelte Listen (`list`), aber begrenzt auf einen Typ von Elementen (`dtype`).
* Multidimensionaler Index (`.shape`).
* Sehr performativ für numerische Operationen (lineares Algebra).

## Dimensionalität

* *Vektor* ($\mathbb{R}^1$)
* *Matrix* ($\mathbb{R}^2$) 
* *Array* ($\mathbb{R}^x \; \text{für} \; x  \gt 2$)

## Python Bibliotheken

* NumPy: Stellt das grundlegende Objekt der Array bereit.
* SciPy: Weitreichende Bibliothek für lineares Algebra, Statistik und Sonderformen von Arrays (z.B.: sparse arrays).
* pandas: Stellt benutzerfreundlichere und komplexere Datenstrukturen bereit (z.B.: `Series` and `DataFrame`). 

In [3]:
import numpy as np

vector = np.arange(12)
vector

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## Vektoren vs. Listen

In [7]:
vector

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [8]:
List = list(range(12))

print(List)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


## dtype

Ein(e) Vektor/Matrix/Array muss aus einem spezifischen Datentyp bestehen (`dtype`).

Der numerische Typ einer Array kann im vorneherein festgelegt werden (`dtype=` Argument). Es ist auch möglich den dtype im nachhinein zu ändern, dies nennt man *typecasting*.

In [17]:
vector = np.arange(9, dtype='int')

print('dtype:', vector.dtype)

print('vector:', vector)

dtype: int64
vector: [0 1 2 3 4 5 6 7 8]


# Pandas

## Python DataFrames

Das [pandas](http://pandas.pydata.org/pandas-docs/stable/index.html) Paket stellt Datentabellen und elegante Algorithmen zur Datenanalyse bereit. Konzeptionell ähnelt die pandas `DataFrame` Klasse dem R `data.frame`. Ein Vergleich findet sich [hier](http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html).

Für Interessierte empfiehlt sich ["10 Minutes to pandas"](http://pandas.pydata.org/pandas-docs/stable/10min.html).

In [9]:
import pandas as pd

## Series, DataFrame und Panel

* `Series`, entspricht einem Vektor.
* `DataFrame`, entspricht einer Sammlung von `Series`-Objekten.
* `Panel`, entspricht einer Sammlung von `DataFrame`-Objekten.

In [10]:
## Beispiel: pd.Series

ids = pd.Series(['A', 'B', 'C'])
ages = pd.Series([23, 25, 68])

ages * 2

0     46
1     50
2    136
dtype: int64

In [13]:
df = pd.DataFrame({'ID': ids, 
                   'Alter': ages})

df

Unnamed: 0,ID,Alter
0,A,23
1,B,25
2,C,68


## Pandas arrays

Die Ähnlichkeiten zwischen pandas und NumPy sind nicht zufällig, da pandas auf NumPy aufbaut. Darüberhinaus verfügt pandas jedoch über einige Besonderheiten, welche die Arbeit mit Datensätzen enorm vereinfachen.

* Zusätzliche Typen, z.B. Datumsangaben, Strings, etc. ([docs](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#dtypes))
* Benannte und komplexe Indexierung. ([docs](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html))
* Weitreichende Methoden und Funktionen der Datentransformation und des -managements.
* Lese- und Schreibfunktionen für eine Vielzahl gängiger Dateiformate und Inputs. ([docs](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html))

In [18]:
df2 = pd.DataFrame({'A' : range(1, 5),
                    'B' : pd.date_range('21/2/2018', periods=4),
                    'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D' : np.random.randn(4),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : ['foo', 'bar', 'baz', 'bla']})

df2

Unnamed: 0,A,B,C,D,E,F
0,1,2018-02-21,1.0,-0.231526,test,foo
1,2,2018-02-22,1.0,2.067632,train,bar
2,3,2018-02-23,1.0,-0.076154,test,baz
3,4,2018-02-24,1.0,0.700061,train,bla


# Indexierung

## Index

Während `pd.Series` nur über einen Index verfügt (`.index`), der die Zeilen ordnet, verfügt der `pd.DataFrame` auch über einen Index der Spalten (`.columns`).

pandas Indexierung funktioniert primär über geordnete Label, also ähnlich wie ein Diktionär mit geordneten Schlüsseln. Die Zahl `5` würde zum Beipiel als ein Label des Index verstanden werden, nicht als die Position `5` wie dies bei einer Liste der Fall wäre. Es gilt folgende Regel:

* Serie`[`Zeile`]` $\rightarrow$ Zelle
* DataFrame`[`Spalte`]` $\rightarrow$ Spalte (`pd.Series`)
* DataFrame`[`Spalte`][`Zeile`]` $\rightarrow$ Zelle

In [15]:
df['Alter']

0    23
1    25
2    68
Name: Alter, dtype: int64

## Indexierungsobjekte

Objekte die zur Indexierung genutzt werden können:

* Namen von Spalte und Zeilen..
* Boolsche Arrays.
* Funktionen welche die vornagegangenen Objekte ausgeben.

In [17]:
df['Alter'] >= 25

0    False
1     True
2     True
Name: Alter, dtype: bool

## `.iloc`

Integer basierte Indexierung. Es gelten die Standardregeln für Python Indexierung: von $i$ **bis unter** $j$.

```
DataFrame.iloc[row_indexer, column_indexer]
```

In [19]:
df2.iloc[:1, 2:]

Unnamed: 0,C,D,E,F
0,1.0,-0.231526,test,foo


## `.loc`

Nutzt label-basierte Indexierung. Diese folgt **nicht** den üblichen Python Indexierungsregeln. Das Letzte Element ist in der Auswahl enthalten. 

In [21]:
df2.loc[:1, 'C':]

Unnamed: 0,C,D,E,F
0,1.0,-0.231526,test,foo
1,1.0,2.067632,train,bar
