**Web Scraping und Data Mining in Python**


# Primitive Datentypen



Jan Riebling, *Universität Wuppertal*

# Grundlagen

## Pythons Datenmodell

Alles ist ein Objekt. Das bedeutet:

* Zugehörigkeit zu einer bestimmten Klasse (`type()`).
* Ein feste Identität (`id()`).
* Hat zugeordnete Attribute und Methoden (`dir()`).

Jedes Objekt existiert nur in Abhängigkeit zu anderen Objekten.

## Typen

Der Typ gibt die grundlegende Art eines Elements an. In Programiersprachen bedeutet dies, dass die möglichen Operationen eines Objekts von dessen Typ vorgegeben werden.

Die Werte `True` und `False` sind Beispiele für Elemente vom boolschen Typ.

In [4]:
type(False)

bool

In [None]:
1 + 2

In [None]:
'1' + '2'

## Dynamische Typisierung

Python verwendet dynamische Typen, d.h. der Typ eines Objekts wird aus dem Kontext und für gewöhnlich nicht explizit bestimmt. 

In [4]:
type(123)

int

In [2]:
type('123')

str

## Hierarchie der Typen:

in zunehmender Komplexität:

* [Boolsche Ausdrücke](https://docs.python.org/3/library/stdtypes.html#boolean-operations-and-or-not)
* [Zahlen](https://docs.python.org/3/library/stdtypes.html#numeric-types-int-float-long-complex) (`int`, `long`, `float`)
* [Sequenzen](https://docs.python.org/3/library/stdtypes.html#sequence-types-str-unicode-list-tuple-bytearray-buffer-xrange) (`str`, `list`, `tuple`)
* [Sets](https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset) (`set`)
* [Mappings](https://docs.python.org/3/library/stdtypes.html#mapping-types-dict) (`dict`)
* Funktionen u. Methoden

## Fortgeschrittene Typen

Weiterentwickelungen von Datentypen, die auf den primitiven Typen aufbauen. Sie weisen daher oft „Kombinationen“ der Eigenschaften primitiver Typen auf.

* Vektoren: Listen deren Element alle dem selben Datentyp angehören.
* Matrizen: 2-dimensionale Vektoren.
* Arrays: n-dimensionale Vektoren.
* DataFrames: Ein Diktionär von Vektoren.
* ...

In [6]:
import numpy as np

np.array([1, 2, 3]) + 1

array([2, 3, 4])

# Quirks of type

![types](https://imgs.xkcd.com/comics/types.png)

# Operatoren

* Arithmethic operators (`+`, `-`, `/`, `*`, etc.)
* Boolean operators (`and`, `or`, `not`, `==`, etc.)
* Set operators (`&`, `|`, `.union()`, etc.)

## Operatoren sind Methoden

Im Prinzip handelt es sich dabei nur um Abkürzungen für den Ruf einer Methode. Dementsprechend finden sie sich auch als Attribute der Objekte. Z.B.: `__add__` entspricht `+`.

In [10]:
1 / 2

0.5

In [12]:
'2' * 4

'2222'

In [14]:
[2] * 10

[2, 2, 2, 2, 2, 2, 2, 2, 2, 2]

## Zuweisung

Nur Objekte denen ein Name mittels `=` zugewiesen wurde bestehen im „Namespace“, d.h. im Arbeitsspeicher der aktiven Instanz von Python, fort.

In [5]:
a = 1
b = 2

print(a+b)
print(a/b)

3
0.5


## Namen $\neq$ Objekte

In [None]:
x = [4, 5, 9, 1, 0.5]
y = x

y.sort()

print(x)
print(y)

In [None]:
## `is` testet auf Identität
y is x

In [None]:
## == tests for equivalence
a, b = 1, 1.0

print(a == b)
print(a is b)

## Regeln für die Namensgebung

* Muss mit einem Buchstaben beginnen.
* Darf nur Buchstaben und Zahlen beinhalten. Seit Python 3, kompatibel mit Unicode.

Konventionen:

* Sprechende Namen verwenden.
* Einfache Objekte: kleingeschrieben und zusammen.
* Funktionen: kleingeschrieben und mit Unterstrich (`_`) getrennt.
* Abstrakte Klassen: Mit Großschreibung beginnen und mit CamelCase fortsetzen. 

## Weitere Regeln

Der Python Styleguide: [PEP 8](https://peps.python.org/pep-0008/).

# Singuläre Typen

## Integer vs. Floating Point

* Integer: Ganze Zahl.
* Floating Point: Gleitkommazahl, versucht eine Dezimalzahl auf der binären Zahlengeraden abzubilden.

In [6]:
0.1 + 0.2

0.30000000000000004

## String

Eine beliebig lange Zeichenkette. Beginnt entweder mit `'` oder `"` und muss immer auf die selbe Art beendet werden. Einmal definiert sind Strings nicht mehr veränderbar (ohne einen neuen String zu erzeugen!).

In [12]:
'1' * 10

'1111111111'

## Escaping

Sonderzeichen in einem String, wie der Tabulator oder Unicode-Zeichen (z.B. Umlaute) können problematisch sein und müssen mit einem Backslash gekennzeichnet (escaped) werden. Alternativ kann der String auch mit dreifachen Anführungszeichen eröffnet und ebenso wieder geschlossen werden. Dies erhält alle Sonderzeichen, sogar über Zeilenumbrüche hinweg.

In [None]:
print(""Max's Bar" ist nicht nur stilistisch problematisch.")

## Indexierung

Python-Objekte, die geordnetet Sequenzen darstellen (z.B. Strings, Listen, Tupel) können über einen Index angesprochen werden. Dieser Index erlaubt es einzelne Elemente oder Gruppen von Elementen innerhalb der Sequenz zu spezifizieren.

Es gilt folgende formale Definition:

`Objekt[i:j:k]` = Von `i` bis unter `j` in `k` Schritten.

## Python beginnt im Erdgeschoss!

|-6|-5|-4|-3|-2|-1|0|1|2|3|4|5|
|:--:|:--:|:--:|:--:|:--:|:--:|:-:|:-:|:-:|:-:|:-:|:-:|
| $\,$ | $\,$ | $\,$ | $\,$ | $\,$ | $\,$ |S  |t  |r  |i  |n  |g  |
|S   |t   |r   |i   |n   |g   


In [7]:
## Übung
s = 'String'