# collection Modul

Das **`collections`**-Modul in Python erweitert die Funktionalität von eingebauten Datentypen wie Listen, Tupeln und Dictionaries. Es bietet spezialisierte Container-Datentypen, die häufig in verschiedenen Programmierszenarien nützlich sind. Hier ist eine Erklärung der wichtigsten Funktionen und Klassen des Moduls:

### 1. **`namedtuple`**
- **Was es macht**: Erstellt benannte Tupel (ähnlich wie ein reguläres Tupel, aber mit benannten Feldern).
- **Nutzen**: Ermöglicht es dir, auf Tupel-Elemente durch Namen statt durch Position zuzugreifen.
  
  ```python
  from collections import namedtuple
  
  Point = namedtuple('Point', ['x', 'y'])
  p = Point(10, 20)
  print(p.x, p.y)  # Ausgabe: 10 20
  ```

### 2. **`deque`** (Doppelt verkettete Liste)
- **Was es macht**: Bietet eine schnellere Möglichkeit, Elemente an beiden Enden einer Liste hinzuzufügen oder zu entfernen.
- **Nutzen**: Sehr effizient für Operationen am Anfang und Ende der Liste, z.B. für Warteschlangen und Stapel.

  ```python
  from collections import deque
  
  d = deque([1, 2, 3])
  d.append(4)       # Hinzufügen ans Ende
  d.appendleft(0)   # Hinzufügen an den Anfang
  print(d)          # Ausgabe: deque([0, 1, 2, 3, 4])
  ```

### 3. **`Counter`**
- **Was es macht**: Ein Wörterbuch, das die Häufigkeit von Elementen in einer Liste oder Sequenz zählt.
- **Nutzen**: Hilfreich, um zu sehen, wie oft bestimmte Werte in einer Sammlung vorkommen.

  ```python
  from collections import Counter
  
  counts = Counter(['apple', 'banana', 'apple', 'orange', 'banana', 'apple'])
  print(counts)  # Ausgabe: Counter({'apple': 3, 'banana': 2, 'orange': 1})
  ```

### 4. **`defaultdict`**
- **Was es macht**: Ein Wörterbuch, das automatisch einen Standardwert erstellt, falls ein Schlüssel nicht vorhanden ist.
- **Nutzen**: Vermeidet Fehler bei der Arbeit mit nicht existierenden Schlüsseln.
  
  ```python
  from collections import defaultdict
  
  dd = defaultdict(int)  # int() gibt standardmäßig 0 zurück
  dd['apple'] += 1
  print(dd['apple'])  # Ausgabe: 1
  print(dd['banana']) # Ausgabe: 0 (Standardwert)
  ```

### 5. **`OrderedDict`** (Veraltet für Python 3.7+)
- **Was es macht**: Ein Wörterbuch, das die Einfügereihenfolge der Schlüssel speichert.
- **Nutzen**: Seit Python 3.7 speichern normale Dictionaries ebenfalls die Einfügereihenfolge, daher ist diese Klasse weniger nützlich in neueren Versionen.

  ```python
  from collections import OrderedDict
  
  od = OrderedDict()
  od['banana'] = 1
  od['apple'] = 2
  od['orange'] = 3
  print(od)  # Ausgabe: OrderedDict([('banana', 1), ('apple', 2), ('orange', 3)])
  ```

### 6. **`ChainMap`**
- **Was es macht**: Eine Klasse, die mehrere Mappings (z.B. Dictionaries) in einer Ansicht zusammenführt.
- **Nutzen**: Ermöglicht den Zugriff auf mehrere Wörterbücher als wäre es eines.

  ```python
  from collections import ChainMap
  
  dict1 = {'a': 1, 'b': 2}
  dict2 = {'b': 3, 'c': 4}
  combined = ChainMap(dict1, dict2)
  print(combined['b'])  # Ausgabe: 2 (wert aus dict1)
  ```

### 7. **`UserDict`, `UserList`, `UserString`**
- **Was sie machen**: Diese Klassen bieten die Möglichkeit, Standard-Datentypen wie Dictionaries, Listen und Strings zu erweitern.
- **Nutzen**: Erleichtern das Erstellen benutzerdefinierter Datenstrukturen, die sich wie Standardtypen verhalten.

  ```python
  from collections import UserDict
  
  class MyDict(UserDict):
      def __setitem__(self, key, value):
          print(f"Setze {key} = {value}")
          super().__setitem__(key, value)
  
  d = MyDict()
  d['apple'] = 42  # Ausgabe: Setze apple = 42
  ```

### Zusammengefasst:
Das `collections`-Modul hilft dabei, häufige Aufgaben mit erweiterten Containern effizienter und übersichtlicher zu lösen. Ob du mit benannten Tupeln arbeitest, Häufigkeiten zählst oder eine doppelt verlinkte Liste benötigst – dieses Modul hat viele nützliche Funktionen!

## Beispiel der Verarbeitung von unstrukturierten Daten

In [1]:
import re
from collections import Counter

# Unstrukturierte Daten (Text)
text_data = "Die Analyse von Textdaten ist spannend! Textanalyse ist eine interessante Herausforderung."

# Text bereinigen (z.B. Sonderzeichen entfernen, in Kleinbuchstaben umwandeln)
cleaned_text = re.sub(r'[^a-zA-Z\s]', '', text_data.lower())

# Tokenisierung (Wörter in eine Liste umwandeln)
tokens = cleaned_text.split()

# Häufigkeit der Wörter berechnen
word_counts = Counter(tokens)
print(word_counts)

Counter({'ist': 2, 'die': 1, 'analyse': 1, 'von': 1, 'textdaten': 1, 'spannend': 1, 'textanalyse': 1, 'eine': 1, 'interessante': 1, 'herausforderung': 1})
