
Zusätzliche Ressourcen (optional):
- Artikel: Einführung in NLP und Textverarbeitung. https://www.ibm.com/de-de/topics/natural-language-processing
- Weiterführende Übung: Analysiere unstrukturierte Bilddaten mit Python (z.B. mithilfe von OpenCV).  https://www.adesso.de/de/news/blog/einfache-bildverarbeitung-mit-python-und-der-opencv-bibliothek.jsp

# Syllabus

Explore how the data structure impacts data storage, retrieval, and analytical methods.

---
# Datenstruktur und Speicherung

- Strukturierte Daten lassen sich effizient in relationalen Datenbanken speichern, da ihre Felder und Werte klar definiert sind
- Unstrukturierte Daten werden oft in Data Lakes oder NoSQL-Datenbanken gespeichert, da sie flexibel und skalierbar sein müssen
- die Wahl der Speicherlösung hängt stark von der Struktur der Daten ab

---
# Datenstruktur und Analyse

- Strukturierte Daten: Werden häufig für schnelle, präzise Analysen verwendet (z.B. aggregierte Berichte, SQL-Abfragen).
- Unstrukturierte Daten: Erfordern umfangreichere Rechenressourcen für die Analyse (z.B. Textanalyse mit NLP oder Bilderkennung mit maschinellem Lernen).

---
# Unterschiede zwischen strukturierten und unstrukturierten Daten

- Strukturierte Daten sind in einem tabellarischen Format organisiert, was die Analyse vereinfacht. Mit Pandas können wir direkt mit der Datenstruktur arbeiten und Berechnungen wie Gruppierungen durchführen.


- Unstrukturierte Daten erfordern eine Vorverarbeitung (z.B. Bereinigung von Text oder Bildern), bevor sie analysiert werden können. Dies umfasst die Bereinigung, Tokenisierung und weitere Techniken zur Analyse von Rohdaten.

---
# Wann strukturierte, wann unstrukturierte Daten?

Die Wahl zwischen strukturierten und unstrukturierten Daten hängt stark vom Anwendungsfall, den verfügbaren Datenquellen und den Analysezielen ab. Hier sind die wesentlichen Unterschiede und Anwendungsbereiche beider Arten von Daten:

<br>

## Strukturierte Daten

**Definition**: 
- Strukturierte Daten sind in einem festgelegten Format organisiert, z.B. in Tabellen mit Zeilen und Spalten, wie in relationalen Datenbanken oder CSV-Dateien. Jede Spalte hat einen bestimmten Datentyp (z.B. numerisch, Text, Datum).

**Bevorzugt bei**:
1. **Klare, wiederholbare Datenstrukturen**: <br>
Wenn die Daten klar definiert und regelmäßig in einem festgelegten Format vorliegen, wie Finanzdaten, Verkaufsberichte oder Sensorwerte.

2. **Eindeutige Beziehungen zwischen Daten**: <br>
Bei relationalen Datenbanken, bei denen es wichtig ist, Beziehungen zwischen Entitäten zu speichern, z.B. Kunden und Bestellungen.

3. **Automatisierte Verarbeitung**: <br>
Wenn Daten für automatisierte Berichte, Dashboards oder Algorithmen leicht zugänglich und verarbeitbar sein müssen, z.B. bei Echtzeit-Datenverarbeitung oder in ERP-Systemen.

4. **Schnelle Abfragen und Analysen**: <br>Wenn effiziente Abfragen und Berechnungen notwendig sind, wie bei SQL-Datenbanken oder Analysen von transaktionalen Daten.

5. **Machine Learning mit klaren Merkmalen**: <br>In vielen maschinellen Lernmodellen, die numerische oder kategoriale Daten benötigen, z.B. für Entscheidungsbäume, Regressionen oder Klassifikationen.


**Vorteile**:
- Einfach zu speichern, zu organisieren und zu analysieren.
- Unterstützt durch zahlreiche Datenbanken (SQL) und Analysewerkzeuge.
- Einfach in Tabellenform zu visualisieren und zu interpretieren.
  
**Beispiele**:
- Transaktionsdaten von Kreditkarten.
- Lagerbestandsdaten eines Unternehmens.
- Kundendatenbanken mit eindeutigen Merkmalen wie Name, Adresse, Geburtsdatum.

<br>

## Unstrukturierte Daten

**Definition**:
- Unstrukturierte Daten sind nicht in einem festen Format organisiert und können unterschiedliche Formen haben, wie Textdokumente, Bilder, Videos, Audiodateien, E-Mails oder soziale Medien. Diese Daten enthalten oft versteckte Informationen, die nicht leicht zugänglich sind.

**Sinnvoll bei**:
1. **Datenanalyse aus natürlichen Quellen**: <br>
Wenn die Daten aus Quellen wie Texten, Bildern, Videos, Audios oder sozialen Medien stammen, die keine klaren, strukturierten Formate haben.

2. **Semantische oder kontextuelle Analysen**: <br>
Wenn man auf semantische Inhalte zugreifen muss, z.B. in der Sentiment-Analyse von Kundenrezensionen, bei der Analyse von Gesprächstranskripten oder bei der Auswertung von Forschungspapieren.

3. **Bild- und Spracherkennung**: <br>
In der Verarbeitung von Bildern (z.B. Gesichtserkennung) oder Sprache (Spracherkennungssysteme wie Siri oder Alexa).

4. **Explorative Datenanalyse**: <br>
Wenn der Erkenntnisgewinn aus einer Vielzahl von möglichen Themen und Beziehungen gezogen werden muss, z.B. bei der Analyse großer Mengen unstrukturierter Texte, um neue Trends oder Muster zu entdecken.

5. **Künstliche Intelligenz und NLP**: <br>
In Bereichen wie Textverarbeitung (Natural Language Processing, NLP) oder Deep Learning, wo komplexe Muster in unstrukturierten Daten entdeckt werden müssen.



**Vorteile**:
- Flexibel und reich an Informationen, insbesondere bei unklaren oder kreativen Anwendungsfällen.
- Ermöglicht tiefere Einsichten in emotionale, kontextuelle oder inhaltliche Aspekte von Daten.
- Bietet eine Vielzahl an möglichen Analysewegen durch Textmining, Bildverarbeitung und andere KI-Techniken.

**Beispiele**:
- Soziale Medien (Twitter-Posts, Facebook-Kommentare).
- E-Mails und Chatverläufe.
- Medizinische Berichte, die Text, Bilder und Graphen enthalten.

<br>

## Entscheidungskriterien

1. **Datenquelle**: 
   - **Strukturierte Daten**: Wenn die Quelle klar strukturierte Daten liefert (z.B. Sensordaten, Transaktionen).
   - **Unstrukturierte Daten**: Wenn Daten aus sozialen Netzwerken, PDFs, Bilddatenbanken oder Audioquellen stammen.

2. **Ziel der Analyse**:
   - **Strukturierte Daten**: Wenn präzise, wiederholbare Ergebnisse und Metriken erforderlich sind, wie Umsatzanalysen oder KPI-Überwachung.
   - **Unstrukturierte Daten**: Wenn es darum geht, neue Erkenntnisse aus Text, Bildern oder Videos zu gewinnen, z.B. bei der Analyse von Kundenerfahrungen oder Stimmungsanalysen.

3. **Komplexität der Datenverarbeitung**:
   - **Strukturierte Daten**: Geringere Verarbeitungskomplexität, klar definierte Schritte und Regeln zur Datenanalyse.
   - **Unstrukturierte Daten**: Höhere Komplexität, oft mit spezialisierten Methoden wie Textmining, NLP oder maschinellem Lernen.



---
# Beispiele

## Unterschied zwischen SQL-Abfragen und der Verarbeitung unstrukturierter Daten

In [6]:
import sqlite3

# Verbindung zur SQLite-Datenbank herstellen
conn = sqlite3.connect('sales_1.db')

# Erstellen einer Tabelle (strukturierte Daten)
conn.execute('''
CREATE TABLE IF NOT EXISTS sales_data (
    customer_id INTEGER,
    product TEXT,
    sales_amount REAL,
    sales_date TEXT
)
''')

# Änderungen speichern (commit)
conn.commit()


# Abfrage auf strukturierte Daten
cursor = conn.execute("SELECT * FROM sales_data")
for row in cursor:
    print(row)

# Beispiel für unstrukturierte Textdatenverarbeitung
print("\nUnstrukturierte Textdatenverarbeitung:")
print(cleaned_text)  # Aus vorherigem Beispiel



Unstrukturierte Textdatenverarbeitung:

datenbereinigung ist wichtig für die textanalyse textanalyse hilft dabei wertvolle einblicke aus unstrukturierten daten zu gewinnen



---
## Umgang mit strukturierten Daten in einer CSV-Datei mit Python und Pandas

Der Code enthält das Erstellen einer CSV-Datei, das Laden der Daten, deren Anzeige und eine grundlegende Analyse.

In [1]:
import pandas as pd

# Strukturierte Daten
data = {
    'customer_id': [1, 2, 3, 4],
    'product': ['Product_A', 'Product_B', 'Product_C', 'Product_D'],
    'sales_amount': [120, 150, 130, 170],
    'sales_date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04']
}

# DataFrame erstellen
df = pd.DataFrame(data)

# CSV-Datei erstellen
csv_file_path = 'sales_data.csv'
df.to_csv(csv_file_path, index=False)

# CSV-Datei laden
loaded_df = pd.read_csv(csv_file_path)

# Strukturierte Daten anzeigen
print("Strukturierte Daten:")
print(loaded_df)

# Grundlegende Analyse der strukturierten Daten
print("\nGrundlegende Analyse:")
print("Beschreibende Statistik:")
print(loaded_df.describe())  # Beschreibende Statistik für numerische Spalten

print("\nDatenübersicht:")
print(loaded_df.info())  # Übersicht über das DataFrame (Datenstruktur)

print("\nDurchschnittlicher Verkaufsbetrag:")
print(loaded_df['sales_amount'].mean())  # Durchschnitt der Verkaufsbeträge


Strukturierte Daten:
   customer_id    product  sales_amount  sales_date
0            1  Product_A           120  2023-01-01
1            2  Product_B           150  2023-01-02
2            3  Product_C           130  2023-01-03
3            4  Product_D           170  2023-01-04

Grundlegende Analyse:
Beschreibende Statistik:
       customer_id  sales_amount
count     4.000000      4.000000
mean      2.500000    142.500000
std       1.290994     22.173558
min       1.000000    120.000000
25%       1.750000    127.500000
50%       2.500000    140.000000
75%       3.250000    155.000000
max       4.000000    170.000000

Datenübersicht:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   customer_id   4 non-null      int64 
 1   product       4 non-null      object
 2   sales_amount  4 non-null      int64 
 3   sales_date    4 non-null      object
dtype

1. **Erstellen der CSV-Datei**: Ein DataFrame wird aus dem `data`-Dictionary erstellt und anschließend in eine CSV-Datei geschrieben.

2. **Laden der CSV-Datei**: Die CSV-Datei wird mit `pd.read_csv()` erneut geladen, um sie weiter zu verarbeiten.

3. **Daten anzeigen**: Das DataFrame wird mit `print()` angezeigt, um einen Überblick zu erhalten.

4. **Grundlegende Analyse**: 
   - Mit `describe()` werden statistische Kennzahlen wie Mittelwert, Standardabweichung, etc., für numerische Spalten angezeigt.
   - `info()` gibt Informationen über die Datenstruktur, wie Datentypen und fehlende Werte.
   - Mit `mean()` wird der durchschnittliche Verkaufsbetrag berechnet.


---
## Bearbeitung und Analyse von unstrukturierten Textdaten 

- wir verwenden einen Text als Beispiel für unstrukturierte Daten.
- durch Textbereinigung entfernen wir Sonderzeichen und konvertieren den Text in Kleinbuchstaben.
- dann führen wir eine Tokenisierung durch, bei der der Text in einzelne Wörter zerlegt wird, und berechnen die Häufigkeit der Wörter.

In [5]:
import re
from collections import Counter

# Unstrukturierte Textdaten (Rohtext)
text_data = """
Datenbereinigung ist wichtig für die Textanalyse. Textanalyse hilft dabei, wertvolle Einblicke aus unstrukturierten Daten zu gewinnen.
"""

# Textbereinigung: Entfernen von Sonderzeichen und Umwandlung in Kleinbuchstaben
cleaned_text = re.sub(r'[^\w\s]', '', text_data).lower()

# Tokenisierung: Text in einzelne Wörter umwandeln
tokens = cleaned_text.split()

# Häufigkeitsanalyse der Wörter
word_counts = Counter(tokens)

# Unstrukturierte Daten und Wortfrequenz anzeigen
print("Unstrukturierte Textdaten nach der Bereinigung:")
print(cleaned_text)

print("\nWortfrequenzanalyse:")
print(word_counts)


Unstrukturierte Textdaten nach der Bereinigung:

datenbereinigung ist wichtig für die textanalyse textanalyse hilft dabei wertvolle einblicke aus unstrukturierten daten zu gewinnen


Wortfrequenzanalyse:
Counter({'textanalyse': 2, 'datenbereinigung': 1, 'ist': 1, 'wichtig': 1, 'für': 1, 'die': 1, 'hilft': 1, 'dabei': 1, 'wertvolle': 1, 'einblicke': 1, 'aus': 1, 'unstrukturierten': 1, 'daten': 1, 'zu': 1, 'gewinnen': 1})


1. **Textbereinigung**:
   - Der reguläre Ausdruck `re.sub(r'[^\w\s]', '', text_data)` entfernt alle Sonderzeichen und lässt nur Buchstaben und Leerzeichen übrig.
   - `.lower()` wandelt den gesamten Text in Kleinbuchstaben um, um Groß-/Kleinschreibung in der Analyse zu ignorieren.

2. **Tokenisierung**:
   - Der bereinigte Text wird mit `split()` in einzelne Wörter (Tokens) zerlegt. Dies erzeugt eine Liste von Wörtern.

3. **Häufigkeitsanalyse**:
   - Der `Counter` aus dem `collections`-Modul zählt die Häufigkeit jedes Wortes in der Token-Liste.

---
# Diskussion

## Wie beeinflusst die Datenstruktur die Wahl der Speicherlösung?

- **Strukturierte Daten:** Benötigen oft relationale Datenbanken (z.B. SQL) oder Tabellenformate (z.B. CSV, Excel), da sie klar definierte Felder und Beziehungen haben.
- **Unstrukturierte Daten:** Eignen sich besser für NoSQL-Datenbanken (z.B. MongoDB) oder Data Lakes, da sie keine feste Struktur aufweisen und flexibel gespeichert werden müssen.

## Welche analytischen Methoden eignen sich am besten für strukturierte und unstrukturierte Daten?

- **Strukturierte Daten:** Ideal für statistische Analysen, maschinelles Lernen (z.B. lineare Regression, Klassifikation), und SQL-Abfragen.
- **Unstrukturierte Daten:** Häufig verwendet für Natural Language Processing (NLP), Bilderkennung, Text Mining, und Deep Learning.
