#### Notebook only for trying how to use NLP/LLM Models to understand text better

In [2]:
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp("This is a sample text for tokenization.")
for token in doc:
    print(token.text)

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

#### Information from ChatGPT about possible usable Tools


Um einen Text nach dem Web-Scraping zu analysieren und zu verstehen, gibt es verschiedene Ansätze, die sowohl auf klassischen NLP-Techniken (Natural Language Processing) als auch auf modernen LLM-Modellen (Large Language Models) basieren. Diese Tools und Methoden helfen dir, den Inhalt eines Textes zu verstehen, Schlüsselthemen zu identifizieren, Stimmungen zu erfassen oder bestimmte Entitäten zu extrahieren.

Hier gebe ich dir einen Überblick über verschiedene Möglichkeiten, wie du Texte analysieren kannst, und erläutere, wie moderne LLMs wie GPT (Generative Pre-trained Transformer) eingesetzt werden können:

1. Grundlegende NLP-Techniken
Diese Techniken können verwendet werden, um Texte mit klassischen NLP-Bibliotheken wie spaCy, NLTK oder transformers (Hugging Face) zu analysieren.

a. Tokenisierung

Was es ist: Der Prozess der Aufteilung eines Textes in kleinere Einheiten, sogenannte Token (Wörter, Sätze).
Verwendung: Um zu verstehen, aus welchen Wörtern oder Phrasen ein Text besteht.
Tools: spaCy, NLTK, transformers
Beispiel (mit spaCy):

python
Copy code
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp("This is a sample text for tokenization.")
for token in doc:
    print(token.text)
b. POS-Tagging (Part-of-Speech)

Was es ist: Erkennung der Wortart jedes Tokens (z. B. Nomen, Verb, Adjektiv).
Verwendung: Hilft zu verstehen, welche Rolle jedes Wort im Satz spielt.
Tools: spaCy, NLTK
Beispiel:

python
Copy code
for token in doc:
    print(token.text, token.pos_)
c. Named Entity Recognition (NER)

Was es ist: Erkennung von Entitäten im Text (z. B. Namen von Personen, Orten, Organisationen, Zeitangaben).
Verwendung: Um wichtige Entitäten im Text zu extrahieren.
Tools: spaCy, transformers
Beispiel:

python
Copy code
for ent in doc.ents:
    print(ent.text, ent.label_)
d. Sentiment-Analyse

Was es ist: Bestimmung der Stimmung des Textes (positiv, negativ, neutral).
Verwendung: Um die allgemeine Stimmung in einem Text oder Artikel zu erkennen.
Tools: TextBlob, VADER, transformers
Beispiel (mit TextBlob):

python
Copy code
from textblob import TextBlob
text = "This is a fantastic product!"
analysis = TextBlob(text)
print(analysis.sentiment)
e. Stemming und Lemmatisierung

Was es ist: Reduzierung von Wörtern auf ihre Grundformen.
Verwendung: Um verschiedene Formen eines Wortes (z. B. „läuft“, „laufen“) zu erkennen.
Tools: spaCy, NLTK
Beispiel (Lemmatisierung):

python
Copy code
for token in doc:
    print(token.text, token.lemma_)
2. Fortgeschrittene Methoden: LLMs (Large Language Models)
Moderne Large Language Models (LLMs) wie GPT-3 oder GPT-4, die von OpenAI entwickelt wurden, sowie Modelle, die mit Hugging Face verfügbar sind, bieten eine weit tiefere Analyse, indem sie nicht nur grundlegende NLP-Techniken anwenden, sondern auch semantisches Verständnis und Kontextinterpretation ermöglichen.

a. Textzusammenfassung

Was es ist: Automatische Erstellung einer kurzen Zusammenfassung des Textes.
Verwendung: Um schnell den Inhalt langer Texte zu erfassen.
Tools: Hugging Face Transformers, GPT-3, GPT-4
Beispiel (mit Hugging Face):

python
Copy code
from transformers import pipeline
summarizer = pipeline("summarization")
text = "Long article goes here..."
summary = summarizer(text, max_length=100, min_length=30)
print(summary[0]['summary_text'])
b. Fragen zum Text beantworten (Question Answering)

Was es ist: Ein System, das in der Lage ist, Fragen auf der Grundlage eines Textes zu beantworten.
Verwendung: Um gezielt nach Informationen in einem Text zu suchen.
Tools: GPT-3, Hugging Face (BERT-basierte Modelle)
Beispiel (mit Hugging Face):

python
Copy code
from transformers import pipeline
qa_pipeline = pipeline("question-answering")
context = "The Eiffel Tower is located in Paris."
result = qa_pipeline(question="Where is the Eiffel Tower?", context=context)
print(result['answer'])
c. Themenmodellierung (Topic Modeling)

Was es ist: Identifizierung der Hauptthemen, die in einem Text besprochen werden.
Verwendung: Um zu verstehen, welche Themen in großen Textmengen behandelt werden.
Tools: Gensim, Latent Dirichlet Allocation (LDA)
Beispiel (mit Gensim):

python
Copy code
from gensim import corpora, models
# List of documents (texts)
texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer']]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
lda = models.LdaModel(corpus, num_topics=2, id2word=dictionary)
print(lda.print_topics())
d. LLM-basierte Textinterpretation

Was es ist: Große Sprachmodelle wie GPT-3 oder GPT-4 verstehen den Text als Ganzes, erkennen den Kontext und können den Text interpretieren oder sogar neue Inhalte basierend auf dem Text generieren.
Verwendung: Um detaillierte Analysen oder kreative Anwendungen zu erstellen, z. B. Zusammenfassungen, Interpretation von Argumenten oder Vorhersagen auf der Grundlage von Textinhalten.
Tools: OpenAI GPT-3/GPT-4 API
Beispiel (mit OpenAI GPT-3/4):

python
Copy code
import openai

openai.api_key = 'your-api-key-here'

response = openai.Completion.create(
  engine="text-davinci-003",
  prompt="Explain the main points of the following article: ...",
  max_tokens=150
)
print(response.choices[0].text.strip())
3. Kombination von Web-Scraping und Textanalyse
Du kannst Web-Scraping und NLP-Modelle oder LLMs kombinieren, um automatisch Texte zu extrahieren und zu analysieren. Ein mögliches Workflow-Szenario könnte so aussehen:

Web Scraping: Scrape Inhalte von Nachrichtenwebseiten (z. B. mit requests und BeautifulSoup).
Textanalyse:
Verwende grundlegende NLP-Tools (z. B. spaCy), um Entitäten, Schlüsselwörter oder Stimmungen zu erkennen.
Nutze LLMs (z. B. GPT-3), um tieferes Verständnis, Zusammenfassungen oder thematische Erkennung zu ermöglichen.
Beispiel-Workflow:

python
Copy code
import requests
from bs4 import BeautifulSoup
from transformers import pipeline

# Schritt 1: Web Scraping
url = 'https://example.com/news-article'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
article_text = soup.find('div', class_='article-content').get_text()

# Schritt 2: Zusammenfassung mit Hugging Face
summarizer = pipeline("summarization")
summary = summarizer(article_text, max_length=100, min_length=30)
print("Zusammenfassung:", summary[0]['summary_text'])
4. Zusammenfassung
Klassische NLP-Ansätze wie Tokenisierung, POS-Tagging und Named Entity Recognition bieten grundlegende Tools, um Texte zu analysieren und Informationen zu extrahieren.
Moderne LLMs wie GPT-3/GPT-4 ermöglichen tiefere semantische Analysen, Textverständnis und Textgenerierung.
Du kannst Web-Scraping nutzen, um Daten aus dem Web zu extrahieren, und anschließend NLP-Tools und LLMs verwenden, um die Inhalte zu analysieren und zu verstehen.
Dies bietet eine Grundlage, um verschiedene Analysemethoden in euer Projekt einzubauen, abhängig davon, wie tief die Analyse und das Textverständnis sein sollen.