<p><font size="7" color='grey'> <b>
Anwendung Generativer KI
</b></font> </br></p>

<p><font size="6" color='grey'> <b>
Modul 15: Sprachmodelle
</b></font> </br></p>


---

# 1 | Übersicht
---

# Teil 13.1: Einführung in die Sprachverarbeitung

In diesem Modul werden wir untersuchen, wie wir sowohl computergenerierte Stimmen als auch Spracherkennung zum Erstellen von Anwendungen verwenden können. Dabei werden wir mit der OpenAI-API arbeiten. Insbesondere werden wir demonstrieren, wie wir normalen Text eingeben und ihn vom Computer vorlesen lassen können und umgekehrt, wie wir mit dem Computer sprechen und ihn antworten lassen können. Wir werden diese Funktionen letztendlich integrieren, um einen Chatbot zu erstellen, der sowohl Text-zu-Sprache- als auch Sprache-zu-Text-Interaktionen verarbeitet. Während wir für diese Demonstration Google Colab verwenden, würden Sie in Produktionsumgebungen wahrscheinlich eine mobile App oder eine webbasierte JavaScript-Lösung verwenden, da jede Plattform die Stimme anders verarbeitet. Ich werde mich vorerst darauf konzentrieren, die Dinge in Colab allgemein und einfach zu halten.

Sprachanwendungen gibt es überall. Ich kann beispielsweise fragen: „Alexa, wie spät ist es?“ und mehrere Alexa-Geräte in meinem Zuhause reagieren, wenn auch nicht immer perfekt. Normalerweise schalte ich sie während der Aufnahmesitzungen stumm. Anwendungen wie Siri oder sogar ChatGPT bieten auch Sprachinteraktionen. Wenn Sie beispielsweise auf einem Computer auf die Sprachoption in ChatGPT klicken, beginnt es, auf Ihre Eingabe zu warten.

Zur Veranschaulichung fragte ich ChatGPT: „Wie geht es Ihnen?“ und es antwortete mit einigen aufschlussreichen Gedanken zu generativer KI. Es wurde hervorgehoben, dass es bei generativer KI nicht nur darum geht, neue Inhalte zu erstellen, sondern auch darum, Muster aus riesigen Datenmengen zu lernen und diese kreativ auf Text, Bilder und Code anzuwenden. Es wurde auch vorgeschlagen, dass die Schüler mit verschiedenen Ansätzen experimentieren, da praktische Erfahrung eine der besten Möglichkeiten zum Lernen ist.

In diesem letzten Modul des Kurses konzentrieren wir uns auf die Plattform von OpenAI und ihre Modelle, wie GPT-4 und DALL-E, und behandeln dabei auch die zugrunde liegenden Architekturen wie Transformatoren. Das Modul endet mit einem Blick auf die Zukunft der generativen KI und ihre mögliche Entwicklung. Dies wird ein würdiger Abschluss des Kurses sein. Abonnieren Sie uns, um über zukünftige Kursinhalte und KI-Projekte auf dem Laufenden zu bleiben.




# Teil 13.2: Text-to-Speech

In diesem Modul erkunden wir die faszinierende Welt der Text-to-Speech (TTS) Large Language Models (LLMs) und konzentrieren uns dabei auf die hochmodernen Angebote von OpenAI. Wir werden hauptsächlich das TTS-1-Modell von OpenAI verwenden, ein leistungsstarkes und vielseitiges Tool, das für die Umwandlung von geschriebenem Text in natürlich klingende Sprache entwickelt wurde. TTS-1 ist für Echtzeitanwendungen optimiert und eignet sich daher ideal für Szenarien, die eine Audiogenerierung mit geringer Latenz erfordern. Dieses Modell stellt einen bedeutenden Fortschritt in der Sprachsynthesetechnologie dar und nutzt Deep-Learning-Techniken, um hochwertige, lebensechte Sprachausgaben zu erzeugen. Indem wir uns mit TTS-1 befassen, erkunden wir seine Fähigkeiten, untersuchen seine praktischen Anwendungen und verstehen, wie es verschiedene Branchen revolutioniert, von Barrierefreiheitslösungen bis hin zu interaktiven Sprachantworten und darüber hinaus.


### Einfaches Text-to-Speech-Beispiel

Dieser Codeausschnitt zeigt, wie man mit der Text-to-Speech-API von OpenAI gesprochenes Audio aus Text generiert. Zunächst importiert er die erforderlichen Bibliotheken: openai für die API-Interaktion, IPython.display für die Audiowiedergabe in Jupyter-Notebooks und base64 für die Kodierung. Die Variable TEXT enthält die Nachricht, die in Sprache umgewandelt werden soll. Die Funktion openai.audio.speech.create() wird mit drei Parametern aufgerufen: dem Modell („tts-1“), der Stimme („alloy“) und dem Eingabetext. OpenAI bietet mehrere Sprachoptionen, darunter:

* **Legierung** - neutral
* **Echo** - jung
* **Fabel** - männlich
* **Onyx** - tief männlich
* **nova** - weiblich
* **Schimmer** - warmes Weiblich

Jede Stimme hat ihre einzigartigen Eigenschaften, sodass Benutzer die für ihre Anwendung am besten geeignete auswählen können. Darüber hinaus bietet OpenAI ein hochauflösendes Modell namens „tts-1-hd“ für eine verbesserte Audioqualität, das jedoch möglicherweise eine höhere Latenz aufweist. Die Funktion gibt ein Antwortobjekt zurück, aus dem der Audioinhalt extrahiert und zur weiteren Verarbeitung oder Wiedergabe in der Variable audio_data gespeichert wird.

In [None]:
import openai
import IPython.display as ipd
import base64

TEXT = "Hello there, I am one of the OpenAI chat voices, how are you?"

response = openai.audio.speech.create(
  model="tts-1",
  voice="alloy",
  input=TEXT
)

# Holen Sie sich den Audioinhalt
audio_data = response.content

Wir können diese Audiodatei dem CoLab-Notebook-Benutzer vorspielen.

In [None]:
from IPython.display import Audio, display

# Audio in Colab abspielen
print("Playing audio:")
display(Audio(audio_data, autoplay=True))

Playing audio:


Wir können auch eine Audiodatei speichern.

In [None]:
with open("audio.mp3", "wb") as f:
    f.write(audio_data)


Wir können diese Audiodatei herunterladen.

In [None]:
# Eingabeaufforderung: Wie lade ich eine von mir erstellte Audiodatei mit dem Namen audio.mp3 herunter?

from google.colab import files
files.download('audio.mp3')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

### Mehrere Stimmen und Samples

Der Code zeigt, wie mehrere Text-to-Speech-Antworten aus der API von OpenAI verkettet werden können, und stellt jede der verfügbaren Stimmen vor. Er verwendet die pydub-Bibliothek, um Audiosegmente nahtlos zu kombinieren. Das Skript durchläuft eine Liste von sechs Stimmen („alloy“, „echo“, „fable“, „onyx“, „nova“ und „shimmer“) und generiert für jede Stimme ein Audiobeispiel mit der Aussage „Hallo, ich bin die [Stimme]-Stimme“. Diese einzelnen Audiosegmente werden dann mithilfe von AudioSegment von pydub zu einer einzigen Audiodatei kombiniert. Das resultierende Audio spielt jedes Sprachbeispiel nacheinander ab, sodass die Zuhörer die unterschiedlichen Merkmale jeder Stimmoption hören können. Dieser Ansatz ist besonders nützlich, um verschiedene Stimmen zu vergleichen oder eine Demo der verfügbaren Stimmoptionen in einem einzigen, kontinuierlichen Audiostream zu erstellen.

In [None]:
import io
from openai import OpenAI
from IPython.display import Audio, display
from google.colab import files
import os

# OpenAI-Client initialisieren
client = OpenAI()

voices = ["alloy", "echo", "fable", "onyx", "nova", "shimmer"]
audio_segments = []

for voice in voices:
    text = f"Hello, I am the {voice} voice."
    response = client.audio.speech.create(
        model="tts-1",
        voice=voice,
        input=text
    )
    audio_segments.append(response.content)

# Kombinieren von Audiosegmenten
from pydub import AudioSegment

combined_audio = AudioSegment.empty()
for segment in audio_segments:
    audio = AudioSegment.from_mp3(io.BytesIO(segment))
    combined_audio += audio

# Konvertieren Sie das kombinierte Audio in einen Byte-Stream
buffer = io.BytesIO()
combined_audio.export(buffer, format="mp3")
buffer.seek(0)

0

Spielen Sie dem CoLab-Benutzer den Ton vor.

In [None]:
# Audio in Colab abspielen
print("Playing audio:")
display(Audio(buffer.read(), autoplay=True))

Playing audio:


Speichern Sie den Ton in einer Datei.

In [None]:
# Pufferposition zurücksetzen
buffer.seek(0)

# Speichern Sie die Audiodatei
output_filename = "combined_voices.mp3"
with open(output_filename, "wb") as f:
    f.write(buffer.getvalue())

print(f"\nAudio gespeichert als {output_filename}")


Audio saved as combined_voices.mp3


Laden Sie die Audiodatei herunter

In [None]:
files.download(output_filename)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Teil 13.3: Sprache zu Text

In diesem Modul tauchen wir in den Bereich der Spracherkennungstechnologie ein und konzentrieren uns auf die leistungsstarken Funktionen der Modelle von OpenAI. Spracherkennung, auch bekannt als automatische Spracherkennung (ASR), ist eine Technologie, die gesprochene Sprache in geschriebenen Text umwandelt. Die Spracherkennungsmodelle von OpenAI stellen den neuesten Stand dieses Bereichs dar und nutzen fortschrittliche Techniken des maschinellen Lernens, um eine hohe Genauigkeit und Robustheit bei verschiedenen Akzenten, Sprachen und akustischen Umgebungen zu erreichen. Wir untersuchen, wie diese Modelle in Anwendungen integriert werden können, um sprachbasierte Interaktionen, Transkriptionsdienste und Eingabehilfefunktionen zu ermöglichen. Indem wir die Spracherkennungstechnologie von OpenAI nutzen, erschließen wir neue Möglichkeiten für die Mensch-Computer-Interaktion und zeigen, wie Audioeingaben mit bemerkenswerter Präzision in verwertbare Textdaten umgewandelt werden können.


Beachten Sie, dass wir die hier beschriebene Technik verwenden, um Audio in CoLab aufzuzeichnen.

https://gist.github.com/korakot/c21c3476c024ad6d56d5f48b0bca92be




In [None]:
from IPython.display import Javascript
from google.colab import output
from base64 import b64decode
import io
from IPython.display import Audio

from pydub import AudioSegment

RECORD = """
const sleep = time => new Promise(resolve => setTimeout(resolve, time))
const b2text = blob => new Promise(resolve => {
    const reader = new FileReader()
    reader.onloadend = e => resolve(e.srcElement.result)
    reader.readAsDataURL(blob)
})
var record = time => new Promise(async resolve => {
    stream = await navigator.mediaDevices.getUserMedia({ audio: true })
    recorder = new MediaRecorder(stream)
    chunks = []
    recorder.ondataavailable = e => chunks.push(e.data)
    recorder.start()
    await sleep(time)
    recorder.onstop = async ()=>{
        blob = new Blob(chunks)
        text = await b2text(blob)
        resolve(text)
    }
    recorder.stop()
})
"""

Der folgende Code verwendet JavaScript, um Audio für eine bestimmte Zeit aufzuzeichnen.

In [None]:
def record(seconds=3):
print(f"Aufzeichnung läuft jetzt für {seconds} Sekunden.")
    display(Javascript(RECORD))
    s = output.eval_js('record(%d)' % (seconds * 1000))
    binary = b64decode(s.split(',')[1])

    # In AudioSegment konvertieren
    audio = AudioSegment.from_file(io.BytesIO(binary), format="webm")

    # Als WAV exportieren
    audio.export("recorded_audio.wav", format="wav")
    print("Recording done.")
    return audio

Der folgende Code ermöglicht einen schnellen Test dieser Technik.

In [None]:
# Nehmen Sie 5 Sekunden Audio auf
audio = record(5)

print("Recording complete. Audio saved as 'recorded_audio.wav'")

# Wiedergabe des aufgezeichneten Audios
display(Audio("recorded_audio.wav",autoplay=True))

Dieser Codeausschnitt zeigt, wie man die Spracherkennungs-API von OpenAI zum Transkribieren von Audiodateien verwendet. Er definiert eine Funktion transcribe_audio, die einen Dateinamen als Eingabe verwendet. Die Funktion öffnet die angegebene Audiodatei im Binärmodus und verwendet den OpenAI-Client, um eine Transkription zu erstellen. Die Methode client.audio.transcriptions.create() wird mit zwei Parametern aufgerufen: dem Modell („whisper-1“) und der Audiodatei. Whisper ist OpenAIs hochmodernes Spracherkennungsmodell, das für seine Robustheit gegenüber verschiedenen Sprachen und Akzenten bekannt ist. Die Funktion gibt den transkribierten Text zurück. Im Beispiel wird eine Audiodatei mit dem Namen „recorded_audio.wav“ transkribiert und der resultierende Text gedruckt. Dieser Code bietet eine einfache, aber leistungsstarke Möglichkeit, Sprache in Text umzuwandeln, was für Aufgaben wie das Generieren von Untertiteln, das Erstellen durchsuchbarer Archive mit Audioinhalten oder das Aktivieren von Sprachbefehlen in Anwendungen von unschätzbarem Wert sein kann.

In [None]:
from openai import OpenAI

client = OpenAI()

def transcribe_audio(filename):
    with open(filename, "rb") as audio_file:
        transcription = client.audio.transcriptions.create(
            model="whisper-1",
            file=audio_file
        )
    return transcription.text

# Transkribieren Sie die aufgezeichneten Audiodaten
transcription = transcribe_audio("recorded_audio.wav")
print("Transcription:")
print(transcription)

### Stimmänderung
Dieser Codeausschnitt demonstriert einen vollständigen Workflow für die Konvertierung von Sprache in Text und Text in Sprache mithilfe der APIs von OpenAI. Die Funktion generate_text verwendet das TTS-1-Modell von OpenAI mit der Stimme „nova“, um Text in Sprache umzuwandeln und die Roh-Audiodaten zurückzugeben. Die Funktion speak_text baut darauf auf, indem sie eine Texteingabe entgegennimmt, das entsprechende Audio generiert und es dann mithilfe der Audioanzeigefunktion von IPython mit aktivierter automatischer Wiedergabe abspielt. Der Hauptworkflow beginnt mit der Aufnahme von Audio für 5 Sekunden (mit einer Aufnahmefunktion, die im Ausschnitt nicht gezeigt wird), der Transkription mithilfe der zuvor definierten Funktion transcribe_audio, dem Drucken der Transkription und dem schließlichen Zurücksprechen des transkribierten Textes mithilfe der Funktion speak_text. Dadurch entsteht ein vollständiger Kreislauf der Sprachinteraktion: Aufzeichnen von Sprache, Konvertieren in Text und anschließendes Rückkonvertieren dieses Textes in Sprache, wodurch sowohl Spracherkennungs- als auch Sprachsynthesefunktionen in einem einzigen, zusammenhängenden Prozess effektiv demonstriert werden.

In [None]:


def generate_text(text):
    response = client.audio.speech.create(
        model="tts-1",
        voice="nova",
        input=text
    )
    audio_data = response.content
    return audio_data  # Audiodaten direkt zurückgeben

def speak_text(text):
    audio_data = generate_text(text)
    display(Audio(audio_data, autoplay=True))

# Transkribieren Sie die aufgezeichneten Audiodaten
audio = record(5)
transcription = transcribe_audio("recorded_audio.wav")
print("Transcription:")
print(transcription)
speak_text(transcription)

# Teil 13.4: Sprachbot

In diesem Teil erstellen wir einen Sprach-Chatbot. Sie sprechen mit ihm mit Ihrer eigenen Stimme und er antwortet mit Ihrer Stimme. Wir verwenden das zuvor vorgestellte ChatBot-Objekt.




# Teil 13.5: Zukünftige Richtungen in GenAI

### Übernimmt KI die Welt?

* **Recursive Self Improvement (RSI)** bezieht sich auf die theoretische Fähigkeit eines künstlichen Intelligenzsystems, seine eigenen Fähigkeiten und seine Intelligenz ohne menschliches Eingreifen zu verbessern. Bei diesem Prozess ändert und verbessert ein KI-System seinen eigenen Code, seine Algorithmen und seine Architektur, um mit der Zeit immer intelligenter zu werden. Während aktuelle generative KI-Modelle wie GPT-3 und GPT-4 beeindruckende Fähigkeiten zum Sprachverständnis und zur Sprachgenerierung aufweisen, verfügen sie nicht über echte RSI-Fähigkeiten. Diese Modelle erfordern ein von Menschen geleitetes Training und können ihre Kernarchitektur nicht autonom verbessern oder ihre Wissensbasis erweitern15.
* **Artificial General Intelligence (AGI)** stellt eine hypothetische Form der KI dar, die über menschenähnliche kognitive Fähigkeiten für eine Vielzahl von Aufgaben und Bereichen verfügt. AGI-Systeme wären in der Lage, Wissen zu verstehen, zu lernen und anzuwenden, um neuartige Probleme zu lösen, und würden eine Anpassungsfähigkeit und Kreativität aufweisen, die mit der menschlichen Intelligenz vergleichbar ist. Aktuelle generative KI-Technologien sind zwar in bestimmten Bereichen wie der Verarbeitung natürlicher Sprache hochentwickelt, gelten aber immer noch als enge KI-Systeme. Sie zeichnen sich bei bestimmten Aufgaben aus, es fehlt ihnen jedoch die breite, allgemeine Intelligenz und Anpassungsfähigkeit, die AGI auszeichnet. Die Entwicklung einer echten AGI bleibt eine große Herausforderung und ein wichtiges Ziel der KI-Forschung12.

* **Die Singularität** bezieht sich auf einen hypothetischen zukünftigen Zeitpunkt, an dem künstliche Intelligenz die menschliche Intelligenz übertrifft, was zu einem schnellen und unkontrollierbaren technologischen Wachstum führt. Dieses Konzept sieht ein Szenario vor, in dem KI-Systeme zur rekursiven Selbstverbesserung fähig werden, was möglicherweise zu einer Intelligenzexplosion führt, die die menschliche Zivilisation dramatisch verändert. Während aktuelle generative KI-Modelle in verschiedenen Bereichen erhebliche Fortschritte gemacht haben, sind sie weit davon entfernt, das mit der Singularität verbundene Intelligenz- und Autonomieniveau zu erreichen. Die Entwicklung von AGI wird oft als Voraussetzung für die Singularität angesehen, und beide Konzepte bleiben theoretisch und Gegenstand anhaltender Debatten innerhalb der wissenschaftlichen Gemeinschaft68.

### Erweiterung des menschlichen Verständnisses

Aktuelle Systeme der generativen KI (GenAI) haben bemerkenswerte Fähigkeiten bei der Erweiterung des menschlichen Verständnisses in verschiedenen Bereichen bewiesen, darunter Mathematik und Problemlösung. Diese Systeme können riesige Mengen an Informationen verarbeiten, Muster erkennen und neue Erkenntnisse generieren, die menschlichen Forschern möglicherweise nicht sofort klar sind. Im Kontext komplexer mathematischer Herausforderungen wie [Millennium Prize Problems](https://www.claymath.org/millennium-problems/) könnte GenAI möglicherweise als leistungsstarkes Werkzeug dienen, um die menschliche Intelligenz zu erweitern und den Fortschritt bei der Lösungsfindung zu beschleunigen.

Während GenAI bei der Bewältigung bestimmter mathematischer Aufgaben beeindruckende Fähigkeiten gezeigt hat, würde die Lösung eines der verbleibenden Millennium-Probleme einen erheblichen Sprung in den KI-Fähigkeiten erfordern. Diese Probleme stellen einige der tiefgreifendsten und herausforderndsten Fragen der Mathematik dar, deren Lösung sich jahrzehntelang oder sogar jahrhundertelang geweigert hat. Die Komplexität und Tiefe des Verständnisses, die zur Lösung dieser Probleme erforderlich sind, übersteigen die aktuellen Fähigkeiten von GenAI-Systemen.
Um möglicherweise ein Millennium-Problem zu lösen, müsste GenAI wahrscheinlich in mehreren Punkten verbessert werden:

* **Erweiterte Denkfähigkeiten**: Aktuelle GenAI-Modelle zeichnen sich durch hervorragende Mustererkennung und Informationsabruf aus, es mangelt ihnen jedoch an den Fähigkeiten zum tiefen logischen Denken und zur kreativen Problemlösung, die für bahnbrechende mathematische Entdeckungen erforderlich sind.

* **Spezialisiertes mathematisches Wissen**: Obwohl GenAI-Modelle über eine breite Wissensbasis verfügen, müssten sie in hochspezialisierten mathematischen Konzepten und Techniken trainiert werden, die für bestimmte Millennium-Probleme relevant sind.
Verbesserte Fähigkeit, formale Beweise zu generieren und zu überprüfen: Um ein Millenniumproblem zu lösen, muss man nicht nur eine Lösung finden, sondern auch einen strengen mathematischen Beweis erbringen. GenAI bräuchte verbesserte Fähigkeiten in formaler Logik und Beweisgenerierung.

* **Integration mit symbolischen Mathematiksystemen:** Die Kombination der natürlichen Sprachverarbeitung von GenAI mit leistungsstarken symbolischen Mathematiktools könnte anspruchsvollere mathematische Manipulationen und Analysen ermöglichen.

* **Kollaborative Schnittstellen:** Für die Bewältigung dieser komplexen Probleme wäre die Entwicklung von Systemen von entscheidender Bedeutung, die effektiv mit menschlichen Mathematikern zusammenarbeiten, ihre Argumentation erklären und menschliche Erkenntnisse einbeziehen können8.

Obwohl es unwahrscheinlich ist, dass aktuelle GenAI-Systeme ein Millennium-Problem allein lösen könnten, könnten sie möglicherweise zum Fortschritt beitragen, indem sie menschliche Mathematiker bei der Erforschung neuer Ansätze, der Entwicklung von Hypothesen und der Identifizierung vielversprechender Forschungsrichtungen unterstützen5. Mit der Weiterentwicklung der GenAI-Technologie wird ihre Rolle bei mathematischen Entdeckungen und Problemlösungen wahrscheinlich wachsen und uns möglicherweise der Lösung dieser seit langem bestehenden mathematischen Herausforderungen näher bringen.

### Jenseits des Transformators

Der Transformator bleibt die dominierende KI-Komponente. Es gibt mehrere vielversprechende Alternativen zu Transformatormodellen, die aktiv erforscht und entwickelt werden und die KI möglicherweise noch weiter voranbringen könnten. Zu den bemerkenswertesten gehören:

* **State Space Models (SSMs):** SSMs wie die Mamba-Architektur entwickeln sich zu einer überzeugenden Alternative zu Transformatoren. Sie können längere Textsequenzen effizienter und mit weniger Rechenaufwand verarbeiten. Unternehmen wie AI Labs und Mistral AI haben bereits begonnen, SSM-basierte Modelle kommerziell einzusetzen.
* **Megalodon:** Megalodon wurde von Forschern bei Meta und USC entwickelt und ist eine Architektur, die es Sprachmodellen ermöglicht, ihr Kontextfenster auf Millionen von Token zu erweitern, ohne riesige Speichermengen zu benötigen. In einigen Benchmarks übertraf ein Megalodon-Modell mit 7 Milliarden Parametern größere Transformer-Modelle wie Llama.
* **Test-Time Training (TTT)-Modelle:**
TTT-Modelle wurden von Forschern aus Stanford, UC San Diego, UC Berkeley und Meta vorgeschlagen und ersetzen den verborgenen Zustand des Transformators durch ein internes maschinelles Lernmodell. Dadurch können sie potenziell weitaus mehr Daten verarbeiten als Transformatoren und verbrauchen dabei weniger Rechenleistung.
* **RecurrentGemma**: RecurrentGemma von Google DeepMind verwendet die Griffin-Architektur, die lineare Rekurrenz mit lokaler Aufmerksamkeit kombiniert. Es erreicht eine mit Transformer-Modellen vergleichbare Leistung, ist dabei aber speichereffizienter und kann längere Sequenzen verarbeiten.
* **Hyena und andere S4-basierte Architekturen:** Diese Modelle zielen darauf ab, die Aufmerksamkeit durch Operationen zu ersetzen, die subquadratisch skalieren, was möglicherweise eine effizientere Verarbeitung langer Sequenzen ermöglicht.
* **Falcon Mamba 7B**: Dieses kürzlich vom Technology Innovation Institute veröffentlichte Modell verwendet die Mamba SSM-Architektur und hat bei bestimmten Benchmarks einige führende Transformer-Modelle ähnlicher Größe übertroffen.

Obwohl diese Alternativen vielversprechend sind, ist es wichtig zu beachten, dass Transformatoren aufgrund ihrer nachgewiesenen Wirksamkeit und des umfangreichen Ökosystems an Tools und Optimierungen, das um sie herum aufgebaut ist, immer noch das Feld dominieren. Viele dieser neuen Architekturen befinden sich noch in der frühen Forschungsphase und müssen ihre Skalierbarkeit und konsistente Leistung für ein breites Aufgabenspektrum unter Beweis stellen.

Die KI-Forschungsgemeinschaft untersucht diese und andere Alternativen aktiv. Dabei geht es um die Notwendigkeit, die Rechenleistungsbeschränkungen von Transformatoren zu überwinden, insbesondere bei der Verarbeitung sehr langer Datensequenzen. Mit zunehmender Reife dieser neuen Architekturen könnten sie zu effizienteren, leistungsfähigeren und vielseitigeren KI-Systemen führen, die in der Lage sind, zunehmend komplexere Aufgaben in verschiedenen Bereichen zu bewältigen.




In [None]:
from langchain.chains import ConversationChain
from langchain.memory import ConversationSummaryMemory
from langchain_openai import ChatOpenAI
from langchain_core.prompts.chat import PromptTemplate
from IPython.display import display_markdown
import pickle

DEFAULT_TEMPLATE = """You are a helpful assistant. DO not use markdown, just regular text.
limit your response to just a few sentences. If the user says something that indicates
that they wish to end the chat return just "bye" (no quotes), so I can end the loop.

Current conversation:
{history}
Human: {input}
AI:"""

MODEL = 'gpt-4o-mini'

class ChatBot:
    def __init__(self, llm_chat, llm_summary, template):
        """
        Initializes the ChatBot with language models and a template for conversation.

        :param llm_chat: A large language model for handling chat responses.
        :param llm_summary: A large language model for summarizing conversations.
        :param template: A string template defining the conversation structure.
        """
        self.llm_chat = llm_chat
        self.llm_summary = llm_summary
        self.template = template
        self.prompt_template = PromptTemplate(input_variables=["history", "input"], template=self.template)

        # Speicher und Konversationskette initialisieren
        self.memory = ConversationSummaryMemory(llm=self.llm_summary)
        self.conversation = ConversationChain(
            prompt=self.prompt_template,
            llm=self.llm_chat,
            memory=self.memory,
            verbose=False
        )

        self.history = []

    def converse(self, prompt):
        """
        Processes a conversation prompt and updates the internal history and memory.

        :param prompt: The input prompt from the user.
        :return: The generated response from the language model.
        """
        self.history.append([self.memory.buffer, prompt])
        output = self.conversation.invoke(prompt)
        return output['response']

    def chat(self, prompt):
        """
        Handles the full cycle of receiving a prompt, processing it, and displaying the result.

        :param prompt: The input prompt from the user.
        """
print(f"Mensch: {prompt}")
        output = self.converse(prompt)
        display_markdown(output, raw=True)

    def print_memory(self):
        """
        Displays the current state of the conversation memory.
        """
        print("**Memory:")
        print(self.memory.buffer)

    def clear_memory(self):
        """
        Clears the conversation memory.
        """
        self.memory.clear()

    def undo(self):
        """
        Reverts the conversation memory to the state before the last interaction.
        """
        if len(self.history) > 0:
            self.memory.buffer = self.history.pop()[0]
        else:
            print("Nothing to undo.")

    def regenerate(self):
        """
        Re-executes the last undone interaction, effectively redoing an undo operation.
        """
        if len(self.history) > 0:
            self.memory.buffer, prompt = self.history.pop()
            self.chat(prompt)
        else:
            print("Nothing to regenerate.")

    def save_history(self, file_path):
        """
        Saves the conversation history to a file using pickle.

        :param file_path: The file path where the history should be saved.
        """
        with open(file_path, 'wb') as f:
            pickle.dump(self.history, f)

    def load_history(self, file_path):
        """
        Loads the conversation history from a file using pickle.

        :param file_path: The file path from which to load the history.
        """
        with open(file_path, 'rb') as f:
            self.history = pickle.load(f)
            # Optionales Zurücksetzen des Speichers basierend auf dem zuletzt gespeicherten Zustand
            if self.history:
                self.memory.buffer = self.history[-1][0]

Als nächstes erstellen wir ein LLM zur Kommunikation.

In [None]:
MODEL = 'gpt-4o-mini'

# Initialisieren Sie das OpenAI LLM mit Ihrem API-Schlüssel
llm = ChatOpenAI(
  model=MODEL,
  temperature= 0.3,
  n= 1)

c = ChatBot(llm, llm, DEFAULT_TEMPLATE)

response = c.converse("Hello, my name is Jeff.")
print(response)

  self.memory = ConversationSummaryMemory(llm=self.llm_summary)
  self.conversation = ConversationChain(


Nice to meet you, Jeff! How can I assist you today?


Den zum Aufzeichnen verwendeten Code haben wir bereits vorgestellt.

In [None]:
from IPython.display import Javascript, Audio, display, HTML
from google.colab import output
from base64 import b64decode
import io
import time
import uuid
from openai import OpenAI

client = OpenAI()

RECORD = """
const sleep = time => new Promise(resolve => setTimeout(resolve, time))
const b2text = blob => new Promise(resolve => {
    const reader = new FileReader()
    reader.onloadend = e => resolve(e.srcElement.result)
    reader.readAsDataURL(blob)
})
var record = time => new Promise(async resolve => {
    stream = await navigator.mediaDevices.getUserMedia({ audio: true })
    recorder = new MediaRecorder(stream)
    chunks = []
    recorder.ondataavailable = e => chunks.push(e.data)
    recorder.start()
    await sleep(time)
    recorder.onstop = async ()=>{
        blob = new Blob(chunks)
        text = await b2text(blob)
        resolve(text)
    }
    recorder.stop()
})
"""

def generate_text(text):
    response = client.audio.speech.create(
        model="tts-1",
        voice="nova",
        input=text
    )
    audio_data = response.content
    return audio_data  # Audiodaten direkt zurückgeben

def speak_text(text):
    audio_data = generate_text(text)

    # Generieren Sie eine eindeutige ID für dieses Audioelement
    audio_id = f"audio_{uuid.uuid4().hex}"

    # Zeigen Sie das Audio mit der eindeutigen ID an
    display(Audio(audio_data, autoplay=True, element_id=audio_id))

    # Erstellen Sie ein verstecktes Div zum Speichern des Audiostatus
    status_div = f'<div id="{audio_id}_status" style="display: none;">playing</div>'
    display(HTML(status_div))

    # JavaScript zur Handhabung der Audiowiedergabe und des Status
    js_code = f"""
    var audioElement = document.getElementById('{audio_id}');
    if (audioElement) {{
        audioElement.onended = function() {{
            document.getElementById('{audio_id}_status').textContent = 'finished';
        }};
    }}
    """

    # Ausführen des JavaScript
    display(HTML(f"<script>{js_code}</script>"))

    # Warten Sie, bis die Audiowiedergabe beendet ist
    while True:
        status = eval_js(f"document.getElementById('{audio_id}_status').textContent")
        if status == 'finished':
            break
        time.sleep(0.1)

def eval_js(js_code):
    from google.colab import output
    return output.eval_js(js_code)

def record(seconds=3):
print(f"Aufzeichnung läuft jetzt für {seconds} Sekunden.")
    display(Javascript(RECORD))
    s = output.eval_js('record(%d)' % (seconds * 1000))
    binary = b64decode(s.split(',')[1])

    # In AudioSegment konvertieren
    audio = AudioSegment.from_file(io.BytesIO(binary), format="webm")

    # Als WAV exportieren
    audio.export("recorded_audio.wav", format="wav")
    print("Recording done.")
    return audio

def transcribe_audio(filename):
    with open(filename, "rb") as audio_file:
        transcription = client.audio.transcriptions.create(
            model="whisper-1",
            file=audio_file
        )
    return transcription.text

Wir führen die Chat-Konversation nun so lange fort, bis der Benutzer eine Beendigung verlangt.

In [None]:
from pydub import AudioSegment

MODEL = 'gpt-4o-mini'

# Initialisieren Sie das OpenAI LLM mit Ihrem API-Schlüssel
llm = ChatOpenAI(
  model=MODEL,
  temperature= 0.3,
  n= 1)

c = ChatBot(llm, llm, DEFAULT_TEMPLATE)

# Transkribieren Sie die aufgezeichneten Audiodaten
response = None
while response != "bye":
    audio = record(5)
    transcription = transcribe_audio("recorded_audio.wav")
print(f"Mensch: {Transkription}")
    response = c.converse(transcription)
print(f"KI: {Antwort}")
    speak_text(response)

Recording now for 5 seconds.


<IPython.core.display.Javascript object>

Recording done.
Human: Hello, how are you?
AI: I'm doing well, thank you! How can I assist you today?


Recording now for 5 seconds.


<IPython.core.display.Javascript object>

Recording done.
Human: My name is Jeff.
AI: Nice to meet you, Jeff! How can I assist you today?


Recording now for 5 seconds.


<IPython.core.display.Javascript object>

Recording done.
Human: I like things related to technology and history. I am.
AI: That's great, Jeff! Technology and history are fascinating subjects. Is there a specific topic within those areas that you're interested in discussing?


Recording now for 5 seconds.


<IPython.core.display.Javascript object>

Recording done.
Human: Goodbye, in the chat.
AI: bye
