
# **Guida API Audio di OpenAI – Traduzione in Italiano con Esempi Python**

L'API Audio di OpenAI permette di convertire l'audio in testo (trascrizione), nonché di tradurre l'audio in un'altra lingua utilizzando il modello **Whisper**. Questo modello è stato addestrato per comprendere e processare più lingue, restituendo trascrizioni e traduzioni accurate.

## **Funzionalità disponibili**
L'API audio supporta due operazioni principali:
1. **Trascrizione** – Converte un file audio in testo nella sua lingua originale.
2. **Traduzione** – Converte un file audio in inglese, indipendentemente dalla lingua originale.

L'API utilizza il modello **Whisper-1**, che è stato ottimizzato per lavorare con diversi formati audio e offrire risultati precisi.


## **1. Installazione della libreria OpenAI**

In [1]:
%pip install openai

Note: you may need to restart the kernel to use updated packages.


In [11]:
import os
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()

client = OpenAI(api_key=os.getenv('OPENAI_API_KEY')) # Imposta la chiave come variabile d'ambiente per sicurezza
OPENAI_MODEL = "gpt-4o-audio-preview"

## **Audio output**


In [21]:

import base64

completion = client.chat.completions.create(
    model="gpt-4o-audio-preview",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ]
)

print(completion.choices[0])

wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
with open("dog.wav", "wb") as f:
    f.write(wav_bytes)


PermissionDeniedError: Error code: 403 - {'error': {'message': 'Project `proj_2r5k2dLsltaPNmHda7acHF4E` does not have access to model `gpt-4o-audio-preview`', 'type': 'invalid_request_error', 'param': None, 'code': 'model_not_found'}}

## Audio Input

In [20]:

import requests

# Fetch the audio file and convert it to a base64 encoded string
url = "https://cdn.openai.com/API/docs/audio/alloy.wav"
response = requests.get(url)
response.raise_for_status()
wav_data = response.content
encoded_string = base64.b64encode(wav_data).decode('utf-8')

completion = client.chat.completions.create(
    model="gpt-4o-audio-preview",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": [
                { 
                    "type": "text",
                    "text": "What is in this recording?"
                },
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": encoded_string,
                        "format": "wav"
                    }
                }
            ]
        },
    ]
)

print(completion.choices[0].message)

PermissionDeniedError: Error code: 403 - {'error': {'message': 'Project `proj_2r5k2dLsltaPNmHda7acHF4E` does not have access to model `gpt-4o-audio-preview`', 'type': 'invalid_request_error', 'param': None, 'code': 'model_not_found'}}


## **5. Limitazioni e costi**
- **Durata massima del file**: L'API supporta file audio fino a **25 MB**. Se il file è più grande, può essere necessario comprimerlo o dividerlo.
- **Costo**: L'uso dell'API ha un costo per minuto di audio processato. Controlla il [listino prezzi di OpenAI](https://openai.com/pricing) per dettagli aggiornati.
- **Qualità dell'audio**: Migliore è la qualità dell'audio, più accurata sarà la trascrizione. File con rumore di fondo o parlato poco chiaro potrebbero risultare in trascrizioni meno precise.


## 6. Video tutorial

<iframe width="560" height="315" src="https://www.youtube.com/embed/2fG0b4IZPnI?si=I0x-327QPsA2st1m" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>

## Funzionalità principali dell'API Text-to-Speech:

- **Conversione del testo in audio parlato**: L'API consente di trasformare il testo scritto in audio con voci naturali e realistiche.
- **Personalizzazione della voce**: È possibile scegliere tra diverse voci predefinite e regolare parametri come tono, velocità e intonazione per adattare l'output alle esigenze specifiche dell'applicazione.
- **Supporto multilingue**: L'API supporta la generazione di audio in più lingue, permettendo applicazioni internazionali.

In [None]:
TEXT = "This is a sample text to demonstrate the voice options available in the OpenAI API."

In [None]:
from pathlib import Path

speech_file_path = "speech.mp3"
response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input=TEXT,
)

# Save the response content to a file
with open(speech_file_path, "wb") as f:
    f.write(response.content)

In [None]:
voices = ["alloy", "ash", "coral", "echo", "fable", "onyx", "nova", "sage", "shimmer"]

for voice in voices:
    response = client.audio.speech.create(
        model="tts-1",
        voice=voice,
        input=TEXT,
    )
    file_path = f"{voice}.mp3"
    with open(file_path, "wb") as f:
        f.write(response.content)
    print(f"Generated audio for voice: {voice}, saved as {file_path}")

Generated audio for voice: alloy, saved as alloy.mp3
Generated audio for voice: ash, saved as ash.mp3
Generated audio for voice: coral, saved as coral.mp3
Generated audio for voice: echo, saved as echo.mp3
Generated audio for voice: fable, saved as fable.mp3
Generated audio for voice: onyx, saved as onyx.mp3
Generated audio for voice: nova, saved as nova.mp3
Generated audio for voice: sage, saved as sage.mp3
Generated audio for voice: shimmer, saved as shimmer.mp3


## Speech to text
Come trasformare un audio in un testo

In [None]:
path_file = Path("avventurepinocchio.mp3")

In [None]:

audio_file= open(path_file, "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1", 
    file=audio_file,
    response_format="text"
)

print(transcription.text)

Questa è una registrazione LibriVox. Tutte le registrazioni di LibriVox sono di dominio pubblico. Per ulteriori informazioni o per sapere come diventare volontario, visitate il sito LibriVox.org. Registrato da Simona Pagliari, Cagliari, Italia Le avventure di Pinocchio di Collodi Capitolo primo Come andò che Mastro Ciliegia, falegname, trovò un pezzo di legno che piangeva e rideva come un bambino. — C'era una volta un re, diranno subito i miei piccoli lettori. — No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo di catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse. Ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome Mastro Antonio. Senonché tutti lo chiamavano Mastro Ciliegia, per via della punta del naso, che era sempre lustra e paonazza, come una ciliegia matur

## Traduzioni
Ad oggi è supportata solo la traduzione in Inglese. 
Per altri linguaggi maggiori info con modelli diversi [qui](https://github.com/openai/whisper#available-models-and-languages) 

In [28]:

audio_file = open(path_file, "rb")
transcription = client.audio.translations.create(
    model="whisper-1", 
    file=audio_file,
)

print(transcription.text)

This is a LibriVox recording. All LibriVox recordings are for public domain. For more information or to know how to become a volunteer, visit the website LibriVox.org Recorded by Simona Pagliari, Cagliari, Italy The Adventures of Pinocchio, by Collodi Chapter 1 As he went that cherry-tree master Falegname, he found a piece of wood that cried and laughed like a child. Once upon a time there was a king, my little readers will immediately say. No, guys, you're wrong. Once upon a time there was a piece of wood. It was not a luxury wood, but a simple piece of catastrophe, those that in winter are put in stoves and fireplaces to light the fire and to heat the rooms. I don't know how it went. But the fact is that one fine day this piece of wood happened in the shop of an old Falegname, whose name was Master Antonio. Except that everyone called him cherry-tree master, because of the tip of the nose, which was always lustrous and pale, like a ripe cherry. As soon as the cherry-tree master had s