In [9]:
# Use a pipeline as a high-level helper
from transformers import pipeline

check = "clui/opus-it-pl-v1"
pipe = pipeline("translation_it_to_pl", model=check)



In [10]:
pipe('Noi che siamo diplomatici , siamo preparati per avere a che fare con conflitti tra stati e problematiche concernenti gli stati',
     clean_up_tokenization_spaces=True)[0]['translation_text']

'My, którzy jesteśmy dyplomatami, jesteśmy przygotowani, żeby związać się z konfliktymi państwami i problemami o państwachachach.'

In [21]:
import os
from dotenv import load_dotenv

#load_dotenv()

# Uzyskiwanie wartości zmiennych
CLIENT_ID = os.getenv("CLIENT_ID")
CLIENT_SECRET = os.getenv("CLIENT_SECRET")
ACCESS_TOKEN = os.getenv("ACCESS_TOKEN")

In [22]:
import lyricsgenius
genius = lyricsgenius.Genius(ACCESS_TOKEN)

artist = genius.search_artist("Angelina Mango", max_songs=3, sort="title")
print(artist.songs)


Searching for songs by Angelina Mango...

Song 1: "All’alba non si muore"
Song 2: "​​another world"
Song 3: "Che t’o dico a fa’"

Reached user-specified song limit (3).
Done. Found 3 songs.
[Song(id, artist, ...), Song(id, artist, ...), Song(id, artist, ...)]


In [67]:
song = artist.song("All’alba non si muore")
text = song.lyrics
# or:
# song = genius.search_song("To You", artist.name)
print(text)

[Testo di "All'alba non si muore" da anticipazioni]

All'alba non si muore
Perché non c'è ragione
Per provare a dormire
Senza poter contare
Quanto manca alla fine di questa notte che
All'alba, poi, non muore
Io voglio respirare
E poi voglio invecchiare
La vita a volte sembra
Soltanto un'impressione
Però si fa guardare
Quando all'alba non si muore

Io non ho più
Bisogno di parole
La pioggia va piano, poi cade di colpo
E non possiamo più viaggiare
Né cantare

Ah, all'alba non si muore
Lo devono inventare
Un motivo valido, un dettaglio per scappare
Da te che sei l'unica cosa vera
Che riesco a cantare
E se poi vai via
Non riesco a respirare
La pioggia va piano, poi cade di colpo
E non possiamo più viaggiare
Indietro nel tempo
Sì, resta solo un grande vuoto
Dopo un giorno bello
E poi tu sembri proprio
Casa mia in cui non entro
Casa mia, adesso entro


In [68]:
text

'[Testo di "All\'alba non si muore" da anticipazioni]\n\nAll\'alba non si muore\nPerché non c\'è ragione\nPer provare a dormire\nSenza poter contare\nQuanto manca alla fine di questa notte che\nAll\'alba, poi, non muore\nIo voglio respirare\nE poi voglio invecchiare\nLa vita a volte sembra\nSoltanto un\'impressione\nPerò si fa guardare\nQuando all\'alba non si muore\n\nIo non ho più\nBisogno di parole\nLa pioggia va piano, poi cade di colpo\nE non possiamo più viaggiare\nNé cantare\n\nAh, all\'alba non si muore\nLo devono inventare\nUn motivo valido, un dettaglio per scappare\nDa te che sei l\'unica cosa vera\nChe riesco a cantare\nE se poi vai via\nNon riesco a respirare\nLa pioggia va piano, poi cade di colpo\nE non possiamo più viaggiare\nIndietro nel tempo\nSì, resta solo un grande vuoto\nDopo un giorno bello\nE poi tu sembri proprio\nCasa mia in cui non entro\nCasa mia, adesso entro'

In [72]:
pipe("Per provare a dormire")

[{'translation_text': 'Żeby spróbować się .'}]

In [62]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained(check)
model = AutoModelForSeq2SeqLM.from_pretrained(check)

print(f"Załadowany tokenizer: {tokenizer.__class__.__name__}")

Załadowany tokenizer: MarianTokenizer


In [74]:
# Podział tekstu na linie
lines = text.split('\n')

# Tokenizacja każdej linii
for line in lines:
    if line.strip():  # Sprawdzenie, czy linia nie jest pusta
        tokens = tokenizer.tokenize(line)
        input_ids = tokenizer(line, return_tensors="pt").input_ids
        print(f"Line: {line}")
        print("Tokens:", tokens)
        print("Input IDs:", input_ids)
        print()  # Pusta linia dla lepszej czytelności

Line: [Testo di "Che t'o dico a fa'"]
Tokens: ['▁[', 'Testo', '▁di', '▁"', 'Che', '▁t', "'", 'o', '▁di', 'co', '▁a', '▁fa', "'", '"', ']']
Input IDs: tensor([[  513, 21583,     6,    36, 12664,   651,     5,    33,     6,   237,
             9,   245,     5,    96,   650,     0]])

Line: [Strofa 1]
Tokens: ['▁[', 'S', 'tro', 'fa', '▁1', ']']
Input IDs: tensor([[ 513,  140, 1097,  915,  124,  650,    0]])

Line: Io non ho piani, io non ho piani
Tokens: ['▁Io', '▁non', '▁ho', '▁piani', ',', '▁io', '▁non', '▁ho', '▁piani']
Input IDs: tensor([[ 838,   44,  209, 3893,    3,  445,   44,  209, 3893,    0]])

Line: E non ho orari, io non ho orari
Tokens: ['▁E', '▁non', '▁ho', '▁orari', ',', '▁io', '▁non', '▁ho', '▁orari']
Input IDs: tensor([[   59,    44,   209, 10193,     3,   445,    44,   209, 10193,     0]])

Line: E non è presto e non è tardi e non ha un nome
Tokens: ['▁E', '▁non', '▁è', '▁presto', '▁e', '▁non', '▁è', '▁tardi', '▁e', '▁non', '▁ha', '▁un', '▁nome']
Input IDs: tensor([[  59

In [75]:
# Podział tekstu na linie
lines = text.split('\n')

# Tłumaczenie każdej linii
translated_lines = []
for line in lines:
    if line.strip():  # Sprawdzenie, czy linia nie jest pusta
        # Tokenizacja
        inputs = tokenizer(line, return_tensors="pt", padding=True)
        
        # Generowanie tłumaczenia
        translated_outputs = model.generate(**inputs)
        
        # Dekodowanie przetłumaczonego tekstu
        translated_text = tokenizer.decode(translated_outputs[0], skip_special_tokens=True)
        
        translated_lines.append(translated_text)
        print(f"Original Line: {line}")
        print(f"Translated Line: {translated_text}\n")

# Opcjonalnie: Połączenie przetłumaczonych linii w jeden tekst
final_translated_text = "\n".join(translated_lines)
print("Final Translated Text:")
print(final_translated_text)

Original Line: [Testo di "Che t'o dico a fa'"]
Translated Line: &quot; &quot; Tak mówię &quot; &quot;. &quot; &quot;

Original Line: [Strofa 1]
Translated Line: ( Strofa 1 )

Original Line: Io non ho piani, io non ho piani
Translated Line: Nie mam plany. Nie mam plany.

Original Line: E non ho orari, io non ho orari
Translated Line: Nie mam czas, nie mam czas.

Original Line: E non è presto e non è tardi e non ha un nome
Translated Line: Nie jest szybko i nie jest późno i nie ma nazw.

Original Line: Questa faccia non ha specchi, tanto siamo uguali
Translated Line: Ta twarza nie ma lustra, ale jesteśmy takie same.

Final Translated Text:
&quot; &quot; Tak mówię &quot; &quot;. &quot; &quot;
( Strofa 1 )
Nie mam plany. Nie mam plany.
Nie mam czas, nie mam czas.
Nie jest szybko i nie jest późno i nie ma nazw.
Ta twarza nie ma lustra, ale jesteśmy takie same.


In [76]:
from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-pol")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-pol")

text = "essa ciągnij wora"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform



config.json:   0%|          | 0.00/1.64k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/145M [00:00<?, ?B/s]

Some weights of the model checkpoint at facebook/mms-tts-pol were not used when initializing VitsModel: ['flow.flows.0.wavenet.in_layers.0.weight_g', 'flow.flows.0.wavenet.in_layers.0.weight_v', 'flow.flows.0.wavenet.in_layers.1.weight_g', 'flow.flows.0.wavenet.in_layers.1.weight_v', 'flow.flows.0.wavenet.in_layers.2.weight_g', 'flow.flows.0.wavenet.in_layers.2.weight_v', 'flow.flows.0.wavenet.in_layers.3.weight_g', 'flow.flows.0.wavenet.in_layers.3.weight_v', 'flow.flows.0.wavenet.res_skip_layers.0.weight_g', 'flow.flows.0.wavenet.res_skip_layers.0.weight_v', 'flow.flows.0.wavenet.res_skip_layers.1.weight_g', 'flow.flows.0.wavenet.res_skip_layers.1.weight_v', 'flow.flows.0.wavenet.res_skip_layers.2.weight_g', 'flow.flows.0.wavenet.res_skip_layers.2.weight_v', 'flow.flows.0.wavenet.res_skip_layers.3.weight_g', 'flow.flows.0.wavenet.res_skip_layers.3.weight_v', 'flow.flows.1.wavenet.in_layers.0.weight_g', 'flow.flows.1.wavenet.in_layers.0.weight_v', 'flow.flows.1.wavenet.in_layers.1.wei

tokenizer_config.json:   0%|          | 0.00/287 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/510 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/47.0 [00:00<?, ?B/s]

In [78]:
from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

In [83]:
from datasets import load_dataset

# Wczytaj zestaw danych
dataset = load_dataset("nuvocare/Ted2020_en_es_fr_de_it_ca_pl_ru_nl")

# Wybierz tylko interesujące kolumny (np. 'translation' i 'language')
limited_columns = dataset['train'].select_columns(['it', 'pl'])

# Wyświetl kilka przykładów
limited_columns[:100]

{'it': ['Tra tutti i problematici disavanzi contro i quali combattiamo oggi — principalmente pensiamo a quelli finanziari o economici — quello che mi preoccupa maggiormente è il deficit del dialogo politico — la nostra capacità di indirizzarci ai conflitti moderni nel modo in cui sono , per andare alla fonte di ciò che riguardano , per capire chi sono i giocatori chiave e per trattare con loro .',
  'Noi che siamo diplomatici , siamo preparati per avere a che fare con conflitti tra stati e problematiche concernenti gli stati .',
  'E posso dirvi che la nostra agenda è piena .',
  'C&apos; è il commercio , c&apos; è il disarmo , ci sono le relazioni transfrontaliere .',
  'Ma il quadro sta cambiando , e stiamo notando la presenza di nuovi giocatori chiave che entrano in scena .',
  'Li chiamiamo genericamente &quot; &quot; gruppi &quot; &quot; . Possono rappresentare realtà sociali , religiose , politiche , economiche e militari .',
  'E siamo alle prese con l&apos; approccio che dovrem

In [86]:
limited_columns[0]['pl']

'Wśród problemów z jakimi zmagamy się dziś , mamy na myśli przede wszystkim te finansowe i ekonomiczne . Problemem , który mnie interesuje najbardziej jest deficyt politycznego dialogu , brak umiejętności odniesienia się do współczesnych konfliktów , dotarcia do ich źródła i zrozumienia kim są ich kluczowi gracze i jak z nimi postępować .'

In [88]:
inputs = tokenizer(limited_columns[0]['pl'], return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform


from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

In [90]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Załaduj model i tokenizer
model_name = "alien79/F5-TTS-italian"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Tekst do syntezowania
text = "Ciao, come stai?"



inputs = tokenizer(limited_columns[0]['pl'], return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform


from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

# # Tokenizacja
# inputs = tokenizer(text, return_tensors="pt")

# # Generowanie mowy
# with torch.no_grad():
#     output = model.generate(**inputs)

# # Zakładając, że model zwraca waveform w odpowiednim formacie
# audio_waveform = output[0]  # Dostosuj to w zależności od formatu wyjścia

# # Zapisz jako plik .wav
# output_file = "output.wav"
# sf.write(output_file, audio_waveform.numpy(), 22050)  # Upewnij się, że częstotliwość próbkowania jest odpowiednia

# print(f"Audio saved to {output_file}")



OSError: alien79/F5-TTS-italian does not appear to have a file named config.json. Checkout 'https://huggingface.co/alien79/F5-TTS-italian/main' for available files.

In [92]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from safetensors.torch import load_file

# Ścieżka do pliku .safetensors
model_path = "model_159600.safetensors"  # Zmień na odpowiednią ścieżkę do pliku

# Załaduj model i tokenizer
#tokenizer = AutoTokenizer.from_pretrained("alien79/F5-TTS-italian")
model = AutoModelForCausalLM.from_pretrained(model_path, low_cpu_mem_usage=True)

# Tekst do syntezowania
text = "Ciao, come stai?"

# Tokenizacja
inputs = tokenizer(text, return_tensors="pt")

# Generowanie mowy
with torch.no_grad():
    output = model.generate(**inputs)

# Zakładając, że model zwraca waveform w odpowiednim formacie
audio_waveform = output  # Dostosuj to w zależności od formatu wyjścia

# Zapisz jako plik .wav (zakładając, że audio_waveform jest w odpowiednim formacie)
import soundfile as sf

output_file = "output.wav"
sf.write(output_file, audio_waveform.numpy(), 22050)  # Upewnij się, że częstotliwość próbkowania jest odpowiednia

print(f"Audio saved to {output_file}")


OSError: model_159600.safetensors is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models'
If this is a private repository, make sure to pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`