In [9]:
# Use a pipeline as a high-level helper
from transformers import pipeline

check = "clui/opus-it-pl-v1"
pipe = pipeline("translation_it_to_pl", model=check)



In [10]:
pipe('Noi che siamo diplomatici , siamo preparati per avere a che fare con conflitti tra stati e problematiche concernenti gli stati',
     clean_up_tokenization_spaces=True)[0]['translation_text']

'My, którzy jesteśmy dyplomatami, jesteśmy przygotowani, żeby związać się z konfliktymi państwami i problemami o państwachachach.'

In [21]:
import os
from dotenv import load_dotenv

#load_dotenv()

# Uzyskiwanie wartości zmiennych
CLIENT_ID = os.getenv("CLIENT_ID")
CLIENT_SECRET = os.getenv("CLIENT_SECRET")
ACCESS_TOKEN = os.getenv("ACCESS_TOKEN")

In [22]:
import lyricsgenius
genius = lyricsgenius.Genius(ACCESS_TOKEN)

artist = genius.search_artist("Angelina Mango", max_songs=3, sort="title")
print(artist.songs)


Searching for songs by Angelina Mango...

Song 1: "All’alba non si muore"
Song 2: "​​another world"
Song 3: "Che t’o dico a fa’"

Reached user-specified song limit (3).
Done. Found 3 songs.
[Song(id, artist, ...), Song(id, artist, ...), Song(id, artist, ...)]


In [54]:
pipe(probe)

[{'translation_text': '( Brawa ) ( Brawa ) Nie mam plany , nie mam plany , nie mam plany , nie mam czas , nie mam czas , nie mam czas i nie jest wkrótce , a nie jest późno i nie ma nazwy , a nie ma twarz , nie ma lustra , a tak naprawdę jesteśmy .'}]

In [67]:
song = artist.song("All’alba non si muore")
text = song.lyrics
# or:
# song = genius.search_song("To You", artist.name)
print(text)

[Testo di "All'alba non si muore" da anticipazioni]

All'alba non si muore
Perché non c'è ragione
Per provare a dormire
Senza poter contare
Quanto manca alla fine di questa notte che
All'alba, poi, non muore
Io voglio respirare
E poi voglio invecchiare
La vita a volte sembra
Soltanto un'impressione
Però si fa guardare
Quando all'alba non si muore

Io non ho più
Bisogno di parole
La pioggia va piano, poi cade di colpo
E non possiamo più viaggiare
Né cantare

Ah, all'alba non si muore
Lo devono inventare
Un motivo valido, un dettaglio per scappare
Da te che sei l'unica cosa vera
Che riesco a cantare
E se poi vai via
Non riesco a respirare
La pioggia va piano, poi cade di colpo
E non possiamo più viaggiare
Indietro nel tempo
Sì, resta solo un grande vuoto
Dopo un giorno bello
E poi tu sembri proprio
Casa mia in cui non entro
Casa mia, adesso entro


In [68]:
text

'[Testo di "All\'alba non si muore" da anticipazioni]\n\nAll\'alba non si muore\nPerché non c\'è ragione\nPer provare a dormire\nSenza poter contare\nQuanto manca alla fine di questa notte che\nAll\'alba, poi, non muore\nIo voglio respirare\nE poi voglio invecchiare\nLa vita a volte sembra\nSoltanto un\'impressione\nPerò si fa guardare\nQuando all\'alba non si muore\n\nIo non ho più\nBisogno di parole\nLa pioggia va piano, poi cade di colpo\nE non possiamo più viaggiare\nNé cantare\n\nAh, all\'alba non si muore\nLo devono inventare\nUn motivo valido, un dettaglio per scappare\nDa te che sei l\'unica cosa vera\nChe riesco a cantare\nE se poi vai via\nNon riesco a respirare\nLa pioggia va piano, poi cade di colpo\nE non possiamo più viaggiare\nIndietro nel tempo\nSì, resta solo un grande vuoto\nDopo un giorno bello\nE poi tu sembri proprio\nCasa mia in cui non entro\nCasa mia, adesso entro'

In [72]:
pipe("Per provare a dormire")

[{'translation_text': 'Żeby spróbować się .'}]

In [62]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained(check)
model = AutoModelForSeq2SeqLM.from_pretrained(check)

print(f"Załadowany tokenizer: {tokenizer.__class__.__name__}")

Załadowany tokenizer: MarianTokenizer


In [74]:
# Podział tekstu na linie
lines = text.split('\n')

# Tokenizacja każdej linii
for line in lines:
    if line.strip():  # Sprawdzenie, czy linia nie jest pusta
        tokens = tokenizer.tokenize(line)
        input_ids = tokenizer(line, return_tensors="pt").input_ids
        print(f"Line: {line}")
        print("Tokens:", tokens)
        print("Input IDs:", input_ids)
        print()  # Pusta linia dla lepszej czytelności

Line: [Testo di "Che t'o dico a fa'"]
Tokens: ['▁[', 'Testo', '▁di', '▁"', 'Che', '▁t', "'", 'o', '▁di', 'co', '▁a', '▁fa', "'", '"', ']']
Input IDs: tensor([[  513, 21583,     6,    36, 12664,   651,     5,    33,     6,   237,
             9,   245,     5,    96,   650,     0]])

Line: [Strofa 1]
Tokens: ['▁[', 'S', 'tro', 'fa', '▁1', ']']
Input IDs: tensor([[ 513,  140, 1097,  915,  124,  650,    0]])

Line: Io non ho piani, io non ho piani
Tokens: ['▁Io', '▁non', '▁ho', '▁piani', ',', '▁io', '▁non', '▁ho', '▁piani']
Input IDs: tensor([[ 838,   44,  209, 3893,    3,  445,   44,  209, 3893,    0]])

Line: E non ho orari, io non ho orari
Tokens: ['▁E', '▁non', '▁ho', '▁orari', ',', '▁io', '▁non', '▁ho', '▁orari']
Input IDs: tensor([[   59,    44,   209, 10193,     3,   445,    44,   209, 10193,     0]])

Line: E non è presto e non è tardi e non ha un nome
Tokens: ['▁E', '▁non', '▁è', '▁presto', '▁e', '▁non', '▁è', '▁tardi', '▁e', '▁non', '▁ha', '▁un', '▁nome']
Input IDs: tensor([[  59

In [75]:
# Podział tekstu na linie
lines = text.split('\n')

# Tłumaczenie każdej linii
translated_lines = []
for line in lines:
    if line.strip():  # Sprawdzenie, czy linia nie jest pusta
        # Tokenizacja
        inputs = tokenizer(line, return_tensors="pt", padding=True)
        
        # Generowanie tłumaczenia
        translated_outputs = model.generate(**inputs)
        
        # Dekodowanie przetłumaczonego tekstu
        translated_text = tokenizer.decode(translated_outputs[0], skip_special_tokens=True)
        
        translated_lines.append(translated_text)
        print(f"Original Line: {line}")
        print(f"Translated Line: {translated_text}\n")

# Opcjonalnie: Połączenie przetłumaczonych linii w jeden tekst
final_translated_text = "\n".join(translated_lines)
print("Final Translated Text:")
print(final_translated_text)

Original Line: [Testo di "Che t'o dico a fa'"]
Translated Line: &quot; &quot; Tak mówię &quot; &quot;. &quot; &quot;

Original Line: [Strofa 1]
Translated Line: ( Strofa 1 )

Original Line: Io non ho piani, io non ho piani
Translated Line: Nie mam plany. Nie mam plany.

Original Line: E non ho orari, io non ho orari
Translated Line: Nie mam czas, nie mam czas.

Original Line: E non è presto e non è tardi e non ha un nome
Translated Line: Nie jest szybko i nie jest późno i nie ma nazw.

Original Line: Questa faccia non ha specchi, tanto siamo uguali
Translated Line: Ta twarza nie ma lustra, ale jesteśmy takie same.

Final Translated Text:
&quot; &quot; Tak mówię &quot; &quot;. &quot; &quot;
( Strofa 1 )
Nie mam plany. Nie mam plany.
Nie mam czas, nie mam czas.
Nie jest szybko i nie jest późno i nie ma nazw.
Ta twarza nie ma lustra, ale jesteśmy takie same.


In [73]:
import nltk
from nltk.tokenize import word_tokenize

# Upewnij się, że masz pobrane zasoby NLTK
nltk.download('punkt')

# Przykładowy tekst do tokenizacji
text = "[Testo di \"Che t'o dico a fa'\"]\n\n[Strofa 1]\nIo non ho piani, io non ho piani\nE non ho orari, io non ho orari\nE non è presto e non è tardi e non ha un nome\nQuesta faccia non ha specchi, tanto siamo uguali"

# Podział tekstu na linie
lines = text.split('\n')

# Tokenizacja każdej linii
for line in lines:
    if line.strip():  # Sprawdzenie, czy linia nie jest pusta
        tokens = word_tokenize(line)
        print(f"Line: {line}")
        print("Tokens:", tokens)
        print()  # Pusta linia dla lepszej czytelności

Line: [Testo di "Che t'o dico a fa'"]
Tokens: ['[', 'Testo', 'di', '``', 'Che', 't', "'", 'o', 'dico', 'a', 'fa', "'", "''", ']']

Line: [Strofa 1]
Tokens: ['[', 'Strofa', '1', ']']

Line: Io non ho piani, io non ho piani
Tokens: ['Io', 'non', 'ho', 'piani', ',', 'io', 'non', 'ho', 'piani']

Line: E non ho orari, io non ho orari
Tokens: ['E', 'non', 'ho', 'orari', ',', 'io', 'non', 'ho', 'orari']

Line: E non è presto e non è tardi e non ha un nome
Tokens: ['E', 'non', 'è', 'presto', 'e', 'non', 'è', 'tardi', 'e', 'non', 'ha', 'un', 'nome']

Line: Questa faccia non ha specchi, tanto siamo uguali
Tokens: ['Questa', 'faccia', 'non', 'ha', 'specchi', ',', 'tanto', 'siamo', 'uguali']



[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mikoo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
