In [1]:
import os
import requests
from bs4 import BeautifulSoup
import re
from time import sleep

# Funzione per nomi file validi
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "", name)

# Anni da esplorare (dal 2005 al 1951)
anni = range(2005, 1950, -1)

for anno in anni:
    print(f"\n🔍 Elaborazione anno: {anno}")

    folder_name = f"Testi_Sanremo_{anno}"
    os.makedirs(folder_name, exist_ok=True)
    all_lyrics = []
    song_links = []

    # Ciclo pagine dell'anno
    page = 1
    while True:
        if page == 1:
            url = f"https://www.leparoledisanremo.it/anno/{anno}/"
        else:
            url = f"https://www.leparoledisanremo.it/anno/{anno}/page/{page}/"
        
        print(f"📄 Controllo pagina: {url}")
        res = requests.get(url)
        if res.status_code == 404:
            print(f"⚠️ Pagina {page} non trovata, passo all'anno successivo.")
            break
        
        soup = BeautifulSoup(res.content, "html.parser")
        articles = soup.find_all("article")
        if not articles:
            print("🚫 Nessun articolo trovato in questa pagina.")
            break
        
        for article in articles:
            a_tag = article.find("a")
            if a_tag and a_tag["href"]:
                song_links.append(a_tag["href"])
        
        page += 1
        sleep(0.5)  # per non sovraccaricare il sito

    print(f"✅ Trovati {len(song_links)} testi per il {anno}.\n")

    for i, link in enumerate(song_links, 1):
        res = requests.get(link)
        soup = BeautifulSoup(res.content, "html.parser")

        title_tag = soup.find("h1", class_="entry-title")
        lyrics_tag = soup.find("div", class_="entry-content")

        if title_tag and lyrics_tag:
            title = title_tag.get_text().strip()
            lyrics = lyrics_tag.get_text(separator="\n").strip()

            filename = clean_filename(title) + ".txt"
            filepath = os.path.join(folder_name, filename)
            with open(filepath, "w", encoding="utf-8") as f:
                f.write(f"{title}\n\n{lyrics}")

            all_lyrics.append(f"{title}\n\n{lyrics}\n\n{'='*60}\n")
            print(f"✔️ [{i}/{len(song_links)}] Salvato: {title}")
        else:
            print(f"❌ Errore nel parsing di: {link}")

        sleep(0.3)  # pausa breve per ogni richiesta

    # Salvataggio file unico per l’anno
    if all_lyrics:
        with open(f"sanremo{anno}_tutti_i_testi.txt", "w", encoding="utf-8") as f:
            f.writelines(all_lyrics)
        print(f"📦 Salvato file unico per il {anno}")

print("\n🎉 Download completato per tutti gli anni!")



🔍 Elaborazione anno: 2005
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2005/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2005/page/2/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2005/page/3/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2005/page/4/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2005/page/5/
⚠️ Pagina 5 non trovata, passo all'anno successivo.
✅ Trovati 32 testi per il 2005.

✔️ [1/32] Salvato: Grido d’amore
✔️ [2/32] Salvato: Uomo bastardo
✔️ [3/32] Salvato: L’amore che non c’è
✔️ [4/32] Salvato: Vorrei
✔️ [5/32] Salvato: L’idea
✔️ [6/32] Salvato: L’immaginario
✔️ [7/32] Salvato: La panchina
✔️ [8/32] Salvato: Le parole
✔️ [9/32] Salvato: Mentre tutto scorre
✔️ [10/32] Salvato: Nel mondo dei sogni
✔️ [11/32] Salvato: Come noi nessuno al mondo
✔️ [12/32] Salvato: Non capiva che l’amavo
✔️ [13/32] Salvato: Da grande
✔️ [14/32] Salvato: Non credo nei miracoli
✔️ [15/32] Salvato: Dov”è la terra capitano
✔️ [1

In [3]:
import os
import requests
from bs4 import BeautifulSoup
import re
from time import sleep

# Funzione per nomi file validi
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "", name)

# Anni da esplorare (dal 2025 al 2024)
anni = range(2025, 2023, -1)

for anno in anni:
    print(f"\n🔍 Elaborazione anno: {anno}")

    folder_name = f"Testi_Sanremo_{anno}"
    os.makedirs(folder_name, exist_ok=True)
    all_lyrics = []
    song_links = []

    # Ciclo pagine dell'anno
    page = 1
    while True:
        if page == 1:
            url = f"https://www.leparoledisanremo.it/anno/{anno}/"
        else:
            url = f"https://www.leparoledisanremo.it/anno/{anno}/page/{page}/"
        
        print(f"📄 Controllo pagina: {url}")
        res = requests.get(url)
        if res.status_code == 404:
            print(f"⚠️ Pagina {page} non trovata, passo all'anno successivo.")
            break
        
        soup = BeautifulSoup(res.content, "html.parser")
        articles = soup.find_all("article")
        if not articles:
            print("🚫 Nessun articolo trovato in questa pagina.")
            break
        
        for article in articles:
            a_tag = article.find("a")
            if a_tag and a_tag["href"]:
                song_links.append(a_tag["href"])
        
        page += 1
        sleep(0.5)  # per non sovraccaricare il sito

    print(f"✅ Trovati {len(song_links)} testi per il {anno}.\n")

    for i, link in enumerate(song_links, 1):
        res = requests.get(link)
        soup = BeautifulSoup(res.content, "html.parser")

        title_tag = soup.find("h1", class_="entry-title")
        lyrics_tag = soup.find("div", class_="entry-content")

        if title_tag and lyrics_tag:
            title = title_tag.get_text().strip()
            lyrics = lyrics_tag.get_text(separator="\n").strip()

            filename = clean_filename(title) + ".txt"
            filepath = os.path.join(folder_name, filename)
            with open(filepath, "w", encoding="utf-8") as f:
                f.write(f"{title}\n\n{lyrics}")

            all_lyrics.append(f"{title}\n\n{lyrics}\n\n{'='*60}\n")
            print(f"✔️ [{i}/{len(song_links)}] Salvato: {title}")
        else:
            print(f"❌ Errore nel parsing di: {link}")

        sleep(0.3)  # pausa breve per ogni richiesta

    # Salvataggio file unico per l’anno
    if all_lyrics:
        with open(f"sanremo{anno}_tutti_i_testi.txt", "w", encoding="utf-8") as f:
            f.writelines(all_lyrics)
        print(f"📦 Salvato file unico per il {anno}")

print("\n🎉 Download completato per tutti gli anni!")



🔍 Elaborazione anno: 2025
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2025/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2025/page/2/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2025/page/3/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2025/page/4/
📄 Controllo pagina: https://www.leparoledisanremo.it/anno/2025/page/5/
⚠️ Pagina 5 non trovata, passo all'anno successivo.
✅ Trovati 33 testi per il 2025.

✔️ [1/33] Salvato: Lentamente
✔️ [2/33] Salvato: Dimmi tu quando sei pronto per fare l’amore
✔️ [3/33] Salvato: Vertebre
✔️ [4/33] Salvato: Goodbye (voglio good vibes)
✔️ [5/33] Salvato: Rockstar
✔️ [6/33] Salvato: Grazie ma no grazie
✔️ [7/33] Salvato: Damme ‘na mano
✔️ [8/33] Salvato: Tu con chi fai l’amore
✔️ [9/33] Salvato: Quando sarai piccola
✔️ [10/33] Salvato: La mia parola
✔️ [11/33] Salvato: Anema e core
✔️ [12/33] Salvato: Amarcord
✔️ [13/33] Salvato: Fuorilegge
✔️ [14/33] Salvato: Mille vote ancora
✔️ [15/33] Salvato: Il r