In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from io import StringIO

def scrape_sanremo_table(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        tables = soup.find_all('table')
        for table in tables:
            headers = [th.text.strip() for th in table.find_all('th')]
            if (any(keyword in headers for keyword in ['Posizione', 'Ordine di Arrivo', 'Pos.', 'Posizione[21]', 'Posizione[33]'])) and \
               any(keyword in headers for keyword in ['Interprete', 'Artista']) and \
               any(keyword in headers for keyword in ['Canzone', 'Brano']):
                try:
                    df = pd.read_html(StringIO(str(table)))[0]
                    return df
                except Exception as e:
                    print(f"Errore nella lettura della tabella con pandas: {e}")
                    return None
        print(f"Nessuna tabella rilevante trovata in {url}")
        return None
    else:
        print(f"Errore nel recupero di {url}: {response.status_code}")
        return None

dataframes_by_year = {}
for year in range(1951, 2024):
    url = f'https://it.wikipedia.org/wiki/Festival_di_Sanremo_{year}'
    df = scrape_sanremo_table(url)
    if df is not None:
        dataframes_by_year[year] = df

print(dataframes_by_year.keys())

dict_keys([1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023])


In [32]:
#df

In [33]:
#dataframes_by_year

In [2]:
years = sorted(dataframes_by_year.keys())

print("Colonne dei primi 5 anni:")
for year in years[:5]:
    print(f"\nAnno {year}:")
    print(dataframes_by_year[year].columns.tolist())

print("\n\nColonne degli ultimi 5 anni:")
for year in years[-5:]:
    print(f"\nAnno {year}:")
    print(dataframes_by_year[year].columns.tolist())

Colonne dei primi 5 anni:

Anno 1951:
[('Posizione', 'Posizione'), ('Interprete', 'Interprete'), ('Canzone', 'Canzone'), ('Autori', 'Testo'), ('Autori', 'Musica'), ('Voti ricevuti', 'Voti ricevuti')]

Anno 1952:
['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti']

Anno 1953:
['Posizione', 'Interprete', 'Canzone', 'Edizioni musicali[3]', 'Autori', 'Voti ricevuti']

Anno 1954:
['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti']

Anno 1955:
['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti']


Colonne degli ultimi 5 anni:

Anno 2019:
[('Ordine di uscita[22]', 'Ordine di uscita[22]'), ('Artista', 'Artista'), ('Brano', 'Brano'), ('Televoto (40%)', '%'), ('Televoto (40%)', 'Posizione'), ('Sala Stampa (30%)', 'Sala Stampa (30%)'), ('Giuria demoscopica (30%)[21]', 'Giuria demoscopica (30%)[21]'), ('Totale[19]', '%'), ('Totale[19]', 'Graduatoria')]

Anno 2020:
[('Ordine di uscita[36]', 'Ordine di uscita[36]'), ('Artista', 'Artista'), ('Brano', 'Brano'),

In [163]:
for year, df in dataframes_by_year.items():
    print(f"\nAnno: {year}")
    print(f"Colonne: {df.columns.tolist()}")


Anno: 1951
Colonne: [('Posizione', 'Posizione'), ('Interprete', 'Interprete'), ('Canzone', 'Canzone'), ('Autori', 'Testo'), ('Autori', 'Musica'), ('Voti ricevuti', 'Voti ricevuti'), ('Anno', '')]

Anno: 1952
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti', 'Anno']

Anno: 1953
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Edizioni musicali[3]', 'Autori', 'Voti ricevuti', 'Anno']

Anno: 1954
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti', 'Anno']

Anno: 1955
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti', 'Anno']

Anno: 1956
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti', 'Anno']

Anno: 1957
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti', 'Anno']

Anno: 1958
Colonne: [0, 1, 2, 3, 4, 5, 'Anno']

Anno: 1959
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Autori', 'Voti ricevuti', 'Anno']

Anno: 1960
Colonne: ['Posizione', 'Interprete', 'Canzone', 'Autor

In [2]:
print("Prima riga del 1951:")
print(df.iloc[0])


Prima riga del 1951:
Pos.                                                         1º
Interprete                                        Marco Mengoni
Brano                                                  Due vite
Autori                   M. Mengoni, D. Petrella e D. Simonetta
Ultima partecipazione                                      2013
Name: 0, dtype: object


In [3]:
def standardize_sanremo_df(year, df):
    df['Anno'] = year
    df = df.copy()

    # Gestione MultiIndex
    if isinstance(df.columns, pd.MultiIndex):
        df.columns = df.columns.get_level_values(0)

    # Rinomina colonne
    df.rename(columns={'Ordine di Arrivo': 'Posizione',
                       'Pos.': 'Posizione',
                       'Posizione[21]': 'Posizione',
                       'Posizione[33]': 'Posizione',
                       'Graduatoria': 'Posizione',
                       'Interprete': 'Artista',
                       'Brano': 'Canzone',
                       '%': 'Percentuale_Voto', # Potrebbe essere utile in futuro
                       '% voti ricevuti': 'Percentuale_Voto',
                       'Percentuale voti': 'Percentuale_Voto',
                       'Voti': 'Voti_Ricevuti',
                       'Voti ricevuti': 'Voti_Ricevuti'}, inplace=True)

    # Seleziona le colonne di interesse principali
    columns_to_keep = ['Anno', 'Posizione', 'Artista', 'Canzone', 'Autori']
    df_standardized = df[[col for col in columns_to_keep if col in df.columns]]

    return df_standardized

In [4]:
print("\nPrime righe del dataframe del 1958:")
print(dataframes_by_year[1958])


Prime righe del dataframe del 1958:
            0                                                  1  \
0   Posizione                                         Interprete   
1          1º                  Domenico Modugno - Johnny Dorelli   
2          2º                     Nilla Pizzi - Tonina Torrielli   
3          3º                         Gino Latilla - Nilla Pizzi   
4          4º                  Claudio Villa - Giorgio Consolini   
5          5º                        Claudio Villa - Nilla Pizzi   
6          6º  Carla Boni e Gino Latilla - Aurelio Fierro e G...   
7          7º  Claudio Villa e Duo Fasano - Aurelio Fierro e ...   
8          8º          Natalino Otto - Carla Boni e Gino Latilla   
9          9º                  Tonina Torrielli - Cristina Jorio   
10        10º                     Johnny Dorelli - Natalino Otto   
11         NF                     Carla Boni - Giorgio Consolini   
12         NF    Claudio Villa e Gino Latilla - Gloria Christian   
13         

In [5]:
def standardize_sanremo_df(year, df):
    df['Anno'] = int(year)
    df = df.copy()

    if year == 1951:
        # Estrazione manuale basata sulla posizione delle colonne
        if len(df.columns) >= 5: # Modificato per considerare la presenza di 'Autori'
            df_1951 = pd.DataFrame({
                'Anno': [year] * len(df),
                'Posizione': df.iloc[:, 0].values,
                'Artista': df.iloc[:, 1].values,
                'Canzone': df.iloc[:, 2].values,
                'Autori': df[('Autori', 'Testo')].values # Estrai solo gli autori del testo
            })
            return df_1951
        elif len(df.columns) >= 3:
            df_1951 = pd.DataFrame({
                'Anno': [year] * len(df),
                'Posizione': df.iloc[:, 0].values,
                'Artista': df.iloc[:, 1].values,
                'Canzone': df.iloc[:, 2].values,
                'Autori': [None] * len(df) # Se 'Autori' non è presente, riempi con None
            })
            return df_1951
        else:
            return None
    else:
        # Gestione MultiIndex
        if isinstance(df.columns, pd.MultiIndex):
            df.columns = df.columns.get_level_values(0)

        # Rinomina colonne
        df.rename(columns={'Ordine di Arrivo': 'Posizione',
                           'Pos.': 'Posizione',
                           'Posizione[21]': 'Posizione',
                           'Posizione[33]': 'Posizione',
                           'Graduatoria': 'Posizione',
                           'Interprete': 'Artista',
                           'Brano': 'Canzone',
                           'Autore/i': 'Autori', # Aggiunta gestione 'Autore/i'
                           'Autore': 'Autori',   # Aggiunta gestione 'Autore'
                           '%': 'Percentuale_Voto',
                           '% voti ricevuti': 'Percentuale_Voto',
                           'Percentuale voti': 'Percentuale_Voto',
                           'Voti': 'Voti_Ricevuti',
                           'Voti ricevuti': 'Voti_Ricevuti'}, inplace=True)

        # Seleziona le colonne di interesse
        columns_to_keep = ['Anno', 'Posizione', 'Artista', 'Canzone', 'Autori']
        df_standardized = df[[col for col in columns_to_keep if col in df.columns]]

    return df_standardized

standardized_dataframes = {}
for year, df in dataframes_by_year.items():
    standardized_df = standardize_sanremo_df(year, df)
    if standardized_df is not None and not standardized_df.empty:
        standardized_dataframes[year] = standardized_df

unified_df = pd.concat(standardized_dataframes.values(), ignore_index=True)

print(f"Shape del dataframe unificato: {unified_df.shape}")
print("\nPrime 20 righe del dataframe unificato:")
print(unified_df.head(20))
print("\nTipologie delle colonne:")
print(unified_df.dtypes)

Shape del dataframe unificato: (1579, 5)

Prime 20 righe del dataframe unificato:
    Anno Posizione                         Artista  \
0   1951        1º                     Nilla Pizzi   
1   1951        2º  Nilla Pizzi e Achille Togliani   
2   1951        3º                Achille Togliani   
3   1951         F   Achille Togliani e Duo Fasano   
4   1951         F  Nilla Pizzi e Achille Togliani   
5   1951         F   Achille Togliani e Duo Fasano   
6   1951         F                      Duo Fasano   
7   1951         F        Nilla Pizzi e Duo Fasano   
8   1951         F                Achille Togliani   
9   1951         F                      Duo Fasano   
10  1951        NF                     Nilla Pizzi   
11  1951        NF                     Nilla Pizzi   
12  1951        NF                Achille Togliani   
13  1951        NF                Achille Togliani   
14  1951        NF                     Nilla Pizzi   
15  1951        NF                     Nilla Pizzi   


In [6]:
# Visualizza i valori unici della colonna 'Posizione' dopo la pulizia
print("Valori unici nella colonna 'Posizione' dopo la pulizia:")
print(unified_df['Posizione'].unique())

Valori unici nella colonna 'Posizione' dopo la pulizia:
['1º' '2º' '3º' 'F' 'NF' '4º' '5º' '6º' '7º' '8º' '9º' '10º'
 '3º (ex aequo)' nan '11º' '12º' '2º (pari merito)' '6º (ex aequo)'
 '9º (ex aequo)' '13º' '14º' '11º (ex aequo)' '13º (ex aequo)'
 '8º (ex aequo)' '15º' '16º' '1' '2' '4' '5' '6' '15º (ex aequo)' '17º'
 '18º' '6°' '19º' '20º' '21º' '22º' '23º' '24º' '25º' '26º' '5°' '7°' '8°'
 '9°' '10°' '11°' '12°' '13°' '14°' '15°' '16°' '17°' '18°' '19°' '20°'
 '21°' '22°' '23°' '24°' '4°' '3' '7' '8' '9' '10' '11' '12' '13' '14'
 '15' 'NF (E4)' 'NF (E3)' 'NF (E2)' 'F.' 'Squalificata[3]' 'F (4º)[22]'
 'F (5º)[23]' 'F (6º)[24]' 'F (7º)[25]' 'F (8º)[26]' 'F (9º)[27]'
 'F (10º)[28]' 'NF (E1)' 1 2 3 4 5 6 7 8 9 10 '27º' '28º']


In [7]:
#Iteriamo ogni colonna del DataFrame
for column in unified_df.columns:
    #Somiamo i valori nulli (i dati booleani vengono interpretati come 1 e 0)
    nan_count = unified_df[column].isna().sum()
    #calcoliamo la percentuale
    nan_percentage = round((nan_count/unified_df.shape[0])*100, 2)
    print(f'{column} contains {nan_count} NaN values, {nan_percentage}% of all rows.')


Anno contains 0 NaN values, 0.0% of all rows.
Posizione contains 99 NaN values, 6.27% of all rows.
Artista contains 21 NaN values, 1.33% of all rows.
Canzone contains 21 NaN values, 1.33% of all rows.
Autori contains 145 NaN values, 9.18% of all rows.


In [8]:
unified_df

Unnamed: 0,Anno,Posizione,Artista,Canzone,Autori
0,1951,1º,Nilla Pizzi,Grazie dei fiori,Gian Carlo Testoni e Mario Panzeri
1,1951,2º,Nilla Pizzi e Achille Togliani,La luna si veste d'argento,Biri
2,1951,3º,Achille Togliani,Serenata a nessuno,Walter Colì
3,1951,F,Achille Togliani e Duo Fasano,Al mercato di Pizzighettone,Aldo Locatelli
4,1951,F,Nilla Pizzi e Achille Togliani,Eco tra gli abeti,Enzo Bonagura
...,...,...,...,...,...
1574,2023,24º,Olly,Polvere,"Olly, E. Lovito e J. Boverod"
1575,2023,25º,Anna Oxa,Sali (canto dell'anima),"A. Oxa, F. Bianconi, Kaballà e F. Zanotti"
1576,2023,26º,Will,Stupido,"Will, S. Cremonini e A. Pugliese"
1577,2023,27º,Shari,Egoista,"Shari, M. Pisciottu, L. Fenudi e R. Puddu"


In [9]:
# Crea una copia per l'estrazione numerica
posizione_numerica = unified_df['Posizione'].str.extract(r'(\d+)')[0].fillna(pd.NA)

# Inizia con la colonna 'Posizione' originale
posizione_pulita = unified_df['Posizione'].copy()

# Rimuovi i suffissi ordinali
posizione_pulita = posizione_pulita.str.replace('º', '', regex=False).str.replace('°', '', regex=False)

# Applica l'estrazione numerica e riempi i NaN con i valori originali
posizione_pulita = posizione_numerica.fillna(posizione_pulita)

# Standardizza 'F', 'NF' e 'Squalificata' (assicurandoci di usare .str sulla Series)
posizione_pulita = posizione_pulita.replace(['F.', r'F \(\d+\)\[\d+\]'], 'F', regex=True)
posizione_pulita = posizione_pulita.replace([r'NF \(E\d+\)'], 'NF', regex=True)

# Forza la conversione a stringa PRIMA dell'ultimo .str.replace()
posizione_pulita = posizione_pulita.astype(str)

posizione_pulita = posizione_pulita.str.replace(r'Squalificata\[\d+\]', 'Squalificata', regex=True)

# Tenta la conversione a numerico
unified_df['Posizione'] = pd.to_numeric(posizione_pulita, errors='ignore')

# Visualizza i valori unici aggiornati
print("Valori unici della colonna 'Posizione' dopo ulteriori pulizie:")
print(unified_df['Posizione'].unique())

# Visualizza le prime righe del dataframe
print("\nPrime righe del dataframe:")
print(unified_df.head())

# Visualizza il tipo di dato della colonna 'Posizione'
print("\nTipo di dato della colonna 'Posizione':")
print(unified_df['Posizione'].dtype)

Valori unici della colonna 'Posizione' dopo ulteriori pulizie:
['1' '2' '3' 'F' 'NF' '4' '5' '6' '7' '8' '9' '10' 'nan' '11' '12' '13'
 '14' '15' '16' '17' '18' '19' '20' '21' '22' '23' '24' '25' '26' '27'
 '28']

Prime righe del dataframe:
   Anno Posizione                         Artista  \
0  1951         1                     Nilla Pizzi   
1  1951         2  Nilla Pizzi e Achille Togliani   
2  1951         3                Achille Togliani   
3  1951         F   Achille Togliani e Duo Fasano   
4  1951         F  Nilla Pizzi e Achille Togliani   

                       Canzone                              Autori  
0             Grazie dei fiori  Gian Carlo Testoni e Mario Panzeri  
1   La luna si veste d'argento                                Biri  
2           Serenata a nessuno                         Walter Colì  
3  Al mercato di Pizzighettone                      Aldo Locatelli  
4            Eco tra gli abeti                       Enzo Bonagura  

Tipo di dato della colonn

  unified_df['Posizione'] = pd.to_numeric(posizione_pulita, errors='ignore')


In [92]:
unified_df = unified_df[unified_df['Posizione'] != 'nan']


In [94]:
#Iteriamo ogni colonna del DataFrame
for column in unified_df.columns:
    #Somiamo i valori nulli (i dati booleani vengono interpretati come 1 e 0)
    nan_count = unified_df[column].isna().sum()
    #calcoliamo la percentuale
    nan_percentage = round((nan_count/unified_df.shape[0])*100, 2)
    print(f'{column} contains {nan_count} NaN values, {nan_percentage}% of all rows.')

Anno contains 0 NaN values, 0.0% of all rows.
Posizione contains 0 NaN values, 0.0% of all rows.
Artista contains 0 NaN values, 0.0% of all rows.
Canzone contains 0 NaN values, 0.0% of all rows.
Autori contains 46 NaN values, 3.07% of all rows.


In [13]:
dataframes_by_year[1958]

Unnamed: 0,0,1,2,3,4,5,Anno
0,Posizione,Interprete,Canzone,Autori,Edizioni musicali[2],Voti ricevuti,1958
1,1º,Domenico Modugno - Johnny Dorelli,Nel blu dipinto di blu,D. Modugno e F. Migliacci,Edizioni musicali Curci,63,1958
2,2º,Nilla Pizzi - Tonina Torrielli,L'edera,V. D'Acquisto e S. Seracini,Edizioni musicali Menestrello,41,1958
3,3º,Gino Latilla - Nilla Pizzi,Amare un'altra,R. Pazzaglia e G. Fabor,Edizioni musicali Titanus,22,1958
4,4º,Claudio Villa - Giorgio Consolini,Campana di Santa Lucia,B. Cherubini e C. Concina,Edizioni musicali Casiroli,18,1958
5,5º,Claudio Villa - Nilla Pizzi,Giuro d'amarti così,M. Panzeri e V. Mascheroni,Edizioni musicali Mascheroni,17,1958
6,6º,Carla Boni e Gino Latilla - Aurelio Fierro e G...,Timida serenata,N. Salerno e G. Redi,Edizioni musicali Curci,15,1958
7,7º,Claudio Villa e Duo Fasano - Aurelio Fierro e ...,Fragole e cappellini,M. Panzeri e S. Seracini,Edizioni musicali Suvini Zerboni,13,1958
8,8º,Natalino Otto - Carla Boni e Gino Latilla,Non potrai dimenticare,B. Pallesi e W. Malgoni,Edizioni musicali Southern Music,8,1958
9,9º,Tonina Torrielli - Cristina Jorio,Mille volte,Zibio e G. Fabor,Edizioni musicali Minstrel,3,1958


In [17]:
#  Elimina le righe del 1958 da unified_df
unified_df = unified_df[unified_df['Anno'] != 1958]
#unified_df[1958]

In [25]:
df_1958 = dataframes_by_year[1958]
df_1958.columns = ['Posizione', 'Artista', 'Canzone', 'Autori', 'Casa_Editrice', 'Voti_ricevuti', 'Anno']

In [29]:
df_1958

Unnamed: 0,Anno,Posizione,Artista,Canzone,Autori
0,1958,1º,Domenico Modugno - Johnny Dorelli,Nel blu dipinto di blu,D. Modugno e F. Migliacci
1,1958,2º,Nilla Pizzi - Tonina Torrielli,L'edera,V. D'Acquisto e S. Seracini
2,1958,3º,Gino Latilla - Nilla Pizzi,Amare un'altra,R. Pazzaglia e G. Fabor
3,1958,4º,Claudio Villa - Giorgio Consolini,Campana di Santa Lucia,B. Cherubini e C. Concina
4,1958,5º,Claudio Villa - Nilla Pizzi,Giuro d'amarti così,M. Panzeri e V. Mascheroni
5,1958,6º,Carla Boni e Gino Latilla - Aurelio Fierro e G...,Timida serenata,N. Salerno e G. Redi
6,1958,7º,Claudio Villa e Duo Fasano - Aurelio Fierro e ...,Fragole e cappellini,M. Panzeri e S. Seracini
7,1958,8º,Natalino Otto - Carla Boni e Gino Latilla,Non potrai dimenticare,B. Pallesi e W. Malgoni
8,1958,9º,Tonina Torrielli - Cristina Jorio,Mille volte,Zibio e G. Fabor
9,1958,10º,Johnny Dorelli - Natalino Otto,Fantastica,"A. Costanzo, C. Gori e P. Bentivoglio"


In [27]:
df_1958 = df_1958.iloc[1:].reset_index(drop=True)


In [28]:
#Mantieni solo le colonne necessarie
df_1958 = df_1958[['Anno', 'Posizione', 'Artista', 'Canzone', 'Autori']]

In [30]:
# Crea una copia per l'estrazione numerica
posizione_numerica = df_1958['Posizione'].str.extract(r'(\d+)')[0].fillna(pd.NA)

# Inizia con la colonna 'Posizione' originale
posizione_pulita = df_1958['Posizione'].copy()

# Rimuovi i suffissi ordinali
posizione_pulita = posizione_pulita.str.replace('º', '', regex=False).str.replace('°', '', regex=False)

# Applica l'estrazione numerica e riempi i NaN con i valori originali
posizione_pulita = posizione_numerica.fillna(posizione_pulita)

# Standardizza 'F', 'NF' e 'Squalificata' (assicurandoci di usare .str sulla Series)
posizione_pulita = posizione_pulita.replace(['F.', r'F \(\d+\)\[\d+\]'], 'F', regex=True)
posizione_pulita = posizione_pulita.replace([r'NF \(E\d+\)'], 'NF', regex=True)

# Forza la conversione a stringa PRIMA dell'ultimo .str.replace()
posizione_pulita = posizione_pulita.astype(str)

posizione_pulita = posizione_pulita.str.replace(r'Squalificata\[\d+\]', 'Squalificata', regex=True)

# Tenta la conversione a numerico
df_1958['Posizione'] = pd.to_numeric(posizione_pulita, errors='ignore')

  df_1958['Posizione'] = pd.to_numeric(posizione_pulita, errors='ignore')


In [31]:
df_1958

Unnamed: 0,Anno,Posizione,Artista,Canzone,Autori
0,1958,1,Domenico Modugno - Johnny Dorelli,Nel blu dipinto di blu,D. Modugno e F. Migliacci
1,1958,2,Nilla Pizzi - Tonina Torrielli,L'edera,V. D'Acquisto e S. Seracini
2,1958,3,Gino Latilla - Nilla Pizzi,Amare un'altra,R. Pazzaglia e G. Fabor
3,1958,4,Claudio Villa - Giorgio Consolini,Campana di Santa Lucia,B. Cherubini e C. Concina
4,1958,5,Claudio Villa - Nilla Pizzi,Giuro d'amarti così,M. Panzeri e V. Mascheroni
5,1958,6,Carla Boni e Gino Latilla - Aurelio Fierro e G...,Timida serenata,N. Salerno e G. Redi
6,1958,7,Claudio Villa e Duo Fasano - Aurelio Fierro e ...,Fragole e cappellini,M. Panzeri e S. Seracini
7,1958,8,Natalino Otto - Carla Boni e Gino Latilla,Non potrai dimenticare,B. Pallesi e W. Malgoni
8,1958,9,Tonina Torrielli - Cristina Jorio,Mille volte,Zibio e G. Fabor
9,1958,10,Johnny Dorelli - Natalino Otto,Fantastica,"A. Costanzo, C. Gori e P. Bentivoglio"


In [32]:
#Appendi i dati puliti al dataframe unificato
unified_df = pd.concat([unified_df, df_1958], ignore_index=True)

In [37]:
print(unified_df[unified_df['Anno'] == 1958])

      Anno Posizione                                            Artista  \
1558  1958         1                  Domenico Modugno - Johnny Dorelli   
1559  1958         2                     Nilla Pizzi - Tonina Torrielli   
1560  1958         3                         Gino Latilla - Nilla Pizzi   
1561  1958         4                  Claudio Villa - Giorgio Consolini   
1562  1958         5                        Claudio Villa - Nilla Pizzi   
1563  1958         6  Carla Boni e Gino Latilla - Aurelio Fierro e G...   
1564  1958         7  Claudio Villa e Duo Fasano - Aurelio Fierro e ...   
1565  1958         8          Natalino Otto - Carla Boni e Gino Latilla   
1566  1958         9                  Tonina Torrielli - Cristina Jorio   
1567  1958        10                     Johnny Dorelli - Natalino Otto   
1568  1958        NF                     Carla Boni - Giorgio Consolini   
1569  1958        NF    Claudio Villa e Gino Latilla - Gloria Christian   
1570  1958        NF     

In [38]:
unified_df[unified_df['Posizione'] == 'nan']


Unnamed: 0,Anno,Posizione,Artista,Canzone,Autori
1398,2013,,Marco Mengoni,L'essenziale,
1399,2013,,Modà,Se si potesse non morire,
1400,2013,,Chiara,Il futuro che sarà,
1401,2013,,Malika Ayane,E se poi,
1402,2013,,Elio e le Storie Tese,La canzone mononota,
...,...,...,...,...,...
1525,2022,,Mahmood e Blanco,Brividi,
1526,2022,,Ana Mena,Duecentomila ore,
1527,2022,,Rkomi,Insuperabile,
1528,2022,,Dargen D'Amico,Dove si balla,


In [58]:
df = dataframes_by_year[2013]
df

Unnamed: 0,Posizione,Artista,Canzone,Anno
0,1,Marco Mengoni,L'essenziale,2013
1,2,Modà,Se si potesse non morire,2013
2,3,Chiara,Il futuro che sarà,2013
3,4,Malika Ayane,E se poi,2013
4,5,Elio e le Storie Tese,La canzone mononota,2013
5,6,Annalisa,Scintille,2013
6,7,Simona Molinari con Peter Cincotti,La felicità,2013
7,8,Max Gazzè,Sotto casa,2013
8,9,Raphael Gualazzi,Sai (ci basta un sogno),2013
9,10,Daniele Silvestri,A bocca chiusa,2013


In [59]:
df = dataframes_by_year[2013][['Anno', 'Posizione', 'Artista', 'Canzone']]

In [60]:
#  Elimina le righe del 2013 da unified_df
unified_df = unified_df[unified_df['Anno'] != 2013]
#unified_df[2013]

In [61]:
unified_df = pd.concat([unified_df, df], ignore_index=True)

In [62]:
print(unified_df[unified_df['Anno'] == 2013])

      Anno Posizione                             Artista  \
1588  2013         1                       Marco Mengoni   
1589  2013         2                                Modà   
1590  2013         3                              Chiara   
1591  2013         4                        Malika Ayane   
1592  2013         5               Elio e le Storie Tese   
1593  2013         6                            Annalisa   
1594  2013         7  Simona Molinari con Peter Cincotti   
1595  2013         8                           Max Gazzè   
1596  2013         9                    Raphael Gualazzi   
1597  2013        10                   Daniele Silvestri   

                       Canzone Autori  
1588              L'essenziale    NaN  
1589  Se si potesse non morire    NaN  
1590        Il futuro che sarà    NaN  
1591                  E se poi    NaN  
1592       La canzone mononota    NaN  
1593                 Scintille    NaN  
1594               La felicità    NaN  
1595               

In [63]:
df = dataframes_by_year[2014]
df

Unnamed: 0,Posizione,Artista,Canzone,Anno
0,1,Francesco Renga,Vivendo adesso,2014
1,2,Raphael Gualazzi & The Bloody Beetroots,Liberi o no,2014
2,3,Arisa,Controvento,2014
3,4,Giusy Ferreri,Ti porto a cena con me,2014
4,5,Noemi,Bagnati dal sole,2014
5,6,Frankie hi-nrg mc,Pedala,2014
6,7,Perturbazione,L'unica,2014
7,8,Francesco Sarcina,Nel tuo sorriso,2014
8,9,Giuliano Palma,Così lontano,2014
9,10,Renzo Rubino,Ora,2014


In [65]:
df = dataframes_by_year[2014][['Anno', 'Posizione', 'Artista', 'Canzone']]

In [66]:
#  Elimina le righe del 2014 da unified_df
unified_df = unified_df[unified_df['Anno'] != 2014]
#unified_df[2013]

In [67]:
unified_df = pd.concat([unified_df, df], ignore_index=True)

In [68]:
print(unified_df[unified_df['Anno'] == 2014])

      Anno Posizione                                  Artista  \
1568  2014         1                          Francesco Renga   
1569  2014         2  Raphael Gualazzi & The Bloody Beetroots   
1570  2014         3                                    Arisa   
1571  2014         4                            Giusy Ferreri   
1572  2014         5                                    Noemi   
1573  2014         6                        Frankie hi-nrg mc   
1574  2014         7                            Perturbazione   
1575  2014         8                        Francesco Sarcina   
1576  2014         9                           Giuliano Palma   
1577  2014        10                             Renzo Rubino   

                     Canzone Autori  
1568          Vivendo adesso    NaN  
1569             Liberi o no    NaN  
1570             Controvento    NaN  
1571  Ti porto a cena con me    NaN  
1572        Bagnati dal sole    NaN  
1573                  Pedala    NaN  
1574              

In [90]:
def scrape_sanremo_table(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        tables = soup.find_all('table')
        for table in tables:
            headers = [th.text.strip() for th in table.find_all('th')]
            if (any(keyword in headers for keyword in ['Posizione'])) and \
               any(keyword in headers for keyword in ['Interprete']) and \
               any(keyword in headers for keyword in ['Canzone']):
                try:
                    df = pd.read_html(StringIO(str(table)))[0]
                    return df
                except Exception as e:
                    print(f"Errore nella lettura della tabella con pandas: {e}")
                    return None
        print(f"Nessuna tabella rilevante trovata in {url}")
        return None
    else:
        print(f"Errore nel recupero di {url}: {response.status_code}")
        return None

dataframes_by_year = {}
for year in range(2015, 2024):
    url = f'https://it.wikipedia.org/wiki/Festival_di_Sanremo_{year}'
    df = scrape_sanremo_table(url)
    if df is not None:
        dataframes_by_year[year] = df

print(dataframes_by_year.keys())

Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2015
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2016
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2017
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2018
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2019
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2020
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2021
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2022
Nessuna tabella rilevante trovata in https://it.wikipedia.org/wiki/Festival_di_Sanremo_2023
dict_keys([])


In [81]:
dataframes_by_year[2015]

Unnamed: 0_level_0,Ordine di uscita[37],Artista,Brano,1ª serata[35],1ª serata[35],1ª serata[35],1ª serata[35],1ª serata[35],1ª serata[35],Classifica congiunta 1ª e 2ª serata,Classifica congiunta 1ª e 2ª serata
Unnamed: 0_level_1,Ordine di uscita[37],Artista,Brano,Televoto (50%),Televoto (50%),Sala Stampa (50%),Sala Stampa (50%),Totale,Totale,%,Posizione
Unnamed: 0_level_2,Ordine di uscita[37],Artista,Brano,%,Graduatoria,%,Graduatoria,%,Graduatoria combinata,%,Posizione
0,1,Chiara,Straordinario,"9,49%",5,"10,74%",4,"10,12%",5,"4,77%",9
1,2,Gianluca Grignani,Sogni infranti,"4,82%",8,"5,37%",8,"5,10%",9,"2,40%",19
2,3,Alex Britti,Un attimo importante,"5,41%",7,"8,68%",7,"7,04%",8,"3,35%",15
3,4,Malika Ayane,Adesso e qui (nostalgico presente),"4,41%",9,"17,97%",1,"11,19%",4,"5,40%",7
4,5,Dear Jack,Il mondo esplode tranne noi,"23,05%",1,"3,93%",9,"13,49%",3,"6,17%",6
5,6,Lara Fabian,Voce,"3,27%",10,"3,10%",10,"3,19%",10,"1,50%",20
6,7,Nek,Fatti avanti amore,"18,08%",2,"17,57%",2,"17,83%",1,"8,38%",2
7,8,Grazia Di Michele e Mauro Coruzzi,Io sono una finestra,"7,14%",6,"9,30%",6,"8,22%",7,"3,89%",12
8,9,Annalisa,Una finestra tra le stelle,"13,47%",3,"13,22%",3,"13,85%",2,"6,51%",4
9,10,Nesli,Buona fortuna amore,"9,86%",4,"10,12%",5,"9,99%",6,"4,70%",10


In [106]:
anni_da_escludere = list(range(2013, 2024))
unified_df = unified_df[~unified_df['Anno'].isin(anni_da_escludere)]

In [107]:
unified_df

Unnamed: 0,Anno,Posizione,Artista,Canzone,Autori
0,1951,1,Nilla Pizzi,Grazie dei fiori,Gian Carlo Testoni e Mario Panzeri
1,1951,2,Nilla Pizzi e Achille Togliani,La luna si veste d'argento,Biri
2,1951,3,Achille Togliani,Serenata a nessuno,Walter Colì
3,1951,F,Achille Togliani e Duo Fasano,Al mercato di Pizzighettone,Aldo Locatelli
4,1951,F,Nilla Pizzi e Achille Togliani,Eco tra gli abeti,Enzo Bonagura
...,...,...,...,...,...
1553,1958,NF,Carla Boni - Cristina Jorio,Io sono te,"A. Testa, R. De Giusti, Biri e C. A. Rossi"
1554,1958,NF,Nilla Pizzi e Aurelio Fierro - Claudio Villa e...,La canzone che piace a te,"R. Cutolo, M. De Paolis e M. Ruccione"
1555,1958,NF,Tonina Torrielli e Duo Fasano - Trio Joyce,Nozze d'oro,"F. Conti, G. Cavalli e E. Canelli"
1556,1958,NF,Johnny Dorelli - Giorgio Consolini,Se tornassi tu..!,"E. Radaelli, C. Vinci e A. Barberis"


In [105]:
print(unified_df[unified_df['Autori'].isnull()])

      Anno Posizione                                  Artista  \
1558  2013         1                            Marco Mengoni   
1559  2013         2                                     Modà   
1560  2013         3                                   Chiara   
1561  2013         4                             Malika Ayane   
1562  2013         5                    Elio e le Storie Tese   
1563  2013         6                                 Annalisa   
1564  2013         7       Simona Molinari con Peter Cincotti   
1565  2013         8                                Max Gazzè   
1566  2013         9                         Raphael Gualazzi   
1567  2013        10                        Daniele Silvestri   
1568  2014         1                          Francesco Renga   
1569  2014         2  Raphael Gualazzi & The Bloody Beetroots   
1570  2014         3                                    Arisa   
1571  2014         4                            Giusy Ferreri   
1572  2014         5     

In [108]:
unified_df.to_excel('dati-classifica-sanremo-1951-2023(2).xlsx',index=False)