## **Analisi Dataset Spotify**

#### Estrazione dell'anno a partire dal Dataset di partenza preso da Kaggle

In [3]:
import pandas as pd

# Leggi il dataset CSV
df = pd.read_csv('tracks.csv')

# Estrarre solo l'anno dalla colonna 'release_date' e sovrascrivere la colonna stessa
df['release_date'] = pd.to_datetime(df['release_date']).dt.year

# Salva il DataFrame modificato nel file CSV originale, sovrascrivendo i dati esistenti
df.to_csv('spotify.csv', index=False)

#### Contiamo i brani per ciascun anno

In [58]:
import csv
from collections import OrderedDict

# Definiamo una funzione per ottenere l'anno dalla data nel formato 'yyyy-mm-dd'
def get_year_from_date(date_string):
    return date_string[:4]

# Carichiamo i dati dal file CSV in una lista di dizionari
data = []
with open('spotify.csv', mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.DictReader(csvfile)
    data = [row for row in csvreader]

# Ordiniamo la lista di dizionari in base all'anno di release in ordine crescente
sorted_data = sorted(data, key=lambda x: get_year_from_date(x['release_date']))

# Dizionario per memorizzare il conteggio di righe per ciascun anno
year_count = {}

# Scansioniamo il dataset ordinato riga per riga
for row in sorted_data:
    # Otteniamo l'anno dalla colonna 'release_date'
    year = get_year_from_date(row['release_date'])
    
    # Aggiungiamo 1 al conteggio per l'anno corrente
    year_count[year] = year_count.get(year, 0) + 1

# Stampiamo i risultati
print("Conteggio brani per anno:")
for year, count in year_count.items():
    print(f"{year}: {count} brani")


Conteggio brani per anno:
1900: 1 brani
1922: 294 brani
1923: 657 brani
1924: 633 brani
1925: 903 brani
1926: 1421 brani
1927: 1200 brani
1928: 1376 brani
1929: 1126 brani
1930: 1606 brani
1931: 1016 brani
1932: 1095 brani
1933: 1126 brani
1934: 955 brani
1935: 1407 brani
1936: 1643 brani
1937: 1288 brani
1938: 1233 brani
1939: 1668 brani
1940: 1848 brani
1941: 1596 brani
1942: 1743 brani
1943: 1203 brani
1944: 1394 brani
1945: 1737 brani
1946: 2149 brani
1947: 1989 brani
1948: 2180 brani
1949: 2203 brani
1950: 3071 brani
1951: 2603 brani
1952: 2597 brani
1953: 2919 brani
1954: 3576 brani
1955: 4063 brani
1956: 3882 brani
1957: 3790 brani
1958: 4346 brani
1959: 4523 brani
1960: 5002 brani
1961: 4753 brani
1962: 5006 brani
1963: 4429 brani
1964: 4768 brani
1965: 5200 brani
1966: 2641 brani
1967: 4950 brani
1968: 5229 brani
1969: 5292 brani
1970: 5591 brani
1971: 5453 brani
1972: 5998 brani
1973: 5713 brani
1974: 6341 brani
1975: 6624 brani
1976: 6133 brani
1977: 6618 brani
1978: 6505 br

#### Per ciascun anno contiamo i brani per popolarità

In [59]:
import csv
from collections import OrderedDict

# Definiamo una funzione per ottenere l'anno dalla data nel formato 'yyyy-mm-dd'
def get_year_from_date(date_string):
    return date_string[:4]

# Carichiamo i dati dal file CSV in una lista di dizionari
data = []
with open('spotify.csv', mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.DictReader(csvfile)
    data = [row for row in csvreader]

# Ordiniamo la lista di dizionari in base all'anno di release in ordine crescente
sorted_data = sorted(data, key=lambda x: get_year_from_date(x['release_date']))

# Dizionario nidificato per memorizzare il conteggio di popolarità per ciascun anno
popularity_count_per_year = {}

# Scansioniamo il dataset ordinato riga per riga
for row in sorted_data:
    # Otteniamo l'anno dalla colonna 'release_date'
    year = get_year_from_date(row['release_date'])
    
    # Ottieni il valore di popolarità
    popularity = int(row['popularity'])
    
    # Inizializziamo il dizionario per l'anno corrente se non esiste ancora
    if year not in popularity_count_per_year:
        popularity_count_per_year[year] = {pop: 0 for pop in range(101)}  # Dizionario di popolarità da 0 a 100
    
    # Incrementiamo il conteggio per l'anno corrente e la popolarità corrente
    popularity_count_per_year[year][popularity] += 1

# Stampiamo i risultati
print("Conteggio delle righe per anno e popolarità:")
for year, popularity_count in popularity_count_per_year.items():
    print(f"Anno {year}:")
    for popularity, count in popularity_count.items():
        if count > 0:
            print(f"Popolarità {popularity}: {count} brani")


# Salviamo i risultati in un nuovo file CSV
with open('popularity_count_per_year.csv', mode='w', encoding='utf-8', newline='') as csvfile:
    fieldnames = ['Anno', 'Popolarità', 'Numero di brani']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    # Scriviamo l'intestazione del file CSV
    writer.writeheader()

    # Scriviamo i dati nel file CSV
    for year, popularity_count in popularity_count_per_year.items():
        for popularity, count in popularity_count.items():
            if count > 0:
                writer.writerow({'Anno': year, 'Popolarità': popularity, 'Numero di brani': count})


Conteggio delle righe per anno e popolarità:
Anno 1900:
Popolarità 19: 1 brani
Anno 1922:
Popolarità 0: 289 brani
Popolarità 1: 2 brani
Popolarità 4: 2 brani
Popolarità 6: 1 brani
Anno 1923:
Popolarità 0: 554 brani
Popolarità 1: 1 brani
Popolarità 2: 1 brani
Popolarità 4: 12 brani
Popolarità 5: 23 brani
Popolarità 6: 13 brani
Popolarità 7: 9 brani
Popolarità 8: 8 brani
Popolarità 9: 2 brani
Popolarità 10: 6 brani
Popolarità 11: 5 brani
Popolarità 14: 3 brani
Popolarità 15: 1 brani
Popolarità 16: 1 brani
Popolarità 17: 1 brani
Popolarità 18: 1 brani
Popolarità 20: 1 brani
Popolarità 22: 2 brani
Popolarità 23: 4 brani
Popolarità 25: 2 brani
Popolarità 26: 1 brani
Popolarità 27: 2 brani
Popolarità 28: 1 brani
Popolarità 30: 1 brani
Popolarità 38: 1 brani
Popolarità 41: 1 brani
Anno 1924:
Popolarità 0: 563 brani
Popolarità 1: 9 brani
Popolarità 2: 15 brani
Popolarità 3: 10 brani
Popolarità 4: 8 brani
Popolarità 5: 4 brani
Popolarità 6: 6 brani
Popolarità 7: 1 brani
Popolarità 8: 4 brani
Po

#### Eliminiamo i brani con popolarità pari a 0 in quanto non rilevanti, salvo il risultato in un nuovo dataset *spotify_filtered*

In [60]:
import csv

# Leggiamo il file CSV originale e filtriamo i brani con popolarità diversa da 0
data = []
with open('spotify.csv', mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.DictReader(csvfile)
    data = [row for row in csvreader if row['popularity'] != '0']

# Definiamo il nome del nuovo file CSV in cui salveremo i risultati
output_file = 'spotify_filtered.csv'

# Scriviamo i dati filtrati nel nuovo file CSV
with open(output_file, mode='w', encoding='utf-8', newline='') as csvfile:
    fieldnames = ['id', 'name', 'popularity', 'duration_ms', 'explicit', 'artists', 'id_artists',
                  'release_date', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness',
                  'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    # Scriviamo l'intestazione del file CSV
    writer.writeheader()

    # Scriviamo i dati nel file CSV
    for row in data:
        writer.writerow(row)

print(f"File '{output_file}' creato con i brani filtrati.")


File 'spotify_filtered.csv' creato con i brani filtrati.


In [61]:
import csv

# Definiamo il nome del file CSV filtrato
input_file = 'spotify_filtered.csv'

# Conteggio delle righe nel file CSV filtrato
num_rows = 0

with open(input_file, mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.reader(csvfile)
    
    # Ignoriamo l'intestazione
    next(csvreader)
    
    # Conteggiamo le righe rimanenti nel file CSV
    for _ in csvreader:
        num_rows += 1

print(f"Il numero di righe nel file '{input_file}' è: {num_rows}")


Il numero di righe nel file 'spotify_filtered.csv' è: 541982


In [62]:
import csv
from collections import OrderedDict

# Definiamo una funzione per ottenere l'anno dalla data nel formato 'yyyy-mm-dd'
def get_year_from_date(date_string):
    return date_string[:4]

# Carichiamo i dati dal file CSV in una lista di dizionari
data = []
with open('spotify_filtered.csv', mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.DictReader(csvfile)
    data = [row for row in csvreader]

# Ordiniamo la lista di dizionari in base all'anno di release in ordine crescente
sorted_data = sorted(data, key=lambda x: get_year_from_date(x['release_date']))

# Dizionario per memorizzare il conteggio di righe per ciascun anno
year_count = {}

# Scansioniamo il dataset ordinato riga per riga
for row in sorted_data:
    # Otteniamo l'anno dalla colonna 'release_date'
    year = get_year_from_date(row['release_date'])
    
    # Aggiungiamo 1 al conteggio per l'anno corrente
    year_count[year] = year_count.get(year, 0) + 1

# Stampiamo i risultati
print("Conteggio brani per anno:")
for year, count in year_count.items():
    print(f"{year}: {count} brani")


Conteggio brani per anno:
1900: 1 brani
1922: 5 brani
1923: 103 brani
1924: 70 brani
1925: 277 brani
1926: 764 brani
1927: 123 brani
1928: 281 brani
1929: 73 brani
1930: 460 brani
1931: 154 brani
1932: 276 brani
1933: 370 brani
1934: 201 brani
1935: 353 brani
1936: 629 brani
1937: 305 brani
1938: 239 brani
1939: 506 brani
1940: 528 brani
1941: 263 brani
1942: 399 brani
1943: 193 brani
1944: 280 brani
1945: 575 brani
1946: 568 brani
1947: 520 brani
1948: 508 brani
1949: 1090 brani
1950: 1780 brani
1951: 1632 brani
1952: 1428 brani
1953: 1799 brani
1954: 2703 brani
1955: 3584 brani
1956: 3681 brani
1957: 3719 brani
1958: 4206 brani
1959: 4410 brani
1960: 4841 brani
1961: 4631 brani
1962: 4913 brani
1963: 4406 brani
1964: 4738 brani
1965: 5168 brani
1966: 2626 brani
1967: 4933 brani
1968: 5220 brani
1969: 5284 brani
1970: 5583 brani
1971: 5446 brani
1972: 5987 brani
1973: 5706 brani
1974: 6331 brani
1975: 6613 brani
1976: 6130 brani
1977: 6616 brani
1978: 6499 brani
1979: 6865 brani
1980:

#### Ordiniamo il nuovo dataset in base l'anno

In [75]:
import pandas as pd

# Carica il dataset in un DataFrame
df = pd.read_csv("spotify_filtered.csv")

# Converti la colonna "release_date" in un oggetto di tipo data specificando il formato
df["release_date"] = pd.to_datetime(df["release_date"], format="%Y", errors="coerce")

# Filtra solo le righe con date valide nella colonna "release_date"
df = df.dropna(subset=["release_date"])

# Ordina il DataFrame in base alla colonna "release_date" (anno di rilascio)
df_sorted = df.sort_values(by="release_date")

# Estrai solo l'anno dalla colonna "release_date"
df_sorted["release_date"] = df_sorted["release_date"].dt.year

df_sorted.to_csv("spotify_filtered_sorted_per_year.csv", index=False)


#### Ora ordiniamo in base alla popolarità

In [77]:
import pandas as pd

# Carica il dataset ordinato in un DataFrame
df_sorted = pd.read_csv("spotify_filtered_sorted_per_year.csv")

# Ordina le righe all'interno di ogni anno in base alla popolarità crescente
df_sorted = df_sorted.sort_values(by=["release_date", "popularity"])

df_sorted.to_csv("spotify_filtered_sorted_popularity.csv", index=False)


#### Consideriamo per ciascun anno al massimo 1950 righe, quelle con popolarità più alta

In [83]:
import csv

# Funzione per filtrare i dati in base alla condizione specificata
def filter_data(data):
    filtered_data = []
    for year in set(row["release_date"].split("-")[0] for row in data):
        year_rows = [row for row in data if row["release_date"].startswith(year)]
        if len(year_rows) > 1950:
            filtered_data.extend(year_rows[-1950:])
        else:
            filtered_data.extend(year_rows)
    return filtered_data

# Leggi il file CSV "spotify_filtered"
input_filename = "spotify_filtered_sorted_popularity.csv"
output_filename = "spotify_filtered_update.csv"

with open(input_filename, newline="", encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile)
    data = [row for row in reader]

# Filtra i dati in base alla condizione specificata
filtered_data = filter_data(data)

# Scrivi i risultati in un nuovo file CSV
fieldnames = data[0].keys()

with open(output_filename, "w", newline="", encoding="utf-8") as csvfile:
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(filtered_data)

print("Filtraggio completato. I risultati sono stati salvati in", output_filename)


Filtraggio completato. I risultati sono stati salvati in spotify_filtered_update.csv


In [84]:
import csv
from collections import OrderedDict

# Definiamo una funzione per ottenere l'anno dalla data nel formato 'yyyy-mm-dd'
def get_year_from_date(date_string):
    return date_string[:4]

# Carichiamo i dati dal file CSV in una lista di dizionari
data = []
with open('spotify_filtered_update.csv', mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.DictReader(csvfile)
    data = [row for row in csvreader]

# Ordiniamo la lista di dizionari in base all'anno di release in ordine crescente
sorted_data = sorted(data, key=lambda x: get_year_from_date(x['release_date']))

# Dizionario per memorizzare il conteggio di righe per ciascun anno
year_count = {}

# Scansioniamo il dataset ordinato riga per riga
for row in sorted_data:
    # Otteniamo l'anno dalla colonna 'release_date'
    year = get_year_from_date(row['release_date'])
    
    # Aggiungiamo 1 al conteggio per l'anno corrente
    year_count[year] = year_count.get(year, 0) + 1

# Stampiamo i risultati
print("Conteggio brani per anno:")
for year, count in year_count.items():
    print(f"{year}: {count} brani")


Conteggio brani per anno:
1900: 1 brani
1922: 5 brani
1923: 103 brani
1924: 70 brani
1925: 277 brani
1926: 764 brani
1927: 123 brani
1928: 281 brani
1929: 73 brani
1930: 460 brani
1931: 154 brani
1932: 276 brani
1933: 370 brani
1934: 201 brani
1935: 353 brani
1936: 629 brani
1937: 305 brani
1938: 239 brani
1939: 506 brani
1940: 528 brani
1941: 263 brani
1942: 399 brani
1943: 193 brani
1944: 280 brani
1945: 575 brani
1946: 568 brani
1947: 520 brani
1948: 508 brani
1949: 1090 brani
1950: 1780 brani
1951: 1632 brani
1952: 1428 brani
1953: 1799 brani
1954: 1950 brani
1955: 1950 brani
1956: 1950 brani
1957: 1950 brani
1958: 1950 brani
1959: 1950 brani
1960: 1950 brani
1961: 1950 brani
1962: 1950 brani
1963: 1950 brani
1964: 1950 brani
1965: 1950 brani
1966: 1950 brani
1967: 1950 brani
1968: 1950 brani
1969: 1950 brani
1970: 1950 brani
1971: 1950 brani
1972: 1950 brani
1973: 1950 brani
1974: 1950 brani
1975: 1950 brani
1976: 1950 brani
1977: 1950 brani
1978: 1950 brani
1979: 1950 brani
1980:

In [85]:
import csv
from collections import OrderedDict

# Definiamo una funzione per ottenere l'anno dalla data nel formato 'yyyy-mm-dd'
def get_year_from_date(date_string):
    return date_string[:4]

# Carichiamo i dati dal file CSV in una lista di dizionari
data = []
with open('spotify_filtered_update.csv', mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.DictReader(csvfile)
    data = [row for row in csvreader]

# Ordiniamo la lista di dizionari in base all'anno di release in ordine crescente
sorted_data = sorted(data, key=lambda x: get_year_from_date(x['release_date']))

# Dizionario nidificato per memorizzare il conteggio di popolarità per ciascun anno
popularity_count_per_year = {}

# Scansioniamo il dataset ordinato riga per riga
for row in sorted_data:
    # Otteniamo l'anno dalla colonna 'release_date'
    year = get_year_from_date(row['release_date'])
    
    # Ottieni il valore di popolarità
    popularity = int(row['popularity'])
    
    # Inizializziamo il dizionario per l'anno corrente se non esiste ancora
    if year not in popularity_count_per_year:
        popularity_count_per_year[year] = {pop: 0 for pop in range(101)}  # Dizionario di popolarità da 0 a 100
    
    # Incrementiamo il conteggio per l'anno corrente e la popolarità corrente
    popularity_count_per_year[year][popularity] += 1

# Stampiamo i risultati
print("Conteggio delle righe per anno e popolarità:")
for year, popularity_count in popularity_count_per_year.items():
    print(f"Anno {year}:")
    for popularity, count in popularity_count.items():
        if count > 0:
            print(f"Popolarità {popularity}: {count} brani")


Conteggio delle righe per anno e popolarità:
Anno 1900:
Popolarità 19: 1 brani
Anno 1922:
Popolarità 1: 2 brani
Popolarità 4: 2 brani
Popolarità 6: 1 brani
Anno 1923:
Popolarità 1: 1 brani
Popolarità 2: 1 brani
Popolarità 4: 12 brani
Popolarità 5: 23 brani
Popolarità 6: 13 brani
Popolarità 7: 9 brani
Popolarità 8: 8 brani
Popolarità 9: 2 brani
Popolarità 10: 6 brani
Popolarità 11: 5 brani
Popolarità 14: 3 brani
Popolarità 15: 1 brani
Popolarità 16: 1 brani
Popolarità 17: 1 brani
Popolarità 18: 1 brani
Popolarità 20: 1 brani
Popolarità 22: 2 brani
Popolarità 23: 4 brani
Popolarità 25: 2 brani
Popolarità 26: 1 brani
Popolarità 27: 2 brani
Popolarità 28: 1 brani
Popolarità 30: 1 brani
Popolarità 38: 1 brani
Popolarità 41: 1 brani
Anno 1924:
Popolarità 1: 9 brani
Popolarità 2: 15 brani
Popolarità 3: 10 brani
Popolarità 4: 8 brani
Popolarità 5: 4 brani
Popolarità 6: 6 brani
Popolarità 7: 1 brani
Popolarità 8: 4 brani
Popolarità 9: 3 brani
Popolarità 11: 1 brani
Popolarità 13: 1 brani
Popola

#### Salviamo il risultato ottenuto nel dataset *spotify_filtered_update*, riferimento per le operazioni successive

In [86]:
import csv

# Definiamo il nome del file CSV filtrato
input_file = 'spotify_filtered_update.csv'

# Conteggio delle righe nel file CSV filtrato
num_rows = 0

with open(input_file, mode='r', encoding='utf-8') as csvfile:
    csvreader = csv.reader(csvfile)
    
    # Ignoriamo l'intestazione
    next(csvreader)
    
    # Conteggiamo le righe rimanenti nel file CSV
    for _ in csvreader:
        num_rows += 1

print(f"Il numero di righe nel file '{input_file}' è: {num_rows}")


Il numero di righe nel file 'spotify_filtered_update.csv' è: 149353
