# Primeira análise


In [None]:
# Importando as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Criando o dataframe
df = pd.read_csv("beatles_spotify.csv")

# Lendo o começo dos dados
print(df.head())

# Estatísticas das colunas
print(df.describe())

# Histograma das colunas
df.hist(bins=50, figsize=(20,15))
plt.show()

# Pairplot para ver a relação das colunas
sns.pairplot(df)
plt.show()

# Procurando por outliers
df.boxplot(figsize=(20,15))
plt.show()

# Analisando a popularidade de cada disco


In [None]:
# Criando um gráfico de barras para comparar a popularidade de cada álbum
plt.figure(figsize=(10, 6))
plt.bar(df.groupby('album').mean().index, df.groupby('album').mean()['popularity'], color='red')

# Adicionando título e rótulos aos eixos
plt.title("Comparação de Popularidade entre os discos")
plt.xlabel("Nome do Álbum")
plt.ylabel("Popularidade (0-100)")
plt.xticks(rotation=90)
plt.show()

# Exibindo o gráfico
plt.show()


In [28]:
# Buscando as músicas mais populares

df_sorted = df.sort_values(by='popularity', ascending=False)
print(df_sorted[['name', 'popularity']].head(10))

                                           name  popularity
388        Here Comes The Sun - Remastered 2009          81
375                 Let It Be - Remastered 2009          76
382             Come Together - Remastered 2009          76
618                 Yesterday - Remastered 2009          75
422                 Blackbird - Remastered 2009          74
674           Twist And Shout - Remastered 2009          74
313                  Hey Jude - Remastered 2015          73
602                In My Life - Remastered 2009          73
383                 Something - Remastered 2009          71
296  I Want To Hold Your Hand - Remastered 2015          71


# Analisando os elementos das composições mais populares


In [None]:
# Analisar a relação entre as características e a popularidade
features = ['acousticness', 'danceability', 'energy', 'instrumentalness', 'liveness', 'loudness', 'speechiness', 'tempo', 'valence']
for feature in features:
    plt.figure()
    sns.set_style("darkgrid")
    sns.regplot(x=feature, y='popularity', data=df)
    plt.xlabel(feature)
    plt.ylabel('Popularity')
    plt.title(f"Relação entre {feature} e Popularidade")


plt.show()

# Analisar a relação entre as características e a duração da música
for feature in features:
    plt.figure()
    sns.regplot(x=feature, y='duration_ms', data=df)
    plt.xlabel(feature)
    plt.ylabel('Duração (ms)')
    plt.title(f"Relação entre {feature} e Duração da Música")
plt.show()

# Analisando os álbuns individualmente


In [None]:
# Agrupe as músicas por álbum
album_groups = df.groupby("album")

# Loop através dos grupos de álbuns
for album, album_df in album_groups:
    # Crie um gráfico de barras para cada característica
    features = ["acousticness", "danceability", "energy", "instrumentalness", "liveness",
                "loudness", "speechiness", "tempo", "valence"]
    fig, axs = plt.subplots(3, 3, figsize=(15, 15))
    axs = axs.ravel()
    for i, feature in enumerate(features):
        axs[i].bar(album, album_df[feature].mean(), color="red")
        axs[i].set_title(feature)
        axs[i].set_ylim([0, 1])
    plt.suptitle(album, fontweight='bold', fontsize='16')
    plt.show()