# Análise de letras da Taylor Swift com Python e Machine Learning 🎤🎶✨

Taylor Alison Swift é uma cantora, compositora, musicista, atriz, diretora, roteirista norte-americana que nasceu no estado da Pensivânia nos Estados Unidos da América. Considerada uma das maiores artistas da atualidade, suas composições são emotivas e marcantes inspiradas em experiências pessoas, ou não, já receberam vários prêmios ao longo de sua carreira.

Aqui analisaremos suas composições ao longos dos anos, em busca de temas, padrões e análise de sentimentos.



## Bibliotecas

O primeiro passo é importar as bibliotecas necessárias para o desenvolvimento do projeto.

In [4]:
%matplotlib inline

import pandas as pd
import string
import seaborn as sns
import matplotlib.pyplot as plt
import collections
import nltk
from nltk.tokenize import word_tokenize
from nltk.sentiment import SentimentIntensityAnalyzer

## Base de Dados

### Sobre a Base de Dados

A base de dados que será usada nesse projeto foi publicada no [Kaggle](https://www.kaggle.com/datasets/thespacefreak/taylor-swift-song-lyrics-all-albums) por Jan Llenzl Dagohoy e possui todos os álbuns lançados pela Taylor Swift até 20 de outubro de 2022. Sendo eles:

* Taylor Swift (2006)
* Fearless (2008)
* Speak Now (2010)
* Red (2012)
* 1989 (2014)
* Reputation (2017)
* Lover (2019)
* Folklore (2020)
* Evermore (2020)

Portanto, a base de dados não possui o Midnights, seu último trabalho, lançado em 21 de outubro de 2022 e os álbuns Speak Now e Red não são Taylor's Version. Precisando, assim, de uma adaptação.

## Carregando a Base de Dados

Precisamos carregar a base de dados para inicarmos o desenvolvimento do projeto. Aqui carregarei os arquivos direto do meu Google Drive, mas sinta-se à vontade para carregar de qualquer lugar que quiser.

In [114]:
# preparando o ambiente para carregar a base de dados
from google.colab import drive

drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Os arquivos das letras estão separados por álbum, por isso, precisamos carregá-los individualmente e depois juntar em um só.

In [69]:
# taylor swift (2006)
# usando o meu caminho
ts = pd.read_csv("/content/drive/My Drive/lyrics/01-taylor_swift.csv")
ts.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,Taylor Swift,Tim McGraw,1,He said the way my blue eyes shined,1
1,Taylor Swift,Tim McGraw,1,Put those Georgia stars to shame that night,2
2,Taylor Swift,Tim McGraw,1,"I said, ""That's a lie""",3
3,Taylor Swift,Tim McGraw,1,Just a boy in a Chevy truck,4
4,Taylor Swift,Tim McGraw,1,That had a tendency of gettin' stuck,5


In [117]:
# fearless (taylor's version) (2008)
fl = pd.read_csv("/content/drive/My Drive/lyrics/02-fearless_taylors_version.csv")
fl.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,Fearless (Taylor’s Version),Fearless (Taylor’s Version),1,There's something 'bout the way,1
1,Fearless (Taylor’s Version),Fearless (Taylor’s Version),1,The street looks when it's just rained,2
2,Fearless (Taylor’s Version),Fearless (Taylor’s Version),1,"There's a glow off the pavement, you walk me t...",3
3,Fearless (Taylor’s Version),Fearless (Taylor’s Version),1,And you know I wanna ask you to dance right there,4
4,Fearless (Taylor’s Version),Fearless (Taylor’s Version),1,"In the middle of the parking lot, yeah",5


In [118]:
# 1989 (2014)
um989 = pd.read_csv("/content/drive/My Drive/lyrics/05-1989_deluxe.csv")
um989.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,1989 (Deluxe),Welcome to New York,1,"Walking through a crowd, the village is aglow",1
1,1989 (Deluxe),Welcome to New York,1,Kaleidoscope of loud heartbeats under coats,2
2,1989 (Deluxe),Welcome to New York,1,Everybody here wanted something more,3
3,1989 (Deluxe),Welcome to New York,1,Searching for a sound we hadn't heard before,4
4,1989 (Deluxe),Welcome to New York,1,And it said,5


In [None]:
# reputation (2017)
rep = pd.read_csv("/content/drive/My Drive/lyrics/06-reputation.csv")
rep.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,reputation,...Ready for It?,1,Knew he was a killer first time that I saw him,1
1,reputation,...Ready for It?,1,Wondered how many girls he had loved and left ...,2
2,reputation,...Ready for It?,1,"But if he's a ghost, then I can be a phantom",3
3,reputation,...Ready for It?,1,"Holdin' him for ransom, some",4
4,reputation,...Ready for It?,1,"Some boys are tryin' too hard, he don't try at...",5


In [None]:
# lover (2019)
lover = pd.read_csv("/content/drive/My Drive/lyrics/07-lover.csv")
lover.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,folklore (deluxe version),the 1,1,"I'm doing good, I'm on some new shit",1
1,folklore (deluxe version),the 1,1,"Been saying ""yes"" instead of ""no""",2
2,folklore (deluxe version),the 1,1,"I thought I saw you at the bus stop, I didn't ...",3
3,folklore (deluxe version),the 1,1,I hit the ground running each night,4
4,folklore (deluxe version),the 1,1,I hit the Sunday matinée,5


In [124]:
# folklore (2020)
folk = pd.read_csv("/content/drive/My Drive/lyrics/08-folklore_deluxe_version.csv")
folk.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,folklore (deluxe version),the 1,1,"I'm doing good, I'm on some new shit",1
1,folklore (deluxe version),the 1,1,"Been saying ""yes"" instead of ""no""",2
2,folklore (deluxe version),the 1,1,"I thought I saw you at the bus stop, I didn't ...",3
3,folklore (deluxe version),the 1,1,I hit the ground running each night,4
4,folklore (deluxe version),the 1,1,I hit the Sunday matinée,5


In [None]:
# evermore (2020)
eve = pd.read_csv("/content/drive/My Drive/lyrics/09-evermore_deluxe_version.csv")
eve.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,evermore (deluxe version),willow,1,I'm like the water when your ship rolled in th...,1
1,evermore (deluxe version),willow,1,"Rough on the surface, but you cut through like...",2
2,evermore (deluxe version),willow,1,And if it was an open-shut case,3
3,evermore (deluxe version),willow,1,I never would've known from that look on your ...,4
4,evermore (deluxe version),willow,1,Lost in your current like a priceless wine,5


Agora que temos todos os álbuns carregados, iremos concatenar todos em um só.

In [1]:
''' concatenando todos
lyrics = pd.concat([ts, fl, um989, rep, lover, folk, eve])
lyrics.head()
'''

' concatenando todos\nlyrics = pd.concat([ts, fl, um989, rep, lover, folk, eve])\nlyrics.head()\n'

Precisamos preparar o Midnights, já que não temos ele na nossa base de Dados. É importante que as músicas sejam colocadas em ordem porque acho mais bonito e organizado.

Ontem consegui upar 4 músicas completas no arquivo csv, como as músicas seguem uma ordem, então upei até Snow on The Beach.

In [54]:
# album_name,track_title,track_n,lyric,line
midnights = pd.read_csv("/content/drive/My Drive/lyrics/10-midnights_til_dawn_edition.csv")

midnights.head()

Unnamed: 0,album_name,track_title,track_n,lyric,line
0,Midnights (The Til Dawn Edition),Rainbow Dress,0,I wanna have straight sex at the gay pride parade,0


Inicializando as variáveis que serão usadas no processo. A variável 'música_atual' está sendo iniciada com 4 porque foi a última que coloquei e a variável 'linha_atual' está em 70 porque eram 70 linhas.

In [120]:
nomeAlbum = 'Midnights (The Til Dawn Edition)'
musica_atual = 4
linha_atual = 70

Temos então a função responsável por inserir novas linhas no arquivo csv. Podemos inserir as letras de uma vez só, mas ao fazer isso, temos que separar cada linha pelo caractere '&'.

Repare, que armazeno a letra informada na variável 'letra' e separo ela em um vetor chamado 'linhas'. Essa separação é feita usando o caractere '&'.

In [112]:
while(True):
  res = int(input('1 pra nova musica 2 para continuar musica 3 para parar'))
  if res == 1:
    print('nova musica')
    musica_atual += 1
    linha_atual = 0
    nomeMusica = input('digite o nome da nova musica ')
    letra = input('digite a letra da musica ')
    # persistindo a letra que foi inserida
    linhas = letra.split('&')
    for linha in linhas:
      linha_atual += 1
      novaLinha = {'album_name': nomeAlbum, 'track_title': nomeMusica, 'track_n': musica_atual, 'lyric': linha, 'line': linha_atual}
      midnights = midnights.append(novaLinha, ignore_index=True)
      print('letra adicionada com sucesso!')
  if res == 2:
    print('continuar musica')
    letra = input('digite a letra da musica ')
    # persistindo a letra que foi inserida
    linhas = letra.split('&')
    for linha in linhas:
      linha_atual += 1
      novaLinha = {'album_name': nomeAlbum, 'track_title': nomeMusica, 'track_n': musica_atual, 'lyric': linha, 'line': linha_atual}
      midnights = midnights.append(novaLinha, ignore_index=True)
      print('letra adicionada com sucesso!')
  else:
    print('parar')
    break

1 pra nova musica 2 para continuar musica 3 para parar1
nova musica
digite o nome da nova musica Snow on the beach
digite a letra da musica One night, a few moons ago&I saw flecks of what could've been lights&But it might just have been you&Passing by unbeknownst to me&Life is emotionally abusive&And time can't stop me quite like you did&And my flight was awful, thanks for asking&I'm unglued, thanks to you&And it's like snow at the beach&Weird, but fuckin' beautiful&Flying in a dream&Stars by the pocketful&You wanting me&Tonight feels impossible&But it's comin' down&No sound, it's all around&Like snow on the beach&Like snow on the beach&Like snow on the beach&Like snow, ah&You might also like&This scene feels like what I once saw on a screen&I searched "aurora borealis green"&I've never seen someone lit from within&Blurring out my periphery&My smile is like I won a contest&And to hide that would be so dishonest&And it's fine to fake it 'til you make it&'Til you do, 'til it's true&Now i

  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.append(novaLinha, ignore_index=True)
  midnights = midnights.

Se quiser pode ir adicionando aos poucos e vendo se está tudo certo. O código abaixo serve para ver as linhas e as ultimas linhas do csv.

In [130]:
print(midnights)

                           album_name        track_title track_n  \
0    Midnights (The Til Dawn Edition)      Lavender Haze       1   
1    Midnights (The Til Dawn Edition)      Lavender Haze       1   
2    Midnights (The Til Dawn Edition)      Lavender Haze       1   
3    Midnights (The Til Dawn Edition)      Lavender Haze       1   
4    Midnights (The Til Dawn Edition)      Lavender Haze       1   
..                                ...                ...     ...   
208  Midnights (The Til Dawn Edition)  Snow on the beach       4   
209  Midnights (The Til Dawn Edition)  Snow on the beach       4   
210  Midnights (The Til Dawn Edition)  Snow on the beach       4   
211  Midnights (The Til Dawn Edition)  Snow on the beach       4   
212  Midnights (The Til Dawn Edition)  Snow on the beach       4   

                                    lyric line  
0                     Meet me at midnight    1  
1         Staring at the ceiling with you    2  
2         Oh, you don't ever say too

Se precisar apagar alguma linha, basta usar o código da caixa abaixo. Cuidado para não apagar a linha errada.

In [127]:
#linhasApagar = midnights[midnights['line'] == 0].index
#midnights.drop(linhasApagar, inplace=True)
#midnights.head()

Quando inserir todas as letras, ou quando quiser dar uma pausa, é necessário persistir o arquivo. As linhas foram inseridas somente aqui em execução, é necessário salvar o arquivo para não perder o progresso.

A caixa de texto abaixo salva o arquivo na pasta principal do Google Drive.

In [129]:
# salvar arquivooooo no driveeee
midnights.to_csv("/content/drive/My Drive/midnights.csv", index=False)

Muito obrigada pela ajuda! Fico imensamente grata. Por favor, me mande o arquivo csv do Midnights quando encerrar.

Se terminou de inserir todas as músicas do Midnights. e quiser ir inserindo as músicas do Speak Now Taylor's Version e do Red Taylor's Versions, sinta-se à vontade. Coloquei os arquivos vazios no [GitHub](https:/https://github.com/gardeniaestevam/analise-letras-taylor-swift/tree/main/taylor-lyrics/). Dá pra aproveitar os códigos usados para inserir as músicas do Midnights.