# Classificando complexidade de letras de músicas

### Critérios: 
Para analisar a dificuldade das letras, uma das abordagens seria analisar palavra por palavra da música e analisar: <br> <br>
1 - Número de sílabas. <br> 
. Palavras com diversas sílabas costumam ser mais complexas, tanto para compreensão quanto para a pronúncia. <br> <br>
2 - Diversidade semântica. <br> 
. Palavras com diversos significados podem ser mais difíceis, pois há uma gama de significados para elas <br> <br>
3 - Frequência. <br> 
. Palavras que aparecem menos nos textos podem ser consideradas mais difíceis. <br><br>
4 - Uso de gírias e jargões <br> <br>
5 - Análise gramatical <br>
. Exemplo: frases que contêm muitos gerúndios são mais coloquiais e frases que possuem mais conjuções subordinadas são mais formais


### Ferramentas:

#### Textstat - para número de sílabas:

In [6]:
import textstat as tst
import pandas as pd

In [7]:
df = pd.read_csv("tcc_ceds_music.csv")

A textstat tem uma funcão chamada: "syllable_count()" que conta a quantidade de sílabas em uma palavra. Exemplo:

In [33]:
dic = {}

primeira_letra = df.lyrics[0] 
lista_palavras = primeira_letra.split(" ")
for palavra in lista_palavras:
    if palavra not in dic:
        dic[palavra] = tst.syllable_count(palavra)

Neste exemplo, peguei a primeira letra musical como exemplo. Para que cada palavra fosse lida individualmente, usei o split e apliquei em um for, adicionando-as em um dicionário.

#### Implementando para o projeto:

Para a implementação no projeto, criei um dicionário que tem como key o nome da música e como value a quantidade de sílabas que cada palavra da letra da música tem:

In [3]:
dic = {df.track_name[n]: {} for n in range(len(df))} 

for n in range(len(df)):
    lista = df.lyrics[n].split(" ")
    for palavra in lista:
        if palavra not in dic[df.track_name[n]]:
            dic[df.track_name[n]][palavra] = tst.syllable_count(palavra)

Com isso feito, buscaremos as palavras que contém mais de 5 sílabas e as adicionaremos em um dicionário:

In [4]:
musicas_silabas_complexas = {}

for nome_musica, palavras in dic.items():
    for palavra, silabas in palavras.items():
        if silabas >= 6:
            if not any(palavra.count(letra) >= 4 for letra in set(palavra)): 
                if nome_musica not in musicas_silabas_complexas:
                    musicas_silabas_complexas[nome_musica] = 1
                else:
                    musicas_silabas_complexas[nome_musica] += 1

In [5]:
musicas_silabas_complexas

{'automatically sunshine': 1,
 'lost in music': 1,
 'the jezebel spirit': 1,
 'i dreamed i dream': 1,
 "crumblin' down": 1,
 'the finer things': 2,
 'check it out': 1,
 "i just can't stop loving you (feat. siedah garrett)": 1,
 'boys to men': 1,
 "who's gonna take the weight?": 1,
 'the longest line': 1,
 'oh my god': 1,
 "don't call me white": 1,
 'excuse me mr.': 1,
 'e.t. (extraterrestrial)': 1,
 "it's my job to keep punk rock elite": 1,
 "don't you forget it": 1,
 'harder to breathe': 1,
 'trap star': 1,
 'unappreciated': 2,
 'straight to the bank': 1,
 'in my dreams (cudder anthem)': 1,
 'of the soul': 1,
 'satellite': 1,
 'one and only': 1,
 'king': 1,
 'unconditionally': 1,
 'objects in the mirror': 1,
 'gdfr (feat. sage the gemini & lookas)': 1,
 'studio': 1,
 'be there for me baby': 1,
 "guv'ment": 1,
 'anodyne': 1,
 'half the man': 1,
 'goodbye says it all': 1,
 "19 somethin'": 1,
 "i keep on lovin' you": 1,
 'marley': 1,
 'traveler': 1,
 'let me explain': 1,
 'dreaming': 1,


Agora, adicionaremos a quantidade de palavras complexas que cada música tem no dataset:

In [120]:
df['contagem_palavras_complexas'] = df['track_name'].map(musicas_silabas_complexas).fillna(0)

#### Problema: 
Músicas com nomes iguais recebem o mesmo valor

In [125]:
df.loc[df["track_name"] == "the finer things"]["contagem_palavras_complexas"]

3309     2.0
19611    2.0
Name: contagem_palavras_complexas, dtype: float64

Para resolver, posso incluir o índice da música no dicionário para garantir que seja única, então corrigindo:

In [19]:
df.track_name = [f"{df.track_name[n]}_{n}" for n in range(len(df))]

In [24]:
df.track_name

0                     mohabbat bhi jhoothi_0
1                                i believe_1
2                                      cry_2
3                                 patricia_3
4                       apopse eida oneiro_4
                        ...                 
28367                  10 million ways_28367
28368    ante up (robbin hoodz theory)_28368
28369                    whutcha want?_28369
28370                           switch_28370
28371                           r.i.p._28371
Name: track_name, Length: 28372, dtype: object

In [20]:
dic = {df.track_name[n]: {} for n in range(len(df))} 

for n in range(len(df)):
    lista = df.lyrics[n].split(" ")
    for palavra in lista:
        if palavra not in dic[df.track_name[n]]:
            dic[df.track_name[n]][palavra] = tst.syllable_count(palavra)

musicas_silabas_complexas = {}

for nome_musica, palavras in dic.items():
    for palavra, silabas in palavras.items():
        if silabas >= 6:
            if not any(palavra.count(letra) >= 4 for letra in set(palavra)): 
                if nome_musica not in musicas_silabas_complexas:
                    musicas_silabas_complexas[nome_musica] = 1
                else:
                    musicas_silabas_complexas[nome_musica] += 1

In [25]:
df['silabas'] = df['track_name'].map(musicas_silabas_complexas).fillna(0)