# Relatório Final — Análise do Rap Brasileiro

## 1. Arquivos de Base de Dados
A base de dados foi construída pela equipe do projeto e está disponível no repositório: [Base de dados final](https://github.com/astromar2187/CienciadeDados1/blob/main/df_final.csv)

O relatório que descreve a construção dessa base de dados está no Notebook project.ipynb: [Relatório da construção da base](https://github.com/astromar2187/CienciadeDados1/blob/main/project.ipynb)

## 2. Arquivo de Dicionário de Dados

| Variável | Nome da Variável | Tipo do valor | Tipo do formato | Descrição | Valores não nulos |
|---------|-------------------|----------------|------------------|-----------|--------------------|
| album   | Nome do álbum     | string         | categórica       | Nome do album/disco que inclui várias músicas | 2688 |
| artist  | Nome do artista   | string         | categórica       | Nome do artista que têm vários albuns com várias músicas | 2688 |
| year    | Ano de lançamento | int64          | numérica         | Ano que o album e, consequentemente, as músicas foram lançados | 2688 |
| title   | Título da música  | string         | categórica       | Título de uma música individual | 2688 |
| lyrics  | Letra da música   | vetor string   | categórica       | Letra completa da música, separada em palavras | 2210 |
| tags    | Gêneros musicais  | vetor string   | categórica       | Gêneros associados à música | 2158 |
| record-label | Gravadora    | string         | categórica       | Empresa que gravou/distribuiu o álbum | 941 |
| regiao  | Região de origem  | string         | categórica       | Região do Brasil de origem do artista | 530 |
| estado  | Estado de origem  | string         | categórica       | Estado brasileiro de origem do artista | 530 |

## 3. Análise de Qualidade dos Dados

Durante a análise exploratória no arquivo [`AED.ipynb`](https://github.com/astromar2187/CienciadeDados1/blob/main/AED.ipynb), foi realizado um processo de limpeza dos dados para garantir a qualidade das análises. As principais etapas incluíram:

- **Tratamento de valores ausentes:** Identificação e análise dos campos com valores nulos, especialmente em `lyrics`, `tags`, `record-label` e `year`. Dependendo do contexto, registros incompletos foram removidos ou tratados separadamente;
- **Análise específica das letras:** Para as letras, foi realizada uma análise simples com divisão (split) do texto em tokens, permitindo identificar padrões na base;
- **Remoção de dados zerados:** Foram excluídos registros em que campos como `year` estavam com valor zero, pois esses dados não representavam informações válidas para análise.

Essas etapas garantiram que a base estivesse adequada para as análises estatísticas e de agrupamento realizadas posteriormente.


## 4. Análise Exploratória dos Dados (AED)

A Análise Exploratória de Dados (AED) teve como objetivo entender a distribuição e o comportamento das variáveis, tanto categóricas quanto numéricas, além de identificar padrões e tendências relevantes para o contexto do rap brasileiro.

O notebook com a análise exploratória está disponível em: [`AED.ipynb`](https://github.com/astromar2187/CienciadeDados1/blob/main/AED.ipynb)

As análises foram organizadas da seguinte forma:

### 4.1. Análise Univariada

#### Variáveis Categóricas
Foram analisadas frequências de categorias nas variáveis:
- `artist`: artistas com maior número de músicas cadastradas
- `album`: álbuns mais recorrentes
- `tags`: gêneros musicais mais frequentes
- `regiao` e `estado`: distribuição geográfica dos artistas

Essas análises ajudaram a identificar a concentração de produção musical por artistas e regiões.

#### Variáveis Numéricas
A principal variável numérica analisada foi:
- `year`: distribuição de lançamentos ao longo do tempo

Foi possível observar tendências como o crescimento do número de lançamentos a partir dos anos 2000, refletindo a popularização do rap no Brasil.

### 4.2. Estatísticas Descritivas

Para variáveis numéricas (como `year`), foram calculadas:
- Medidas de posição: média, mediana, moda
- Medidas de dispersão: desvio padrão, mínimo e máximo
- Distribuições por década

Essas estatísticas permitiram identificar outliers e avaliar a concentração temporal dos lançamentos.

### 4.3. Visualizações de Dados

Diversos gráficos foram utilizados para tornar os dados mais interpretáveis:

<img src="imagens/distribuicao_anos_lancamento.png" alt="Distribuição de anos de lançamento" width="48%" style="display:inline-block; margin-right:2%;">
<img src="imagens/musicas_por_decada.png" alt="Músicas por década" width="48%" style="display:inline-block;">
<br>
<img src="imagens/evolucao_musicas_por_album_decadas.png" alt="Evolução de músicas por álbum e décadas" width="48%" style="display:block; margin:auto; margin-top:16px;">

As imagens acima ilustram a evolução do rap brasileiro ao longo do tempo.
- Observa-se um aumento expressivo no número de lançamentos a partir dos anos 2000, indicando a consolidação e expansão do gênero no país;
- A distribuição por décadas evidencia períodos de maior produção musical, enquanto a análise por álbuns revela a diversificação e crescimento do repertório dos artistas;
- Houve um pico de quantidade de músicas por álbum na década de 2000, o que pode significar que os artistas estavam experimentando e se expressando mais.

<img src="imagens/top_10_artistas_musicas.png" alt="Top 10 álbuns com mais músicas" width="60%" style="display:block; margin:auto;">

A imagem acima apresenta os 10 artistas com maior número de músicas cadastradas na base.
- Nota-se que os artistas que lideram essa estatística são de fato os que o Brasil conhece, mesmo não escutando ou não gostando do gênero;
- A ausência de artistas mulheres destaca o fato de que a presença de rappers femininas de forma extensiva tem sido um fenômeno recente.

<img src="imagens/top_10_tags_comuns.png" alt="Top 10 gêneros/tags mais comuns" width="60%" style="display:block; margin:auto; margin-top:16px;">

A imagem acima mostra os 10 gêneros ou tags mais frequentes nas músicas cadastradas.
- Evidencia-se a predominância do rap e suas vertentes, além da presença de gêneros relacionados como hip hop;
- A diversidade de tags indica influências variadas e a fusão de estilos dentro do rap brasileiro, refletindo a riqueza cultural do gênero.

<img src="imagens/albuns_por_decada.png" alt="Álbuns por década" width="60%" style="display:block; margin:auto; margin-top:16px;">

A imagem acima apresenta a quantidade de álbuns lançados por década, evidenciando o crescimento da produção fonográfica no rap brasileiro ao longo do tempo. Esse aumento acompanha a expansão do gênero e a consolidação de artistas e coletivos em diferentes regiões do país.

<img src="imagens/gravadoras_frequentes_por_decada.png" alt="Gravadoras mais frequentes por década" width="60%" style="display:block; margin:auto; margin-top:16px;">

A imagem acima destaca as gravadoras mais frequentes em cada década. 

<img src="imagens/comprimento_medio_letras_por_artista.png" alt="Comprimento médio das letras por artista" width="60%" style="display:block; margin:auto; margin-top:16px;">

A imagem acima apresenta o comprimento médio das letras por artista, permitindo observar quais artistas tendem a compor músicas mais longas ou mais curtas. Essa métrica pode indicar diferentes estilos de composição e abordagens líricas dentro do rap brasileiro.

<p float="left" align="center">
  <img src="imagens/musicas_por_estado.png" alt="Músicas por estado" width="48%" style="margin-right:2%;">
  <img src="imagens/top_artistas_por_estado.png" alt="Top artistas por estado" width="48%">
</p>

<p align="center">
  <img src="imagens/evolucao_musicas_por_regiao.png" alt="Evolução de músicas por região" width="60%" style="margin-top:16px;">
</p>

As imagens evidenciam análises regionais do rap no Brasil:
- Há uma forte concentração de músicas no Sudeste, especialmente em São Paulo e Rio de Janeiro, refletindo sua centralidade na cena nacional, embora outras regiões também ganhem espaço;
- Os principais artistas por estado mostram a diversidade e o fortalecimento de identidades musicais locais;
- A evolução temporal indica crescimento em todas as regiões, com o rap se consolidando como um gênero cada vez mais plural e descentralizado.

## 5. Modelagem de Dados

Nesta etapa, foi realizada a **modelagem não supervisionada** com o objetivo de **agrupar músicas com letras similares**, de forma a investigar padrões temáticos, estilísticos ou regionais emergentes no rap brasileiro.

### 5.1. Objetivo da Modelagem

A proposta não foi prever uma variável-alvo, mas sim aplicar **técnicas de clustering (agrupamento)** para analisar possíveis agrupamentos latentes nas letras das músicas (`lyrics`), após o pré-processamento textual. Isso permite:
- Agrupar músicas por similaridade de conteúdo
- Identificar possíveis estilos ou temas recorrentes
- Auxiliar em análises qualitativas futuras, como agrupamento por região ou época

### 5.2. Pré-processamento

As letras passaram por um processo de limpeza que incluiu:
- Remoção de pontuação e símbolos
- Tokenização
- Remoção de stopwords
- Conversão para letras minúsculas
- Lematização

O campo resultante (`clean_lyrics`) foi vetorizado com diferentes técnicas.

### 5.3. Vetorizadores e Modelos de Agrupamento

Foram testadas quatro estratégias de vetorização:

- **TF-IDF Vectorizer**: com unigramas e bigramas
- **Count Vectorizer**
- **Hashing Vectorizer**
- **Word2Vec**: usando um modelo treinado com `gensim`

Cada vetor foi submetido a algoritmos de agrupamento como:
- **K-Means**
- **Agglomerative Clustering**

A escolha dos hiperparâmetros como número de clusters foi baseada em experimentação empírica.

### 5.4. Avaliação dos Resultados

Como os métodos são não supervisionados, a avaliação foi feita via:
- **Silhouette Score**
- Análise qualitativa dos principais termos de cada cluster
- Visualizações de redução de dimensionalidade (ex: PCA, t-SNE)

#### Conclusões:
- O método **TF-IDF com K-Means** apresentou bons agrupamentos iniciais, capturando temas como protesto, cotidiano e religião.
- O **Word2Vec** foi promissor para capturar similaridades semânticas mais profundas, embora dependa de maior refinamento.
- Agrupamentos podem ser utilizados para futuras análises regionais ou históricas.

O notebook com a modelagem completa está disponível em: [`Modelagem - Letras.ipynb`](https://github.com/astromar2187/CienciadeDados1/blob/main/Modelagem%20-%20Letras.ipynb)

## 6. Conclusão

O projeto permitiu compreender o cenário do rap brasileiro, revelando:
- A concentração geográfica de artistas
- A diversidade de estilos ao longo dos anos
- Possibilidades de classificação automática de região com base em metadados
