# 🧠 Exercício: Visualização de Letras de Músicas com Redução de Dimensionalidade

Neste exercício, você irá trabalhar com um subconjunto de letras de músicas para explorar diferentes técnicas de redução de dimensionalidade: **PCA**, **t-SNE** e **Random Projection**. O objetivo é gerar representações 2D dessas letras e visualizar como cada técnica projeta os dados.

---

## ✅ Passo 1: Carregue os dados

Carregue o arquivo `musicas_subsampled.csv`, que deve conter as colunas:

- `nome_musica`
- `artista`
- `ano`
- `letra`

---

## ✅ Passo 2: Transforme as letras em vetores binários

Utilize `TfidfVectorizer` com `binary=True` para criar uma matriz de presença/ausência de palavras nas letras.

    from sklearn.feature_extraction.text import TfidfVectorizer
    import pandas as pd

    vectorizer = TfidfVectorizer(lowercase=True, binary=True)
    X = vectorizer.fit_transform(df['letra'].fillna(''))
    X_df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

---

## ✅ Passo 3: Separe os metadados das features

Crie um novo `DataFrame` com os dados originais e as features numéricas geradas.

    df_bin = pd.concat([df[['nome_musica', 'artista', 'ano']].reset_index(drop=True), X_df], axis=1)
    features = df_bin.drop(columns=['nome_musica', 'artista', 'ano'])

---

## ✅ Passo 4: Aplique PCA

Utilize `PCA` do `sklearn.decomposition` para reduzir a dimensionalidade das features para 2 componentes principais.

    from sklearn.decomposition import PCA

    pca = PCA(n_components=2, random_state=42)
    df_bin['pca_1'], df_bin['pca_2'] = pca.fit_transform(features).T

---

## ✅ Passo 5: Aplique t-SNE

Utilize `TSNE` do `sklearn.manifold` com 2 dimensões para obter uma projeção alternativa.

    from sklearn.manifold import TSNE

    tsne = TSNE(n_components=2, random_state=42)
    df_bin['tsne_1'], df_bin['tsne_2'] = tsne.fit_transform(features).T

---


## ✅ Passo 7: Visualize os resultados

Crie três gráficos lado a lado para comparar as projeções obtidas por PCA, t-SNE e Random Projection.

---

## 🎯 Objetivo

Compare visualmente os resultados. Você acha algum padrão? Vamos entender o que esse padrão representa no próximo exercício!


## 🧪 Exercício: Agrupamento com KMeans sobre Representações PCA e t-SNE

Após reduzir a dimensionalidade dos dados com **PCA** e **t-SNE**, seu objetivo agora é:

- Aplicar o algoritmo de agrupamento **KMeans** sobre essas representações;
- Adicionar os rótulos de cluster ao seu dataset;
- Visualizar os agrupamentos;
- Analisar se os agrupamentos capturam algum padrão interessante (como estilo musical, época, artista etc.).

---

### ✅ Passo 1: Aplique KMeans nos componentes de PCA

Use o `KMeans` com `n_clusters=2` nos dois componentes principais obtidos via PCA.

Adicione os rótulos ao `DataFrame` na coluna:

- `cluster_pca`

    from sklearn.cluster import KMeans

    kmeans_pca = KMeans(n_clusters=2, random_state=42)
    df_bin['cluster_pca'] = kmeans_pca.fit_predict(pca_result)

---

### ✅ Passo 2: Aplique KMeans nos componentes de t-SNE

Repita o processo, agora usando os dois componentes gerados com t-SNE.

Adicione a coluna:

- `cluster_tsne`

    kmeans_tsne = KMeans(n_clusters=2, random_state=42)
    df_bin['cluster_tsne'] = kmeans_tsne.fit_predict(tsne_result)

---

### ✅ Passo 3: Visualize os agrupamentos

Crie dois gráficos, um com os componentes do PCA e outro com os do t-SNE, colorindo os pontos de acordo com os rótulos de cluster atribuídos.

---

### ✅ Passo 4: Explore o dataset com as colunas de cluster

Agora que `df_bin` contém as colunas `cluster_pca` e `cluster_tsne`, analise se esses agrupamentos revelam padrões interessantes. Descreva o que você encontrou.

---


## 🧪 Exercício: Padrões dentro do padrão (não é obrigatório para a graduação)

Após aplicar t-sne e pca e clusterizar os dados anteriores, vocês devem aplicar t-sne e pca dentro de cada cluster individual e procurar por padrões.
