# üß† Exerc√≠cio: Visualiza√ß√£o de Letras de M√∫sicas com Redu√ß√£o de Dimensionalidade

Neste exerc√≠cio, voc√™ ir√° trabalhar com um subconjunto de letras de m√∫sicas para explorar diferentes t√©cnicas de redu√ß√£o de dimensionalidade: **PCA**, **t-SNE** e **Random Projection**. O objetivo √© gerar representa√ß√µes 2D dessas letras e visualizar como cada t√©cnica projeta os dados.

---

## ‚úÖ Passo 1: Carregue os dados

Carregue o arquivo `musicas_subsampled.csv`, que deve conter as colunas:

- `nome_musica`
- `artista`
- `ano`
- `letra`

---

## ‚úÖ Passo 2: Transforme as letras em vetores bin√°rios

Utilize `TfidfVectorizer` com `binary=True` para criar uma matriz de presen√ßa/aus√™ncia de palavras nas letras.

    from sklearn.feature_extraction.text import TfidfVectorizer
    import pandas as pd

    vectorizer = TfidfVectorizer(lowercase=True, binary=True)
    X = vectorizer.fit_transform(df['letra'].fillna(''))
    X_df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

---

## ‚úÖ Passo 3: Separe os metadados das features

Crie um novo `DataFrame` com os dados originais e as features num√©ricas geradas.

    df_bin = pd.concat([df[['nome_musica', 'artista', 'ano']].reset_index(drop=True), X_df], axis=1)
    features = df_bin.drop(columns=['nome_musica', 'artista', 'ano'])

---

## ‚úÖ Passo 4: Aplique PCA

Utilize `PCA` do `sklearn.decomposition` para reduzir a dimensionalidade das features para 2 componentes principais.

    from sklearn.decomposition import PCA

    pca = PCA(n_components=2, random_state=42)
    df_bin['pca_1'], df_bin['pca_2'] = pca.fit_transform(features).T

---

## ‚úÖ Passo 5: Aplique t-SNE

Utilize `TSNE` do `sklearn.manifold` com 2 dimens√µes para obter uma proje√ß√£o alternativa.

    from sklearn.manifold import TSNE

    tsne = TSNE(n_components=2, random_state=42)
    df_bin['tsne_1'], df_bin['tsne_2'] = tsne.fit_transform(features).T

---


## ‚úÖ Passo 7: Visualize os resultados

Crie tr√™s gr√°ficos lado a lado para comparar as proje√ß√µes obtidas por PCA, t-SNE e Random Projection.

---

## üéØ Objetivo

Compare visualmente os resultados. Voc√™ acha algum padr√£o? Vamos entender o que esse padr√£o representa no pr√≥ximo exerc√≠cio!


## üß™ Exerc√≠cio: Agrupamento com KMeans sobre Representa√ß√µes PCA e t-SNE

Ap√≥s reduzir a dimensionalidade dos dados com **PCA** e **t-SNE**, seu objetivo agora √©:

- Aplicar o algoritmo de agrupamento **KMeans** sobre essas representa√ß√µes;
- Adicionar os r√≥tulos de cluster ao seu dataset;
- Visualizar os agrupamentos;
- Analisar se os agrupamentos capturam algum padr√£o interessante (como estilo musical, √©poca, artista etc.).

---

### ‚úÖ Passo 1: Aplique KMeans nos componentes de PCA

Use o `KMeans` com `n_clusters=2` nos dois componentes principais obtidos via PCA.

Adicione os r√≥tulos ao `DataFrame` na coluna:

- `cluster_pca`

    from sklearn.cluster import KMeans

    kmeans_pca = KMeans(n_clusters=2, random_state=42)
    df_bin['cluster_pca'] = kmeans_pca.fit_predict(pca_result)

---

### ‚úÖ Passo 2: Aplique KMeans nos componentes de t-SNE

Repita o processo, agora usando os dois componentes gerados com t-SNE.

Adicione a coluna:

- `cluster_tsne`

    kmeans_tsne = KMeans(n_clusters=2, random_state=42)
    df_bin['cluster_tsne'] = kmeans_tsne.fit_predict(tsne_result)

---

### ‚úÖ Passo 3: Visualize os agrupamentos

Crie dois gr√°ficos, um com os componentes do PCA e outro com os do t-SNE, colorindo os pontos de acordo com os r√≥tulos de cluster atribu√≠dos.

---

### ‚úÖ Passo 4: Explore o dataset com as colunas de cluster

Agora que `df_bin` cont√©m as colunas `cluster_pca` e `cluster_tsne`, analise se esses agrupamentos revelam padr√µes interessantes. Descreva o que voc√™ encontrou.

---


## üß™ Exerc√≠cio: Padr√µes dentro do padr√£o (n√£o √© obrigat√≥rio para a gradua√ß√£o)

Ap√≥s aplicar t-sne e pca e clusterizar os dados anteriores, voc√™s devem aplicar t-sne e pca dentro de cada cluster individual e procurar por padr√µes.
