## Ciência de Dados - Trabalho Prático

> **Nomes:** Bruno Santos Fernandes, João Paulo Moura Clevelares, Thamya Vieira Hashimoto Donadia <br>
> **Matrículas:** 2021100784, 2021100149, 2021100146 <br>
> **E-mails:** {bruno.s.fernandes, joao.clevelares, thamya.donadia}@edu.ufes.br <br>
> **Curso:** Engenharia de Computação <br>


### Metodologia

#### Instalação de bibliotecas

In [None]:
# importação de bibliotecas
import numpy as np
import pandas as pd
import string
import unidecode

import nltk
nltk.download('punkt_tab')
from nltk import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
nltk.download('stopwords')
from nltk.stem.porter import PorterStemmer

from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.decomposition import TruncatedSVD

from sklearn.cluster import KMeans


#### Pré-processamento dos dados textuais

In [None]:
# carregamento do dataset 
df = pd.read_csv("./filmes.csv")
df.head()

In [None]:
# obtenção das informações gerais do dataset
df.info()

In [None]:
# verificando as features do dataset
df.columns

In [None]:
# obtendo a feature a ser processada (sinopse)
df['sinopse'].head(10)

In [None]:
# divisão do texto em sentenças e palavras
df['sentences'] = df['sinopse'].apply(sent_tokenize)
df['tokens'] = df['sinopse'].apply(word_tokenize)

df.head()

In [None]:
# conversão do texto para letras minúsculas
df['tokens'] = df['tokens'].apply(lambda x: [token.lower() for token in x])
df['tokens'].head(10)

In [None]:
# remoção de símbolos de pontuação de cada token
table = str.maketrans('', '', string.punctuation)
df['tokens'] = df['tokens'].apply(lambda x: [token.translate(table) for token in x])
df['tokens'].head(10)

In [None]:
# conversão de caracteres especiais
df['tokens'] = df['tokens'].apply(lambda x: [unidecode.unidecode(token) for token in x])
df['tokens'].head(10)


In [None]:
# remoção de tokens que não são palavras
df['tokens'] = df['tokens'].apply(lambda x: [token for token in x if token.isalpha()])
df['tokens'].head(10)

# TODO: Talvez seja necessário usar alguns tokens númericos

In [None]:
# remoção de stop words
stop_words = set(stopwords.words('english'))
df['tokens'] = df['tokens'].apply(lambda x: [token for token in x if token not in stop_words])
df['tokens'].head(10)


In [None]:
# stemming 
df['tokens'] = df['tokens'].apply(lambda x: [PorterStemmer().stem(token) for token in x])
df['tokens'].head(10)

### Amostragem

In [None]:
sample = df[["sinopse", "tokens", "genres"]].sample(frac=0.2, random_state=42)
sample

#### Construção da matriz de TF-IDF

In [None]:
# gerando a matriz de contagem de termos 
vectorizer = CountVectorizer()
X_counts = vectorizer.fit_transform(sample["sinopse"])
vocab = vectorizer.get_feature_names_out()
vocab

In [None]:
# calculando a frequência de documentos em que cada termo aparece
doc_freq = np.array((X_counts > 0).sum(axis=0)).flatten()
df_vocab = pd.DataFrame({'termo': vocab, 'doc_freq': doc_freq})
df_vocab[df_vocab['doc_freq'] == 1].head(10)

In [None]:
# análise estatística descritiva
mean = np.mean(doc_freq)
median = np.median(doc_freq)
percentiles = np.percentile(doc_freq, [25, 50, 75])

print("Estatísticas da frequência dos termos:")
print(f"Média: {mean:.2f}")
print(f"Mediana: {median}")
print(f"Percentis 25, 50 e 75: {percentiles}")

In [None]:
# plotando o histrogama da frequência dos termos
sns.displot(df_vocab, x=df_vocab['doc_freq'], kde=True, bins=50, log_scale=(True, False))
plt.ylabel('Número de termos')
plt.xlabel('Número de Documentos em que o termo aparece')
plt.title('Distribuição da Frequência dos Termos no Corpus')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

In [None]:
sns.boxplot(x=df_vocab['doc_freq'])
plt.xlabel('Número de Documentos em que o termo aparece')
plt.title('Boxplot da Frequência dos Termos')
plt.show()

In [None]:
vectorizer = TfidfVectorizer(min_df = 2)
X = vectorizer.fit_transform(sample["tokens"].apply(lambda tokens: " ".join(tokens)))
X.shape

In [None]:
tfidf_matrix = pd.DataFrame(X.todense(), columns = vectorizer.get_feature_names_out())
tfidf_matrix

#### Redução de dimensionalidade, via Truncated SVD

In [None]:
n_components_full = X.shape[1]
svd_full = TruncatedSVD(n_components=n_components_full)
svd_full.fit(X)

In [None]:
# plotando a variância cumulativa
cumulative_variance = np.cumsum(svd_full.explained_variance_ratio_)

plt.figure(figsize=(7, 5))
plt.plot(np.arange(1, min(X.shape[0], X.shape[1]) + 1), cumulative_variance)
plt.xlabel(r'$k$ - Número de componentes principais')
plt.ylabel(r'$f(k)$ - Fração cumulativa da variância explicada')
plt.title('Variância Explicada Cumulativa com TruncatedSVD')
plt.grid(True)
plt.show()

In [267]:
new_n_components = 2500
svd = TruncatedSVD(n_components=new_n_components)
X2 = svd.fit_transform(X)

In [None]:
X2

In [None]:
X2.shape

### Calculando Inércia

In [None]:
# Inércial
inertia = []
for i in range(1, 30):
  km = KMeans(n_clusters = i)
  km.fit(X2)
  inertia.append(km.inertia_)

# Scatter
plt.scatter(range(1, 30), inertia)
_ = plt.ylabel("Função Objetivo")
_ = plt.xlabel(r"$k$")

### KMeans

In [None]:
# Clusterização
kmeans = KMeans(n_clusters = 20)
kmeans.fit(X2)
y_kmeans = kmeans.predict(X2)

# Vetor com os clusters de cada sinopse
y_kmeans

In [None]:
# Reduzindo dimensionalidade para o plot
pca = PCA(n_components=2)
X2_reduced = pca.fit_transform(X2)
X2_reduced

In [None]:
# Plotando clusters
plt.figure(figsize=(8, 6))
plt.scatter(X2_reduced[:, 0], X2_reduced[:, 1], c=y_kmeans, cmap=plt.cm.tab20, s=50)
plt.xlabel('Componente 1')
plt.ylabel('Componente 2')
plt.title('Visualização dos Clusters com KMeans')
plt.colorbar(label='Cluster', ticks=range(20))
plt.grid(True)
plt.show()

### Percentual de Gêneros em cada Cluster

In [None]:
# Criando nova coluna com os clusters
sample["cluster"] = y_kmeans
sample

In [None]:
# sample_exploded = sample["genres"].str.split(',').explode("genres")

# Agregando tuplas por (genero + cluster) para contagem de frequencia de generos por cluster
g_freq = sample.groupby(["genres", "cluster"]).size().reset_index(name="freq")
g_freq

In [None]:
# Transformando dados para formato matricial
df_pivot = g_freq.pivot_table(index='genres', columns='cluster', values='freq', fill_value=0)
df_pivot = df_pivot.astype(int)
df_pivot

In [None]:
# Heatmap
plt.figure(figsize=(8, 12))
sns.heatmap(df_pivot, cmap="Reds", linewidths=1)
plt.title('Heatmap de Frequência de Gêneros por Cluster')
plt.xlabel('Cluster')
plt.ylabel('Gênero')
plt.show()

In [None]:
# Next Step -> Separar Generos agrupados nas linhas
exploded_sample = sample
exploded_sample["genres"] = exploded_sample["genres"].str.split(',')
exploded_sample = exploded_sample.explode("genres")
exploded_sample

In [None]:
# Agregando por (cluster + genero) para descobrir frequencia
genre_frequency = exploded_sample.groupby(["genres", "cluster"]).size().reset_index(name="freq")
genre_frequency

# Transformando amostra em formato matricial
df_pivot = genre_frequency.pivot_table(index='genres', columns='cluster', values='freq', fill_value=0)
df_pivot = df_pivot.astype(int)
df_pivot

In [None]:
# Heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(df_pivot, cmap="Reds", linewidths=1)
plt.title('Heatmap de Frequência de Gêneros por Cluster')
plt.xlabel('Cluster')
plt.ylabel('Gênero')
plt.show()