# Análise Exploratória do Dataset HP

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
%matplotlib inline

# carregar dataset
df = pd.read_csv('../data/dataset_hp.csv', sep=';')
df.head()

## Limpeza e resumo

In [None]:
df = df.rename(columns={'url.1':'product_url'})
df['label'] = df['label'].astype('category')
df.describe(include='all')

## Distribuição de Preços

In [None]:
plt.figure(figsize=(8,4))
sns.histplot(df['price'], kde=True)
plt.title('Distribuição de Preços')
plt.xlabel('Preço (R$)')
plt.ylabel('Frequência')
plt.show()

## Frequência de Palavras nos Títulos

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
text = df['title'].astype(str).str.lower()
vectorizer = CountVectorizer(stop_words='portuguese')
X = vectorizer.fit_transform(text)
freq = X.toarray().sum(axis=0)
words = pd.Series(freq, index=vectorizer.get_feature_names_out()).sort_values(ascending=False)
print(words.head(10))
wc = WordCloud(width=800, height=400, background_color='white')
wc.generate(' '.join(text))
plt.figure(figsize=(10,5))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()

## Correlações

In [None]:
numeric_cols = ['positive_occurrences','negative_occurrences','price','review_rating','review_amount']
plt.figure(figsize=(8,6))
sns.heatmap(df[numeric_cols].corr(), annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação')
plt.show()

## Conclusões

* Preços variam de acordo com o tipo de cartucho e vendedores.
* Palavras mais frequentes destacam modelos específicos.
* Não há fortes correlações entre preço e outras variáveis, indicando que outros fatores influenciam a classificação.