# 1. Análise Exploratória de Dados (EDA) - Dataset 2

Este notebook realiza a análise exploratória inicial do dataset `reviews_mercadolivre_com_br_2.json`.

## Objetivos
- Carregar e inspecionar os dados.
- Analisar a distribuição de ratings (notas).
- Analisar o tamanho dos reviews.
- Visualizar as palavras mais frequentes (Nuvem de Palavras).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import nltk
from nltk.corpus import stopwords

# Configuração visual
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

In [None]:
# Baixar stopwords se necessário
nltk.download('stopwords', quiet=True)
nltk.download('punkt', quiet=True)

## Carregamento dos Dados

In [None]:
file_path = '../datasets/reviews_mercadolivre_com_br_2.json'
try:
    df = pd.read_json(file_path)
    print("Dataset carregado com sucesso!")
    display(df.head())
except Exception as e:
    print(f"Erro ao carregar o dataset: {e}")

## Inspeção Inicial

In [None]:
print(f"Dimensões do dataset: {df.shape}")
print("\nInformações das colunas:")
df.info()

print("\nVerificação de nulos:")
print(df.isnull().sum())

## Distribuição das Notas (Ratings)

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(x='rating', data=df, palette='viridis')
plt.title('Distribuição das Notas')
plt.xlabel('Nota')
plt.ylabel('Contagem')
plt.show()

## Análise do Tamanho dos Reviews

In [None]:
# Criar coluna de tamanho do texto
df['review_length'] = df['content'].astype(str).apply(len)

plt.figure(figsize=(10, 6))
sns.histplot(df['review_length'], bins=50, kde=True)
plt.title('Distribuição do Tamanho dos Reviews')
plt.xlabel('Tamanho (caracteres)')
plt.ylabel('Frequência')
plt.xlim(0, 500)  # Focando na maioria dos reviews
plt.show()

In [None]:
# Boxplot para ver a relação entre nota e tamanho do review
plt.figure(figsize=(10, 6))
sns.boxplot(x='rating', y='review_length', data=df)
plt.title('Tamanho do Review por Nota')
plt.ylim(0, 500)
plt.show()

## Nuvem de Palavras (Word Cloud)
Visualização das palavras mais frequentes nos reviews.

In [None]:
stop_words_pt = set(stopwords.words('portuguese'))

# Concatenar todo o texto
text_all = " ".join(review for review in df['content'].astype(str))

wordcloud = WordCloud(
    width=800,
    height=400,
    background_color='white',
    stopwords=stop_words_pt,
    min_font_size=10
).generate(text_all)

plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

## Conclusões Preliminares
Este notebook apresentou a visão geral dos dados. O próximo passo é realizar a limpeza e o pré-processamento para modelagem.