# Análise Exploratória de Dados (EDA) - Senti-Pred

Este notebook contém a análise exploratória dos dados para o projeto Senti-Pred, focado em análise de sentimentos.

In [None]:
# Importações necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import sys

# Configurações de visualização
plt.style.use('ggplot')
sns.set(style='whitegrid')
%matplotlib inline

In [None]:
# Carregar os dados
data_path = '../data/raw/test.csv'
df = pd.read_csv(data_path)

# Exibir as primeiras linhas
df.head()

In [None]:
# Informações básicas sobre o dataset
print("Formato do dataset:", df.shape)
print("\nInformações do dataset:")
df.info()
print("\nEstatísticas descritivas:")
df.describe(include='all')

In [None]:
# Verificar valores ausentes
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100

missing_df = pd.DataFrame({
    'Valores ausentes': missing_values,
    'Porcentagem (%)': missing_percentage
})

missing_df[missing_df['Valores ausentes'] > 0]

In [None]:
# Análise de distribuição de sentimentos (supondo que exista uma coluna 'sentiment')
if 'sentiment' in df.columns:
    plt.figure(figsize=(10, 6))
    sns.countplot(x='sentiment', data=df)
    plt.title('Distribuição de Sentimentos')
    plt.xlabel('Sentimento')
    plt.ylabel('Contagem')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

In [None]:
# Análise de comprimento de texto (supondo que exista uma coluna 'text')
if 'text' in df.columns:
    df['text_length'] = df['text'].apply(len)
    
    plt.figure(figsize=(12, 6))
    sns.histplot(df['text_length'], bins=50, kde=True)
    plt.title('Distribuição do Comprimento de Texto')
    plt.xlabel('Comprimento do Texto')
    plt.ylabel('Frequência')
    plt.tight_layout()
    plt.show()
    
    if 'sentiment' in df.columns:
        plt.figure(figsize=(12, 6))
        sns.boxplot(x='sentiment', y='text_length', data=df)
        plt.title('Comprimento de Texto por Sentimento')
        plt.xlabel('Sentimento')
        plt.ylabel('Comprimento do Texto')
        plt.tight_layout()
        plt.show()

## Conclusões da Análise Exploratória

- Resumo das principais descobertas
- Insights para o pré-processamento
- Direcionamentos para a modelagem