# Análise Exploratória dos Dados do Reddit

Este notebook realiza uma análise inicial dos dados coletados do Reddit, focando nos padrões de uso de termos específicos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import json

%matplotlib inline

## Carregando os Dados

In [None]:
# Função para carregar dados mais recentes
def load_latest_data(data_dir='../data'):
    data_dir = Path(data_dir)
    
    # Encontrar arquivos mais recentes
    submissions_files = list(data_dir.glob('submissions_*.csv'))
    comments_files = list(data_dir.glob('comments_*.csv'))
    
    if not submissions_files or not comments_files:
        raise FileNotFoundError('Arquivos de dados não encontrados')
    
    latest_submissions = max(submissions_files, key=lambda x: x.stat().st_mtime)
    latest_comments = max(comments_files, key=lambda x: x.stat().st_mtime)
    
    # Carregar dados
    submissions_df = pd.read_csv(latest_submissions)
    comments_df = pd.read_csv(latest_comments)
    
    return submissions_df, comments_df

# Carregar dados
submissions_df, comments_df = load_latest_data()

## Análise Inicial

Vamos examinar algumas estatísticas básicas sobre os dados coletados.

In [None]:
# Estatísticas gerais
print(f"Total de submissions: {len(submissions_df)}")
print(f"Total de comentários: {len(comments_df)}")

# Distribuição por subreddit
subreddit_stats = submissions_df['subreddit'].value_counts().head(10)
plt.figure(figsize=(12, 6))
subreddit_stats.plot(kind='bar')
plt.title('Top 10 Subreddits por Número de Posts')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## Análise Temporal

Vamos examinar como o uso dos termos varia ao longo do tempo.

In [None]:
# Converter timestamps
submissions_df['created_utc'] = pd.to_datetime(submissions_df['created_utc'])

# Agrupar por mês e termo
monthly_usage = submissions_df.groupby([pd.Grouper(key='created_utc', freq='M'), 'term']).size().unstack()

# Plotar tendências temporais
plt.figure(figsize=(15, 7))
monthly_usage.plot()
plt.title('Uso dos Termos ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Número de Posts')
plt.legend(title='Termo')
plt.tight_layout()
plt.show()