# üìä Explora√ß√£o de Dados - NeuroTranslator PT-EN

Este notebook cont√©m a an√°lise explorat√≥ria dos datasets de tradu√ß√£o Portugu√™s-Ingl√™s que ser√£o utilizados para treinar nossos modelos neurais.

## Objetivos:
- Carregar e analisar datasets paralelos PT-EN
- Estat√≠sticas descritivas dos textos
- An√°lise de distribui√ß√£o de comprimento
- Identifica√ß√£o de padr√µes lingu√≠sticos
- Prepara√ß√£o para pr√©-processamento

In [None]:
# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
import spacy
from wordcloud import WordCloud
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("‚úÖ Bibliotecas importadas com sucesso!")

## 1. Carregamento dos Datasets

Vamos carregar datasets p√∫blicos de tradu√ß√£o PT-EN dispon√≠veis:

In [None]:
# Download de recursos NLTK necess√°rios
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

# Carregamento de modelos spaCy
try:
    nlp_pt = spacy.load('pt_core_news_sm')
    nlp_en = spacy.load('en_core_web_sm')
    print("‚úÖ Modelos spaCy carregados com sucesso!")
except OSError:
    print("‚ö†Ô∏è Modelos spaCy n√£o encontrados. Execute:")
    print("python -m spacy download pt_core_news_sm")
    print("python -m spacy download en_core_web_sm")

In [None]:
# Fun√ß√£o para carregar datasets de tradu√ß√£o
def load_translation_datasets():
    """
    Carrega datasets de tradu√ß√£o PT-EN de fontes p√∫blicas
    """
    datasets = {}
    
    # Dataset 1: OpenSubtitles (exemplo)
    # Aqui voc√™ pode adicionar c√≥digo para carregar datasets reais
    
    # Dataset sint√©tico para demonstra√ß√£o
    sample_data = {
        'portuguese': [
            "Ol√°, como voc√™ est√°?",
            "Eu gosto de programar em Python.",
            "O tempo est√° muito bom hoje.",
            "Vamos trabalhar juntos neste projeto.",
            "A intelig√™ncia artificial √© fascinante."
        ],
        'english': [
            "Hello, how are you?",
            "I like programming in Python.",
            "The weather is very nice today.",
            "Let's work together on this project.",
            "Artificial intelligence is fascinating."
        ]
    }
    
    datasets['sample'] = pd.DataFrame(sample_data)
    
    return datasets

# Carregar datasets
datasets = load_translation_datasets()
print(f"üìä Datasets carregados: {list(datasets.keys())}")

# Visualizar amostra
sample_df = datasets['sample']
print(f"\nüìà Tamanho do dataset de exemplo: {len(sample_df)} pares")
sample_df.head()

## 2. An√°lise Estat√≠stica B√°sica

In [None]:
def analyze_text_statistics(df):
    """
    Analisa estat√≠sticas b√°sicas dos textos
    """
    stats = {}
    
    for lang in ['portuguese', 'english']:
        texts = df[lang].astype(str)
        
        # Estat√≠sticas de comprimento
        char_lengths = texts.str.len()
        word_counts = texts.str.split().str.len()
        
        stats[lang] = {
            'total_sentences': len(texts),
            'avg_char_length': char_lengths.mean(),
            'avg_word_count': word_counts.mean(),
            'max_char_length': char_lengths.max(),
            'min_char_length': char_lengths.min(),
            'std_char_length': char_lengths.std(),
            'std_word_count': word_counts.std()
        }
    
    return stats

# Analisar estat√≠sticas
stats = analyze_text_statistics(sample_df)

# Criar DataFrame para visualiza√ß√£o
stats_df = pd.DataFrame(stats).T
print("üìä Estat√≠sticas dos Textos:")
stats_df.round(2)

## 3. Visualiza√ß√µes

In [None]:
# Gr√°fico de distribui√ß√£o de comprimento
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Comprimento em caracteres
pt_chars = sample_df['portuguese'].str.len()
en_chars = sample_df['english'].str.len()

axes[0, 0].hist(pt_chars, bins=20, alpha=0.7, label='Portugu√™s', color='blue')
axes[0, 0].set_title('Distribui√ß√£o - Caracteres (PT)')
axes[0, 0].set_xlabel('N√∫mero de Caracteres')
axes[0, 0].set_ylabel('Frequ√™ncia')

axes[0, 1].hist(en_chars, bins=20, alpha=0.7, label='Ingl√™s', color='red')
axes[0, 1].set_title('Distribui√ß√£o - Caracteres (EN)')
axes[0, 1].set_xlabel('N√∫mero de Caracteres')
axes[0, 1].set_ylabel('Frequ√™ncia')

# Comprimento em palavras
pt_words = sample_df['portuguese'].str.split().str.len()
en_words = sample_df['english'].str.split().str.len()

axes[1, 0].hist(pt_words, bins=20, alpha=0.7, label='Portugu√™s', color='blue')
axes[1, 0].set_title('Distribui√ß√£o - Palavras (PT)')
axes[1, 0].set_xlabel('N√∫mero de Palavras')
axes[1, 0].set_ylabel('Frequ√™ncia')

axes[1, 1].hist(en_words, bins=20, alpha=0.7, label='Ingl√™s', color='red')
axes[1, 1].set_title('Distribui√ß√£o - Palavras (EN)')
axes[1, 1].set_xlabel('N√∫mero de Palavras')
axes[1, 1].set_ylabel('Frequ√™ncia')

plt.tight_layout()
plt.show()

## 4. An√°lise de Vocabul√°rio

In [None]:
def analyze_vocabulary(texts, language='portuguese'):
    """
    Analisa o vocabul√°rio dos textos
    """
    # Tokeniza√ß√£o
    all_words = []
    for text in texts:
        words = word_tokenize(text.lower())
        all_words.extend([word for word in words if word.isalpha()])
    
    # Estat√≠sticas de vocabul√°rio
    vocab_stats = {
        'total_words': len(all_words),
        'unique_words': len(set(all_words)),
        'vocabulary_richness': len(set(all_words)) / len(all_words) if all_words else 0
    }
    
    # Palavras mais frequentes
    word_freq = Counter(all_words)
    most_common = word_freq.most_common(10)
    
    return vocab_stats, most_common, all_words

# Analisar vocabul√°rio portugu√™s
pt_vocab_stats, pt_common, pt_words = analyze_vocabulary(sample_df['portuguese'], 'portuguese')
en_vocab_stats, en_common, en_words = analyze_vocabulary(sample_df['english'], 'english')

print("üáßüá∑ Estat√≠sticas do Vocabul√°rio Portugu√™s:")
for key, value in pt_vocab_stats.items():
    print(f"  {key}: {value:.3f}")

print("\nüá∫üá∏ Estat√≠sticas do Vocabul√°rio Ingl√™s:")
for key, value in en_vocab_stats.items():
    print(f"  {key}: {value:.3f}")

print("\nüìù Palavras mais comuns (PT):", pt_common[:5])
print("üìù Palavras mais comuns (EN):", en_common[:5])

## 5. Prepara√ß√£o para Modelagem

In [None]:
# Fun√ß√£o de pr√©-processamento b√°sico
def preprocess_text(text):
    """
    Pr√©-processamento b√°sico do texto
    """
    # Converter para min√∫sculas
    text = text.lower()
    
    # Remover caracteres especiais (manter pontua√ß√£o b√°sica)
    import re
    text = re.sub(r'[^a-z√°√†√¢√£√©√™√≠√≥√¥√µ√∫√ß\s.,!?]', '', text)
    
    # Normalizar espa√ßos
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Aplicar pr√©-processamento
sample_df['portuguese_clean'] = sample_df['portuguese'].apply(preprocess_text)
sample_df['english_clean'] = sample_df['english'].apply(preprocess_text)

print("üßπ Exemplo de pr√©-processamento:")
print("Original (PT):", sample_df['portuguese'].iloc[0])
print("Limpo (PT):   ", sample_df['portuguese_clean'].iloc[0])
print("\nOriginal (EN):", sample_df['english'].iloc[0])
print("Limpo (EN):   ", sample_df['english_clean'].iloc[0])

## 6. Salvamento dos Dados Processados

In [None]:
# Salvar dados processados
output_path = '../data/processed_translation_data.csv'
sample_df.to_csv(output_path, index=False, encoding='utf-8')

print(f"üíæ Dados processados salvos em: {output_path}")
print(f"üìä Total de pares de tradu√ß√£o: {len(sample_df)}")

# Resumo final
print("\nüìã Resumo da Explora√ß√£o:")
print(f"  ‚Ä¢ Dataset analisado com {len(sample_df)} pares PT-EN")
print(f"  ‚Ä¢ Comprimento m√©dio (PT): {sample_df['portuguese'].str.len().mean():.1f} caracteres")
print(f"  ‚Ä¢ Comprimento m√©dio (EN): {sample_df['english'].str.len().mean():.1f} caracteres")
print(f"  ‚Ä¢ Vocabul√°rio √∫nico (PT): {len(set(' '.join(sample_df['portuguese']).split()))} palavras")
print(f"  ‚Ä¢ Vocabul√°rio √∫nico (EN): {len(set(' '.join(sample_df['english']).split()))} palavras")
print("\n‚úÖ Explora√ß√£o de dados conclu√≠da!")

## üìù Pr√≥ximos Passos

1. **Coleta de Dados Reais**: Integrar datasets maiores como OpenSubtitles, OPUS, etc.
2. **An√°lise Lingu√≠stica Avan√ßada**: POS tagging, an√°lise sint√°tica
3. **Prepara√ß√£o para Treinamento**: Tokeniza√ß√£o, cria√ß√£o de vocabul√°rios
4. **Augmenta√ß√£o de Dados**: T√©cnicas para aumentar o dataset
5. **Valida√ß√£o Cruzada**: Divis√£o em treino/valida√ß√£o/teste

---

**Desenvolvido para o NeuroTranslator PT-EN** üß†üîÑüåê