In [None]:
# Importações básicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import re
import warnings
warnings.filterwarnings('ignore')

# Configuração de visualização
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("✅ Bibliotecas básicas importadas com sucesso!")

# Verificar versões das principais bibliotecas
import sys
print(f"Python version: {sys.version}")
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")


In [None]:
# Bibliotecas de NLP
try:
    import nltk
    print(f"✅ NLTK version: {nltk.__version__}")
    
    # Download de recursos necessários do NLTK
    nltk.download('punkt', quiet=True)
    nltk.download('stopwords', quiet=True)
    nltk.download('vader_lexicon', quiet=True)
    nltk.download('wordnet', quiet=True)
    print("✅ Recursos do NLTK baixados!")
    
except ImportError:
    print("❌ NLTK não encontrado. Execute: pip install nltk")

try:
    import spacy
    print(f"✅ spaCy version: {spacy.__version__}")
    
    # Verificar se o modelo em português está disponível
    try:
        nlp = spacy.load("pt_core_news_sm")
        print("✅ Modelo em português do spaCy carregado!")
    except OSError:
        print("⚠️ Modelo em português não encontrado. Execute: python -m spacy download pt_core_news_sm")
        # Usar modelo em inglês como fallback
        nlp = spacy.load("en_core_web_sm")
        print("✅ Usando modelo em inglês como alternativa")
        
except ImportError:
    print("❌ spaCy não encontrado. Execute: pip install spacy")

try:
    from textblob import TextBlob
    print("✅ TextBlob importado com sucesso!")
except ImportError:
    print("❌ TextBlob não encontrado. Execute: pip install textblob")


In [None]:
# Texto de exemplo
texto_exemplo = """
Processamento de Linguagem Natural é uma área fascinante da inteligência artificial.
Com técnicas de machine learning, podemos ensinar computadores a entender textos.
Este curso vai te ensinar desde o básico até técnicas avançadas como transformers.
O futuro do NLP é muito promissor!
"""

print("Texto de exemplo:")
print(texto_exemplo)
print("-" * 50)


In [None]:
# 2.1 NLTK - Natural Language Toolkit
print("=== Explorando NLTK ===")

# Tokenização com NLTK
from nltk.tokenize import word_tokenize, sent_tokenize

# Tokenizar sentenças
sentences = sent_tokenize(texto_exemplo)
print("Sentenças:")
for i, sent in enumerate(sentences, 1):
    if sent.strip():  # Ignorar strings vazias
        print(f"{i}. {sent.strip()}")

print("\n" + "-" * 30)

# Tokenizar palavras
words = word_tokenize(texto_exemplo)
print(f"Número total de tokens: {len(words)}")
print("Primeiros 15 tokens:")
print(words[:15])

print("\n" + "-" * 30)

# Análise de frequência
from collections import Counter
word_freq = Counter(words)
print("Palavras mais frequentes:")
for word, freq in word_freq.most_common(10):
    print(f"'{word}': {freq}")


In [None]:
# 2.2 spaCy - Industrial-strength NLP
print("\n=== Explorando spaCy ===")

# Processar texto com spaCy
doc = nlp(texto_exemplo)

print("Análise linguística com spaCy:")
print("Token | Lemma | POS | Tag | Dep | Shape | Alpha | Stop")
print("-" * 60)

for token in doc[:15]:  # Primeiros 15 tokens
    print(f"{token.text:<8} | {token.lemma_:<8} | {token.pos_:<4} | {token.tag_:<4} | {token.dep_:<6} | {token.shape_:<6} | {token.is_alpha} | {token.is_stop}")

print("\n" + "-" * 30)

# Entidades nomeadas
print("Entidades Nomeadas encontradas:")
for ent in doc.ents:
    print(f"'{ent.text}' - {ent.label_} ({ent.start_char}-{ent.end_char})")

if not doc.ents:
    print("Nenhuma entidade nomeada encontrada no texto exemplo.")


In [None]:
# 2.3 TextBlob - Simplified text processing
print("\n=== Explorando TextBlob ===")

blob = TextBlob(texto_exemplo)

print("Análise com TextBlob:")
print(f"Número de sentenças: {len(blob.sentences)}")
print(f"Número de palavras: {len(blob.words)}")

print("\nSentenças detectadas:")
for i, sentence in enumerate(blob.sentences, 1):
    print(f"{i}. {sentence}")

print("\n" + "-" * 30)

# Análise de sentimentos
print("Análise de Sentimentos:")
sentiment = blob.sentiment
print(f"Polaridade: {sentiment.polarity:.3f} ([-1.0 = negativo, 1.0 = positivo])")
print(f"Subjetividade: {sentiment.subjectivity:.3f} ([0.0 = objetivo, 1.0 = subjetivo])")

# Interpretação
if sentiment.polarity > 0.1:
    sentimento = "Positivo"
elif sentiment.polarity < -0.1:
    sentimento = "Negativo"
else:
    sentimento = "Neutro"
    
print(f"Sentimento geral: {sentimento}")


In [None]:
class SimplePipelineNLP:
    """
    Pipeline básico de NLP que demonstra as etapas fundamentais
    """
    
    def __init__(self):
        from nltk.corpus import stopwords
        from nltk.stem import PorterStemmer
        
        self.stopwords = set(stopwords.words('portuguese'))
        self.stemmer = PorterStemmer()
        
    def limpar_texto(self, texto):
        """Etapa 1: Limpeza básica do texto"""
        # Converter para minúsculas
        texto = texto.lower()
        
        # Remover caracteres especiais (manter apenas letras e espaços)
        texto = re.sub(r'[^a-záàâãéêíóôõúç\s]', '', texto)
        
        # Remover espaços extras
        texto = re.sub(r'\s+', ' ', texto).strip()
        
        return texto
    
    def tokenizar(self, texto):
        """Etapa 2: Tokenização"""
        tokens = word_tokenize(texto)
        return tokens
    
    def remover_stopwords(self, tokens):
        """Etapa 3: Remoção de stopwords"""
        return [token for token in tokens if token not in self.stopwords]
    
    def stemming(self, tokens):
        """Etapa 4: Stemming"""
        return [self.stemmer.stem(token) for token in tokens]
    
    def processar(self, texto):
        """Pipeline completo"""
        print("Pipeline de NLP:")
        print("=" * 40)
        
        print(f"Texto original:\n{texto}\n")
        
        # Etapa 1: Limpeza
        texto_limpo = self.limpar_texto(texto)
        print(f"1. Texto limpo:\n{texto_limpo}\n")
        
        # Etapa 2: Tokenização
        tokens = self.tokenizar(texto_limpo)
        print(f"2. Tokens ({len(tokens)}):\n{tokens}\n")
        
        # Etapa 3: Remoção de stopwords
        tokens_sem_stopwords = self.remover_stopwords(tokens)
        print(f"3. Sem stopwords ({len(tokens_sem_stopwords)}):\n{tokens_sem_stopwords}\n")
        
        # Etapa 4: Stemming
        tokens_stemmed = self.stemming(tokens_sem_stopwords)
        print(f"4. Com stemming ({len(tokens_stemmed)}):\n{tokens_stemmed}\n")
        
        return {
            'original': texto,
            'limpo': texto_limpo,
            'tokens': tokens,
            'sem_stopwords': tokens_sem_stopwords,
            'stemmed': tokens_stemmed
        }

# Testando o pipeline
pipeline = SimplePipelineNLP()
resultado = pipeline.processar(texto_exemplo)


In [None]:
# Criando um dataset maior para análise
textos_exemplo = [
    "Inteligência artificial está transformando o mundo dos negócios.",
    "Machine learning permite que computadores aprendam sem programação explícita.",
    "Deep learning usa redes neurais profundas para resolver problemas complexos.",
    "Natural Language Processing ajuda computadores a entender linguagem humana.",
    "O futuro da tecnologia é muito promissor e cheio de oportunidades.",
    "Python é uma linguagem de programação muito popular para data science.",
    "Algoritmos de IA podem automatizar tarefas repetitivas e complexas.",
    "Big data requer ferramentas especializadas para análise eficiente.",
    "Cloud computing oferece escalabilidade para aplicações modernas.",
    "Chatbots estão revolucionando o atendimento ao cliente online."
]

print(f"Dataset com {len(textos_exemplo)} textos para análise")
print("Primeiros 3 textos:")
for i, texto in enumerate(textos_exemplo[:3], 1):
    print(f"{i}. {texto}")


In [None]:
# Análise estatística básica
import pandas as pd

# Processar todos os textos
todos_resultados = []
for i, texto in enumerate(textos_exemplo):
    resultado = pipeline.processar(texto)
    todos_resultados.append({
        'id': i,
        'texto_original': texto,
        'num_caracteres': len(texto),
        'num_palavras': len(resultado['tokens']),
        'num_palavras_sem_stopwords': len(resultado['sem_stopwords']),
        'num_palavras_stemmed': len(resultado['stemmed'])
    })

# Criar DataFrame para análise
df_analise = pd.DataFrame(todos_resultados)

print("Estatísticas descritivas:")
print(df_analise[['num_caracteres', 'num_palavras', 'num_palavras_sem_stopwords']].describe())

# Visualização
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribuição do número de caracteres
axes[0,0].hist(df_analise['num_caracteres'], bins=8, alpha=0.7, color='skyblue')
axes[0,0].set_title('Distribuição: Número de Caracteres')
axes[0,0].set_xlabel('Caracteres')
axes[0,0].set_ylabel('Frequência')

# Distribuição do número de palavras
axes[0,1].hist(df_analise['num_palavras'], bins=8, alpha=0.7, color='lightgreen')
axes[0,1].set_title('Distribuição: Número de Palavras')
axes[0,1].set_xlabel('Palavras')
axes[0,1].set_ylabel('Frequência')

# Comparação: antes e depois de remover stopwords
x = range(len(df_analise))
axes[1,0].bar(x, df_analise['num_palavras'], alpha=0.7, label='Com stopwords', color='orange')
axes[1,0].bar(x, df_analise['num_palavras_sem_stopwords'], alpha=0.7, label='Sem stopwords', color='red')
axes[1,0].set_title('Impacto da Remoção de Stopwords')
axes[1,0].set_xlabel('Texto ID')
axes[1,0].set_ylabel('Número de Palavras')
axes[1,0].legend()

# Box plot das estatísticas
data_for_box = [df_analise['num_caracteres'], df_analise['num_palavras'], df_analise['num_palavras_sem_stopwords']]
axes[1,1].boxplot(data_for_box, labels=['Caracteres', 'Palavras', 'Sem Stopwords'])
axes[1,1].set_title('Box Plot das Métricas')
axes[1,1].set_ylabel('Contagem')

plt.tight_layout()
plt.show()
