
# üß† FASE 2 ‚Äì An√°lise de Sentimentos em Coment√°rios do YouTube  
**Projeto:** An√°lise de Sentimentos em Coment√°rios de V√≠deos  
**Etapa do CRISP-DM:** Modeling  

Este notebook carrega os coment√°rios coletados (Fase 1), realiza **limpeza e normaliza√ß√£o de texto**, faz **detec√ß√£o de idioma** e aplica um **modelo pr√©-treinado em portugu√™s** (HuggingFace) para classificar os sentimentos em **positivo, negativo e neutro**.  
Resultados s√£o exportados para CSV e gr√°ficos b√°sicos s√£o gerados para suporte √† Fase 3 (Visualiza√ß√£o/EDA).
    

In [None]:

# ============================================================
# 1Ô∏è‚É£ Importa√ß√£o das bibliotecas
# ============================================================
import os, re, time
import pandas as pd
import matplotlib.pyplot as plt
from langdetect import detect, DetectorFactory
from transformers import pipeline
import emoji

# Reprodutibilidade na detec√ß√£o de idioma
DetectorFactory.seed = 0

print("‚úÖ Bibliotecas carregadas.")
    

In [None]:

# ============================================================
# 2Ô∏è‚É£ Carregar os dados da Fase 1
# ============================================================
INPUT_PATH = os.getenv("INPUT_PATH", "comentarios_top5.csv")
assert os.path.exists(INPUT_PATH), f"Arquivo n√£o encontrado: {INPUT_PATH}"

df = pd.read_csv(INPUT_PATH)
print(f"‚úÖ Dataset carregado: {INPUT_PATH}")
print(f"Total de registros: {len(df)}")
display(df.head(3))
    

In [None]:

# ============================================================
# 3Ô∏è‚É£ Limpeza e normaliza√ß√£o de texto
#  - demojize: emojis viram tokens textuais (:smile:)
#  - remove URLs, men√ß√µes e caracteres n√£o textuais
#  - normaliza espa√ßos e caixa
# ============================================================
def limpar_texto(texto: str) -> str:
    texto = str(texto)
    texto = emoji.demojize(texto)
    texto = re.sub(r"http\S+|www\.\S+", " ", texto)        # URLs
    texto = re.sub(r"@[A-Za-z0-9_]+", " ", texto)             # men√ß√µes
    texto = re.sub(r"#[A-Za-z0-9_]+", " ", texto)             # hashtags (opcional)
    texto = re.sub(r"[^A-Za-z√Ä-√ø\s:]", " ", texto)           # mant√©m letras/acentos/espaco/:
    texto = re.sub(r"\s+", " ", texto).strip().lower()
    return texto

df["comentario_limpo"] = df["comentario"].astype(str).apply(limpar_texto)
df = df[df["comentario_limpo"].str.len() > 3].copy()  # remove muito curtos
print("üßπ Limpeza conclu√≠da.")
display(df.head(3))
    

In [None]:

# ============================================================
# 4Ô∏è‚É£ Detec√ß√£o de idioma e filtragem (PT-first)
#    - langdetect falha em textos curtos; tratamos exce√ß√µes
#    - filtro padr√£o: manter pt; demais idiomas podem ser analisados depois
# ============================================================
def detectar_idioma_seguro(texto: str) -> str:
    try:
        return detect(texto)
    except Exception:
        return "indefinido"

df["idioma"] = df["comentario_limpo"].apply(detectar_idioma_seguro)
df_pt = df[df["idioma"] == "pt"].copy()

print(f"Total ap√≥s limpeza: {len(df)}")
print(f"Total em portugu√™s (pt): {len(df_pt)}")
display(df_pt.head(3))
    

In [None]:

# ============================================================
# 5Ô∏è‚É£ Carregar pipeline de an√°lise de sentimentos (PT-BR)
#    - Dica de performance: carregar uma vez; usar truncation e batch
# ============================================================
MODEL_NAME = os.getenv("HF_MODEL_PT", "pierreguillou/bert-base-cased-sentiment-br")

sentiment_pt = pipeline(
    task="sentiment-analysis",
    model=MODEL_NAME,
    truncation=True,
    batch_size=32
)

print(f"üß† Modelo carregado: {MODEL_NAME}")
    

In [None]:

# ============================================================
# 6Ô∏è‚É£ Infer√™ncia em lote (batch) e padroniza√ß√£o de r√≥tulos
# ============================================================
comentarios = df_pt["comentario_limpo"].tolist()
resultados = sentiment_pt(comentarios)

# Converte para DataFrame e agrega
res_df = pd.DataFrame(resultados)
# Mapa de r√≥tulos para portugu√™s
label_map = {
    "POS": "positivo", "positive": "positivo",
    "NEG": "negativo", "negative": "negativo",
    "NEU": "neutro",   "neutral":  "neutro"
}
df_pt["sentimento"] = res_df["label"].map(label_map).fillna(res_df["label"])
df_pt["score"] = res_df["score"]

print("‚úÖ Infer√™ncia conclu√≠da.")
display(df_pt.head(5))
    

In [None]:

# ============================================================
# 7Ô∏è‚É£ Gr√°ficos b√°sicos (suporte √† Fase 3)
#    - Matplotlib puro (sem seaborn) para compatibilidade
# ============================================================
# Distribui√ß√£o geral dos sentimentos
dist = df_pt["sentimento"].value_counts().sort_index()
plt.figure(figsize=(6,4))
dist.plot(kind="bar")
plt.title("Distribui√ß√£o de Sentimentos (PT)")
plt.xlabel("Sentimento")
plt.ylabel("Quantidade")
plt.tight_layout()
plt.show()

# Comparativo por v√≠deo (empilhado simples)
sent_por_video = df_pt.groupby(["video_titulo", "sentimento"]).size().unstack(fill_value=0)
plt.figure(figsize=(10,5))
sent_por_video.plot(kind="bar", stacked=True)
plt.title("Sentimentos por V√≠deo (PT)")
plt.xlabel("V√≠deo")
plt.ylabel("Quantidade")
plt.tight_layout()
plt.show()
    

In [None]:

# ============================================================
# 8Ô∏è‚É£ Exporta√ß√£o do resultado
# ============================================================
OUTPUT_PATH = os.getenv("OUTPUT_PATH", "comentarios_analisados.csv")
df_pt.to_csv(OUTPUT_PATH, index=False, encoding="utf-8-sig")
print(f"üìÇ Resultados exportados: {OUTPUT_PATH}")
print(f"Linhas salvas: {len(df_pt)}")
    


---
‚úÖ **Notebook finalizado com sucesso!**  

- Dados carregados de `comentarios_top5.csv`  
- Limpeza e normaliza√ß√£o aplicadas  
- Idioma detectado e filtrado para **pt**  
- Modelo **BERT-PT** aplicado com **batch inference**  
- Resultados exportados em `comentarios_analisados.csv`  

üìå Na **Fase 3 (pr√≥xima aula)**, construiremos **visualiza√ß√µes explorat√≥rias (EDA)** e um **dashboard interativo** com base neste resultado.
    