
# üìä Fase 3 ‚Äî Visualiza√ß√£o e Gera√ß√£o de Insights (Vers√£o Corrigida)
**Projeto:** Minera√ß√£o de Textos ‚Äî An√°lise de Sentimentos no YouTube  
**CRISP-DM:** Data Understanding / Evaluation

Este notebook atualizado faz a leitura din√¢mica dos resultados da Fase 2, gera **KPIs**, **gr√°ficos interativos** e **insights autom√°ticos**.  
Inclui verifica√ß√µes autom√°ticas, fallback de diret√≥rios e compatibilidade com o futuro aplicativo Flask.


In [None]:

# ============================================================
# 1) Importa√ß√µes e Configura√ß√µes
# ============================================================
import os, json
import pandas as pd
import plotly.express as px
from glob import glob
from collections import OrderedDict

INPUT_PATTERN = "resultados/comentarios_analisados_*.csv"
EXPORT_DIR = "dashboards"
os.makedirs(EXPORT_DIR, exist_ok=True)

print("‚úÖ Configura√ß√µes prontas.")
print(f"üìÅ Pasta de exporta√ß√£o: {EXPORT_DIR}")


In [None]:

# ============================================================
# 2) Localizar o arquivo CSV mais recente
# ============================================================
def localizar_csv(pattern="resultados/comentarios_analisados_*.csv"):
    arquivos = sorted(glob(pattern))
    if not arquivos:
        arquivos = sorted(glob("**/comentarios_analisados_*.csv", recursive=True))
        if not arquivos:
            raise FileNotFoundError("‚ùå Nenhum arquivo encontrado. Execute a Fase 2 antes.")
    return arquivos[-1]

INPUT_FILE = localizar_csv()
print(f"üìÇ Arquivo carregado: {INPUT_FILE}")

df = pd.read_csv(INPUT_FILE)
print(f"üî¢ Total de registros: {len(df)}")


In [None]:

# ============================================================
# 3) Verificar colunas essenciais
# ============================================================
colunas_esperadas = ["video_titulo", "sentimento", "idioma"]
for c in colunas_esperadas:
    if c not in df.columns:
        df[c] = "desconhecido"
        print(f"‚ö†Ô∏è Coluna '{c}' ausente. Valor padr√£o aplicado.")


In [None]:

# ============================================================
# 4) KPIs ‚Äî M√©tricas Principais
# ============================================================
kpi = OrderedDict()
kpi["total_comentarios"] = int(len(df))

dist = df["sentimento"].value_counts(normalize=True).reindex(["positivo","neutro","negativo"]).fillna(0.0)*100
kpi["pct_positivo"] = round(dist.get("positivo", 0.0), 2)
kpi["pct_neutro"] = round(dist.get("neutro", 0.0), 2)
kpi["pct_negativo"] = round(dist.get("negativo", 0.0), 2)

idiomas = df["idioma"].value_counts(normalize=True)*100
top5_idiomas = idiomas.head(5).round(2).to_dict()
kpi["top5_idiomas"] = top5_idiomas

por_video = df.groupby("video_titulo")["sentimento"].value_counts(normalize=True).unstack(fill_value=0.0)*100
por_video = por_video.reindex(columns=["positivo","neutro","negativo"]).fillna(0.0)

if not por_video.empty:
    kpi["melhor_video_positivo_%"] = por_video["positivo"].idxmax()
    kpi["melhor_video_positivo_val"] = round(por_video["positivo"].max(), 2)
    kpi["pior_video_negativo_%"] = por_video["negativo"].idxmax()
    kpi["pior_video_negativo_val"] = round(por_video["negativo"].max(), 2)

print("üìà KPIs Calculados:")
for k,v in kpi.items():
    print(f"- {k}: {v}")


In [None]:

# ============================================================
# 5) Gr√°ficos Interativos (Plotly)
# ============================================================
if not df.empty:
    # Gr√°fico 1 ‚Äî Distribui√ß√£o Geral
    fig_sent = px.bar(
        df["sentimento"].value_counts().reset_index(),
        x="index", y="sentimento",
        labels={"index":"Sentimento","sentimento":"Quantidade"},
        title="Distribui√ß√£o Geral de Sentimentos"
    )
    sent_html = os.path.join(EXPORT_DIR, "01_distribuicao_sentimentos.html")
    fig_sent.write_html(sent_html, include_plotlyjs="cdn", full_html=True)
    print(f"‚úÖ Gr√°fico 1 exportado: {sent_html}")

    # Gr√°fico 2 ‚Äî Sentimentos por V√≠deo
    pv = df.groupby(["video_titulo","sentimento"]).size().reset_index(name="qtd")
    if not pv.empty:
        fig_vid = px.bar(
            pv, x="video_titulo", y="qtd", color="sentimento",
            title="Sentimentos por V√≠deo (Empilhado)",
            labels={"video_titulo":"V√≠deo","qtd":"Quantidade"}
        )
        vid_html = os.path.join(EXPORT_DIR, "02_sentimentos_por_video.html")
        fig_vid.write_html(vid_html, include_plotlyjs="cdn", full_html=True)
        print(f"‚úÖ Gr√°fico 2 exportado: {vid_html}")

    # Gr√°fico 3 ‚Äî Top 5 Idiomas
    if not idiomas.empty:
        df_id = idiomas.head(5).reset_index()
        df_id.columns = ["idioma","percentual"]
        fig_id = px.bar(
            df_id, x="idioma", y="percentual",
            title="Top 5 Idiomas ‚Äî Participa√ß√£o (%)",
            labels={"idioma":"Idioma","percentual":"% Coment√°rios"}
        )
        id_html = os.path.join(EXPORT_DIR, "03_top5_idiomas.html")
        fig_id.write_html(id_html, include_plotlyjs="cdn", full_html=True)
        print(f"‚úÖ Gr√°fico 3 exportado: {id_html}")
else:
    print("‚ö†Ô∏è Nenhum dado dispon√≠vel para visualiza√ß√£o.")


In [None]:

# ============================================================
# 6) Insights Autom√°ticos
# ============================================================
def gerar_insights(df, kpi):
    msgs = []
    msgs.append(f"Foram analisados {kpi['total_comentarios']} coment√°rios.")
    msgs.append(f"Distribui√ß√£o geral: {kpi['pct_positivo']}% positivos, {kpi['pct_neutro']}% neutros e {kpi['pct_negativo']}% negativos.")
    if kpi.get("melhor_video_positivo_%"):
        msgs.append(f"V√≠deo mais positivo: '{kpi['melhor_video_positivo_%']}' ({kpi['melhor_video_positivo_val']}% de positividade).")
    if kpi.get("pior_video_negativo_%"):
        msgs.append(f"V√≠deo com maior negatividade: '{kpi['pior_video_negativo_%']}' ({kpi['pior_video_negativo_val']}% de negatividade).")
    if kpi.get("top5_idiomas"):
        idiomas_txt = ", ".join([f"{k}: {v:.1f}%" for k, v in kpi['top5_idiomas'].items()])
        msgs.append(f"Idiomas mais frequentes: {idiomas_txt}.")
    msgs.append("Sugere-se aprofundar v√≠deos com alta negatividade e replicar padr√µes positivos.")
    return msgs

insights = gerar_insights(df, kpi)
for i in insights:
    print("üí¨", i)

# Salvar insights
ts = pd.Timestamp.now().strftime("%Y%m%d_%H%M%S")
with open(os.path.join(EXPORT_DIR, f"insights_{ts}.txt"), "w", encoding="utf-8") as f:
    f.write("\n".join(insights))

print("\n‚úÖ Fase 3 conclu√≠da com sucesso. Gr√°ficos e insights exportados para 'dashboards/'.")
