# üöÄ Introdu√ß√£o ao Streamlit ‚Äî Do Zero

## 1. O que √© Python?
- √â uma **linguagem de programa√ß√£o** simples e muito usada em **Ci√™ncia de Dados** e **Intelig√™ncia Artificial**.
- Voc√™ escreve comandos (c√≥digo) e o Python executa.
- Exemplo simples:
  - `print("Ol√°, mundo!")` ‚Üí imprime a frase "Ol√°, mundo!" na tela.

## 2. O que √© o Streamlit?
- O **Streamlit** √© uma **biblioteca** (pacote pronto) do Python para criar **aplica√ß√µes web interativas** de forma **muito f√°cil**.
- Voc√™ escreve c√≥digo Python e o Streamlit transforma isso em uma p√°gina web.
- √â muito usado para **pain√©is interativos**, **dashboards** e **projetos de IA**.

## 3. Como instalar o Streamlit
No terminal ou no Jupyter Notebook (em uma c√©lula):
- `pip install streamlit`

## 4. Como criar um app b√°sico com Streamlit
1. **Crie um arquivo** chamado `meu_app.py`.
2. **Escreva o c√≥digo**:
   - `import streamlit as st`
   - `st.title("Meu primeiro app Streamlit üöÄ")`
   - `st.write("Este √© um app interativo feito em Python.")`
   - `nome = st.text_input("Digite seu nome:")`
   - `if nome:`
       - `st.success(f"Ol√°, {nome}!")`
3. **Rodar o app**:
   - `streamlit run meu_app.py`
4. O navegador vai abrir e mostrar seu app.

## 5. Conceitos b√°sicos do Streamlit
- `st.title("texto")` ‚Üí Cria um t√≠tulo.
- `st.write("texto ou vari√°vel")` ‚Üí Mostra texto ou dados.
- `st.text_input("pergunta")` ‚Üí Caixa de texto para o usu√°rio digitar.
- `st.button("Bot√£o")` ‚Üí Cria um bot√£o.
- `st.file_uploader("Mensagem")` ‚Üí Caixa para enviar arquivos.
- `st.dataframe(df)` ‚Üí Mostra uma tabela de dados.

## 6. Nosso exemplo do Titanic (passo-a-passo)
1. Vamos usar o **dataset Titanic** (arquivo `.csv` do Kaggle).
2. O usu√°rio vai **enviar o CSV** pelo app.
3. O app vai:
   - Ler os dados com o **pandas**.
   - Treinar um **modelo de IA** simples (Regress√£o Log√≠stica ou Linear).
   - Mostrar as **vari√°veis mais importantes** para prever:
     - Se uma pessoa sobreviveu (`Survived`).
     - Ou o pre√ßo da passagem (`Fare`).
4. O app responde de forma **interativa** no navegador.

## 7. Como funciona o fluxo do app
1. **Usu√°rio envia dados** ‚Üí `st.file_uploader`
2. **C√≥digo l√™ e prepara** ‚Üí pandas, limpeza, codifica√ß√£o de categorias.
3. **Modelo de IA √© treinado** ‚Üí scikit-learn.
4. **Resultados e m√©tricas aparecem** ‚Üí `st.dataframe`, `st.write`.
5. **Chatbot d√° a resposta final** ‚Üí fun√ß√£o que interpreta e mostra.

## 8. Vantagens do Streamlit
- F√°cil de aprender (poucas linhas de c√≥digo).
- R√°pido para criar prot√≥tipos.
- N√£o precisa saber HTML/CSS/JavaScript.
- Funciona com qualquer biblioteca Python.

## 9. Pr√≥ximos passos para o aluno
- Entender os comandos b√°sicos do Python.
- Aprender a usar bibliotecas (como pandas e scikit-learn).
- Criar pequenos apps no Streamlit.
- Conectar esses apps a modelos de IA e bases de dados.

üí° **Resumo:**  
O Streamlit √© como uma "ponte" entre seu c√≥digo Python e uma p√°gina web bonita e interativa.  
Com ele, podemos mostrar para qualquer pessoa como um modelo de IA funciona ‚Äî sem precisar instalar nada complicado no computador dela.


In [3]:
# ============================================================
# C√âLULA 1 ‚Äî Instalar depend√™ncias (rode uma vez)
# ============================================================
# Obs.: se seu Jupyter usa um venv/conda, n√£o use sudo aqui.
import sys, subprocess

def pip_install(pkgs):
    subprocess.check_call([sys.executable, "-m", "pip", "install", "--break-system-packages", *pkgs])

pip_install(["streamlit", "pandas", "numpy", "scikit-learn"])


Defaulting to user installation because normal site-packages is not writeable


In [4]:
# ============================================================
# C√âLULA 2 ‚Äî Definir o c√≥digo do app Streamlit (Titanic Chatbot) ‚Äî robusto
# ============================================================
app_code = r'''
# streamlit_app.py ‚Äî Chatbot Titanic (v1) para Jupyter ‚Äî robusto
import streamlit as st
import pandas as pd
import numpy as np
from typing import Tuple, List

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.metrics import (
    confusion_matrix, accuracy_score, precision_score, recall_score, f1_score,
    mean_squared_error
)

st.set_page_config(page_title="Chatbot Titanic IA ‚Äî Jupyter", page_icon="üö¢", layout="wide")
st.title("üö¢ Chatbot Titanic ‚Äî Fundamentos de IA (Jupyter + Streamlit)")

with st.sidebar:
    st.header("‚öôÔ∏è Configura√ß√£o")
    up = st.file_uploader("Fa√ßa upload do CSV (ex.: train.csv do Titanic)", type=["csv"])
    alvo = st.selectbox("Alvo (target)", ["Survived", "Fare"], index=0,
                        help="Survived ‚Üí classifica√ß√£o (log√≠stica); Fare ‚Üí regress√£o (linear)")
    pergunta = st.text_input("Pergunta (ex.: quais caracter√≠sticas de quem sobrevive?)",
                             value="Quais caracter√≠sticas de quem sobrevive?")
    test_size = st.slider("Propor√ß√£o de teste", 0.1, 0.4, 0.2, 0.05)
    random_state = st.number_input("random_state", value=42, step=1)
    btn = st.button("üöÄ Rodar")

st.markdown("""
**O que este app faz?**
1. Voc√™ envia a base (ex.: `train.csv` do Kaggle Titanic).
2. Escolhe o alvo:
   - `Survived` ‚Üí classifica√ß√£o (Regress√£o Log√≠stica).
   - `Fare` ‚Üí regress√£o (Regress√£o Linear).
3. Faz sua pergunta.
4. O app treina o modelo (imputa√ß√£o, one-hot, escala) e responde com **caracter√≠sticas mais relevantes** e **m√©tricas**.
""")

# ---------- Helpers de compatibilidade e pr√©-processamento ----------
def make_ohe():
    """Cria OneHotEncoder compat√≠vel com sklearn novo e antigo."""
    try:
        # sklearn >= 1.2 (1.4 removeu 'sparse'; usa 'sparse_output')
        return OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    except TypeError:
        # sklearn <= 1.1
        return OneHotEncoder(handle_unknown="ignore", sparse=False)

def build_preprocessor(X: pd.DataFrame) -> Tuple[ColumnTransformer, List[str], List[str]]:
    numeric_cols = X.select_dtypes(include=[np.number]).columns.tolist()
    categorical_cols = X.select_dtypes(exclude=[np.number]).columns.tolist()

    numeric_processor = Pipeline(steps=[
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler(with_mean=True, with_std=True)),
    ])

    categorical_processor = Pipeline(steps=[
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", make_ohe()),  # compat√≠vel com qualquer vers√£o
    ])

    preprocessor = ColumnTransformer(
        transformers=[
            ("num", numeric_processor, numeric_cols),
            ("cat", categorical_processor, categorical_cols),
        ],
        remainder="drop"
    )
    return preprocessor, numeric_cols, categorical_cols

# ---------- Import√¢ncia/explica√ß√£o ----------
def feature_importance_from_logistic(model: Pipeline) -> pd.DataFrame:
    preproc = model.named_steps["preprocessor"]
    clf = model.named_steps["classifier"]

    # nomes p√≥s-transforma√ß√£o
    try:
        feat_names = preproc.get_feature_names_out()
    except Exception:
        try:
            num_cols = preproc.transformers_[0][2]
        except Exception:
            num_cols = []
        try:
            cat_cols = preproc.transformers_[1][2]
            ohe = preproc.named_transformers_["cat"].named_steps["onehot"]
            cat_feat = ohe.get_feature_names_out(cat_cols)
        except Exception:
            cat_feat = []
        feat_names = np.array(list(num_cols) + list(cat_feat))

    coefs = clf.coef_[0] if hasattr(clf, "coef_") else np.full(len(feat_names), np.nan)
    imp = pd.DataFrame({"Feature": feat_names, "Coeficiente": coefs})
    imp["Odds_Ratio"] = np.exp(imp["Coeficiente"])
    imp["Abs"] = np.abs(imp["Coeficiente"])
    return imp.sort_values("Abs", ascending=False)

def regression_importance_from_linear(model: Pipeline, X_train: pd.DataFrame) -> pd.DataFrame:
    preproc = model.named_steps["preprocessor"]
    reg = model.named_steps["regressor"]

    # nomes p√≥s-transforma√ß√£o
    try:
        feat_names = preproc.get_feature_names_out()
    except Exception:
        try:
            num_cols = preproc.transformers_[0][2]
        except Exception:
            num_cols = []
        try:
            cat_cols = preproc.transformers_[1][2]
            ohe = preproc.named_transformers_["cat"].named_steps["onehot"]
            cat_feat = ohe.get_feature_names_out(cat_cols)
        except Exception:
            cat_feat = []
        feat_names = np.array(list(num_cols) + list(cat_feat))

    # N√ÉO refa√ßa fit: o preproc j√° est√° ajustado dentro do pipeline ap√≥s model.fit
    Xtr_trans = preproc.transform(X_train)
    std_x = Xtr_trans.std(axis=0)

    coefs = reg.coef_
    impacto = np.abs(coefs) * std_x

    imp = pd.DataFrame({"Feature": feat_names, "Coef_Linear": coefs, "Impacto_Relativo": impacto})
    imp["AbsCoef"] = np.abs(coefs)
    return imp.sort_values("Impacto_Relativo", ascending=False)

def answer_from_question(pergunta: str, tabela_imp: pd.DataFrame, tarefa: str) -> str:
    p = (pergunta or "").lower()
    if any(k in p for k in ["caracter√≠stica","caracteristicas","feature","vari√°vel","variaveis","importante","import√¢ncia","importancia"]):
        if tarefa == "classificacao":
            top_pos = tabela_imp.sort_values("Coeficiente", ascending=False).head(3)[["Feature","Coeficiente","Odds_Ratio"]]
            top_neg = tabela_imp.sort_values("Coeficiente", ascending=True).head(3)[["Feature","Coeficiente","Odds_Ratio"]]
            return (
                "üîé **Caracter√≠sticas mais associadas √† sobreviv√™ncia**\n\n"
                f"‚¨ÜÔ∏è Aumentam a chance (top 3):\n{top_pos.to_markdown(index=False)}\n\n"
                f"‚¨áÔ∏è Diminuem a chance (top 3):\n{top_neg.to_markdown(index=False)}"
            )
        else:
            top_imp = tabela_imp[["Feature","Coef_Linear","Impacto_Relativo"]].head(5)
            return (
                "üîé **Caracter√≠sticas mais associadas ao alvo (regress√£o)**\n\n"
                f"Top 5 por impacto relativo:\n{top_imp.to_markdown(index=False)}"
            )
    return "Posso analisar **import√¢ncia das vari√°veis** e **m√©tricas**. Tente: *quais caracter√≠sticas s√£o mais importantes?*"

# ========== Fluxo da UI ==========
if not up and not btn:
    st.info("‚¨ÖÔ∏è Envie um CSV (ex.: `train.csv`) e/ou clique em **Rodar** ap√≥s configurar.")
elif btn and not up:
    st.warning("‚ö†Ô∏è Voc√™ clicou em **Rodar**, mas nenhum CSV foi enviado. Anexe um arquivo primeiro.")
elif up:
    # Leitura robusta do CSV enviado
    try:
        # sep=None (engine='python') tenta inferir separador automaticamente
        df = pd.read_csv(up, sep=None, engine="python")
        st.success("‚úÖ Arquivo carregado com sucesso!")
    except Exception as e:
        st.error(f"Erro ao ler CSV: {e}")
        st.stop()

    st.subheader("üëÄ Pr√©-visualiza√ß√£o dos dados")
    st.dataframe(df.head(10), use_container_width=True)

    cols_sug = ["Survived","Pclass","Sex","Age","SibSp","Parch","Fare","Embarked"]
    disp_cols = [c for c in cols_sug if c in df.columns]
    if len(disp_cols) >= 3:
        st.caption("Sugest√£o de colunas (Titanic padr√£o): " + ", ".join(disp_cols))

    if btn:
        if alvo not in df.columns:
            st.error(f"O alvo '{alvo}' n√£o existe no CSV.")
            st.stop()

        # X = todas menos alvo e ids comuns
        drop_candidates = [alvo, "PassengerId", "Name", "Ticket", "Cabin"]
        X_full = df.drop(columns=[c for c in drop_candidates if c in df.columns], errors="ignore")
        y_full = df[alvo]

        # Garantir valores v√°lidos no alvo
        mask_notna = y_full.notna()
        X_full, y_full = X_full[mask_notna], y_full[mask_notna]

        # Defini√ß√£o do pipeline conforme tarefa
        preproc, _, _ = build_preprocessor(X_full)
        if alvo == "Survived":
            if y_full.nunique() < 2:
                st.error("O alvo 'Survived' precisa ter ao menos duas classes (0 e 1) ap√≥s limpeza.")
                st.stop()
            tarefa = "classificacao"
            model = Pipeline(steps=[
                ("preprocessor", preproc),
                ("classifier", LogisticRegression(max_iter=1000))
            ])
            strat = y_full
        else:
            tarefa = "regressao"
            model = Pipeline(steps=[
                ("preprocessor", preproc),
                ("regressor", LinearRegression())
            ])
            strat = None

        try:
            X_train, X_test, y_train, y_test = train_test_split(
                X_full, y_full, test_size=float(test_size), random_state=int(random_state),
                stratify=strat if tarefa=="classificacao" else None
            )
        except ValueError as e:
            st.error(f"Erro ao separar treino/teste: {e}")
            st.stop()

        # Treinar
        model.fit(X_train, y_train)

        # Sa√≠das
        col1, col2 = st.columns(2)
        with col1:
            st.markdown("### üìà Import√¢ncia / Coeficientes")
            if tarefa == "classificacao":
                imp = feature_importance_from_logistic(model)
                st.dataframe(imp[["Feature","Coeficiente","Odds_Ratio","Abs"]].head(20), use_container_width=True)
            else:
                imp = regression_importance_from_linear(model, X_train)
                st.dataframe(imp[["Feature","Coef_Linear","Impacto_Relativo","AbsCoef"]].head(20), use_container_width=True)

        with col2:
            st.markdown("### üìä M√©tricas")
            if tarefa == "classificacao":
                y_pred = model.predict(X_test)
                acc = accuracy_score(y_test, y_pred)
                prec = precision_score(y_test, y_pred, zero_division=0)
                rec = recall_score(y_test, y_pred, zero_division=0)
                f1 = f1_score(y_test, y_pred, zero_division=0)
                cm = confusion_matrix(y_test, y_pred)
                mets = pd.DataFrame({"Acur√°cia":[acc], "Precis√£o":[prec], "Recall":[rec], "F1":[f1]})
                st.dataframe(mets, use_container_width=True)
                st.write("Matriz de Confus√£o:")
                st.dataframe(pd.DataFrame(cm, index=["y=0","y=1"], columns=["≈∑=0","≈∑=1"]))
            else:
                y_pred = model.predict(X_test)
                rmse = mean_squared_error(y_test, y_pred, squared=False)
                st.write(f"RMSE (teste): **{rmse:.4f}**")

        st.markdown("### üí¨ Resposta do Chatbot")
        st.info(answer_from_question(pergunta, imp, tarefa))
        st.success("Pronto! Voc√™ pode ajustar a pergunta, trocar o alvo e reenviar a base.")
'''


In [5]:
import os, sys, time, subprocess, socket
from IPython.display import IFrame, display
from pathlib import Path

app_path = Path("streamlit_app.py").resolve()

def get_free_port(start=8501, end=8599):
    for port in range(start, end+1):
        with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
            if s.connect_ex(("127.0.0.1", port)) != 0:
                return port
    raise RuntimeError("Sem portas livres entre 8501-8599.")

PORT = get_free_port()
url = f"http://127.0.0.1:{PORT}"

cmd = [
    sys.executable, "-m", "streamlit", "run", str(app_path),
    "--server.headless", "true",
    "--server.port", str(PORT),
    "--server.enableCORS", "false",
    "--server.enableXsrfProtection", "false",
    "--browser.gatherUsageStats", "false",
    "--server.fileWatcherType", "none",
]

proc = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)

print(f"Iniciando Streamlit em {url} ...")
time.sleep(4.0)  # pequeno delay para subir
display(IFrame(src=url, width="100%", height=720))


Iniciando Streamlit em http://127.0.0.1:8501 ...


In [6]:
# ============================================================
# C√âLULA 5 ‚Äî Encerrar o servidor (rode quando quiser parar)
# ============================================================
try:
    proc.terminate()
except Exception:
    pass
