[![](images/colab-badge.png)](https://colab.research.google.com/github/fzampirolli/si-md2/blob/main/si-md2/notebooks_alunos/cap01/cap01_aluno.ipynb)


## üß™ Pr√°tica 1 ‚Äî Configurando o Ambiente

Antes de come√ßar a programar, √© boa pr√°tica verificar as vers√µes das
bibliotecas utilizadas. Isso garante reprodutibilidade e facilita a
identifica√ß√£o de problemas.

> üí° **Dica de boas pr√°ticas:** Sempre agrupe todos os `import` no topo
> do notebook ou script. Isso facilita a leitura e a manuten√ß√£o do
> c√≥digo.

In [None]:
# ============================================================
# BLOCO DE IMPORTA√á√ïES ‚Äî sempre no topo!
# ============================================================
import sys
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

# Verifica√ß√£o das vers√µes ‚Äî √∫til para reprodutibilidade
print(f"Python   : {sys.version.split()[0]}")
print(f"Pandas   : {pd.__version__}")
print(f"Matplotlib: {matplotlib.__version__}")
print("\n‚úÖ Ambiente configurado com sucesso!")

## üß™ Pr√°tica 2 ‚Äî Tipos de Dados em Python

Python possui **tipagem din√¢mica**: o tipo da vari√°vel √© inferido
automaticamente. Conhecer os tipos b√°sicos √© essencial para entender
como os dados s√£o representados internamente.

| Tipo     | Exemplo          | Uso comum em dados          |
|----------|------------------|-----------------------------|
| `int`    | `10`             | Contagens, IDs              |
| `float`  | `1.75`           | Medidas cont√≠nuas (altura)  |
| `str`    | `'Ana'`          | Nomes, categorias           |
| `bool`   | `True` / `False` | Flags, condi√ß√µes            |
| `list`   | `[1, 2, 3]`      | Sequ√™ncias ordenadas        |
| `dict`   | `{'a': 1}`       | Dados estruturados (chave-valor) |

In [None]:
# ----------------------------------------------------------
# Vari√°veis e tipos: cada linha demonstra um tipo diferente
# ----------------------------------------------------------
nome      = "Ana"       # str  ‚Äî texto
peso_kg   = 55          # int  ‚Äî inteiro
altura_m  = 1.65        # float ‚Äî ponto flutuante
ativo     = True        # bool ‚Äî booleano

# type() retorna o tipo da vari√°vel
variaveis = {"nome": nome, "peso_kg": peso_kg,
             "altura_m": altura_m, "ativo": ativo}

for chave, valor in variaveis.items():
    print(f"  {chave:<10} = {str(valor):<8}  tipo: {type(valor).__name__}")

# ----------------------------------------------------------
# F-strings: forma moderna e leg√≠vel de formatar strings
# ----------------------------------------------------------
imc = peso_kg / altura_m ** 2
print(f"\nIMC de {nome}: {imc:.2f}  ‚Üê calculado em tempo real na f-string")

## üß™ Pr√°tica 3 ‚Äî Estruturas de Controle

As estruturas de controle (`if/elif/else`, `for`, `while`) permitem
que o programa tome decis√µes e repita opera√ß√µes ‚Äî base de qualquer
algoritmo de Minera√ß√£o de Dados.

> üí° **Boas pr√°ticas:** Prefira `elif` a m√∫ltiplos `if` quando as
> condi√ß√µes s√£o mutuamente exclusivas. Isso √© mais eficiente e leg√≠vel.

In [None]:
# ----------------------------------------------------------
# Fun√ß√£o com type hints e docstring padronizada (PEP 257)
# ----------------------------------------------------------
def classificar_imc(imc: float) -> str:
    """
    Classifica o estado nutricional com base no IMC (OMS).

    Args:
        imc: √çndice de Massa Corporal (kg/m¬≤).

    Returns:
        Classifica√ß√£o como string.
    """
    if imc < 18.5:
        return "Abaixo do peso"
    elif imc < 25.0:
        return "Normal"
    elif imc < 30.0:
        return "Sobrepeso"
    else:
        return "Obesidade"


# ----------------------------------------------------------
# La√ßo for + estrutura de dados (lista de dicion√°rios)
# ----------------------------------------------------------
pacientes = [
    {"nome": "Ana",   "peso_kg": 55, "altura_m": 1.65},
    {"nome": "Bruno", "peso_kg": 95, "altura_m": 1.80},
    {"nome": "Carla", "peso_kg": 68, "altura_m": 1.70},
    {"nome": "David", "peso_kg": 82, "altura_m": 1.75},
]

print(f"{'Nome':<8} {'Peso':>6} {'Altura':>7} {'IMC':>6}  {'Status'}")
print("-" * 45)

for p in pacientes:
    imc    = p["peso_kg"] / p["altura_m"] ** 2
    status = classificar_imc(imc)
    print(f"{p['nome']:<8} {p['peso_kg']:>5}kg {p['altura_m']:>5}m "
          f"{imc:>6.2f}  {status}")

## üß™ Pr√°tica 4 ‚Äî List Comprehensions e Fun√ß√µes de Alta Ordem

**List comprehensions** s√£o uma forma concisa e pyth√¥nica de criar
listas. S√£o amplamente usadas em pipelines de dados.

As fun√ß√µes `map()`, `filter()` e `sorted()` s√£o **fun√ß√µes de alta
ordem**: recebem outras fun√ß√µes como argumento ‚Äî conceito fundamental
em programa√ß√£o funcional e muito usado em ci√™ncia de dados.

In [None]:
# ----------------------------------------------------------
# List comprehension ‚Äî equivale a um la√ßo for + append
# ----------------------------------------------------------
imcs = [p["peso_kg"] / p["altura_m"] ** 2 for p in pacientes]
print("IMCs calculados:", [round(v, 2) for v in imcs])

# ----------------------------------------------------------
# filter() + lambda ‚Äî seleciona elementos com condi√ß√£o
# ----------------------------------------------------------
em_atencao = list(filter(lambda imc: imc >= 25, imcs))
print(f"Casos que merecem aten√ß√£o (IMC ‚â• 25): {len(em_atencao)}")

# ----------------------------------------------------------
# sorted() com key customizada
# ----------------------------------------------------------
ordenados = sorted(pacientes, key=lambda p: p["peso_kg"] / p["altura_m"] ** 2)
print("\nPacientes ordenados por IMC (crescente):")
for p in ordenados:
    imc = p["peso_kg"] / p["altura_m"] ** 2
    print(f"  {p['nome']}: {imc:.2f}")

## üß™ Pr√°tica 5 ‚Äî Pandas: De Dados a Informa√ß√£o

O **Pandas** √© a biblioteca central para manipula√ß√£o de dados em Python.
Sua estrutura principal, o `DataFrame`, equivale a uma tabela relacional
e permite opera√ß√µes vetorizadas (sem la√ßos expl√≠citos), muito mais
eficientes para grandes volumes de dados.

> üí° **Boas pr√°ticas:**
> - Prefira opera√ß√µes vetorizadas (`df['col'].apply(...)`) a la√ßos `for`.
> - Use `df.copy()` ao modificar subconjuntos para evitar avisos de `SettingWithCopyWarning`.
> - Nomeie DataFrames de forma descritiva (`df_pacientes` em vez de apenas `df`).

In [None]:
# ----------------------------------------------------------
# Cria√ß√£o do DataFrame a partir de lista de dicion√°rios
# ----------------------------------------------------------
df_pacientes = pd.DataFrame(pacientes)

# Colunas calculadas ‚Äî opera√ß√£o vetorizada (sem for!)
df_pacientes["imc"]    = df_pacientes["peso_kg"] / df_pacientes["altura_m"] ** 2
df_pacientes["status"] = df_pacientes["imc"].apply(classificar_imc)

# ----------------------------------------------------------
# Explora√ß√£o b√°sica ‚Äî m√©todos essenciais do Pandas
# ----------------------------------------------------------
print("=== DataFrame completo ===")
print(df_pacientes.round(2).to_string(index=False))

print("\n=== Estat√≠sticas descritivas ===")
print(df_pacientes[["peso_kg", "altura_m", "imc"]].describe().round(2))

print("\n=== Filtragem: pacientes com IMC ‚â• 25 ===")
print(df_pacientes[df_pacientes["imc"] >= 25][["nome", "imc", "status"]].to_string(index=False))

## üß™ Pr√°tica 6 ‚Äî Visualiza√ß√£o: Do Dado ao Conhecimento

A visualiza√ß√£o √© a etapa de **p√≥s-processamento** do KDD: transforma
dados e informa√ß√µes em representa√ß√µes visuais que facilitam a
interpreta√ß√£o e a tomada de decis√£o.

> üí° **Boas pr√°ticas de visualiza√ß√£o:**
> - Sempre rotule eixos e adicione t√≠tulo.
> - Use cores com significado sem√¢ntico (vermelho = alerta, verde = ok).
> - Salve figuras com `plt.savefig()` para relat√≥rios.
> - Chame `plt.tight_layout()` para evitar sobreposi√ß√£o de elementos.

In [None]:
# ----------------------------------------------------------
# Mapa de cores sem√¢ntico baseado no status
# ----------------------------------------------------------
mapa_cores = {
    "Abaixo do peso": "#3498db",  # azul
    "Normal":         "#2ecc71",  # verde
    "Sobrepeso":      "#f39c12",  # laranja
    "Obesidade":      "#e74c3c",  # vermelho
}
cores = df_pacientes["status"].map(mapa_cores)

# ----------------------------------------------------------
# Figura com dois subplots: barras + dispers√£o
# ----------------------------------------------------------
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
fig.suptitle("An√°lise de Sa√∫de dos Pacientes ‚Äî Hierarquia DIKW", fontsize=13)

# --- Subplot 1: IMC por paciente (barras) ---
ax1.bar(df_pacientes["nome"], df_pacientes["imc"], color=cores, edgecolor="white")
ax1.axhline(y=25, color="red",    linestyle="--", linewidth=1.2, label="Sobrepeso (25)")
ax1.axhline(y=18.5, color="blue", linestyle=":",  linewidth=1.2, label="Abaixo do peso (18.5)")
ax1.set_title("IMC por Paciente (Informa√ß√£o)")
ax1.set_ylabel("IMC (kg/m¬≤)")
ax1.set_ylim(0, 35)
ax1.legend(fontsize=8)

# Anota o valor em cima de cada barra
for i, (nome, imc) in enumerate(zip(df_pacientes["nome"], df_pacientes["imc"])):
    ax1.text(i, imc + 0.4, f"{imc:.1f}", ha="center", fontsize=9)

# --- Subplot 2: Peso x Altura (dispers√£o) ---
scatter = ax2.scatter(
    df_pacientes["altura_m"],
    df_pacientes["peso_kg"],
    c=df_pacientes["imc"],
    cmap="RdYlGn_r",
    s=200,
    edgecolors="gray",
    zorder=3
)
for _, row in df_pacientes.iterrows():
    ax2.annotate(row["nome"], (row["altura_m"], row["peso_kg"]),
                 textcoords="offset points", xytext=(6, 4), fontsize=9)

plt.colorbar(scatter, ax=ax2, label="IMC")
ax2.set_title("Peso vs. Altura (Conhecimento)")
ax2.set_xlabel("Altura (m)")
ax2.set_ylabel("Peso (kg)")
ax2.grid(True, linestyle="--", alpha=0.4)

plt.tight_layout()
plt.show()

print("""
RELAT√ìRIO ‚Äî Hierarquia DIKW aplicada:
  DADO       ‚Üí peso e altura de cada paciente
  INFORMA√á√ÉO ‚Üí IMC calculado
  CONHECIMENTO ‚Üí classifica√ß√£o e identifica√ß√£o de casos de aten√ß√£o
  SABEDORIA  ‚Üí decis√£o cl√≠nica informada pelo profissional de sa√∫de
""")

## üß™ Pr√°tica 7 ‚Äî Modelagem Preditiva Simples (KDD na Pr√°tica)

Neste exemplo avan√ßado, utilizamos a hierarquia KDD completa:
dados brutos ‚Üí pr√©-processamento ‚Üí "minera√ß√£o" (ajuste de fun√ß√£o)
‚Üí p√≥s-processamento (predi√ß√£o e visualiza√ß√£o).

Modelamos a equa√ß√£o do movimento uniformemente acelerado:

$$d = \frac{1}{2} g \cdot t^2$$

O sistema "descobre" o padr√£o quadr√°tico e usa-o para **prever** a
posi√ß√£o em instantes n√£o observados ‚Äî isso √© **modelagem preditiva**.

In [None]:
import numpy as np

# ----------------------------------------------------------
# 1. DADOS ‚Äî observa√ß√µes brutas (com ru√≠do realista)
# ----------------------------------------------------------
rng  = np.random.default_rng(seed=42)        # semente para reprodutibilidade
g    = 9.8                                    # acelera√ß√£o da gravidade (m/s¬≤)
t_obs = np.linspace(0, 5, 12)                # 12 medi√ß√µes de 0 a 5 s
d_obs = 0.5 * g * t_obs**2 + rng.normal(0, 2, len(t_obs))  # + ru√≠do

# ----------------------------------------------------------
# 2. MINERA√á√ÉO ‚Äî ajuste polinomial de grau 2 (np.polyfit)
# ----------------------------------------------------------
coefs   = np.polyfit(t_obs, d_obs, deg=2)    # encontra os coeficientes
modelo  = np.poly1d(coefs)                   # cria fun√ß√£o polinomial

print("Coeficientes descobertos (ax¬≤ + bx + c):")
print(f"  a = {coefs[0]:.3f}  (esperado ‚âà {0.5*g:.3f} = g/2)")
print(f"  b = {coefs[1]:.3f}  (esperado ‚âà 0)")
print(f"  c = {coefs[2]:.3f}  (esperado ‚âà 0)")

# ----------------------------------------------------------
# 3. PREDI√á√ÉO ‚Äî estima dist√¢ncia para t=6 e t=7 (n√£o observados)
# ----------------------------------------------------------
t_futuro   = np.array([6.0, 7.0])
d_previsto = modelo(t_futuro)
d_real     = 0.5 * g * t_futuro**2

print("\nCapacidade preditiva:")
for t, dp, dr in zip(t_futuro, d_previsto, d_real):
    erro = abs(dp - dr)
    print(f"  t={t:.0f}s ‚Üí previsto={dp:.1f}m | real={dr:.1f}m | erro={erro:.2f}m")

# ----------------------------------------------------------
# 4. VISUALIZA√á√ÉO
# ----------------------------------------------------------
t_curva = np.linspace(0, 7.5, 200)

plt.figure(figsize=(8, 4))
plt.scatter(t_obs, d_obs, color="steelblue", zorder=5, label="Observa√ß√µes (com ru√≠do)")
plt.plot(t_curva, modelo(t_curva), color="tomato", linewidth=2, label="Modelo descoberto")
plt.plot(t_curva, 0.5*g*t_curva**2, color="green", linewidth=1.5,
         linestyle="--", label="Curva real (d = g¬∑t¬≤/2)")
plt.scatter(t_futuro, d_previsto, marker="*", s=200, color="gold",
            edgecolors="black", zorder=6, label="Predi√ß√µes (t=6, 7 s)")
plt.title("KDD Aplicado: Queda Livre ‚Äî Descoberta de Padr√£o e Predi√ß√£o")
plt.xlabel("Tempo (s)")
plt.ylabel("Dist√¢ncia percorrida (m)")
plt.legend(fontsize=8)
plt.grid(True, linestyle="--", alpha=0.4)
plt.tight_layout()
plt.show()

## ü§ñ Uso do NotebookLM como Tutor Complementar

Nesta edi√ß√£o, al√©m dos notebooks interativos no Google Colab,
incentiva-se o uso do **NotebookLM** como ferramenta complementar de
aprendizagem.

<blockquote style="border-left: 4px solid #aaa; padding: 0.5em 1em; margin: 1em 0; background: #f9f9f9;">
<strong>‚ùó üéì Estude com o Tutor Inteligente</strong><br />
<a href="https://notebooklm.google.com/notebook/aca1138a-02aa-4f98-b777-1e25795ca635">üöÄ ACESSAR NOTEBOOKLM: CAP√çTULO 01</a>
</blockquote>


## Lista de Exerc√≠cios

1. **(20%)** Defina com suas pr√≥prias palavras e exemplos o que √© **Dado**,
   **Informa√ß√£o** e **Conhecimento**.

2. **(30%)** Considerando a **defini√ß√£o meramente operacional** de que
   **aprender √© mudar o comportamento com base em sua pr√≥pria experi√™ncia
   de forma a melhorar o desempenho futuro**, justifique se um sapato
   amaciado pode ter aprendido alguma coisa.

3. **(20%)** Qual a diferen√ßa entre **Minera√ß√£o de Dados** e **Recupera√ß√£o
   de Dados *(Data Retrieval)***?

4. **(30%)** Explique com suas pr√≥prias palavras as **principais tarefas da
   Minera√ß√£o de Dados**.

---

### üîß Desafios de Programa√ß√£o (extras)

5. **(F√°cil)** Adicione dois novos pacientes ao dicion√°rio `pacientes` e
   re-execute as c√©lulas. Observe como o DataFrame e os gr√°ficos se
   atualizam automaticamente.

6. **(M√©dio)** Modifique a fun√ß√£o `classificar_imc()` para incluir a
   categoria `"Obesidade Grau II"` (IMC ‚â• 35) conforme a classifica√ß√£o
   completa da OMS.

7. **(Avan√ßado)** No exemplo de queda livre (Pr√°tica 7), experimente
   ajustar um polin√¥mio de grau 1 (`deg=1`) e compare a qualidade do
   modelo com o de grau 2. O que isso diz sobre a escolha do modelo
   correto na Minera√ß√£o de Dados?


## Refer√™ncias do Cap√≠tulo


Este cap√≠tulo baseou-se principalmente em obras de refer√™ncia cl√°ssicas da √°rea:
Forouzan e Mosharraf (2011) para fundamentos de computa√ß√£o; Goldschmidt e Passos (2005), Han e Kamber (2008),
Tan et al. (2009) e Witten e Frank (2005) para minera√ß√£o de dados; Padhy (2010) e Rezende (2005)
para sistemas inteligentes; Russell e Norvig (2004) para intelig√™ncia artificial;
Pinheiro (2008) para intelig√™ncia anal√≠tica e descoberta de conhecimento; e
Lewis et al. (2020) para gera√ß√£o aumentada por recupera√ß√£o (RAG).

FOROUZAN, B.; MOSHARRAF, F. **Fundamentos da Ci√™ncia da Computa√ß√£o**. Cengage Learning, 2011.

GOLDSCHMIDT, R.; PASSOS, E. **Data Mining: Um Guia Pr√°tico**. Elsevier, 2005.

HAN, J.; KAMBER, M. **Data Mining: Concepts and Techniques**. Morgan Kaufmann Publishers, 2008.

LEWIS, Patrick *et al*. **Retrieval-augmented generation for knowledge-intensive nlp tasks**. 2020.

PADHY, N. P. **Artificial Intelligence and Intelligent Systems**. Oxford University Press, 2010.

PINHEIRO, C. A. R. **Intelig√™ncia Anal√≠tica: Minera√ß√£o de Dados e Descoberta de Conhecimento**. Editora Ci√™ncia Moderna Ltda., 2008.

REZENDE, S. O. **Sistemas Inteligentes: Fundamentos e Aplica√ß√µes**. Editora Manole Ltda, 2005.

RUSSELL, S.; NORVIG, P. **Intelig√™ncia Artificial**. Elsevier, 2004.

TAN, P.N.; STEINBACH, M.; KUMAR, V. **Introdu√ß√£o ao Data Mining Minera√ß√£o de Dados**. Editora Ci√™ncia Moderna Ltda., 2009.

WITTEN, I. H.; FRANK, E. **Data Mining: Practical Machine Learning Tools and Techniques**. Morgan Kaufmann Publishers, 2005.