## Modelos Supervisionados

Modelos **supervisionados** s√£o um tipo de t√©cnica de machine learning em que o algoritmo aprende a partir de dados **rotulados**, ou seja, cada exemplo de treinamento possui **entradas** (atributos) e uma **sa√≠da** conhecida (r√≥tulo).

Durante o treinamento, o modelo tenta identificar **padr√µes** que relacionem as entradas com as sa√≠das corretas, ajustando seus par√¢metros para **minimizar o erro** entre as previs√µes feitas e os valores reais. Esse processo permite que o modelo ‚Äúaprenda‚Äù como responder corretamente a novos dados semelhantes aos que ele j√° viu.

Esse tipo de aprendizado √© utilizado em problemas de **classifica√ß√£o** e **regress√£o**. Na classifica√ß√£o, o objetivo √© prever categorias discretas, como identificar se um e-mail √© spam ou n√£o. J√° na regress√£o, o foco √© prever valores cont√≠nuos, como o pre√ßo de uma casa ou a temperatura futura.

Alguns tipos b√°sicos s√£o:
- Regress√£o Linear
- Regress√£o Logistica
- KNN

---

### Regress√£o Linear

Regress√£o Linear √© um modelo de aprendizado supervisionado utilizado para prever valores num√©ricos cont√≠nuos. Trata-se de um m√©todo simples e interpret√°vel.

Seu objetivo √© modelar a rela√ß√£o entre as vari√°veis de entrada (X) e a vari√°vel alvo (y) por meio de uma fun√ß√£o linear, ajustando uma reta que melhor se adequa aos dados observados.

A forma b√°sica do modelo, com uma √∫nica vari√°vel explicativa, √© dada por:
$$
y=Œ≤0‚Äã+Œ≤1‚Äãx
$$

Quando h√° m√∫ltiplas vari√°veis de entrada, o modelo assume a forma:
$$
y=Œ≤0‚Äã+Œ≤1‚Äãx1‚Äã+Œ≤2‚Äãx2‚Äã+‚ãØ+Œ≤n‚Äãxn‚Äã
$$

Onde:
- Œ≤1, Œ≤2, ... Œ≤n representam os coeficientes angulares, que indicam a influ√™ncia (tend√™ncia linear) de cada vari√°vel de entrada sobre a sa√≠da;
- Œ≤0 √© o √© o intercepto, correspondendo ao valor base de ùë¶ quando todas as vari√°veis ùë• s√£o iguais a zero.

In [30]:
import numpy as np
from sklearn.datasets import fetch_california_housing

data = fetch_california_housing()

X = data.data[:, np.newaxis, 0]  # MedInc (renda m√©dia)
y = data.target                  # Valor das Casas

Utilizando o dataset **california_housing** podemos buscar a rela√ß√£o de **Renda M√©dia x Valor das Casas**

In [31]:
X[:10]

array([[8.3252],
       [8.3014],
       [7.2574],
       [5.6431],
       [3.8462],
       [4.0368],
       [3.6591],
       [3.12  ],
       [2.0804],
       [3.6912]])

In [32]:
y[:10]

array([4.526, 3.585, 3.521, 3.413, 3.422, 2.697, 2.992, 2.414, 2.267,
       2.611])

In [40]:
""" Separar o conjunto em treinamento e teste """

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [None]:
""" Treinar o modelo """

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

O termo **supervisionado** se refere ao uso de dados **rotulados**, ou seja, exemplos em que os valores de entrada (X) e as sa√≠das (y) j√° s√£o conhecidas, permitindo que o modelo aprenda essa rela√ß√£o e a utilize para prever resultados para novos dados de entrada.

In [42]:
y_pred[:10]

array([1.14958917, 1.50606882, 1.90393718, 2.85059383, 2.00663318,
       2.42165249, 2.57647226, 1.99229181, 2.45893168, 3.84677436])

**y_pred** corresponde aos valores previstos com base no **X_test**.

In [41]:
""" Exibir os resultados do modelo """

import numpy as np
import plotly.graph_objects as go

# Ordenar valores para desenhar a reta corretamente
idx = np.argsort(X_test.flatten())
X_sorted = X_test.flatten()[idx]
y_pred_sorted = y_pred.flatten()[idx]

# Gr√°fico interativo
fig = go.Figure()

# Pontos reais
fig.add_trace(go.Scatter(
    x=X_test.flatten(),
    y=y_test,
    mode="markers",
    name="Dados reais",
    marker=dict(color="blue", opacity=0.5)
))

# Reta da regress√£o
fig.add_trace(go.Scatter(
    x=X_sorted,
    y=y_pred_sorted,
    mode="lines",
    name="Regress√£o Linear",
    line=dict(color="red", width=3)
))

# Layout
fig.update_layout(
    title="Regress√£o Linear - California Housing",
    xaxis_title="Renda m√©dia",
    yaxis_title="Valor m√©dio das casas",
    template="plotly_white"
)

fig.show()

O modelo indica uma rela√ß√£o **linear positiva**: regi√µes com maior renda m√©dia tendem a apresentar valores m√©dios de casas mais elevados.

Sendo que a invers√£o desse resultado seria:  
- **linear negativa**: onde quanto maior a renda, menor seria o valor m√©dio das casas.

In [None]:
""" Avaliar o desempenho do modelo """

from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_test, y_pred)
print("Erro Quadr√°tico M√©dio (MSE):", mse)

Erro Quadr√°tico M√©dio (MSE): 0.7091157771765549


**MSE** mede o **erro m√©dio** das previs√µes do modelo, calculando a diferen√ßa entre **y_test** do **y_pred**, sendo:  

- Quanto menor o MSE, melhor o modelo.
- MSE = 0 -> previs√µes perfeitas.

In [None]:
""" Avaliar o desempenho do modelo """

from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_test, y_pred)
print("Erro Absoluto M√©dio (MAE):", mae)

Erro Absoluto M√©dio (MAE): 0.629908653009376


Mostra o erro m√©dio e menos sens√≠vel a outliers.

In [49]:
""" Avaliar o desempenho do modelo """

from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print("Coeficiente de Determina√ß√£o (R¬≤):", r2)

Coeficiente de Determina√ß√£o (R¬≤): 0.45885918903846656


Mostra quanto da variabilidade dos dados o modelo explica, sendo:

- R¬≤ = 1 -> perfeito
- R¬≤ = 0 -> igual a prever a m√©dia
- R¬≤ < 0 -> pior que o baseline

### Regress√£o Logistica

In [35]:
pass

### KNN

In [36]:
pass

### Conclus√£o

In [None]:
pass