# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas

# Modelagem de Dados e Aprendizado de Máquina

Este notebook apresenta uma introdução aos conceitos de Modelagem de Dados e Aprendizado de Máquina - Regressão Linear e Regressão Logística.

## Introdução ao Scikit-learn (sklearn)

[Scikit-learn](https://scikit-learn.org) é uma biblioteca de aprendizado de máquina em Python, que oferece ferramentas para a análise e modelagem de dados.

Com o `sklearn` é possível:

- Treinar modelos supervisionados (classificação, regressão);
- Aplicar modelos não supervisionados (agrupamento, redução de dimensionalidade);
- Avaliar modelos com métricas padronizadas;
- Integrar com Pandas, NumPy e Matplotlib.

### Fluxo típico de uso do sklearn:

1. Preparação dos dados (Pandas/NumPy);
2. Instanciar o modelo (`LinearRegression()`, `LogisticRegression()`, etc.);
3. Treinar com `.fit(X, y)`;
4. Prever com `.predict(X)`;
5. Avaliar com métricas.

## 1. Regressão Linear

A regressão linear é usada para prever uma variável contínua com base em uma ou mais variáveis independentes.

### Equação da regressão:

$$
\hat{y} = \beta_0 + \beta_1 x + \varepsilon
$$

Onde:
- $\hat{y}$: variável alvo (dependente)
- $x$: variável explicativa (independente)
- $\beta_0$: intercepto
- $\beta_1$: coeficiente angular
- $\varepsilon$: erro aleatório

Usaremos um exemplo com dados sintéticos para prever um valor contínuo com `LinearRegression` do `sklearn`.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Gerando dados sintéticos
np.random.seed(9) # Semente fixa para reprodutibilidade

X = 2 * np.random.rand(100, 1) # 100 amostras de uma variável independente
y = 4 + 3 * X + np.random.randn(100, 1) # Variável dependente com ruído

# Criando e treinando o modelo
model = LinearRegression()
model.fit(X, y) # Treinamento do modelo com os dados

# Previsões
y_pred = model.predict(X) # Previsões do modelo para os dados de entrada

# Visualização
plt.scatter(X, y, label="Dados reais")
plt.plot(X, y_pred, color='red', label="Regressão Linear")
plt.title("Exemplo de Regressão Linear")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.show()

### Exemplo Prático

#### Regressão Linear para determinar a relação entre notas e horas estudadas

Adaptado de: https://elisaterumi.substack.com/p/regressao-linear-prevendo-tendencias

Neste exemplo prático, vamos explorar a aplicação da regressão linear simples para analisar a relação entre o número de horas de estudo e as notas em uma prova. O objetivo é construir um modelo que nos permita prever o desempenho dos alunos com base em seu tempo de estudo.

- $x$ (número de horas de estudo) é a variável independente.
- $y$ (nota na prova) é a variável dependente.

Supomos que tenhamos coletado dados de 10 alunos:

| Horas de Estudo ($x$) | Nota na Prova ($y$) |
|----------------------|------------------|
| 2                    | 60               |
| 3                    | 70               |
| 4                    | 75               |
| 5                    | 82               |
| 6                    | 88               |
| 7                    | 90               |
| 8                    | 92               |
| 9                    | 95               |
| 10                   | 98               |
| 11                   | 99               |

Vamos usar um algoritmo de regressão linear para encontrar os valores de $\beta_0$ (intercepto) e $\beta_1$ (inclinação) da linha de regressão. A equação da linha será da forma:

$$
\hat{y} = \beta_0 + \beta_1 x + \varepsilon
$$

O algoritmo de regressão linear calculará os valores ótimos de $\beta_0$ e $\beta_1$ que minimizam a soma dos quadrados das diferenças entre as notas reais e as notas previstas pela linha de regressão. O termo $\varepsilon$ representa o erro aleatório, que é a diferença entre o valor real observado $y$ e o valor previsto pelo modelo $\hat{y}$. 


Após o treinamento do modelo, vamos ter os valores numéricos de $\beta_0$ e $\beta_1$. 

Por exemplo:  
Digamos que, após aplicar o algoritmo, obtivemos $\beta_0$ = 55 e $\beta_1$ = 4. Então a equação da linha de regressão seria: 

<p align="center">
Nota na Prova = 55 + 4 * Horas de Estudo
</p>

Ou seja:  

$$
\hat{y} = 55 + 4 \cdot x
$$


Interpretação:  
- $\beta_0$ (Intercepto): O valor de 55 indica a nota prevista para um aluno que não estudou nenhuma hora. Note que este valor pode não fazer sentido no mundo real e serve apenas como ponto de inicio da reta.  
- $\beta_1$ (Inclinação): O valor de 4 indica que para cada hora adicional de estudo, a nota na prova aumenta em 4 pontos.

Previsões:  
Com a equação da linha de regressão, podemos fazer previsões para qualquer número de horas de estudo. 

Por exemplo:  
- Se um aluno estudou 7 horas, a nota prevista é: `y = 55 + 4 * 7 = 83`.  
- Se um aluno estudou 12 horas, a nota prevista é: `y = 55 + 4 * 12 = 103` (Neste caso, seria preciso avaliar a plausibilidade da previsão, uma vez que ultrapassa a pontuação máxima).

#### Previsões e cálculo do erro

Suponha que um aluno estudou 7 horas:

$$
\hat{y} = 55 + 4 \cdot 7 = 83
$$

Se a nota real do aluno foi 90, então o erro (resíduo) é:

$$
\varepsilon = y - \hat{y} = 90 - 83 = 7
$$

Esse valor representa o quanto o modelo errou para esse aluno específico.

O modelo tenta minimizar esse erro em média, para todos os alunos.

Vamos ver na prática, por meio de código Python:

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Dados de exemplo (a tabela com as horas de estudo e notas)
horas_estudo = np.array([2, 3, 4, 5, 6, 7, 8, 9, 10, 11]).reshape(-1, 1)
notas_prova = np.array([60, 70, 75, 82, 88, 90, 92, 95, 98, 99])

# 1. Criar o modelo de regressão linear
modelo = LinearRegression()

# 2. Treinar o modelo com os dados
modelo.fit(horas_estudo, notas_prova)

# 3. Obter os coeficientes (b0 e b1)
b0 = modelo.intercept_
b1 = modelo.coef_[0]

print(f"Intercepto (b0): {b0:.2f}")
print(f"Inclinação (b1): {b1:.2f}")

# 4. Fazer uma previsão para 7 horas de estudo
horas_teste = np.array([[7]])
nota_prevista = modelo.predict(horas_teste)[0] # Retorna um array, pegamos o primeiro elemento do mesmo
print(f"Nota prevista para 7 horas: {nota_prevista:.2f}")

# 5. Visualizar os resultados (Dados e Linha de Regressão)
plt.scatter(horas_estudo, notas_prova, color='blue', label='Dados de Treinamento')
plt.plot(horas_estudo, modelo.predict(horas_estudo), color='red', label='Linha de Regressão')
plt.scatter(horas_teste, nota_prevista, color='green', marker='x', s=100, label='Previsão')
plt.xlabel('Horas de Estudo (x)')
plt.ylabel('Nota na Prova (y)')
plt.title('Regressão Linear - Horas de Estudo vs. Nota na Prova')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# 6. Cálculo dos resíduos (erros)
notas_previstas = modelo.predict(horas_estudo)
residuos = notas_prova - notas_previstas

# Mostrar os resíduos
for i in range(len(horas_estudo)):
    print(f"Horas: {horas_estudo[i][0]} | Nota real: {notas_prova[i]} | Prevista: {notas_previstas[i]:.2f} | Erro: {residuos[i]:.2f}")

In [None]:
# 7. Visualização dos resíduos
plt.figure(figsize=(8, 5))
plt.scatter(horas_estudo, notas_prova, color='blue', label='Dados de Treinamento')
plt.plot(horas_estudo, notas_previstas, color='red', label='Linha de Regressão')

# Linhas verticais dos resíduos
for x_i, y_real, y_pred in zip(horas_estudo, notas_prova, notas_previstas):
    plt.plot([x_i, x_i], [y_real, y_pred], color='gray', linestyle='--', linewidth=1)

plt.xlabel('Horas de Estudo')
plt.ylabel('Nota na Prova')
plt.title('Regressão Linear com Resíduos')
plt.legend()
plt.grid(True)
plt.show()

## 2. Regressão Logística

A regressão logística é usada para classificação binária, ou seja, quando a variável alvo assume apenas dois valores (0 ou 1).

### Equação da regressão logística:

$$
P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}}
$$

O modelo retorna probabilidades, que podem ser convertidas em classes com um limiar de corte (por padrão 0.5).

Usaremos um exemplo com `LogisticRegression` para prever se um estudante será aprovado (1) ou não (0), com base nas horas de estudo.


In [None]:
from sklearn.linear_model import LogisticRegression

# Gerando dados para classificação binária
X_cls = np.linspace(0, 10, 100).reshape(-1, 1)
y_cls = (X_cls > 5).astype(int).ravel() # Cria rótulos: 0 se x <= 5, 1 se x > 5 (para classificação binária)

# Treinando o modelo
log_model = LogisticRegression()
log_model.fit(X_cls, y_cls) # Treinamento do modelo de regressão logística

# Previsões de probabilidade
y_probs = log_model.predict_proba(X_cls)[:, 1] # Retorna as probabilidades previstas
# A saída de y_probs é um matriz com duas colunas: a primeira coluna representa a probabilidade da classe 0 e a segunda coluna representa a probabilidade da classe 1. Como estamos interessados na probabilidade da classe 1 (aprovação), selecionamos a segunda coluna usando [:, 1]

# Visualização
plt.scatter(X_cls, y_cls, color='green', label='Classes reais')
plt.plot(X_cls, y_probs, color='orange', label='Curva Sigmoide')
plt.axhline(0.5, color='gray', linestyle='--', label='Limiar = 0.5')
plt.title("Exemplo de Regressão Logística")
plt.xlabel("Horas de Estudo")
plt.ylabel("Probabilidade de Aprovação")
plt.legend()
plt.show()

### Exemplo prático

#### Regressão Logística para prever a probabilidade de um aluno obter determinada nota

Adaptado de: https://elisaterumi.substack.com/p/como-funciona-a-regressao-logistica

Vamos continuar com o exemplo que utilizamos anteriormente na regressão linear, que envolve o número de horas de estudo e a nota dos alunos. Porém, em vez de prever diretamente a nota, desta vez vamos usar a Regressão Logística para prever a probabilidade de um aluno tirar uma nota acima de 8.

In [None]:
import numpy as np
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt

# Dados fornecidos no problema
horas_estudo = np.array([2, 3, 4, 5, 6, 7, 8, 9, 10, 11]).reshape(-1, 1)
notas_prova_acima_8 = np.array([0, 0, 0, 1, 1, 1, 1, 1, 1, 1])

# Criar e treinar o modelo de regressão logística
model = LogisticRegression()
model.fit(horas_estudo, notas_prova_acima_8)

# Fazer previsões e calcular a probabilidade para valores no intervalo
x_values = np.linspace(0, 10, 300).reshape(-1, 1) # Valores para ajustar a curva sigmoide
y_prob = model.predict_proba(x_values)[:, 1] # Probabilidade de aprovação (classe 1)

# Visualizar os resultados
plt.scatter(horas_estudo, notas_prova_acima_8, color="red", label="Dados reais")
plt.plot(x_values, y_prob, color="blue", label="Modelo ajustado")
plt.xlabel("Horas de estudo")
plt.ylabel("Probabilidade de nota acima de 8")
plt.title("Regressão Logística - Probabilidade da nota ser acima de 8")
plt.legend()
plt.grid()
plt.show()

In [None]:
# Agora que ajustamos o modelo, podemos fazer previsões para novos estudantes
 
# Previsões para novos alunos com diferentes horas de estudo
novas_horas = np.array([[4], [6], [7.5], [9], [10.5]])

# Classe prevista (0 ou 1)
classes_previstas = model.predict(novas_horas)

# Probabilidade de aprovação (classe 1)
probs_previstas = model.predict_proba(novas_horas)[:, 1]

# Exibir os resultados
print("Horas de Estudo | Classe Prevista | Probabilidade de Aprovação")
for h, c, p in zip(novas_horas.ravel(), classes_previstas, probs_previstas):
    print(f"{h:>15} | {c:^15} | {p:>25.2%}")