### TIPOS DE APREDIZADO DE MAQUINA SUPERVISIONADO e NÃO SUPERVISIONADO

In [None]:
"""
O que é aprendizado de máquina?
Imagine que você está ensinando uma criança a reconhecer frutas.
Você mostra várias maçãs e diz: “Isso é uma maçã.” Depois mostra bananas,
laranjas, etc. Com o tempo, a criança aprende a reconhecer sozinha o que é
uma maçã, mesmo que nunca tenha visto aquela maçã específica antes.
O aprendizado de máquina (ou machine learning) funciona de forma parecida —
é como ensinar um computador a aprender com exemplos em vez de programar tudo
passo a passo. O computador aprende com os dados que você fornece e, com o tempo,
consegue prever o que acontece. Por exemplo, ele pode aprender a reconhecer
um e-mail de spam, a prever o tempo, a identificar pessoas em fotos, a jogar
xadrez, a dirigir um carro, a traduzir textos, a compor músicas, a fazer diagnósticos
médicos, a recomendar filmes, a vencer jogos de tabuleiro, a criar arte, a escrever
textos, a criar novos materiais, a descobrir novos medicamentos, a otimizar
processos industriais, a detectar fraudes, a fazer trading, a personalizar
um site, etc.


Exemplo simples:
Suponha que você queira que o computador descubra se uma fruta é uma maçã ou
uma banana. Em vez de escrever regras como “se for vermelha e redonda, é maçã”,
você mostra várias frutas com suas características (cor, tamanho, formato) e o
nome da fruta.
O computador então analisa os dados e aprende padrões, como:
Frutas vermelhas e redondas costumam ser maçãs,


Frutas amarelas e compridas são, geralmente, bananas.


Depois disso, você pode mostrar uma nova fruta e ele vai tentar adivinhar o que
é com base no que aprendeu antes.



"""

In [None]:
"""
# Modelos de Aprendizado de Máquina - (Algoritmos) - Superviosionados


Principais tipos:
Regressão Linear
Para prever números.
 Ex: Prever o preço de uma casa com base no tamanho.


Regressão Logística
Para classificar em dois grupos (sim ou não).
 Ex: Prever se um e-mail é spam ou não.


Árvores de Decisão
Cria um "fluxograma" com perguntas sim/não para tomar decisões.
 Ex: Prever se um cliente vai cancelar um serviço.


Random Forest


Junta várias árvores de decisão para melhorar a precisão.
 Ex: Diagnóstico médico, detecção de fraudes.


K-Nearest Neighbors (KNN)


Olha os vizinhos mais próximos para decidir.
 Ex: Classificar um animal com base em outros parecidos.


Support Vector Machine (SVM)


Traça uma linha ou plano que separa bem os grupos.
 Ex: Identificar rostos em fotos.

    
"""

In [None]:
# Modelos de Aprendizado de Máquina - (Algoritmos) - Não Superviosionados
'''
Principais tipos:
K-Means


Agrupa os dados em K grupos parecidos entre si.
 Ex: Dividir clientes por perfil de consumo.


Hierarchical Clustering (Agrupamento Hierárquico)


Cria uma "árvore de grupos", começando do geral até o mais específico.
 Ex: Organizar músicas por estilos e subestilos.


DBSCAN


Agrupa pontos que estão "próximos" e ignora pontos isolados.
 Ex: Detectar comportamentos fora do padrão (outliers).


PCA (Análise de Componentes Principais)


Reduz a quantidade de informações, mantendo o essencial.
 Ex: Simplificar dados com muitas colunas.

'''

### Regressão Linear

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

import scipy.stats as stats

In [None]:
'''
O que é Machine Learning?
Antes de falar de regressão linear, precisamos entender machine learning
(aprendizado de máquina).

Imagine que você quer ensinar um computador a prever algo, como o preço de uma
casa com base no tamanho dela. Em vez de dar uma fórmula pronta, você mostra
vários exemplos reais (dados) e o computador aprende sozinho uma forma de fazer
essa previsão.


O que é Regressão Linear?
A regressão linear é um dos algoritmos mais simples e mais importantes do
machine learning. Ela serve para prever um número (um valor contínuo) com base
em um ou mais dados de entrada.
Exemplo:
Você tem um monte de informações como estas:
'''


'''
Aí você pergunta:

"Se eu tiver uma casa com 75m², qual será o preço dela?"

A regressão linear tenta descobrir uma linha reta que melhor se ajusta aos dados
e permite fazer essa previsão.

Como funciona a linha?
A linha da regressão linear tem uma fórmula parecida com a da matemática:

y = a * x + b

x = valor de entrada (ex: tamanho da casa)
y = valor que queremos prever (ex: preço da casa)
a = inclinação da linha (mostra o quanto o preço aumenta para cada m² a mais)
b = onde a linha cruza o eixo y (preço base quando o tamanho é zero)

O algoritmo de regressão linear vai encontrar os valores de "a" e "b" que melhor
fazem essa linha passar perto dos pontos dos seus dados.

Como o computador aprende isso?

Você mostra os dados reais para o computador
(ex: várias casas com tamanhos e preços).
Começa com um chute qualquer para "a" e "b".
Compara os valores previstos com os valores reais e vê o erro.
Ajusta "a" e "b" um pouquinho para tentar diminuir esse erro.
Repete isso várias vezes até encontrar a melhor linha.

Esse processo se chama treinamento.

Visualmente, como fica?

Se você colocar os dados em um gráfico:
No eixo X, o tamanho da casa
No eixo Y, o preço

Cada casa vira um ponto no gráfico.
A regressão linear desenha uma linha que tenta passar o mais próximo
possível desses pontos.

'''

In [None]:
tamanho = [50, 60, 70, 80]

preco = 100000, 120000, 140000, 160000

tamanho = np.array(tamanho).reshape(-1, 1)

'''
np.array(tamanho) transforma a lista em array NumPy, que é o formato que os
modelos aceitam.
.reshape(-1, 1) transforma o array em um formato de matriz com uma coluna,
porque o modelo espera esse formato: uma matriz de entrada. O parâmetro (-1, 1)
serve para dizer ao numpy: Descubra sozinho quantas linhas eu preciso,
desde que tenha 1 coluna
'''


modelo  = LinearRegression()
modelo.fit(tamanho, preco)

'''
LinearRegression(): cria um modelo de regressão linear (reta).
.fit(tamanho, preco): o modelo aprende a relação entre o tamanho da casa e o
preço. Ou seja, ele ajusta uma linha que tenta passar o mais perto possível dos
pontos dados.
'''

tamanho_para_plotar = np.linspace(tamanho.min(), tamanho.max(), 100).reshape(-1, 1)
preco_previsto = modelo.predict(tamanho_para_plotar)


'''
np.linspace(...): cria 100 valores entre o menor e o maior tamanho da casa.
Isso serve para desenhar a linha da regressão com suavidade no gráfico.

modelo.predict(...): o modelo prevê os preços para esses 100 tamanhos — ou seja,
gera os pontos da linha vermelha do gráfico.
'''

# Plotando
plt.figure(figsize=(10, 6))
plt.scatter(tamanho, preco, color='blue', label='Casas (dados reais)')
plt.plot(tamanho_para_plotar, preco_previsto, color='red', linewidth=2, label='Linha de regressão')
plt.xlabel('Tamanho da casa (m²)')
plt.ylabel('Preço da casa (R$)')
plt.title('Regressão Linear: Preço vs. Tamanho da Casa')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
'''
Considerando uma base com dados sobre investimento em propaganda e vendas
repita o processo feito anteriormente
propaganda = [1, 2, 3, 4, 5]
vendas = [1, 2, 4, 5, 8]
'''

In [None]:
propaganda = [1, 2, 3, 4, 5]
vendas = [1, 2, 4, 5, 8]

propaganda = np.array(propaganda).reshape(-1, 1)
vendas = np.array(vendas).reshape(-1, 1)

modelo = LinearRegression()
modelo.fit(propaganda, vendas)

propaganda_para_plotar = np.linspace(propaganda.min(), propaganda.max(), 100).reshape(-1, 1)
vendas_previstas = modelo.predict(propaganda_para_plotar)

plt.figure(figsize=(10, 6))
plt.scatter(propaganda, vendas, color='blue', label='Casas (dados reais)')
plt.plot(propaganda_para_plotar, vendas_previstas, color='red', linewidth=2, label='Linha de regressão')
plt.xlabel('Propaganda da Casa ')
plt.ylabel('Vendas das casas ')
plt.title('Regressão Linear: Propaganda vs. Vendas')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# Coeficiente de resposta do modelo

print('Coeficiente de resposta do modelo:', modelo.coef_)
print('Intercepto do modelo:', modelo.intercept_)

print(modelo.score(propaganda, vendas))

In [None]:
import statsmodels.api as sm
x = np.array(propaganda)
x = sm.add_constant(x)
y = np.array(vendas)


modelo_stats = sm.OLS(y, x).fit()

print(modelo_stats.summary())

In [None]:
# Interpretação

# Medidas Gerais
'''
Dep. Variable: y ----------- A variável que você está tentando prever
(no seu caso, as vendas)

Model: OLS ----------------- Tipo de modelo: OLS = Regressão Linear
(Mínimos Quadrados Ordinários)

Method: Least Squares ------ 	Método usado para ajustar a reta
(mínimos quadrados)

Date / Time ----------------- Quando o modelo foi rodado

No. Observations: 5 --------- Quantidade dados (linhas)

Df Residuals: 3 ------------- Graus de liberdade dos resíduos = 5 - 2
(coef. const + x1) = 3

Df Model: 1 ----------------- Quantidade de variáveis independentes
(x1 = propaganda)
'''
# Qualidade do modelo
'''
R-squared: 0.963 ------------ O modelo explica 96,3% da variação nas vendas

Adj. R-squared: 0.951 ------- Mesmo que o R², mas ajustado para o número de variáveis

F-statistic: 78.82 ---------- Mede a significância geral do modelo

Prob (F-statistic): 0.003 --- Valor muito pequeno → modelo é estatisticamente
significativo
Ele responde à pergunta:
"Existe uma relação real entre as variáveis independentes (ex: propaganda) e a
variável dependente (ex: vendas)? Ou os resultados são só sorte/aleatoriedade?"
Um valor muito alto, o que indica que o modelo é significativo. Significa que a
variável x1 (propaganda) realmente tem impacto nas vendas.
Isso é reforçado pela linha Prob (F-statistic): 0.003
F-statistic = 78.82	O modelo se ajusta muito bem aos dados. É fortemente significativo
Prob (F-statistic) = 0.003	O modelo não é resultado do acaso. Pode confiar!

'''
# Coeficientes da equação
'''
y = a + b * x
ou
vendas = -1.10 + 1.70 * propaganda

coef --------------------- Valor do coeficiente

std err ------------------ Erro padrão (variação esperada do coeficiente)

t ------------------------ Estatística t (teste se o coef. é diferente de zero)

[0.025, 0.975] ----------- Intervalo de confiança de 95% (margem de erro)

Linha: const = -1.1000
Intercepto da reta. Se não houver propaganda (x=0), o modelo prevê vendas = -1,10.
Esse valor não tem muito sentido real (vendas negativas), mas tudo bem.
p-valor = 0.182 → não é estatisticamente significativo (acima de 0.05).

Linha: x1 = 1.7000
Coeficiente da variável propaganda.
Cada unidade a mais de propaganda aumenta as vendas em 1,70 unidades.
p-valor = 0.003 → é estatisticamente significativo
'''
# TESTES E ESTATÍSTICAS DOS ERROS
'''
Omnibus, Prob(Omnibus) ---- Testa se os erros têm distribuição normal
(não calculado porque são só 5 dados)

Durbin-Watson: 2.509 ------ Mede autocorrelação dos resíduos
(entre 1.5 e 2.5 = aceitável)

Jarque-Bera (JB): 0.396 --- Outro teste de normalidade dos resíduos

Prob(JB): 0.821 ----------- Como é > 0.05, os erros parecem normalmente
distribuídos

Skew: -0.174 -------------- Assimetria dos erros (próximo de 0 é bom)

Kurtosis: 1.667 ----------- Achatamento da curva dos erros
(ideal ≈ 3, mas 1.6 está ok para amostras pequenas)

Cond. No.: 8.37 ----------- Verifica possíveis problemas numéricos
(colinearidade). Abaixo de 30 está ok
'''

In [None]:
'''
Exercício:
Encontre um potencial problema de regressão linear simples, execute o modelo
e interprete a parti dos corficientes, se o ajuste linear foi bom ou não
'''



# REGRESSÂO MULTIPLA

In [None]:
'''
Quando estamos tentando estimar y a partir de mais de uma variável independente,
estamos lidando com o que chamamos de Regressão Linear Múltipla

Vamos entender passo a passo:
Na regressão linear simples, temos uma variável independente
(ex: o tamanho da casa).

Fórmula da regressão linear simples:
y = a * x + b

Mas na regressão linear múltipla, temos duas ou mais variáveis independentes
(ex: tamanho da casa e número de quartos e localização).

Exemplo prático:
Vamos imaginar uma planilha com dados sobre casas:
'''

'''
Agora queremos prever o preço da casa (y) com base em:
* Tamanho da casa
* Número de quartos
* Distância do centro da cidade

Como fica a fórmula?
A fórmula da regressão linear múltipla é parecida, mas com mais variáveis:
y = a1 * x1 + a2 * x2 + a3 * x3 + ... + an * xn + b

Onde:
* x1, x2, ..., xn são as variáveis independentes (entrada)
* a1, a2, ..., an são os pesos ou coeficientes aprendidos pelo modelo
* b é o intercepto (quanto vale y quando todas as variáveis forem zero)

No nosso exemplo:

Preço = a1 * Tamanho + a2 * Quartos + a3 * Distância + b

Como o computador aprende os valores de a1, a2, a3 e b?
Você fornece os dados (com entradas e saídas).

O algoritmo começa com valores aleatórios para os coeficientes.
Calcula os preços previstos com esses valores.
Compara os valores previstos com os reais
(usa uma medida de erro, como o erro quadrático médio).
Ajusta os coeficientes para diminuir o erro.
Repete até encontrar os melhores valores possíveis.

Esse processo também é chamado de treinamento.

Visualmente falando...
Com uma variável: a relação é uma linha (2D).

Com duas variáveis: a relação vira um plano (3D).

Com mais de duas: vira um hiperplano
(difícil de imaginar, mas o conceito é o mesmo).

Exemplo simples em linguagem natural:
Se o preço da casa depende de tamanho, número de quartos e distância, então o
modelo vai aprender quanto cada fator influencia no preço.

Por exemplo:
Y = a1 * x1 + a2 * x2 +  a3 + x3 + b
Preço = 1500 * Tamanho + 20000 * Quartos - 10000 * Distância + 50000

Cada metro quadrado adiciona R$1.500
Cada quarto adiciona R$20.000
Cada km de distância tira R$10.000
E o valor base (intercepto) é R$50.000

'''

### Cuidados essenciais ao Regresão Linear

In [None]:
'''
1. Relação linear entre as variáveis
A regressão linear só funciona bem quando há uma relação linear entre as
variáveis.

✅ O que é isso?
Se você fizer um gráfico da variável x com a y, os pontos devem formar mais ou
menos uma linha reta (no caso simples), ou um padrão que possa ser ajustado por
um plano (no caso múltiplo).

❌ Se a relação for curva (ex: parabólica, exponencial), a regressão linear vai
errar muito.
👉 Dica: Use gráficos de dispersão ou matriz de correlação para verificar se a
relação é linear.
'''

In [None]:
'''
2. Ausência de multicolinearidade (no caso da múltipla)
Multicolinearidade acontece quando duas ou mais variáveis independentes são
muito parecidas entre si.

❌ Problema:
O modelo "se confunde" e não sabe qual variável está de fato influenciando o
resultado.

🛠 Como detectar:
Use a correlação entre variáveis ou métricas como o VIF
(Variance Inflation Factor).

'''

In [None]:
'''
3. Homoscedasticidade (variância constante dos erros)
Os erros (diferença entre valor previsto e real) devem ter distribuição parecida
ao longo de todos os valores de x.

❌ Se os erros aumentam ou diminuem com x, o modelo está com problema
(heteroscedasticidade).
🛠 Dica:
Faça um gráfico de resíduos (erros) vs. valores previstos. Eles devem parecer
aleatórios, sem padrão.

'''

In [None]:
'''
4. Erros devem ser normalmente distribuídos
Isso é importante principalmente quando usamos regressão para inferência
estatística (como p-valores ou intervalos de confiança).

🛠 Dica:
Faça um histograma ou gráfico Q-Q dos resíduos (erros). Eles devem parecer uma
distribuição normal (curva de sino).
'''

In [None]:
'''
5. Ausência de outliers extremos
Outliers são valores muito diferentes dos outros, e podem puxar a linha da
regressão para o lado errado.

🛠 Dica:
Use gráficos de dispersão ou boxplots para detectar outliers. Se forem erros ou
exceções, você pode:
* Remover
* Corrigir
* Transformar os dados

'''

In [None]:
'''
6. Variáveis na mesma escala
Se você tiver variáveis com escalas muito diferentes
(ex: tamanho em m² e preço em milhões), isso pode atrapalhar o aprendizado do
modelo.

🛠 Dica:
Use padronização ou normalização (com StandardScaler, por exemplo).
'''

In [None]:
'''
7. Quantidade de dados suficiente
Se você tiver poucos dados, o modelo pode se ajustar demais (overfitting) ou
não aprender nada.

🛠 Dica:
Tente ter uma base de dados com amostras representativas e diversas.
'''

In [None]:
'''
8. Separar dados de treino e teste
Nunca treine e teste o modelo com os mesmos dados.

✅ Correto:
Separe os dados em conjunto de treino e teste
(por exemplo, 80% para treino, 20% para teste).

Assim você testa o desempenho real do modelo em dados novos.

'''

In [None]:
'''
10. Não usar variáveis irrelevantes
Variáveis que não têm relação com y só atrapalham o modelo.

🛠 Dica:
Use análise de correlação, seleção de atributos (feature selection) ou
algoritmos de importância de variáveis para identificar o que deve ou não
entrar no modelo.
'''

## EXEMPLO


In [None]:
# Exemplo
'''
Objetivo geral do código:
Queremos usar regressão linear múltipla para prever o preço de uma casa com base em:

Tamanho da casa (tamanho_m2)

Número de quartos (quartos)

Distância até o centro (distancia_centro)

E ao mesmo tempo, verificar se o modelo é confiável, passando por 10 testes importantes.
'''

# 0. Importando bibliotecas
'''
📌 Explicação:

* pandas e numpy: para criar e manipular tabelas e números.
* matplotlib.pyplot e seaborn: para criar gráficos bonitos e informativos.
* scikit-learn (sklearn): para criar o modelo de regressão e avaliar a qualidade
  dele.
* statsmodels e scipy: para fazer testes estatísticos mais avançados
  (ex: normalidade dos erros, multicolinearidade).
'''

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler

import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
from scipy import stats

In [None]:
# 1.1 Gerando dados artificiais com relação linear
'''
Explicação:

* Cria uma base fictícia de 200 casas com valores realistas.
* np.random.normal() gera números parecidos com uma média
  (ex: tamanho médio = 70 m²).
* Calcula o preço com base na fórmula da regressão linear.
* Adiciona um pouco de "erro" (+ np.random.normal(...)) para simular erros reais
'''

np.random.seed(42)
df = pd.DataFrame({
    'tamanho_m2': np.random.normal(70, 10, 200),
    'quartos': np.random.randint(1, 5, 200),
    'distancia_centro': np.random.normal(5, 2, 200)
})
df['preco'] = 50000 + 1500 * df['tamanho_m2'] + 20000 * df['quartos'] - 10000 * df['distancia_centro'] + np.random.normal(0, 10000, 200)

In [None]:
df.head()

In [None]:
# Verificando multicolinearidade (correlação + VIF)
# 2.1 Matriz de correlação
'''
📌 Explicação:
Este gráfico mostra a correlação entre as variáveis.
Correlação alta entre variáveis independentes (ex: tamanho e quartos) pode
indicar problemas de multicolinearidade.
'''
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title("Matriz de Correlação")
plt.show()


# 2.2 Calculando VIF (Variance Inflation Factor)
'''
📌 Explicação:

O VIF (Variance Inflation Factor) mede quanto uma variável está relacionada com
as outras.
Valores de VIF:
Abaixo de 5: tranquilo
Acima de 5: possível alerta
Acima de 10: grave
'''
X_vif = df[['tamanho_m2', 'quartos', 'distancia_centro']]
X_vif = sm.add_constant(X_vif)

vif = pd.DataFrame()
vif["Variável"] = X_vif.columns
vif["VIF"] = [variance_inflation_factor(X_vif.values, i) for i in range(X_vif.shape[1])]

print("VIF (quanto maior, mais colinearidade):\n", vif)

In [None]:
# Verificando homoscedasticidade dos erros
# 3.1 Separando X e y
'''
Explicação:
X = entradas (variáveis independentes), y = saída (preço).
'''
X = df[['tamanho_m2', 'quartos', 'distancia_centro']]
y = df['preco']

# 3.2 Padronizando variáveis
'''
StandardScaler padroniza as variáveis para que fiquem na mesma escala.
'''
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3.3 Separando em treino e teste
'''
Explicação:
Separa os dados:
80% para treinar o modelo
20% para testar depois
'''
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 3.4 Treinando o modelo
'''
Explicação:
Cria e treina o modelo de regressão.
'''
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# 3.5 Previsão
'''
y_pred são os valores previstos.
residuos é o erro: diferença entre valor real e o previsto.
'''
y_pred = modelo.predict(X_test)
residuos = y_test - y_pred

# 3.6 Plotando resíduos vs valores previstos
'''
Explicação:
Este gráfico mostra se os erros são distribuídos de forma uniforme.
Se formarem um "padrão", algo está errado. Se parecerem espalhados
aleatoriamente, está tudo bem!
'''
plt.figure(figsize=(10, 5))
sns.scatterplot(x=y_pred, y=residuos)
plt.axhline(0, color='red', linestyle='--')
plt.title("Resíduos vs Valores Previstos (deve parecer aleatório)")
plt.xlabel("Valores previstos")
plt.ylabel("Resíduos")
plt.show()

In [None]:
# Verificar se os erros são normais (forma de sino)


plt.hist(residuos, bins=20)
plt.title("Distribuição dos Resíduos")
plt.show()

sm.qqplot(residuos, line='s')
plt.title("Q-Q Plot dos Resíduos")
plt.show()

In [None]:
# # Verificar se os erros são normais (forma de sino)
# Histograma
'''
Explicação:
O histograma e o gráfico Q-Q servem para verificar se os erros seguem uma
distribuição normal (curva de sino).
Isso é importante em modelos estatísticos!
'''
plt.hist(residuos, bins=20, edgecolor='k')
plt.title("Distribuição dos Resíduos")
plt.xlabel("Erro")
plt.ylabel("Frequência")
plt.show()

# Q-Q Plot
'''
Explicação:

O histograma e o gráfico Q-Q servem para verificar se os erros seguem uma
distribuição normal (curva de sino).
Isso é importante em modelos estatísticos!
'''
sm.qqplot(residuos, line='s')
plt.title("Q-Q Plot dos Resíduos")
plt.show()

# 4.3 Teste de Shapiro-Wilk
'''
Explicação:
O teste de Shapiro-Wilk testa a normalidade dos erros.
Se o p-valor for maior que 0.05, os resíduos são normalmente distribuídos. ✅
'''
shapiro = stats.shapiro(residuos)
print(f"Shapiro-Wilk p-valor: {shapiro.pvalue:.4f} (ideal > 0.05 para normalidade)")


In [None]:
#  Verificando outliers com boxplot
# Boxplots
'''
Explicação:
Os boxplots mostram valores fora do padrão (outliers).
Um ou outro outlier é normal, mas muitos podem prejudicar o modelo.
'''
for coluna in X.columns:
    sns.boxplot(data=df, x=coluna)
    plt.title(f"Boxplot de {coluna} (verificar outliers)")
    plt.show()

In [None]:
# Verificar se temos dados suficientes
'''
Explicação:
Em geral, é bom ter pelo menos 10x mais linhas do que variáveis
(ex: 3 variáveis → mínimo 50 registros). Temos 200, então está ótimo.
'''
print("Quantidade de registros:", len(df))

In [None]:
# Avaliar o modelo com métricas adequadas
'''
Explicação:
MAE: Erro médio absoluto Quanto menor melhor
MSE: Erro médio quadrado (penaliza mais os erros grandes) Quanto menor melhor
RMSE: Raiz do erro quadrado (em R$) Quanto menor melhor
R²: Mostra o quanto o modelo explica dos dados (1 = perfeito)
Escala do R²:
1.00 = modelo perfeito (acertou tudo)
0.00 = modelo inútil (não explica nada)
< 0.00 = pior que a média dos dados (modelo ruim mesmo!)
'''
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)
media_preco = df['preco'].mean()
print(f"Média dos preços das casas: R$ {media_preco:.2f}")
print("\nMétricas do modelo:")
print(f"MAE: {mae:.2f}")
print(f"MSE: {mse:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R²: {r2:.4f}")

In [None]:
# Verificar variáveis irrelevantes
'''
Explicação:
Vê o quanto cada variável tem relação com o preço.
Se a correlação for quase zero, talvez essa variável nem devesse estar no modelo.
'''
print(df.corr()['preco'].drop('preco'))