In [2]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Importando bibliotecas necessárias

# Dados de exemplo: área das casas e seus preços
areas = np.array([1400, 1600, 1700, 1875, 1100, 1550, 2350, 2450, 1425, 1700])
precos = np.array([245000, 312000, 279000, 308000, 199000, 219000, 405000, 324000, 319000, 255000])

# Definindo os dados de área das casas e seus respectivos preços

# Dividindo os dados em conjuntos de treinamento, validação e teste
area_treino, area_temp, preco_treino, preco_temp = train_test_split(areas, precos, test_size=0.4, random_state=42)
area_validacao, area_teste, preco_validacao, preco_teste = train_test_split(area_temp, preco_temp, test_size=0.5, random_state=42)

# lembre-se das técnicas de unpack que estudamos
# Dividindo os dados de área e preços em conjuntos de treinamento , validação e teste 
# A divisão é feita usando a função train_test_split da biblioteca sklearn.model_selection

'''
Os parâmetros utilizados na função train_test_split têm os seguintes significados:

areas e precos: São os arrays que contêm as informações das áreas das casas e seus preços.

test_size: É a proporção do conjunto de dados que será destinada ao conjunto de teste. 
No primeiro caso, é definido como 0.4, o que significa que 40% dos dados serão usados para teste. 
No segundo caso, é definido como 0.5, ou seja, 50% dos dados serão usados para validação.

random_state: É uma semente (seed) para a geração de números pseudoaleatórios. 
Isso garante que, ao usar a mesma semente, você obterá a mesma divisão de dados 
toda vez que rodar o código. Isso é útil para reproduzibilidade.

Agora, sobre as variáveis que estão sendo atribuídas:

area_treino: É o conjunto de áreas que será usado para treinar o modelo.
preco_treino: São os preços correspondentes às áreas de treinamento.
area_temp: É uma parte temporária das áreas que será usada para criar os conjuntos de validação e teste.
preco_temp: São os preços correspondentes às áreas temporárias.
area_validacao: É o conjunto de áreas que será usado para validar o modelo.
preco_validacao: São os preços correspondentes às áreas de validação.
area_teste: É o conjunto de áreas que será usado para testar o modelo.
preco_teste: São os preços correspondentes às áreas de teste.

***A ideia geral é usar a função train_test_split duas vezes para criar três conjuntos distintos 
(treinamento, validação e teste) a partir dos dados originais de áreas e preços. 
Isso permite avaliar o desempenho do modelo em diferentes conjuntos de dados 
e garantir que o modelo generalize bem para novos dados.
'''

# Criando o modelo de regressão linear
modelo = LinearRegression()

# Criando uma instância do modelo de regressão linear

# Treinando o modelo com os dados de treinamento
modelo.fit(area_treino.reshape(-1, 1), preco_treino)

# Treinando o modelo de regressão linear usando os dados de área de treinamento e preços de treinamento
# A função reshape é usada para ajustar a forma dos dados de área para uma matriz bidimensional (n_samples, n_features)

# Fazendo previsões nos dados de validação
previsoes_validacao = modelo.predict(area_validacao.reshape(-1, 1))

# Usando o modelo treinado para fazer previsões de preços com base nas áreas de validação

# Calculando o erro médio quadrado e o coeficiente de determinação nos dados de validação
mse_validacao = mean_squared_error(preco_validacao, previsoes_validacao)
r2_validacao = r2_score(preco_validacao, previsoes_validacao)

# Calculando o erro médio quadrado (MSE) e o coeficiente de determinação (R²) para avaliar o desempenho do modelo nas previsões
# Essas métricas estão sendo calculadas usando as funções mean_squared_error e r2_score da biblioteca sklearn.metrics

print(f"Erro Médio Quadrado nos dados de validação: {mse_validacao:.2f}")
print(f"Coeficiente de Determinação nos dados de validação: {r2_validacao:.2f}")

# Imprimindo os resultados do erro médio quadrado e do coeficiente de determinação para avaliar o desempenho do modelo


ModuleNotFoundError: No module named 'sklearn'