# Predição de Preços de Casas usando Regressão Linear com Sklearn

Neste notebook, vamos explorar como usar a biblioteca sklearn para criar um modelo de Regressão Linear para prever preços de casas. Usaremos o conjunto de dados fornecido e seguiremos as etapas típicas de um projeto de machine learning:

1. Carregamento e Exploração dos Dados
2. Pré-processamento dos Dados
3. Divisão dos Dados em Conjuntos de Treino e Teste
4. Criação e Treinamento do Modelo
5. Avaliação do Modelo
6. Visualização dos Resultados

Vamos começar importando as bibliotecas necessárias.

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# print(plt.style.available)
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Configurações para melhorar a visualização dos gráficos
plt.style.use('seaborn')
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 14

OSError: 'seaborn' is not a valid package style, path of style file, URL of style file, or library style name (library styles are listed in `style.available`)

## 1. Carregamento e Exploração dos Dados

Nesta seção, vamos carregar o conjunto de dados e fazer uma exploração inicial para entender melhor suas características.

### 1.1 Carregamento dos Dados

In [1]:
# Carregando os dados
df = pd.read_csv('Housing.csv')

# Exibindo as primeiras linhas do DataFrame
print(df.head())

# Informações sobre o DataFrame
print(df.info())

NameError: name 'pd' is not defined

### 1.2 Análise Exploratória dos Dados

Vamos explorar algumas características importantes dos nossos dados.

In [None]:
# Estatísticas descritivas
print(df.describe())

# Verificando valores ausentes
print(df.isnull().sum())

# Visualizando a distribuição da variável alvo (price)
plt.figure(figsize=(10, 6))
sns.histplot(df['price'], kde=True)
plt.title('Distribuição dos Preços das Casas')
plt.xlabel('Preço')
plt.ylabel('Frequência')
plt.show()

# Matriz de correlação
corr_matrix = df.corr()
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Matriz de Correlação')
plt.show()

## 2. Pré-processamento dos Dados

Nesta etapa, vamos preparar nossos dados para o treinamento do modelo. Isso inclui:
- Tratamento de variáveis categóricas
- Normalização das variáveis numéricas
- Separação das features (X) e da variável alvo (y)

In [None]:
# Separando features e variável alvo
X = df.drop('price', axis=1)
y = df['price']

# Tratamento de variáveis categóricas
X = pd.get_dummies(X, drop_first=True)

# Normalização das variáveis numéricas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print("Shape of X:", X_scaled.shape)
print("Shape of y:", y.shape)

## 3. Divisão dos Dados em Conjuntos de Treino e Teste

Agora, vamos dividir nossos dados em conjuntos de treino e teste. Isso nos permitirá avaliar o desempenho do nosso modelo em dados não vistos durante o treinamento.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

print("Shape of X_train:", X_train.shape)
print("Shape of X_test:", X_test.shape)
print("Shape of y_train:", y_train.shape)
print("Shape of y_test:", y_test.shape)

## 4. Criação e Treinamento do Modelo

Aqui, vamos criar nosso modelo de Regressão Linear usando o sklearn e treiná-lo com nossos dados de treino.

In [None]:
# Criando o modelo
model = LinearRegression()

# Treinando o modelo
model.fit(X_train, y_train)

print("Modelo treinado com sucesso!")

## 5. Avaliação do Modelo

Agora que nosso modelo está treinado, vamos avaliá-lo usando diferentes métricas.

In [None]:
# Fazendo previsões
y_pred = model.predict(X_test)

# Calculando métricas
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100

print(f'Mean Squared Error (MSE): {mse:.2f}')
print(f'Root Mean Squared Error (RMSE): {rmse:.2f}')
print(f'Mean Absolute Error (MAE): {mae:.2f}')
print(f'R-squared (R2) Score: {r2:.4f}')
print(f'Mean Absolute Percentage Error (MAPE): {mape:.2f}%')

## 6. Visualização dos Resultados

Por fim, vamos visualizar os resultados do nosso modelo para ter uma melhor compreensão do seu desempenho.

In [None]:
# Gráfico de dispersão: Valores reais vs. Valores previstos
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('Preços Reais')
plt.ylabel('Preços Previstos')
plt.title('Preços Reais vs. Preços Previstos')
plt.show()

# Gráfico de resíduos
residuals = y_test - y_pred
plt.figure(figsize=(10, 6))
plt.scatter(y_pred, residuals, alpha=0.5)
plt.hlines(y=0, xmin=y_pred.min(), xmax=y_pred.max(), colors='r', linestyles='--')
plt.xlabel('Preços Previstos')
plt.ylabel('Resíduos')
plt.title('Gráfico de Resíduos')
plt.show()

# Importância das features
feature_importance = pd.DataFrame({'feature': X.columns, 'importance': abs(model.coef_)})
feature_importance = feature_importance.sort_values('importance', ascending=False).head(10)

plt.figure(figsize=(10, 6))
sns.barplot(x='importance', y='feature', data=feature_importance)
plt.title('Top 10 Features Mais Importantes')
plt.xlabel('Importância')
plt.ylabel('Feature')
plt.show()

## Conclusão

Neste notebook, exploramos o processo completo de criação de um modelo de Regressão Linear para prever preços de casas usando o sklearn. Começamos com a análise exploratória dos dados, passamos pelo pré-processamento, treinamento do modelo e finalizamos com a avaliação e visualização dos resultados.

Algumas observações importantes:
1. O R-squared nos dá uma ideia de quão bem nosso modelo se ajusta aos dados. Um valor mais próximo de 1 indica um melhor ajuste.
2. O RMSE e MAE nos dão uma ideia do erro médio de nossas previsões na mesma unidade da variável alvo (preço).
3. O MAPE nos dá uma ideia do erro percentual médio de nossas previsões.
4. O gráfico de dispersão nos mostra visualmente quão próximas nossas previsões estão dos valores reais.
5. O gráfico de resíduos nos ajuda a identificar se há algum padrão nos erros do nosso modelo.
6. A importância das features nos mostra quais variáveis têm maior impacto em nossas previsões.

Lembre-se de que este é um modelo básico e existem várias maneiras de melhorá-lo, como:
- Experimentar com diferentes técnicas de pré-processamento
- Usar técnicas de seleção de features
- Tentar modelos mais complexos (por exemplo, Random Forest, Gradient Boosting)
- Realizar otimização de hiperparâmetros

Esperamos que este notebook tenha fornecido uma boa introdução à aplicação prática da Regressão Linear usando sklearn!