<a href="https://colab.research.google.com/github/victgab20/MachineLearning/blob/main/regressaoLinear.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1) CRIANDO UM MODELO DE REGRESSÃO LINEAR SIMPLES

A fórmula básica da regressão linear simples é:

![Equação:](img/equacao.PNG)

Onde:

* y é a é a variável dependente (target previsto)
* x é a variável independente (feature conhecida)
* 𝛽0 é o coeficiente liner (interceptação no eixo y)
* 𝛽1 é o coeficiente de inclinação

Os coeficientes 𝛽0 e 𝛽1 podem ser calculados com fórmulas derivadas do método dos mínimos quadrados:

![Equação2:](img/equacao-betas.PNG)

* X𝑖 e Y𝑖 são os valores observados das variáveis independente e dependente, respectivamente.
* x̅ é a média dos valores de
* $\bar{y}$ é a média dos valores de
* n é o número de observações.

#### CARREGANDO OS DADOS

In [None]:
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

import pandas as pd
dataset = pd.DataFrame(housing.data)
dataset.columns = housing.feature_names
dataset['Price'] = housing.target
dataset.head()

In [None]:
import seaborn as sns
from matplotlib import pyplot as plt

correlation_matrix = dataset.corr()
plt.rc('font', size=12)
plt.figure(figsize=(8, 7))
sns.heatmap(correlation_matrix, cmap=sns.color_palette("coolwarm"), linewidths=.5, annot=True, fmt='.2f');
plt.title('Matriz de Correlação \n')
plt.show()

In [None]:
X = dataset['MedInc'].to_frame()
y = dataset['Price']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

##### TESTANDO COM O SKLEARN

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
eixo_x = dataset['MedInc'].to_frame()
eixo_y = dataset['Price']
model = LinearRegression()
model.fit(eixo_x, eixo_y)
y_pred = model.predict(X_test)

print('a = ' + str(model.coef_))
print('b = ' + str(model.intercept_))

mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error (MSE):", mse)

plt.figure()
plt.xlabel('Valores Reais')
plt.ylabel('Valores Preditos')
plt.title('Valores Reais vs Valores Preditos')
plt.scatter(y_test, y_pred, label='Valores Preditos')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], color='red', linestyle='-', linewidth=3, label='Linha de Regressão')
plt.legend()
plt.grid()
plt.show()

#### Implementação de um calculo de Regressão Linear:

In [None]:
import numpy as np
x = dataset['MedInc']
y = dataset['Price']
x_media = np.mean(x)
y_media = np.mean(y)
numerador = 0;
denominador = 0;
n = len(x)
for i in range(n):
  sla = (x[i] - x_media) * (y[i] - y_media)
  sla1 = (x[i] - x_media)**2
  numerador = numerador+sla
  denominador = denominador+sla1
b1 = numerador / denominador
b0 = y_media - (b1 * x_media)
y_predicao = b0 + (b1 * x)

In [None]:
plt.scatter(x, y, label='Dados')
plt.plot(eixo_x, y_predicao, color='red', label='Reta de Regressão')
plt.xlabel('Valores Reais')
plt.ylabel('Valores Preditos')
plt.legend()
plt.title('Gráfico de Regressão')
plt.show()

In [None]:
# Coeficientes da regressão
print(f'Coeficiente beta_1: {b1}')
print(f'Coeficiente beta_0: {b0}')

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

mae = mean_absolute_error(y, y_predicao)
mse = mean_squared_error(y, y_predicao)
rmse = np.sqrt(mse)
r2 = r2_score(y, y_predicao)

print(f'Erro Médio Absoluto (MAE): {mae}')
print(f'Erro Quadrático Médio (MSE): {mse}')
print(f'Raiz do Erro Quadrático Médio (RMSE): {rmse}')
print(f'Coeficiente de Determinação (R²): {r2}')

# 2) REALIZANDO A PREDIÇÃO DE PREÇOS DE ALUGUEIS

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
import numpy as np

# Leitura dos dados
X_train = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/2 - Aprendizado de maquina (1)/X_train.csv")
y_train = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/2 - Aprendizado de maquina (1)/y_train.csv")
X_test = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/2 - Aprendizado de maquina (1)/X_test.csv")

In [None]:
X_train

In [None]:
y_train

#### Tratamento de dados para o modelo:

In [None]:
def tratar_dados_x(dt):
  dt_processado = dt.copy()
  dt_processado['animal'] = dt_processado['animal'].map({'not acept': 0, 'acept': 1})
  dt_processado['mobilia'] = dt_processado['mobilia'].map({'not furnished': 0, 'furnished': 1})
  mascara = dt_processado['andar'] != '-'
  dt_filtrado = dt_processado[mascara]
  dt_filtrado
  return dt_filtrado, mascara
x_train_processado, mascara = tratar_dados_x(X_train)
x_test_processado, mask1 = tratar_dados_x(X_test)

In [None]:
x_train_processado

In [None]:
def tratar_y(dt, mascara):
  dt_processado = dt.copy()
  dt_filtrado = dt_processado[mascara]
  return dt_filtrado
y_train_filtrado = tratar_y(y_train, mascara)

In [None]:
y_train_filtrado

In [None]:
X_train_index = x_train_processado.index
Y_train = y_train_filtrado.loc[X_train_index].reset_index(drop=True)
y_train = Y_train['aluguel']

x_train_processado
x_test_processado


In [None]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV

numeric_features = ['area', 'quartos', 'banheiro', 'garagens', 'condominio_reais', 'iptu', 'seguro_incendio', 'andar', 'animal', 'mobilia']
categorical_features = ['cidade']

preprocessor = ColumnTransformer(
    transformers=[
        ('num', SimpleImputer(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='infrequent_if_exist'), categorical_features)
    ]
)


# Criar o pipeline
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', RandomForestRegressor())
])

In [None]:
#Definindo o grid_search
param_grid = {
    'model__n_estimators': [100, 200],
    'model__max_depth': [None, 10, 20, 30],
    'model__min_samples_split': [2, 5, 10],
    'model__min_samples_leaf': [1, 2, 4]
}

grid_search = GridSearchCV(estimator=pipeline, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)

In [None]:
grid_search.fit(x_train_processado, y_train)

In [None]:
best_model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', RandomForestRegressor(
        max_depth=grid_search.best_params_['model__max_depth'],
        min_samples_split=grid_search.best_params_['model__min_samples_split'],
        n_estimators=grid_search.best_params_['model__n_estimators']
    ))
])

best_model.fit(x_train_processado, y_train)

In [None]:

X_test_processed = best_model.named_steps['preprocessor'].transform(x_test_processado)

y_pred = best_model.named_steps['model'].predict(X_test_processed)

y_pred_df = pd.DataFrame(y_pred, index=x_test_processado.index, columns=['aluguel'])
y_pred_df.to_csv("y_pred.csv")



In [None]:
# Baixando os resultados:
from google.colab import files

files.download("y_pred.csv")