# Projeto de Estat√≠stica Computacional

Docente: Paulo Renato Alves Firmino <br>
Discente: Cau√£ Gomes Xavier <br>
Disciplina: Estat√≠stica Computacional <br>
Curso: Matem√°tica Computacional <br>

# 1. Introdu√ß√£o

Este projeto tem como objetivo analisar um conjunto de dados sobre im√≥veis e desenvolver um modelo de aprendizado de m√°quina para prever o pre√ßo de venda de uma casa com base em suas caracter√≠sticas. As informa√ß√µes foram obtidas a partir de uma competi√ß√£o do Kaggle, uma plataforma de desafios e competi√ß√µes em ci√™ncia de dados. (https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data). <br>
O mercado imobili√°rio √© influenciado por diversos fatores al√©m do n√∫mero de quartos ou da presen√ßa de cozinhas. Elementos como a qualidade do material de constru√ß√£o, a localiza√ß√£o e at√© detalhes estruturais menos √≥bvios podem impactar significativamente o valor final de uma propriedade. Portanto, compreender esses fatores e como eles afetam o pre√ßo das casas √© essencial para compradores, vendedores e investidores tomarem decis√µes mais informadas. <br>
O desafio central deste projeto √© prever o pre√ßo de uma casa com base em diversas vari√°veis, como o tamanho do terreno, a qualidade dos materiais, a condi√ß√£o geral da propriedade, o ano de constru√ß√£o, a presen√ßa de um por√£o e outras caracter√≠sticas estruturais.

# 2. Importa√ß√µes e fun√ß√µes

In [None]:
import pandas as pd
import seaborn as sn
import numpy as np
import seaborn as sn
import matplotlib.pyplot as plt
import math
import networkx as nx
from pgmpy.models import BayesianNetwork
from pgmpy.estimators import MaximumLikelihoodEstimator
from IPython.display import display
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline 
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from xgboost import XGBRegressor
import warnings

In [None]:
warnings.filterwarnings("ignore")

def histograma(dataFrame, nomeVariavel, qntdCategorias):
    
    distribuicaoDeFrequencia(dataFrame, nomeVariavel, qntdCategorias)
    fig, axs = plt.subplots(1, 2, figsize=(12, 4))
    dataFrame[nomeVariavel].plot(kind='box', ax=axs[0], title='')
    sn.histplot(dataFrame[nomeVariavel], color='green', bins=qntdCategorias, ax=axs[1])
    axs[1].set_ylabel(nomeVariavel)
    plt.tight_layout()
    plt.show()

def distribuicaoDeFrequencia(dataFrame, nomeVariavel, qntdCategorias):
    
    coluna = dataFrame[nomeVariavel]
    frequencia = coluna.value_counts(bins=qntdCategorias, 
                            sort=False)
    display(pd.DataFrame(frequencia))

def graficoQualitativo(dataframe, var, ax=None):
    
     dados_qualitativa = dataframe[var].value_counts(normalize = True).reset_index(name='Frequ√™ncia').rename(columns={'index':var})
     display(dados_qualitativa)
     
     if ax is None:
          fig, ax = plt.subplots(figsize=(12, 4))
     dados_grafico = dataframe[var].value_counts()
     dados_grafico.plot(kind='bar', ax=ax)
     
     plt.xlabel('Valores')
     plt.ylabel('Counts')
     plt.title(f'Gr√°fico da Frequ√™ncia: {var}')

def graficoDiscreto(dataframe, coluna, titulo="Distribui√ß√£o Discreta", xlabel="frequ√™ncias", ylabel="Frequ√™ncia relativa"):
   
    valores, frequencias = np.unique(dataframe[coluna].dropna(), return_counts=True) 
    probabilidades = frequencias / sum(frequencias)  
    
    plt.figure(figsize=(8, 6))
    plt.vlines(valores, 0, probabilidades, colors='blue', lw=2)  
    plt.scatter(valores, probabilidades, color='red', s=30)  
    
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(f"{titulo}: {coluna}")
    plt.xticks(valores)  
    plt.grid(axis="y", linestyle="--", alpha=0.7)  

    plt.show()

def graficoQualitativoOrdinal(dataframe, coluna, xlabel="frequ√™ncias", ylabel="Frequ√™ncia relativa"):
    
    mapeamento = {
        "Ex": "Excellent",
        "Gd": "Good",
        "TA": "Average",
        "Fa": "Fair",
        "Po": "Poor"
    }
    
    ordem_categorias = ["Excellent", "Good", "Average", "Fair", "Poor"]
    
    dataframe[coluna] = dataframe[coluna].replace(mapeamento)
    
    dataframe[coluna] = pd.Categorical(dataframe[coluna], categories=ordem_categorias, ordered=True)
    
    dfDegrad = dataframe[coluna].value_counts(normalize=True).sort_index()
    
    qualiPlot = dfDegrad.plot(kind='bar', figsize=(12, 4), title='', fontsize=10)
    qualiPlot.set_xlabel(xlabel)
    qualiPlot.set_ylabel(ylabel)

    plt.show()

def graficoBivariado(dataframe, colunaQualitativa, colunaQuantitativa, numBins=5):

    valorMin = dataframe[colunaQuantitativa].min()
    valorMax = dataframe[colunaQuantitativa].max()
    binEdges = np.linspace(valorMin, valorMax, numBins + 1).astype(int) 

    dataframe['Prices'] = pd.cut(dataframe[colunaQuantitativa], bins=binEdges, include_lowest=True, right=False)

    tabelaContingencia = pd.crosstab(index=dataframe[colunaQualitativa], 
                                      columns=dataframe['Prices'], 
                                      normalize="index")

    tituloTabela = f"Distribui√ß√£o de {colunaQuantitativa} (Agrupado) por {colunaQualitativa}"
    print("\n" + "-" * 50)
    print(f"{tituloTabela}")
    print("-" * 50)
    display(tabelaContingencia)

    plt.figure(figsize=(8,5))
    tabelaContingencia.plot(kind="bar", stacked=False, colormap="tab10", figsize=(8,5))
    
    tituloGrafico = f"{colunaQuantitativa} (Agrupado) por {colunaQualitativa}"
    plt.title(tituloGrafico, fontsize=14)
    plt.xlabel(colunaQualitativa, fontsize=12)
    plt.ylabel("Propor√ß√£o", fontsize=12)
    plt.xticks(rotation=0)
    plt.legend(title=f"{colunaQuantitativa} (Agrupado)")
    plt.grid(axis="y", linestyle="--", alpha=0.7)
    
    plt.show()

    dataframe.drop(columns=['Prices'], inplace=True)


def medidasDispersaoPosicao(dataframe, coluna):

    media = dataframe[coluna].mean()
    moda = dataframe[coluna].mode().values
    mediana = dataframe[coluna].median()
    desvio_padrao = dataframe[coluna].std()
    variancia = dataframe[coluna].var()

    estatisticas_df = pd.DataFrame({
        "M√©trica": ["M√©dia", "Moda", "Mediana", "Desvio Padr√£o", "Vari√¢ncia"],
        "Valor": [media, moda, mediana, desvio_padrao, variancia]
    })

    from IPython.display import display
    display(estatisticas_df)

def transformarEmQualitativo(coluna):
    
    mapeamento = {
        10: "Very Excellent",
        9: "Excellent",
        8: "Very Good",
        7: "Good",
        6: "Above Average",
        5: "Average",
        4: "Below Average",
        3: "Fair",
        2: "Poor",
        1: "Very Poor"
    }
    return coluna.map(mapeamento).fillna("Desconhecido") 

def transformarAnoEmCategoria(dataframe, coluna):
   
    def categorizarAno(ano):
        if ano < 1900:
            return "Muito antiga"
        elif 1900 <= ano < 1950:
            return "Antiga"
        elif 1950 <= ano < 2000:
            return "M√©dia idade"
        else:
            return "Nova"
    
    dataframe[coluna + 'Categoria'] = dataframe[coluna].apply(categorizarAno)

def transformarPrecoEmCategoria(dataframe, coluna):
   
    def categorizarPreco(preco):
        if preco < 214925:
            return "Baixo"
        elif 214925 <= preco < 394950:
            return "M√©dio baixo"
        elif 394950 <= preco < 574975:
            return "M√©dio alto"
        else:
            return "Alto"
    
    dataframe[coluna + 'Categoria'] = dataframe[coluna].apply(categorizarPreco)
    
def avaliarModelo(model_name, y_true, y_pred):
    from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
    import numpy as np

    mae = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    r2 = r2_score(y_true, y_pred)
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
   
    print(f"{model_name:<15} RMSE =     {rmse:.15f}")
    print(f"{model_name:<15} MAE =      {mae:.15f}")
    print(f"{model_name:<15} MAPE =     {mape:.2f}%")
    print(f"{model_name:<15} R^2 =      {r2:.15f}")

# 3. Pr√©-processamento

O pr√©-processamento transforma dados brutos em um formato padronizado e relevante, facilitando a realiza√ß√£o das an√°lises, al√©m de melhorar a qualidade dos resultados obtidos.

## 3.1. An√°lise descritiva dos dados

- Ao analisar as colunas abaixo, observa-se que algumas colunas apresentam um grande n√∫mero de valores indefinidos (N/A). Por esse motivo, √© importante remov√™-las da tabela, a fim de evitar interfer√™ncias na extra√ß√£o de informa√ß√µes √∫teis dos dados. Essa abordagem contribui para uma an√°lise mais precisa e confi√°vel.

In [None]:
dadosTreino = pd.read_csv(filepath_or_buffer = "database/train.csv", 
                    sep=",")

dadosTreino.info()

- Conferindo as colunas que t√™m mais da metade dos valores como indefinidos (N/A) e tirando elas da tabela.

In [None]:
colunasNa = ['Alley', 'PoolQC', 'Fence', 'MiscFeature', 'MasVnrType']

totalLinhasDataFrame = len(dadosTreino)
print(f"Total de linhas no DataFrame: {totalLinhasDataFrame}")

for colunaNa in colunasNa:
    quantidadeNa = dadosTreino[colunaNa].isna().sum()
    print(f"Total de valores N/A na coluna '{colunaNa}': {quantidadeNa}")
    dadosTreino.drop(columns=[colunaNa],inplace=True)

- A tabela abaixo representa o conjunto de dados. Observa-se os dados abrangem diversas informa√ß√µes sobre cada im√≥vel, incluindo planicidade do local onde a propriedade foi construida e √°rea da varanda(em p√©s quadrados). Com base nessas informa√ß√µes, √© poss√≠vel obter uma vis√£o mais ampla e detalhada dos dados, o que ser√° explorado nas pr√≥ximas etapas.

In [None]:
dadosTreino.drop(columns=["Id"],inplace=True)

dadosTreino.head(5)


As principais **vari√°veis quantitativas** de interesse e como estas se relacionam com nossa vari√°vel depedente ("SalePrice"):<br>
- **YearBuilt**: Ano original da contru√ß√£o. 
- **YearRemodAdd**: Ano da √∫ltima remodela√ß√£o. 
- **LotArea**:  √Årea do lote(em p√©s quadrados).
- **GarageArea**: √Årea da garagem(em p√©s quadrados). 
- **PoolArea**: √Årea da piscina(em p√©s quadrados).
- **Fireplaces**: Quantidade de lareiras.
- **OverallQual**: Qualidade geral do material e do acabamento(varia de 1 a 10).
- **TotalBsmtSF**: √Årea do por√£o(em p√©s quadrados).
- **FullBath**: Quantidade de banheiros completos.
      

√© poss√≠vel entender melhor a rela√ß√£o entre as vari√°veis citadas acima e a vari√°vel dependente. Para isso, utiliza-se o __Coeficiente de Correla√ß√£o de Pearson__. Para isso, √© necess√°rio criar uma c√≥pia dos dados retirando as vari√°veis qualitativas. <br>
A correla√ß√£o de Pearson √© um m√©todo estat√≠stico que avalia a rela√ß√£o entre duas vari√°veis quantitativas. Seu valor est√° compreendido no intervalo de -1 a +1. <br>
Um valor igual a 0 indica aus√™ncia de associa√ß√£o linear entre as vari√°veis. Um valor maior que 0 revela que, √† medida que uma vari√°vel aumenta, a outra tamb√©m tende a aumentar, caracterizando uma correla√ß√£o positiva. Por outro lado, um valor menor que 0 demonstra uma correla√ß√£o negativa entre as vari√°veis, indicando que, √† medida que uma vari√°vel cresce, a outra tende a diminuir. 
Apartir disso √© possivel fazer a seguinte an√°lise:

- A qualidade geral do material e do acabamento √© o fator mais importante para definir o pre√ßo do im√≥vel.
- A √°rea da garagem √© um fator mais relevante do que o ano em que im√≥vel foi construido.


In [None]:
pd.set_option('display.max_rows',20)

dadosTempor√°rio = dadosTreino.select_dtypes(include=['int64', 'float64'])

correlacaoMatriz = dadosTempor√°rio.corr()
correlacaoMatriz["SalePrice"].sort_values(ascending=False).head(10)

As principais **vari√°veis quantitativas** de interesse e como estas se relacionam com nossa vari√°vel depedente ("SalePrice"): <br>

- **Street**: Se a rua possui asfalto
- **HouseStyle**: Estilo da casa e a quantidade de andares
- **RoofStyle**: Tipo de telhado
- **ExterQual**: Qualidade do material no exterior do im√≥vel
- **ExterCond**: Condi√ß√£o atual do material no exterior do im√≥vel
- **Foudation**: Material usado na constru√ß√£o do im√≥vel
- **BsmtCond**: Condi√ß√£o atual do por√£o
- **Electrical**: Sistema el√©trico



### Vari√°veis Quantitativas

- Para criar a distribui√ß√£o de frequ√™ncias de uma coluna com vari√°veis quantitativas cont√≠nuas, √© necess√°rio definir alguns par√¢metros: 

In [None]:
numeroElementos = dadosTreino['LotFrontage'].notna().sum()

print(f"Quantidade de observa√ß√µes: {numeroElementos}")

LotFrontageMaximo = dadosTreino['LotFrontage'].max()
print(f"Valor m√°ximo da coluna 'LotFrontage': {LotFrontageMaximo}")

LotFrontageMinimo = dadosTreino['LotFrontage'].min()
print(f"Valor m√≠nimo da coluna 'LotFrontage': {LotFrontageMinimo}")
  
raizQuadrada = math.sqrt(numeroElementos)  
numeroCategorias = round(raizQuadrada)

print(f"Quantidade de categorias: {numeroCategorias}")

tamanhoIntervalo = (LotFrontageMaximo - LotFrontageMinimo) / numeroCategorias

print(f"Tamanho do intervalo: {tamanhoIntervalo}")

- No gr√°fico univariado e na distribui√ß√£o de metros lineares da rua conectada a casa h√° uma grande concentra√ß√£o entre $54 \, ft$ (ou $5 \, m$)   e $62 \, ft$ (ou $5.6 \, m$), por√©m a maior concentra√ß√£o encontra-se entre $63 \, ft$ (ou $5.8 \, m$) e $71 \, ft$ (ou $6.6 \, m$).

- O gr√°fico em boxplot indica que as medi√ß√µes abaixo de $25 \, ft$ (ou $2.3 \, m$) e acima de $122 \, ft$ (ou $11.3 \, m$) j√° s√£o considerados valores at√≠picos.

- Sendo assim, pela an√°lise da distribui√ß√£o dos gr√°ficos e da distribui√ß√£o de frequ√™ncias, a maior parte dos im√≥veis tem entre $50 \, ft$ (ou $4.6 \, m$) e $100 \, ft$ (ou $9.3 \, m$)

In [None]:
pd.set_option('display.max_rows', 35) 

histograma(dadosTreino, "LotFrontage", 35)

- O gr√°fico abaixo revela que √© incomum um im√≥vel ter mais de duas lareiras, sugerindo que a quantidade de lareiras pode n√£o ser um fator determinante na defini√ß√£o do pre√ßo da propriedade.

In [None]:
graficoDiscreto(dadosTreino, "Fireplaces", "Quantidade de lareiras")

### Medidas de dispers√£o e posi√ß√£o

As medidas de posi√ß√£o permitem estimar o valor que a vari√°vel aleat√≥ria poder√° assumir, enquanto as medidas de dispers√£o avaliam a confiabilidade dessas estimativas. As medidas analisadas neste contexto s√£o a moda, a m√©dia, a mediana, a vari√¢ncia e o desvio padr√£o.

A moda, a m√©dia e a mediana s√£o medidas de posi√ß√£o e indicam:

- M√©dia: obtida pela divis√£o da soma de todos os valores pelo n√∫mero total de observa√ß√µes, representando o ponto de equil√≠brio da amostra.
- Moda: o valor mais frequente na amostra.
- Mediana: o valor central de um conjunto de dados organizados em ordem crescente.

J√° o desvio padr√£o e a vari√¢ncia s√£o medidas de dispers√£o, indicando o grau de varia√ß√£o dos valores em rela√ß√£o √† m√©dia, ou seja, se os dados est√£o mais concentrados ou dispersos.

- A mediana abaixo indica que, pelo menos a metade dos im√≥veis, possui uma ou nenhuma lareira. Logo, a quantidade de lareiras n√£o deve ser muito significante para o pre√ßo da casa.

In [None]:
medidasDispersaoPosicao(dadosTreino, "Fireplaces")

- Como h√° uma grande vari√¢ncia na √°rea dos lotes, os valores est√£o distantes da m√©dia, indicando uma ampla diversidade nos dados.

In [None]:
medidasDispersaoPosicao(dadosTreino, "LotArea")

- Como o desvio padr√£o da √°rea das garagens est√° pr√≥ximo da metade da m√©dia, isso indica que, apesar das varia√ß√µes, ainda h√° um certo padr√£o nos dados.

In [None]:
medidasDispersaoPosicao(dadosTreino, "GarageArea")

- A moda da qualidade geral do material e do acabamento √© 5 (mediano). Portanto, como esperado, a maioria dos im√≥veis n√£o est√° nos extremos (excelente ou pobre).

In [None]:
medidasDispersaoPosicao(dadosTreino, "OverallQual")

- Existem poucos im√≥veis em que a quantidade de banheiros √© 1, o que indica uma maior prefer√™ncia por casas com mais banheiros.

In [None]:
medidasDispersaoPosicao(dadosTreino, "FullBath")

### Vari√°veis Qualitativas

- Com base no gr√°fico dos tipos de telhado dos im√≥veis apresentado abaixo, √© poss√≠vel observar que a maioria das propriedades possui telhados do tipo gable, representando 78% do total.

In [None]:
graficoQualitativo(dadosTreino, "RoofStyle")

- A maioria dos im√≥veis (aproximadamente 80%) possui a qualidade do material externo classificada como "mediana". Al√©m disso, h√° uma quantidade insignificante de im√≥veis com qualidade "falha" ou "Pobre".

In [None]:
graficoQualitativoOrdinal(dadosTreino, "ExterQual", "Qualidade do material externo")

- Ao analisar a distribui√ß√£o do pre√ßo de venda (SalePrice) por estilo de telhado (RoofStyle), √© possivel observa que certos estilos apresentam uma maior concentra√ß√£o em faixas de pre√ßo espec√≠ficas.
- O estilo Hip √© o mais diversificado, abrangendo todas as faixas de pre√ßo, embora sua maior concentra√ß√£o esteja na faixa mais baixa (34.900 - 178.920), com mais ou menos 58%. J√° o estilo Flat tem sua distribui√ß√£o mais equilibrada entre as faixas inferiores, mas n√£o aparece nas faixas mais altas.
- O estilo Shed √© o mais restrito, aparecendo apenas na segunda faixa de pre√ßo (178.920 - 322.940), com 100% de sua presen√ßa ali. Isso sugere que casas com esse tipo de telhado podem ter um padr√£o de pre√ßo bem espec√≠fico.
- Ent√£o, h√° uma correla√ß√£o entre o tipo de telhado e a faixa de pre√ßo da casa, indicando que certos estilos s√£o mais predominantes em determinados n√≠veis de valor.

In [None]:
graficoBivariado(dadosTreino, "RoofStyle", "SalePrice")

## 3.2. Transforma√ß√£o de Vari√°veis

- A seguir, foram selecionadas as vari√°veis com base na an√°lise descritiva realizada, considerando apenas aquelas submetidas √† avalia√ß√£o. Essas vari√°veis ser√£o utilizadas no modelo preditivo, com o objetivo de estimar a vari√°vel "SalePrice".

In [None]:
quantVars  = ["YearBuilt",
               "YearRemodAdd", 
               "LotArea", 
               "GarageArea",
               "PoolArea",
               "Fireplaces",
               "OverallQual",
               "TotalBsmtSF",
               "FullBath",
               "GarageYrBlt",
               "MasVnrArea",
               "LotFrontage"] 

qualiVars = ["Street",
              "HouseStyle",
              "RoofStyle",
              "ExterQual",
              "ExterCond",
              "Electrical",
              "BsmtQual", 
              "BsmtCond",
              "BsmtExposure",
              "BsmtFinType1",
              "BsmtFinType2",
              "FireplaceQu",
              "GarageType"]

quantiDf = dadosTreino[quantVars]
qualiDf = dadosTreino[qualiVars]

x = dadosTreino[quantVars + qualiVars]
y = dadosTreino['SalePrice']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

- Como as colunas possuem dados √© necess√°rio imputar. Nesse caso imputar utilizando a mediana.

In [None]:
print("-----------------dados quantitativos antes da imputa√ß√£o----------------")
print("\n")
display(quantiDf)
imputer = SimpleImputer(strategy = "median", add_indicator = True)
imputer.fit(quantiDf)

- √â necess√°rio realizar a padroniza√ß√£o das vari√°veis quantitativas, isto √©, colocar os valores das vari√°veis em uma mesma escala, para que tenham m√©dia 0 e desvio padr√£o de 1. Este processo √© crucial, pois para muitos modelos de machine learning os dados precisam estar padronizados.

In [None]:
scaler = StandardScaler() 
scaler.fit(quantiDf)
quantiDf = pd.DataFrame(scaler.transform(quantiDf), columns= scaler.get_feature_names_out())
print("---------------Dados apos a padroniza√ß√£o-----------------")
display(quantiDf.head())

## 2.4. Parti√ß√£o dos dados em treinamento e teste

- Nesta etapa, realiza-se uma divis√£o do conjunto de dados com o objetivo de aplic√°-lo aos modelos que ser√£o desenvolvidos. Essa divis√£o √© fundamental para o ajuste adequado dos modelos, para a preven√ß√£o do overfitting. Al√©m disso, ser√° utilizado o sistema de pipeline, que consiste em uma cadeia de etapas que sintetiza todo o processo de prepara√ß√£o e padroniza√ß√£o dos dados executado previamente.

In [None]:
trainOk = pd.concat([quantiDf, qualiDf], axis=1)
trainOk.head()

In [None]:
quantiPipeline = Pipeline([('imputer', SimpleImputer(strategy = "median", add_indicator = True)), 
                           ('std_scaler', StandardScaler())]) 

qualiPipeline = Pipeline([
    ('imputer', SimpleImputer(strategy="most_frequent")),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))    
])

- Dataframe ap√≥s todas as transforma√ß√µes.

quantiOk = pd.DataFrame(quantiPipeline.fit_transform(quantiDf), 
                        columns=quantiPipeline.get_feature_names_out())
quantiOk.head()

In [None]:
preprocessor  = ColumnTransformer([("qt", quantiPipeline, quantVars), 
                                  ("ql", qualiPipeline, qualiVars)]) 
preprocessor 

## 4. Modelos de ML

Para analisar o desempenho dos modelos criados, existem m√©tricas de erros: R2, MAE, RMSE, RMSLE.

- **RMSLE** (Root Mean Squared Logarithmic Error): mede a raiz quadrada da m√©dia das diferen√ßas quadradas entre o logaritmo dos valores previstos e o logaritmo dos valores reais. Geralmente √© usado quando a vari√°vel de destino possui uma ampla faixa de valores.
- **RMSE** (Root Mean Squared Error): mede a raiz quadrada da m√©dia das diferen√ßas quadradas entre os valores previstos e os valores reais. √â mais sens√≠vel a outliers do que o MAE.
- **R2** (R-quadrado) : mede o qu√£o bem a linha de regress√£o ajusta os pontos de dados. Varia de 0 a 1, com 1 indicando um ajuste perfeito e 0 indicando nenhum ajuste.
- **MAE** (Mean Absolute Error): mede a diferen√ßa m√©dia absoluta entre os valores previstos e os valores reais. √â menos sens√≠vel a outliers do que o RMSE.

### XGBoost Regression

In [None]:
xgb_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor(
        n_estimators=150,
        max_depth=6,
        learning_rate=0.1,
        random_state=42,
        objective='reg:squarederror'
    ))
])

xgb_pipeline.fit(x_train, y_train)

y_pred_xg = xgb_pipeline.predict(X_test)

avaliarModelo("XGBoost", y_test, y_pred_xg)

### Random Forest Regressor

In [None]:
rf_model = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=250, random_state=42))
])

rf_model.fit(x_train, y_train)

y_pred_rf = rf_model.predict(X_test)

avaliarModelo("Random Forest", y_test, y_pred_rf)

### Support Vector Regression - SVR

In [None]:
svr_model = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', SVR(kernel='rbf', C=100, gamma='auto'))
])

svr_model.fit(x_train, y_train)

y_pred_svr = svr_model.predict(x_test)

avaliarModelo("SVR", y_test, y_pred_svr)

### SVR GridSearchCV

In [None]:
pipeline_svr = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', SVR())
])

param_grid_svr = {
    'regressor__kernel': ['rbf', 'linear'],
    'regressor__C': [1, 10, 100],
    'regressor__epsilon': [0.01, 0.1, 1],
    'regressor__gamma': ['scale', 'auto']
}

grid_search = GridSearchCV(pipeline_svr, param_grid_svr, cv=5, scoring='r2', n_jobs=-1, verbose=2)

grid_search.fit(x_train, y_train.values.ravel())

print("Melhores par√¢metros:", grid_search.best_params_)
print("Melhor R¬≤ no treino (cross-validation):", grid_search.best_score_)

y_pred_svr_grid = grid_search.predict(x_test)

avaliarModelo("SVR com GridSearch", y_test, y_pred_svr_grid)

### Rede Neural Artificial - ANN

In [None]:
ann_modelo = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', MLPRegressor(max_iter=1000, random_state=42))
])

param_grid = {
    'regressor__hidden_layer_sizes': [(50,), (100,), (50, 50), (100, 50)],
    'regressor__activation': ['relu', 'tanh'],
    'regressor__solver': ['adam', 'sgd'],
    'regressor__alpha': [0.0001, 0.001, 0.01],
    'regressor__learning_rate': ['constant', 'adaptive']
}

grid_search = GridSearchCV(ann_modelo, param_grid, cv=5, scoring='r2', n_jobs=-1, verbose=1)
grid_search.fit(x_train, y_train)

best_model = grid_search.best_estimator_

print("üîß Melhores par√¢metros encontrados:")
print(grid_search.best_params_)
print(f"üîç Melhor R¬≤ no treino (CV): {grid_search.best_score_:.4f}")

y_pred_test_ann_grid = best_model.predict(x_test)

avaliarModelo("ANN com GridSearch", y_test, y_pred_test_ann_grid)