# Models for Regression

You must

0. Perform an exploratory analysis of the data and pre-process the predictors to remove potential skewness in their distribution. Based on the transformed predictors, comment on the presence of relationships between pairs of predictors (estimate the correlation matrix). Also, are the relationships between the predictors and outcome individually linear (estimate all predictor-outcome correlations)?

Then, you must

1. Use the transformed predictors in the training set to learn an ordinary linear square (OLS) regression model and test the model using the test set (remember to apply the same pre-processing you used on the training set). Code/implement the OLS model from scratch and compare the results obtained with the build-in functions available in the programming language of your choice. Compare the model performance obtained on the test set with the estimates you would obtain using a resampling scheme as 5- or 10-fold cross validation: use both the RMSE and $R^2$ (again, code/implement the cross-validation from scratch and compare the results with those obtained with the build-in function).

2. Use the transformed predictors in the training set to learn a L2 (ou L1)-penalised linear regression model and test the model using the test set (remember to apply the same pre-processing you used on the training set). Code/implement the penalized model from scratch and compare the results obtained with the build-in functions available in the programming language of your choice. Determine the optimal value of $\lambda$ using a 5- or 10-fold cross-validation based on the RMSE (you can only use the training set in this phase, and your search space $\lambda$ should consist of at least 10 values). Report on process (show the cross-validation profile, both on terms of the RMSE and $R^2$). Report the accuracy (RMSE and $R^2$) obtained on the test set (again, code/implement the cross-validation from scratch and compare the results with those obtained with the build-in function).

3. Use the transformed predictors in the training set to learn either a PLS or a PCR regression model and test the model using the test set (remember to apply the same pre-processing you used on the training set). Determine the optimal number of components using a 5- or 10-fold cross-validation based on the RMSE (you can only use the training set in this phase). Report on process (show the cross-validation profile, both in terms of the RMSE and $R_2$). Report the accuracy (RMSE and $R_2$) obtained on the test set.

4. Use the transformed predictors in the training set to build a neural network model for regression and test the model using the test set (remember to apply the same pre-processing you used on the training set). Report the accuracy (RMSE and $R_2$) obtained on the test set. Do the nonlinear model outperform the linear model you previously developed? If so, what might this tell you about the underlying relationship between the predictors and the response?

## Importing packages

In [1]:
import sys

sys.path.append("../../")

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from os.path import join
import numpy as np

In [3]:
from ica.dataset import preprocess_regression_dataset

[32m2024-12-30 07:52:09.717[0m | [1mINFO    [0m | [36mica.config[0m:[36m<module>[0m:[36m11[0m - [1mPROJ_ROOT path is: /mnt/c/Users/franc/Code/UFC/MSc/S01/ica[0m


In [4]:
pd.options.display.max_columns = None

sns.set_theme(style='darkgrid')
sns.set_palette("twilight_shifted")

## Reading Database

In [5]:
data = pd.read_csv("../../data/external/Agregado-20241114133303.csv", 
                   encoding="latin-1",
                   sep=";")

print(data.shape)
data.head()

(659, 229)


Unnamed: 0,Código do Município,Município,Estado,Ano de Referência,Código do Prestador,Prestador,Sigla do Prestador,Abrangência,Tipo de Serviço,Natureza Jurídica,G05A - Quantidade total de municípios atendidos com abastecimento de água,G05B - Quantidade total de municípios atendidos com esgotamento sanitário,G06A - População urbana residente do(s) município(s) com abastecimento de água,G06B - População urbana residente do(s) município(s) com esgotamento sanitário,"G12A - População total residente do(s) município(s) com abastecimento de água, segundo o IBGE","G12B - População total residente do(s) município(s) com esgotamento sanitário, segundo o IBGE",GE001 - Quantidade de municípios atendidos com abastecimento de água com delegação em vigor,GE002 - Quantidade de municípios atendidos com abastecimento de água com delegação vencida,GE003 - Quantidade de municípios atendidos com abastecimento de água sem delegação,GE005 - Quantidade total de municípios atendidos,GE008 - Quantidade de Sedes municipais atendidas com abastecimento de água,GE009 - Quantidade de Sedes municipais atendidas com esgotamento sanitário,GE010 - Quantidade de Localidades (excluídas as sedes) atendidas com abastecimento de água,GE011 - Quantidade de Localidades (excluídas as sedes) atendidas com esgotamento sanitário,GE014 - Quantidade de municípios atendidos com esgotamento sanitário com delegação em vigor,GE015 - Quantidade de municípios atendidos com esgotamento sanitário com delegação vencida,GE016 - Quantidade de municípios atendidos com esgotamento sanitário sem delegação,GE017 - Ano de vencimento da delegação de abastecimento de água,GE018 - Ano de vencimento da delegação de esgotamento sanitário,"GE025 - Quantidade de municípios não atendidos com abastecimento de água, mas com delegação em vigor","GE026 - Quantidade de municípios não atendidos com abastecimento de água, mas com delegação vencida para prestar esses serviços","GE028 - Quantidade de municípios não atendidos com esgotamento sanitário, mas com delegação em vigor para prestar esses serviços","GE029 - Quantidade de municípios não atendidos com esgotamento sanitário, mas com delegação vencida para prestar esses serviços",AG001 - População total atendida com abastecimento de água,AG001A - População total atendida com abastecimento de água no ano anterior ao de referência.,AG002 - Quantidade de ligações ativas de água,AG002A - Quantidade de ligações ativas de água no ano anterior ao de referência.,AG003 - Quantidade de economias ativas de água,AG003A - Quantidade de economias ativas de água no ano anterior ao de referência.,AG004 - Quantidade de ligações ativas de água micromedidas,AG004A - Quantidade de ligações ativas de água micromedidas no ano anterior ao de referência.,AG005 - Extensão da rede de água,AG005A - Extensão da rede de água no ano anterior ao de referência.,AG006 - Volume de água produzido,AG007 - Volume de água tratada em ETAs,AG008 - Volume de água micromedido,AG010 - Volume de água consumido,AG011 - Volume de água faturado,AG012 - Volume de água macromedido,AG013 - Quantidade de economias residenciais ativas de água,AG013A - Quantidade de economias residenciais ativas de água no ano anterior ao de referência.,AG014 - Quantidade de economias ativas de água micromedidas,AG014A - Quantidade de economias ativas de água micromedidas no ano anterior ao de referência.,AG015 - Volume de água tratada por simples desinfecção,AG016 - Volume de água bruta importado,AG017 - Volume de água bruta exportado,AG018 - Volume de água tratada importado,AG019 - Volume de água tratada exportado,AG020 - Volume micromedido nas economias residenciais ativas de água,AG021 - Quantidade de ligações totais de água,AG021A - Quantidade de ligações totais de água no ano anterior ao de referência.,AG022 - Quantidade de economias residenciais ativas de água micromedidas,AG022A - Quantidade de economias residenciais ativas de água micromedidas no ano anterior ao de referência.,AG024 - Volume de serviço,AG025A - População rural atendida com abastecimento de água no ano anterior ao de referência.,AG026 - População urbana atendida com abastecimento de água,AG026A - População urbana atendida com abastecimento de água no ano anterior ao de referência.,AG027 - Volume de água fluoretada,AG028 - Consumo total de energia elétrica nos sistemas de água,BL001 - Ativo circulante,BL002 - Ativo total,BL003 - Exigível a longo prazo,BL004 - Lucro líquido com depreciação,BL005 - Passivo circulante,BL006 - Patrimônio líquido,BL007 - Receita operacional,BL008 - Resultado de exercícios futuros,BL009 - Resultado operacional com depreciação,BL010 - Realizável a longo prazo,BL011 - Lucro líquido sem depreciação,BL012 - Resultado operacional sem depreciação,ES001 - População total atendida com esgotamento sanitário,ES001A - População total atendida com esgotamento sanitário no ano anterior ao de referência.,ES002 - Quantidade de ligações ativas de esgotos,ES002A - Quantidade de ligações ativas de esgoto no ano anterior ao de referência.,ES003 - Quantidade de economias ativas de esgotos,ES003A - Quantidade de economias ativas de esgoto no ano anterior ao de referência.,ES004 - Extensão da rede de esgotos,ES004A - Extensão da rede de esgoto no ano anterior ao de referência.,ES005 - Volume de esgotos coletado,ES006 - Volume de esgotos tratado,ES007 - Volume de esgotos faturado,ES008 - Quantidade de economias residenciais ativas de esgotos,ES008A - Quantidade de economias residenciais ativas de esgoto no ano anterior ao de referência.,ES009 - Quantidade de ligações totais de esgotos,ES009A - Quantidade de ligações totais de esgoto no ano anterior ao de referência.,ES012 - Volume de esgoto bruto exportado,ES013 - Volume de esgotos bruto importado,ES014 - Volume de esgoto importado tratado nas instalações do importador,ES015 - Volume de esgoto bruto exportado tratado nas instalações do importador,ES025A - População rural atendida com esgotamento sanitário no ano anterior ao de referência.,ES026 - População urbana atendida com esgotamento sanitário,ES026A - População urbana atendida com esgotamento sanitário no ano anterior ao de referência.,ES028 - Consumo total de energia elétrica nos sistemas de esgotos,FN001 - Receita operacional direta total,FN002 - Receita operacional direta de água,FN003 - Receita operacional direta de esgoto,FN004 - Receita operacional indireta,FN005 - Receita operacional total (direta + indireta),FN006 - Arrecadação total,FN007 - Receita operacional direta de água exportada (bruta ou tratada),FN008 - Créditos de contas a receber,FN008A - Crédito de contas a receber no ano anterior ao de referência.,FN010 - Despesa com pessoal próprio,FN011 - Despesa com produtos químicos,FN013 - Despesa com energia elétrica,FN014 - Despesa com serviços de terceiros,"FN015 - Despesas de Exploração (DEX), sendo FN015 = FN010 + FN011 + FN013 + FN014 + FN020 + FN039 + FN021 + FN027",FN016 - Despesas com juros e encargos do serviço da dívida,"FN017 - Despesas totais com os serviços (DTS), sendo FN017 = FN015 + FN016 + FN019 + FN022 + FN028",FN018 - Despesas capitalizáveis realizadas pelo prestador de serviços,"FN019 - Despesas com depreciação, amortização do ativo diferido e provisão para devedores duvidosos",FN020 - Despesa com água importada (bruta ou tratada),FN021 - Despesas fiscais ou tributárias computadas na DEX,FN022 - Despesas fiscais ou tributárias não computadas na DEX,FN023 - Investimento realizado em abastecimento de água pelo prestador de serviços,FN024 - Investimento realizado em esgotamento sanitário pelo prestador de serviços,FN025 - Outros investimentos realizados pelo prestador de serviços,FN026 - Quantidade total de empregados próprios,FN026A - Quantidade total de empregados próprios no ano anterior ao de referência.,FN027 - Outras despesas de exploração,FN028 - Outras despesas com os serviços,FN030 - Investimento com recursos próprios realizado pelo prestador de serviços.,FN031 - Investimento com recursos onerosos realizado pelo prestador de serviços.,FN032 - Investimento com recursos não onerosos realizado pelo prestador de serviços.,FN033 - Investimentos totais realizados pelo prestador de serviços,FN034 - Despesas com amortizações do serviço da dívida,"FN035 - Despesas com juros e encargos do serviço da dívida, exceto variações monetária e cambial",FN036 - Despesa com variações monetárias e cambiais das dívidas,FN037 - Despesas totais com o serviço da dívida,FN038 - Receita operacional direta - esgoto bruto importado,FN039 - Despesa com esgoto exportado,FN041 - Despesas capitalizáveis realizadas pelo(s) município(s),FN042 - Investimento realizado em abastecimento de água pelo(s) município(s),FN043 - Investimento realizado em esgotamento sanitário pelo(s) município(s),FN044 - Outros investimentos realizados pelo(s) município(s),FN045 - Investimento com recursos próprios realizado pelo(s) município(s),FN046 - Investimento com recursos onerosos realizado pelo(s) município(s),FN047 - Investimento com recursos não onerosos realizado pelo(s) município(s),FN048 - Investimentos totais realizados pelo(s) município(s),FN051 - Despesas capitalizáveis realizadas pelo estado,FN052 - Investimento realizado em abastecimento de água pelo estado,FN053 - Investimento realizado em esgotamento sanitário pelo estado,FN054 - Outros investimentos realizados pelo estado,FN055 - Investimento com recursos próprios realizado pelo estado,FN056 - Investimento com recursos onerosos realizado pelo estado,FN057 - Investimento com recursos não onerosos realizado pelo estado,FN058 - Investimentos totais realizados pelo estado,IN001 - Densidade de economias de água por ligação,IN002 - Índice de produtividade: economias ativas por pessoal próprio,IN003 - Despesa total com os serviços por m3 faturado,IN004 - Tarifa média praticada,IN005 - Tarifa média de água,IN006 - Tarifa média de esgoto,IN007 - Incidência da desp. de pessoal e de serv. de terc. nas despesas totais com os serviços,IN008 - Despesa média anual por empregado,IN009 - Índice de hidrometração,IN010 - Índice de micromedição relativo ao volume disponibilizado,IN011 - Índice de macromedição,IN012 - Indicador de desempenho financeiro,IN013 - Índice de perdas faturamento,IN014 - Consumo micromedido por economia,IN015 - Índice de coleta de esgoto,IN016 - Índice de tratamento de esgoto,IN017 - Consumo de água faturado por economia,IN018 - Quantidade equivalente de pessoal total,IN019 - Índice de produtividade: economias ativas por pessoal total (equivalente),IN020 - Extensão da rede de água por ligação,IN021 - Extensão da rede de esgoto por ligação,IN022 - Consumo médio percapita de água,IN023 - Índice de atendimento urbano de água,IN024 - Índice de atendimento urbano de esgoto referido aos municípios atendidos com água,IN025 - Volume de água disponibilizado por economia,IN026 - Despesa de exploração por m3 faturado,IN027 - Despesa de exploração por economia,IN028 - Índice de faturamento de água,IN029 - Índice de evasão de receitas,IN030 - Margem da despesa de exploração,IN031 - Margem da despesa com pessoal próprio,IN032 - Margem da despesa com pessoal total (equivalente),IN033 - Margem do serviço da divida,IN034 - Margem das outras despesas de exploração,IN035 - Participação da despesa com pessoal próprio nas despesas de exploração,IN036 - Participação da despesa com pessoal total (equivalente) nas despesas de exploração,IN037 - Participação da despesa com energia elétrica nas despesas de exploração,IN038 - Participação da despesa com produtos químicos nas despesas de exploração (DEX),IN039 - Participação das outras despesas nas despesas de exploração,IN040 - Participação da receita operacional direta de água na receita operacional total,IN041 - Participação da receita operacional direta de esgoto na receita operacional total,IN042 - Participação da receita operacional indireta na receita operacional total,IN043 - Participação das economias residenciais de água no total das economias de água,IN044 - Índice de micromedição relativo ao consumo,IN045 - Índice de produtividade: empregados próprios por 1000 ligações de água,IN046 - Índice de esgoto tratado referido à água consumida,IN047 - Índice de atendimento urbano de esgoto referido aos municípios atendidos com esgoto,IN048 - Índice de produtividade: empregados próprios por 1000 ligações de água + esgoto,IN049 - Índice de perdas na distribuição,IN050 - Índice bruto de perdas lineares,IN051 - Índice de perdas por ligação,IN052 - Índice de consumo de água,IN053 - Consumo médio de água por economia,IN054 - Dias de faturamento comprometidos com contas a receber,IN055 - Índice de atendimento total de água,IN056 - Índice de atendimento total de esgoto referido aos municípios atendidos com água,IN057 - Índice de fluoretação de água,IN058 - Índice de consumo de energia elétrica em sistemas de abastecimento de água,IN059 - Índice de consumo de energia elétrica em sistemas de esgotamento sanitário,IN060 - Índice de despesas por consumo de energia elétrica nos sistemas de água e esgotos,IN061 - Liquidez corrente,IN062 - Liquidez geral,IN063 - Grau de endividamento,IN064 - Margem operacional com depreciação,IN065 - Margem líquida com depreciação,IN066 - Retorno sobre o patrimônio líquido,IN067 - Composição de exigibilidades,IN068 - Margem operacional sem depreciação,IN069 - Margem líquida sem depreciação,IN101 - Índice de suficiência de caixa,IN102 - Índice de produtividade de pessoal total (equivalente)
0,230030,Acopiara,CE,2022,23003011,Sistema Integrado de Saneamento Rural - BAJ,SISAR BAJ,Microrregional,Água,Organização social,19.0,,,,495.874,,0.0,0.0,19.0,19.0,0.0,,317.0,,,,,,,0.0,0.0,,,102.953,,18.661,,18.661,,18.661,,"1.046,78",,"3.382,96",71797,"1.717,99","1.799,56","2.579,42","1.076,06",18.661,,18.661,,"1.157,48",,0,5004,0,,27.774,,18.661,,,,,,0,,"1.502,37","2.567,57",0.0,"2.137,89",42967.0,"2.137,89","4.734,27",0.0,-25023.0,"1.065,20","2.364,47",-15777.0,,,,,,,,,,,,,,,,,,,,,,,,"4.712.102,13","4.712.102,13",,0,"4.712.102,13","4.614.974,73",0,,,"470.632,17","573.901,58","1.691.658,66","289.030,46","3.120.745,90",0,"3.213.290,41",0.0,"92.544,51","53.632,57",0,0,0.0,0.0,0.0,20.0,,"41.890,46",0,0.0,0.0,0.0,0.0,0,0,0,0,,,0,,0,0,,0,0,,,,0.0,,,,,,1,93305,125,183,183.0,,2364,"23.531,61",100,5004,3134,14664,2486,767.0,,,1152,3228,57805,3769,,4789,,,1533,121,16723,7514,206,6623,999,1612,0,89,1508,2434,5421,1839,134,100,,0,100.0,9547,107,,,107,4758,428,23981,5242,804,,2076,,0,,,,35.0,598.0,17.0,-529.0,4516.0,,100.0,-333.0,4994.0,14788,57805
1,230040,Aiuaba,CE,2022,23004011,Prefeitura Municipal de Aiuaba,PMA,Local,Água,Administração pública direta,1.0,0.0,,,14.076,,,,,1.0,1.0,,3.0,,,,,,,,,,,9.204,10.38,1.901,1.902,1.901,1.902,1.744,1.715,819,8167.0,400,370,10937,2168,23364,0,1.849,1.849,1.744,1.715,0,,"1.000,00",0,0,10513.0,2.504,2.392,1.706,,0.0,,,4.288,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"560.533,28","560.523,28",,"139.734,76","700.268,04",10,10,,,"250.000,00","24.357,19","357.658,24","294.543,31","926.558,74",0,"936.616,37",,0,0,0,10,,,,16.0,15.0,0,"10.047,63",,,,,0,0,0,0,,,0,"505.000,00",0,0,"505.000,00",0,0,"505.000,00",,,,,,,,,1,12268,401,24,,,5814,"16.129,03",9095,2734,0,5985,4159,527.0,,,1024,3376,5632,3341,,6066,,,1753,397,48728,5841,100,1653,446,9715,0,0,2698,5877,386,263,0,8005,,1995,9724.0,5045,815,,,815,458,614,26396,542,95,,6539,,0,,,,,,,,,,,,,0,5632
2,230040,Aiuaba,CE,2021,23004011,Prefeitura Municipal de Aiuaba,PMA,Local,Água,Administração pública direta,1.0,0.0,4.288,,17.584,,,,,1.0,1.0,,3.0,,,,,,,,,,,10.38,10.2,1.902,1.849,1.902,1.849,1.715,0.0,8167,7867.0,3564,3564,14059,20254,23188,0,1.849,,1.715,0.0,0,,0,0,0,1371.0,2.392,2.921,,,0.0,,4.288,4.266,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"526.116,63","526.116,63",,"109.320,19","635.436,82",0,0,,,"231.059,37","23.835,68","354.704,68","276.359,94","885.959,67",0,"885.959,67",,0,0,0,0,,,,15.0,15.0,0,0,,,,,0,0,0,0,,,0,"504.406,68",0,0,"504.406,68",0,0,"504.406,68",,,,,,,,,1,12503,382,227,227.0,,5727,"15.403,96",4572,3945,0,5938,3494,1366.0,,,103,3294,5694,3018,,5393,100.0,,1584,382,47239,6506,100,1684,4392,9645,0,0,2608,5727,4004,269,0,828,,172,9859.0,6941,8,,,8,4317,526,22476,5683,9,,5903,,0,,,,,,,,,,,,,0,5694
3,230040,Aiuaba,CE,2020,23004011,Prefeitura Municipal de Aiuaba,PMA,Local,Água,Administração pública direta,1.0,0.0,4.266,,17.493,,,,,1.0,1.0,,10.0,,,,,,,,,,,10.2,10.053,1.849,1.4,1.849,1.4,0.0,0.0,7867,200.0,3564,3564,0,3505,3505,0,,,0.0,0.0,0,,0,0,0,0.0,2.921,18.9,,,0.0,,4.266,4.169,0,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"497.057,23","497.057,23",,"107.530,29","604.587,52",0,0,,,"378.491,00","68.244,07","135.839,12","123.327,00","706.401,19",0,"706.401,19",,0,0,500,0,,,,15.0,15.0,0,0,,,,,0,0,0,0,,,0,"94.608,50",0,0,"94.608,50",0,0,"94.608,50",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1083,202,142,142.0,,7104,"25.232,73",0,0,0,7036,166,,,,1798,1989,8168,1277,,9483,100.0,,1828,202,43484,9834,100,14212,7615,10096,0,0,5358,7104,1923,966,0,8221,,1779,,0,923,,,923,166,12,995,9834,1798,,5831,,0,0.0,,,,,,,,,,,,0,8168
4,230040,Aiuaba,CE,2019,23004011,Prefeitura Municipal de Aiuaba,PMA,Local,Água,Administração pública direta,1.0,0.0,4.243,,17.399,,,,,1.0,1.0,,5.0,,,,,,,,,,,10.053,10.053,1.4,1.322,1.4,1.322,0.0,0.0,200,200.0,900,600,0,6505,800,800,,,0.0,0.0,100,,0,0,0,,18.9,18.642,,,,,4.169,4.169,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"604.587,52","604.587,52",,0,"604.587,52",0,0,,,"225.500,00","6.320,00","108.235,08","6.320,00","425.330,00",0,"425.330,00",,0,0,0,0,,,,15.0,15.0,"78.954,92",0,,,,,0,0,0,0,,,0,"48.694,00",0,0,"48.694,00",0,0,"48.694,00",,,,,,,,,1,9073,53,76,76.0,,545,"15.033,33",0,0,8889,14215,1111,,,,4898,1542,8826,1065,,17728,9826.0,,5511,53,31251,8889,100,7035,373,3834,0,1306,5302,545,2545,149,1856,100,,0,,0,1102,,,1102,2772,342,50225,7228,3983,,5778,,0,,,,,,,,,,,,,0,8826


In [6]:
df = preprocess_regression_dataset(data)
df.head()

Unnamed: 0,nm_municipio,ano,abrangencia,tipo_servico,nat_juridica,IN001,IN009,IN020,IN022,IN023,IN037,IN038,IN055,IN057
0,Acopiara,2022,Microrregional,Água,Organização social,1.0,100.0,37.69,47.89,,54.21,18.39,20.76,0.0
1,Aiuaba,2022,Local,Água,Administração pública direta,1.0,90.95,33.41,60.66,,38.6,2.63,65.39,0.0
2,Aiuaba,2021,Local,Água,Administração pública direta,1.0,45.72,30.18,53.93,100.0,40.04,2.69,59.03,0.0
3,Aiuaba,2020,Local,Água,Administração pública direta,1.0,0.0,12.77,94.83,100.0,19.23,9.66,58.31,0.0
4,Aiuaba,2019,Local,Água,Administração pública direta,1.0,0.0,10.65,177.28,98.26,25.45,1.49,57.78,0.0


In [7]:
numerical_columns = ["IN001", "IN009", "IN020", "IN023", "IN037", "IN038", "IN055", "IN057"]
# categorical_columns = ["tipo_servico"]
target_col = "IN022"

## 0. Perform an exploratory analysis of the data and pre-process the predictors

Already done in HW1

### ETL of features for Regression Model

In [8]:
_df = df.dropna()
train = _df.query("ano<=2017")[numerical_columns + [target_col]]
test = _df.query("ano>2017")[numerical_columns + [target_col]]

In [9]:
X_train, y_train = train[numerical_columns], train[target_col]
X_test, y_test = test[numerical_columns], test[target_col]

In [10]:
print("The train-test ratio is: %.2f-%.2f" % (len(train)/len(_df), len(test)/len(_df)))

The train-test ratio is: 0.72-0.28


In [11]:
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, OneHotEncoder, StandardScaler

In [12]:
ohe = make_column_transformer(
  (StandardScaler(), numerical_columns),
  # (OneHotEncoder(handle_unknown = 'ignore', sparse_output=False, dtype=float), categorical_columns),
  remainder='passthrough')

ohe.fit(X_train)
X_transformed = ohe.transform(X_train)

dummies_columns = [x.split("__")[1] for x in ohe.get_feature_names_out()]
dummies = pd.DataFrame(X_transformed, columns=dummies_columns)

X_train = dummies.astype({c: float for c in dummies_columns})

print(X_train.shape)
X_train.head()

(304, 8)


Unnamed: 0,IN001,IN009,IN020,IN023,IN037,IN038,IN055,IN057
0,-0.009544,-3.15441,0.156229,-0.083943,-1.757057,-1.260821,-2.364062,-1.067246
1,3.471937,-2.883988,0.118451,0.38463,0.428034,-0.882508,-0.297863,-1.067246
2,1.344365,-2.897836,0.05275,0.483276,0.913441,-1.072552,-0.68828,-1.067246
3,0.570703,-2.893989,0.003474,0.483276,0.691344,-1.260821,-0.963611,-1.067246
4,-0.396375,-3.15441,-0.012951,0.483276,2.915359,1.193772,-0.549886,1.222113


In [13]:
X_transformed = ohe.transform(X_test)

dummies = pd.DataFrame(X_transformed, columns=dummies_columns)

X_test = dummies.astype({c: float for c in dummies_columns})

print(X_test.shape)
X_test.head()

(118, 8)


Unnamed: 0,IN001,IN009,IN020,IN023,IN037,IN038,IN055,IN057
0,-0.58979,-1.395705,3.30167,0.483276,1.298865,-0.783045,-0.675169,-1.067246
1,-0.58979,-3.15441,0.442029,0.483276,-0.28939,0.454908,-0.710132,-1.067246
2,-0.58979,-3.15441,0.093813,0.268719,0.185331,-0.996179,-0.735868,-1.067246
3,-0.202959,-3.15441,0.129949,0.336539,-1.757057,-0.94112,-0.720329,-1.067246
4,-0.58979,0.692276,-0.950835,0.215697,0.19678,-1.12406,-1.610907,-1.067246



## 1. OLS Regression

In [14]:
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, root_mean_squared_error

In [15]:
type(y_train) in [pd.Series, pd.DataFrame]

True

In [16]:
##### Implementation of Ordinary Least Squares from scrach

class OLSRegressor(BaseEstimator, RegressorMixin):
    def __init__(self):
        ...

    def fit(self, X, y):
        
        if type(X) in [pd.Series, pd.DataFrame]:
            X = X.copy().values
        
        if type(y) in [pd.Series, pd.DataFrame]:
            y = y.copy().values

        # Simple fit method that calculates the mean of the target
        self.X = np.hstack((np.ones([X.shape[0],1], X.dtype), X))
        self.y = y
        self.N, self.p = X.shape
        
        self.weights = np.linalg.inv(self.X.T @ self.X) @ self.X.T @ y
        
        return self

    def predict(self, X):
        if type(X) in [pd.Series, pd.DataFrame]:
            X = X.copy().values
            
        _X = np.hstack((np.ones([X.shape[0],1], X.dtype), X))
        return _X @ self.weights
    
    def get_variance(self):
        y_hat = self.predict(self.X)
        return 1/(self.N - self.p - 1) * np.sum((y_hat - self.y)**2)
    
    def get_params_covariance(self) -> np.ndarray:
        """The variance–covariance matrix of the least squares parameter estimates

        Returns:
            np.ndarray: The variance–covariance matrix
        """
        return np.linalg.inv(self.X.T @ self.X) * self.get_variance()

### Model Implementation Comparison

In [17]:
rmse = []
r2 = []

In [18]:
sk_lm = LinearRegression()
sk_lm.fit(X_train, y_train)

sk_yhat = sk_lm.predict(X_test)
rmse.append(root_mean_squared_error(y_test, sk_yhat))
r2.append(r2_score(y_test, sk_yhat))

In [19]:
print("Coefficients: ", sk_lm.coef_)
print("Intercept: ", sk_lm.intercept_)

Coefficients:  [  7.23603742 -23.29646907   7.77149884   2.84777851  -4.39516898
  -4.52761228   4.16566111  -0.35063749]
Intercept:  128.7498355263158


In [20]:
custom_lm = OLSRegressor()
custom_lm.fit(X_train, y_train)

custom_yhat = custom_lm.predict(X_test)
rmse.append(root_mean_squared_error(y_test, custom_yhat))
r2.append(r2_score(y_test, custom_yhat))

In [21]:
print("Coefficients: ", custom_lm.weights[1:])
print("Intercept: ", custom_lm.weights[0])

Coefficients:  [  7.23603742 -23.29646907   7.77149884   2.84777851  -4.39516898
  -4.52761228   4.16566111  -0.35063749]
Intercept:  128.74983552631576


In [22]:
pd.DataFrame([rmse, r2], columns=["RMSE", "R2"], index=["Scikit-Learn", "Custom Model"])

Unnamed: 0,RMSE,R2
Scikit-Learn,75.619308,75.619308
Custom Model,-0.222027,-0.222027


### Cross-Validation Comparison

In [23]:
from sklearn.base import clone

In [24]:
k = 3

In [25]:
def split_train_test_folds(folds, i):
    return folds[:i] + folds[i+1:], folds[i]

In [26]:
def custom_cross_validate(clf, X, y, k):
    
    # Copy X into an np.array
    if type(X) in [pd.Series, pd.DataFrame]:
        X = X.copy().values
    
    # Copy y into an np.array
    if type(y) in [pd.Series, pd.DataFrame]:
        y = y.copy().values

    # Get the length of the dataset
    n = len(X)
    # Get the number of instances of the folds
    part_size = n // k

    # Splits the data in K folds and if n % k != 0, it adds the remainder in the final fold
    folds_X = [X[(i*part_size):(i*part_size+part_size)] if i < (k-1) else X[(i*part_size):] for i in range(k)]
    folds_y = [y[(i*part_size):(i*part_size+part_size)] if i < (k-1) else y[(i*part_size):] for i in range(k)]

    models = []
    rmse = []
    r2 = []
    
    for i in range(k):
        # Gets the train-validate folds
        X_train_fold, X_validation = split_train_test_folds(folds_X, i)
        y_train_fold, y_validation = split_train_test_folds(folds_y, i)

        # Concatenate the folds to get an np.array
        X_train = np.vstack(X_train_fold)
        y_train = np.hstack(y_train_fold)

        # This ensure that every time a model is trained, it's new and conntains the same parameters
        model = clone(clf)

        model.fit(X_train, y_train)
        y_hat = model.predict(X_validation)

        models.append(model)
        rmse.append(root_mean_squared_error(y_validation, y_hat))
        r2.append(r2_score(y_validation, y_hat))

    best_model_index = np.argmin(rmse)
    metrics = {"RMSE": rmse, "R2": r2}
    # Returns the best model and the metrics of each fold
    return models[best_model_index], metrics


In [27]:
lm = LinearRegression()
model, metrics = custom_cross_validate(lm, X_train, y_train, k=4)
metrics

{'RMSE': [58.95846133238152,
  92.47267660205691,
  50.3426303260102,
  58.4879286021674],
 'R2': [0.035547354671426556,
  -0.12379756140046183,
  0.036793255488130616,
  -1.342524983889244]}

In [28]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [29]:
cv = KFold(n_splits=4)
scores = cross_val_score(lm, X_train, y_train, cv=cv, scoring="neg_root_mean_squared_error")
[-score for score in scores]

[58.95846133238152, 92.47267660205691, 50.3426303260102, 58.4879286021674]