## Importações

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

## Tratamento de Outliers

In [2]:
def outliers(data, fator=1.5):
    data_limpa = data.copy()
    
    for col in data_limpa.select_dtypes(include=[np.number]).columns:
        Q1 = data_limpa[col].quantile(0.25)
        Q3 = data_limpa[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - (fator * IQR)
        upper_bound = Q3 + (fator * IQR)
        data_limpa[col] = np.clip(data_limpa[col], lower_bound, upper_bound)
    
    return data_limpa

## Data Upload

In [3]:
data_treino = pd.read_csv('/home/caio/github/k-3/data/train.csv')
data_teste = pd.read_csv('/home/caio/github/k-3/data/test.csv')

## Data Preparation

In [4]:
data_treino_limpo = outliers(data_treino)
data_teste_limpo = outliers(data_teste)

In [5]:
feature_treino = data_treino_limpo.drop(columns=['rainfall']) # Feature Treino
target_treino = data_treino.pop('rainfall')                   # Target Treino
feature_final_imperfeito = data_teste_limpo
feature_final = feature_final_imperfeito.fillna(feature_final_imperfeito.mean())

## Modelo

In [6]:
modelo = LinearRegression()

## Validação Cruzada

In [7]:
dobra = KFold(n_splits=4, shuffle=True, random_state=69)                 # Configurando tipo de dobra                                   
scores = cross_val_score(modelo, feature_treino,
                         target_treino, cv=dobra,
                         scoring='neg_root_mean_squared_error')          # Treinando o modelo sobre validação cruzada
rmse_mean = -np.mean(scores)
print(rmse_mean)

0.32131981629548967


## Modelo Final

In [8]:
modelo.fit(feature_treino, target_treino)
previsao = modelo.predict(feature_final)

## Gerador CSV

In [15]:
caminho_destino = 'previsoes/linear/Linear_v1.csv'
resultado = pd.DataFrame({
    'id': data_teste['id'],
    'rainfall': previsao     
})

resultado.to_csv(caminho_destino, index=False)