# Regressão Linear Simples - Trabalho

## Estudo de caso: Seguro de automóvel sueco

Agora, sabemos como implementar um modelo de regressão linear simples. Vamos aplicá-lo ao conjunto de dados do seguro de automóveis sueco. Esta seção assume que você baixou o conjunto de dados para o arquivo insurance.csv, o qual está disponível no notebook respectivo.

O conjunto de dados envolve a previsão do pagamento total de todas as reclamações em milhares de Kronor sueco, dado o número total de reclamações. É um dataset composto por 63 observações com 1 variável de entrada e 1 variável de saída. Os nomes das variáveis são os seguintes:

1. Número de reivindicações.
2. Pagamento total para todas as reclamações em milhares de Kronor sueco.

Voce deve adicionar algumas funções acessórias à regressão linear simples. Especificamente, uma função para carregar o arquivo CSV chamado *load_csv ()*, uma função para converter um conjunto de dados carregado para números chamado *str_column_to_float ()*, uma função para avaliar um algoritmo usando um conjunto de treino e teste chamado *split_train_split ()*, a função para calcular RMSE chamado *rmse_metric ()* e uma função para avaliar um algoritmo chamado *evaluate_algorithm()*.

Utilize um conjunto de dados de treinamento de 60% dos dados para preparar o modelo. As previsões devem ser feitas nos restantes 40%. 

Compare a performabce do seu algoritmo com o algoritmo baseline, o qual utiliza a média dos pagamentos realizados para realizar a predição ( a média é 72,251 mil Kronor).


In [None]:
# falta fazer o algoritmo diferente do baseline

In [15]:
import pandas as pd
import matplotlib as plt
import numpy as np
from csv import reader
from math import sqrt
from random import randrange

In [52]:
# carregar um arquivo csv
def load_csv(filename):
    dataset = list()
    with open(filename, 'r') as file:
        csv_reader = reader(file)
        for row in csv_reader:
            if not row:
                continue
            dataset.append(row)
    return dataset

# Converte string para float
def str_column_to_float(dataset, column):
    for row in dataset:
        row[column] = float(row[column].strip())

def train_test_split(dataset, split):
    train = list()
    train_size = split * len(dataset)
    dataset_copy = list(dataset)
    while len(train) < train_size:
        index = randrange(len(dataset_copy))
        train.append(dataset_copy.pop(index))
    return train, dataset_copy

# Função de cálculo do erro quadrático médio
def rmse_metric(actual, predicted):
    sum_error = 0.0
    for i in range(0, len(actual)):
        prediction_error = predicted[i] - actual[i]
        sum_error += (prediction_error **2)
    mean_error = sum_error / float(len(actual))
    return sqrt(mean_error)

# Avaliar um algoritmo usando a divisão de dados de treino e teste:
def evaluate_algorithm(dataset, algorithm, split, funcaoCoeficientes):
    train, test_set = train_test_split(dataset, split)
    predicted = algorithm(dataset, test_set, funcaoCoeficientes)
    print(predicted)
    actual = [row[-1] for row in test_set]
    rmse = rmse_metric(actual, predicted)
    return rmse

def mean(values):
    return sum(values) / float(len(values))

def variance(values, mean):
    return sum([(x-mean)**2 for x in values])

def covariance(x, mean_x, y, mean_y):
    covar = 0.0
    for i in range(len(x)):
        covar += (x[i] - mean_x) * (y[i] - mean_y)
    return covar

def coefficients(dataset):
    x = [row[0] for row in dataset]
    y = [row[1] for row in dataset]
    x_mean, y_mean = mean(x), mean(y)
    b1 = covariance(x, x_mean, y, y_mean) / variance(x, x_mean)
    b0 = y_mean - b1 * x_mean
    return [b0, b1]

def simple_linear_regression(train, test, funcaoCoeficientes):
    predictions = list()
    b0, b1 = funcaoCoeficientes(train)
    for row in test:
        ypred = b0 + b1 * row[0]
        predictions.append(ypred)
    return predictions


def coefficients2(train):
    w1, w2, alpha = 0., 0., 0.001
    x = [row[0] for row in train]
    y = [row[1] for row in train]
    n = len(x)
    for _ in range(0,1000): 
        sum_w1 = 0
        sum_w2 = 0
        sum_2 = 0
        for i in range(0, n):
            y_linha = w1 + w2*x[i]
            sum_w1 += y[i] - y_linha
            sum_w2 += (y[i] - y_linha) * x[i]
            sum_2 += (y[i] - w1 - w2*x[i]) ** 2
        w1 += (alpha*(1/n)) * sum_w1
        w2 += (alpha*(1/n)) * sum_w2
    return w1, w2

In [53]:
filename = 'insurance.csv'
dataset = load_csv(filename)
for i in range(0, len(dataset[0])):
    str_column_to_float(dataset, i)

# Versão vista em sala
split = 0.6
rmse = evaluate_algorithm(dataset, simple_linear_regression, split, coefficients)
    
print('RMSE: %.3f' %(rmse))


[388.68743024628236, 84.85713340037577, 67.78801560004393, 54.13272135977847, 183.8580166423004, 57.54654491984484, 40.47742711951301, 30.23595643931391, 98.51242764064123, 50.71889779971211, 30.23595643931391, 88.27095696044213, 105.34007476077397, 57.54654491984484, 228.23772292316318, 64.37419203997757, 146.30595748157037, 57.54654491984484, 112.1677218809067, 30.23595643931391, 78.02948628024305, 122.4091925611058, 101.92625120070761, 125.82301612117217, 108.75389832084034]
RMSE: 38.023


In [54]:
# Nossa versão
split = 0.6
rmse = evaluate_algorithm(dataset, simple_linear_regression, split, coefficients2)
    
print('RMSE: %.3f' %(rmse))

[77.77431319797917, 55.735429185672906, 463.4547834133389, 154.9104072410511, 217.35391194258554, 44.71598717951977, 92.46690253951668, 15.33080849644475, 96.14004987490105, 92.46690253951668, 114.50578655182295, 33.69654517336664, 81.44746053336354, 33.69654517336664, 48.38913451490415, 232.04650128412305, 66.75487119182604, 228.37335394873867, 210.00761727181677, 63.08172385644166, 118.17893388720732, 41.04283984413539, 121.8520812225917, 59.408576521057284, 202.66132260104803]
RMSE: 39.116
