# Regressão Linear Simples - Trabalho

## Estudo de caso: Seguro de automóvel sueco

Agora, sabemos como implementar um modelo de regressão linear simples. Vamos aplicá-lo ao conjunto de dados do seguro de automóveis sueco. Esta seção assume que você baixou o conjunto de dados para o arquivo insurance.csv, o qual está disponível no notebook respectivo.

O conjunto de dados envolve a previsão do pagamento total de todas as reclamações em milhares de Kronor sueco, dado o número total de reclamações. É um dataset composto por 63 observações com 1 variável de entrada e 1 variável de saída. Os nomes das variáveis são os seguintes:

1. Número de reivindicações.
2. Pagamento total para todas as reclamações em milhares de Kronor sueco.

Voce deve adicionar algumas funções acessórias à regressão linear simples. Especificamente, uma função para carregar o arquivo CSV chamado *load_csv ()*, uma função para converter um conjunto de dados carregado para números chamado *str_column_to_float ()*, uma função para avaliar um algoritmo usando um conjunto de treino e teste chamado *split_train_split ()*, a função para calcular RMSE chamado *rmse_metric ()* e uma função para avaliar um algoritmo chamado *evaluate_algorithm()*.

Utilize um conjunto de dados de treinamento de 60% dos dados para preparar o modelo. As previsões devem ser feitas nos restantes 40%. 

Compare a performabce do seu algoritmo com o algoritmo baseline, o qual utiliza a média dos pagamentos realizados para realizar a predição ( a média é 72,251 mil Kronor).


In [1]:
import pandas as pd
from sklearn.metrics import mean_squared_error
from random import randrange
from csv import reader
from math import sqrt

In [4]:
# Calculate the mean value of a list of numbers
def mean(values):
    return sum(values) / float(len(values))

# Calculate the variance of a list of numbers
def variance(values, mean):
    return sum([(x-mean)**2 for x in values])

# Calculate covariance between x and y
def covariance(x, mean_x, y, mean_y):
    covar = 0.0
    for i in range(len(x)):
        covar += (x[i] - mean_x) * (y[i] - mean_y)
    return covar

# Calculate coefficients
def coefficients(dataset):
    x = [row[0] for row in dataset]
    y = [row[1] for row in dataset]
    x_mean, y_mean = mean(x), mean(y)
    b1 = covariance(x, x_mean, y, y_mean) / variance(x, x_mean)
    b0 = y_mean - b1 * x_mean
    return [b0, b1]

def str_column_to_float(dataset):
    for row in range(len(dataset)):
        for column in range(len(dataset[row])):
            dataset[row][column] = float(dataset[row][column])
            
def load_csv(filename):
    dataset = list()
    with open(filename, 'r') as file:
        csv_reader = reader(file)
        for row in csv_reader:
            if not row:
                continue
            dataset.append(row)
    return dataset


def train_test_split(dataset, splitRatio):
    train = list()
    train_size = splitRatio * len(dataset)
    dataset_copy = list(dataset)
    while len(train) < train_size:
        index = randrange(len(dataset_copy))
        train.append(dataset_copy.pop(index))
    return train, dataset_copy

def rmse_metric(actual, predicted):
    sum_error = 0.0
    for i in range(len(actual)):
        prediction_error = predicted[i] - actual[i]
        sum_error += (prediction_error ** 2)
    mean_error = sum_error / float(len(actual))
    return sqrt(mean_error)

def simple_linear_regression(train, test):
    predictions = list()
    b1, b0 = coefficients(train)
    for row in test:
        yhat = b1 + b0 * row[0]
        predictions.append(yhat)
    return predictions

def evaluate_algorithm(dataset, algorithm, splitRatio, *args):
    train, test = train_test_split(dataset, splitRatio)
    test_set = list()
    for row in test:
        row_copy = list(row)
        row_copy[-1] = None
        test_set.append(row_copy)
    predicted = algorithm(train, test_set, *args)
    actual = [row[-1] for row in test]
    rmse = rmse_metric(actual, predicted)
    return rmse

In [5]:
dataset = load_csv('insurance.csv')
dataset  


[['108', '392.5'],
 ['19', '46.2'],
 ['13', '15.7'],
 ['124', '422.2'],
 ['40', '119.4'],
 ['57', '170.9'],
 ['23', '56.9'],
 ['14', '77.5'],
 ['45', '214'],
 ['10', '65.3'],
 ['5', '20.9'],
 ['48', '248.1'],
 ['11', '23.5'],
 ['23', '39.6'],
 ['7', '48.8'],
 ['2', '6.6'],
 ['24', '134.9'],
 ['6', '50.9'],
 ['3', '4.4'],
 ['23', '113'],
 ['6', '14.8'],
 ['9', '48.7'],
 ['9', '52.1'],
 ['3', '13.2'],
 ['29', '103.9'],
 ['7', '77.5'],
 ['4', '11.8'],
 ['20', '98.1'],
 ['7', '27.9'],
 ['4', '38.1'],
 ['0', '0'],
 ['25', '69.2'],
 ['6', '14.6'],
 ['5', '40.3'],
 ['22', '161.5'],
 ['11', '57.2'],
 ['61', '217.6'],
 ['12', '58.1'],
 ['4', '12.6'],
 ['16', '59.6'],
 ['13', '89.9'],
 ['60', '202.4'],
 ['41', '181.3'],
 ['37', '152.8'],
 ['55', '162.8'],
 ['41', '73.4'],
 ['11', '21.3'],
 ['27', '92.6'],
 ['8', '76.1'],
 ['3', '39.9'],
 ['17', '142.1'],
 ['13', '93'],
 ['13', '31.9'],
 ['15', '32.1'],
 ['8', '55.6'],
 ['29', '133.3'],
 ['30', '194.5'],
 ['24', '137.9'],
 ['9', '87.4'],
 ['31', 

In [6]:
str_column_to_float(dataset)

In [7]:
dataset

[[108.0, 392.5],
 [19.0, 46.2],
 [13.0, 15.7],
 [124.0, 422.2],
 [40.0, 119.4],
 [57.0, 170.9],
 [23.0, 56.9],
 [14.0, 77.5],
 [45.0, 214.0],
 [10.0, 65.3],
 [5.0, 20.9],
 [48.0, 248.1],
 [11.0, 23.5],
 [23.0, 39.6],
 [7.0, 48.8],
 [2.0, 6.6],
 [24.0, 134.9],
 [6.0, 50.9],
 [3.0, 4.4],
 [23.0, 113.0],
 [6.0, 14.8],
 [9.0, 48.7],
 [9.0, 52.1],
 [3.0, 13.2],
 [29.0, 103.9],
 [7.0, 77.5],
 [4.0, 11.8],
 [20.0, 98.1],
 [7.0, 27.9],
 [4.0, 38.1],
 [0.0, 0.0],
 [25.0, 69.2],
 [6.0, 14.6],
 [5.0, 40.3],
 [22.0, 161.5],
 [11.0, 57.2],
 [61.0, 217.6],
 [12.0, 58.1],
 [4.0, 12.6],
 [16.0, 59.6],
 [13.0, 89.9],
 [60.0, 202.4],
 [41.0, 181.3],
 [37.0, 152.8],
 [55.0, 162.8],
 [41.0, 73.4],
 [11.0, 21.3],
 [27.0, 92.6],
 [8.0, 76.1],
 [3.0, 39.9],
 [17.0, 142.1],
 [13.0, 93.0],
 [13.0, 31.9],
 [15.0, 32.1],
 [8.0, 55.6],
 [29.0, 133.3],
 [30.0, 194.5],
 [24.0, 137.9],
 [9.0, 87.4],
 [31.0, 209.8],
 [14.0, 95.5],
 [53.0, 244.6],
 [26.0, 187.5]]

In [8]:
rmse = evaluate_algorithm(dataset, simple_linear_regression, 0.6)
print('RMSE: %.3f' % (rmse))

RMSE: 28.024
