# Regressão Linear Simples - Trabalho

## Estudo de caso: Seguro de automóvel sueco

Agora, sabemos como implementar um modelo de regressão linear simples. Vamos aplicá-lo ao conjunto de dados do seguro de automóveis sueco. Esta seção assume que você baixou o conjunto de dados para o arquivo insurance.csv, o qual está disponível no notebook respectivo.

O conjunto de dados envolve a previsão do pagamento total de todas as reclamações em milhares de Kronor sueco, dado o número total de reclamações. É um dataset composto por 63 observações com 1 variável de entrada e 1 variável de saída. Os nomes das variáveis são os seguintes:

1. Número de reivindicações.
2. Pagamento total para todas as reclamações em milhares de Kronor sueco.

Voce deve adicionar algumas funções acessórias à regressão linear simples. Especificamente, uma função para carregar o arquivo CSV chamado *load_csv ()*, uma função para converter um conjunto de dados carregado para números chamado *str_column_to_float ()*, uma função para avaliar um algoritmo usando um conjunto de treino e teste chamado *split_train_split ()*, a função para calcular RMSE chamado *rmse_metric ()* e uma função para avaliar um algoritmo chamado *evaluate_algorithm()*.

Utilize um conjunto de dados de treinamento de 60% dos dados para preparar o modelo. As previsões devem ser feitas nos restantes 40%. 

Compare a performabce do seu algoritmo com o algoritmo baseline, o qual utiliza a média dos pagamentos realizados para realizar a predição ( a média é 72,251 mil Kronor).


In [None]:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import csv
import matplotlib.pyplot as plt
import random
from math import sqrt

 
def loadCsv(filename):
  lines = csv.reader(open(filename, "r"))
  dataset = list(lines)
  return dataset
  
def str_column_to_float(dataset):
  for i in range(len(dataset)):
    dataset[i] = [float(x) for x in dataset[i]]
  return dataset
  
def split_train_split(dataset, splitRatio):
  trainSize = int(len(dataset) * splitRatio)
  trainSet = []
  testSet = list(dataset)
  while len(trainSet) < trainSize:
    index = random.randrange(len(testSet))
    trainSet.append(testSet.pop(index))
  return [trainSet, testSet]
    
def counter(dataset):
  count = 0
  for i in dataset:
    count += 1
  return count

def mean(values):
    return sum(values) / len(values)

def variance(values, mean):
    return sum([(x - mean) ** 2 for x in values])

def covariance(x, mean_x, y, mean_y):
  covar = 0.0
  for i in range(len(x)):
    covar += (x[i] - mean_x) * (y[i] - mean_y)
  return covar


def coefficients(dataset):
  x = [row[0] for row in dataset]
  y = [row[1] for row in dataset]
  (x_mean, y_mean) = (mean(x), mean(y))
  b1 = covariance(x, x_mean, y, y_mean) / variance(x, x_mean)
  b0 = y_mean - b1 * x_mean
  return [b0, b1]

def simple_linear_regression(train, test):
  predictions = list()
  b0, b1 = coefficients(train)
  for row in test:
    ypred = b0 + b1 * row[0]
    predictions.append(ypred)
  return predictions

def baseline(trainSet, testSet):
  mean_value = mean([row[-1] for row in trainSet])
  predictions = [mean_value for i in range(len(testSet))]
  return predictions

def rmse_metric(actual, predicted):
  sum_error = 0.0
  for i in range(len(actual)):
    prediction_error = predicted[i] - actual[i]
    sum_error += (prediction_error ** 2)
  mean_error = sum_error / float(len(actual))
  return sqrt(mean_error)

def evaluate_algorithm(train_set, test_set, algorithm):
    predicted = algorithm(dataset, test_set)
    actual = [row[-1] for row in test_set]
    rmse = rmse_metric(predicted, actual)
    return rmse


dataset = loadCsv("insurance.csv")
dataset = str_column_to_float(dataset)
split_ratio = 0.6

[trainSet, testSet] = split_train_split(dataset, split_ratio)

coef = coefficients(trainSet)

prediction = simple_linear_regression(trainSet, testSet)

predictionBase = baseline(trainSet, testSet)

evaluate = evaluate_algorithm(trainSet, testSet, simple_linear_regression)
evaluateBase = evaluate_algorithm(trainSet, testSet, baseline)


print("Coeficientes da regressao linear simples: alfa = {:.2f} e beta = {:.2f}".format(coef[0], 
                                                                                       coef[1]))
print("Erro RMSE: {:.2f}".format(evaluate))
print("Erro RMSE Baseline: {:.2f}".format(evaluateBase))

print("\nPrimeiras 10 predições:")
print("")
print("Y real \t| Y Regressão Linear: \t| Y Baseline")
print("")
for i in range(10):
  print("{:.2f} \t {:.2f} \t {:.2f}".format(testSet[i][-1], prediction[i], predictionBase[i]))

Coeficientes da regressao linear simples: alfa = 18.87 e beta = 3.37
Erro RMSE: 34.30
Erro RMSE Baseline: 63.66

Primeiras 10 predições:

Y real 	| Y Regressão Linear: 	| Y Baseline

119.40 	 153.73 	 112.18
56.90 	 96.41 	 112.18
65.30 	 52.59 	 112.18
6.60 	 25.62 	 112.18
134.90 	 99.79 	 112.18
4.40 	 28.99 	 112.18
113.00 	 96.41 	 112.18
14.80 	 39.10 	 112.18
13.20 	 28.99 	 112.18
98.10 	 86.30 	 112.18
