# Introdução
#### Tendo em vista que ja foi explicado o conceito da Regressão Linear (https://github.com/IuryChagas25/Linear_Regression) e para que ela é usada hoje em dia, neste notebook iremos aplicar de uma forma mais prática esse conceito com um pequeno data set de Heart Attacks, onde poderemos mensurar uma probabilidade de um indivíduo sofrer um ataque cardiaco, baseando-se em uma base de dados.

In [66]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [67]:
data = pd.read_csv('heart.csv')   #importatando a tabela .csv para o notebook

#### É importante que você ja conheça algumas ideias básicas sobre o pandas, caso não tenha nenhuma noção, há um repositório sobre as noções básicas dessa biblioteca.
*link: https://github.com/IuryChagas25/tutorial_sobre_pandas*

In [121]:
data                          

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


In [98]:
x = data.iloc[:,0:12].values                #Selecionando todas as linhas da coluna 0 até a coluna 12
y = data.iloc[:,13].values                  #Selecionando todas as linhas da coluna 13 (output)
testando = data.iloc[0:4,0:12].values       #Selecionando uma fração desses dados para mensurar uma acurácia mais a frente

#### É de extrema importancia utilizar o train_test_split, com ele você irá fracionar sua base de dados em conjuntos de teste e treinamento, para que o modelo de regressão linear possa ser validado. Em test_size deve-se colocar a porcentagem de dados para teste, ou seja, os que serão usados para medir sua precisão, portanto, se você seleciona 0.2 está disponibilizando 80% de sua base de dados para treinamento, o que é ótimo nos casos mais gerais. É importante também randomizar a sua output, do contrário, seu modelo se adequara apenas a um tipo de previsão, utilize um random_state que forneça uma melhor adaptação.

In [99]:
x_teste, x_treinamento,y_teste, y_treinamento = train_test_split(x,y, test_size = 0.2, random_state=5) 

In [100]:
y_teste

array([0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0],
      dtype=int64)

In [101]:
testando

array([[ 63. ,   1. ,   3. , 145. , 233. ,   1. ,   0. , 150. ,   0. ,
          2.3,   0. ,   0. ],
       [ 37. ,   1. ,   2. , 130. , 250. ,   0. ,   1. , 187. ,   0. ,
          3.5,   0. ,   0. ],
       [ 41. ,   0. ,   1. , 130. , 204. ,   0. ,   0. , 172. ,   0. ,
          1.4,   2. ,   0. ],
       [ 56. ,   1. ,   1. , 120. , 236. ,   0. ,   1. , 178. ,   0. ,
          0.8,   2. ,   0. ]])

In [129]:
regressao = LinearRegression()       #Declarando variável para o LinearRegression

In [103]:
regressao.fit(x_treinamento,y_treinamento)         #Recebendo o conjunto de dados para treinamento

LinearRegression()

In [104]:
adaptacao = regressao.score(x_treinamento,y_treinamento)    #Mensurando a adaptação.
''''O valor da adaptação não pode ser muito alto, pois se isso acontece, você esta tendo um sobreajuste, logo, quando forem fornecidos
outros valores de entrada, seu modelo terá menos capacidade de mensurar uma previsão mais adequada.
''''

In [105]:
adaptacao

0.6513196984594011

In [106]:
x_teste.shape

(242, 12)

In [107]:
testando.shape

(4, 12)

In [111]:
previsao = regressao.predict(x_teste)      #prevendo valores de y para uma fração da base de dados

In [112]:
previsao

array([ 1.60324278e-02,  3.00344192e-01,  7.91392538e-01,  5.90285359e-01,
        1.12047844e+00, -3.11096838e-02,  8.31199047e-01,  8.06846020e-01,
       -1.88695525e-03,  1.97285706e-01,  1.86173796e-01,  1.18196145e+00,
       -5.97591746e-02, -1.02192603e-01,  8.14052884e-01, -3.71675599e-02,
        7.49988697e-01,  6.36451005e-01,  1.22588706e+00,  8.27665011e-01,
        8.68456133e-01,  7.81844359e-01,  2.59785851e-01,  8.15451481e-01,
        4.34258182e-01,  2.35628505e-01,  2.77491387e-01,  8.28905601e-01,
        3.22055129e-01,  5.86557593e-01,  6.84677991e-01,  5.61398385e-01,
       -2.00271800e-01, -6.39945441e-02,  7.05021152e-01,  9.52891134e-01,
        9.69450218e-01,  7.48023558e-01,  1.00476483e+00,  4.63613210e-01,
        8.55122285e-01,  8.35127034e-01,  5.63249345e-01, -7.80501944e-02,
        6.77717505e-01,  1.09207977e+00,  4.66739572e-01,  5.85185792e-01,
        6.87114584e-01,  5.41615452e-01,  5.32654339e-01,  5.34066564e-01,
        2.76387566e-01,  

In [114]:
prever = regressao.predict(testando)
prever
#o resultado em ponto flutuante podemos denotar como a % de precisão de ter problemas no coração

array([0.70570867, 0.43317159, 0.8289056 , 0.68467799])

In [130]:
real = data.iloc[0:4,13].values 
real
#comparando, temos uma falha apenas no indice 1, onde temos 43% de chances de ter, entretanto o individuo tem problemas confirmados.

array([1, 1, 1, 1], dtype=int64)

In [117]:
mae = mean_absolute_error(y_teste,previsao) # o MAE é um dos recursos utilizados para utilizar como parametro de eficiencia de modelo
mae

0.3204322276908194

In [118]:
mse = mean_squared_error(y_teste,previsao) #o MSE é um dos recursos utilizados para utilizar como parametro de eficiencia de modelo
mse

0.1632877742000912

# Conclusão
#### Podemos concluir, portanto, que a Regressão Linear é um algoritmo simples para previsões, baseando-se em comportamentos de atributos X resultando em Y. O resultado dessa demonstração de aplicação poderia ser bem melhor, caso a quantidade de dados fosse maior, então por muitas vezes deve-se priorizar a qualidade e quantidade de dados  quando se tem atributos suficientes para se validar uma consequência em Y. Por fim, espero que este notebook tenha sido claro o suficiente para você dismistificar a  regressão linear e desenvolver seus proprios códios de RL. 