# <center>__MÉTODOS NUMÉRICOS__</center>
## <center>__PROJETO DA UNIDADE 2__</center>

### <center>__ALUNO: Willian Adriano Ullmann Klein__</center>

<div class="alert alert-block alert-info">
1. INTRODUÇÃO
</div>

Quando vemos uma relação em um diagrama de dispersão, podemos usar uma reta para resumir essa relação nos dados. Também podemos usar essa reta para fazer previsões a partir dos dados. Este processo é chamado de regressão linear.

Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos.

#### Expressão

A Regressão Linear pode ser definida pela expressão abaixo:

$y = b0 + b1.X$

Onde:

$y$: é a variável dependente, ou seja, o valor previsto.

$X$: é a variável independente, ou seja, a variável preditora.

$b0$: é o coeficiente que intercepta ou que corta o eixo y.

$b1$: é o coeficiente que define a inclinação da reta.

O objetivo é encontrar as melhores estimativas para os coeficientes, que minimizam os erros na previsão de y a partir de X.
Podemos estimar b1 como:

$b1 = soma ((Xi - médio (x)) * (yi - médio (y))) / soma ((xi - médio (x)) ²)$

Onde:

$média()$: é o valor médio da variável do conjunto de dados.

$Xi$ e $yi$: se referem ao fato de que precisamos repetir esses cálculos em todos os valores em nosso conjunto de dados e i se refere ao i’ésimo valor de $x$ ou $y$. E $b0$ podemos estimar como:

$b0 = média(y) - b1 * média(x)$

#### Erro Padrão

O erro padrão sobre a linha de regressão é uma medida do valor médio que a equação superestimou ou subestimou (Fig4), assim podemos analisar o coeficiente de determinação (R²), quanto maior esse valor, menor o erro padrão, com isso as previsões serão mais precisas provavelmente.

Podemos acrescentar o erro padrão à equação e, de uma forma geral, ficaria da seguinte forma:

$y = b0 + b1.X1 + e$

Onde:

$e$: é o erro padrão.

#### Coeficiente de Determinação R²
O valor do R² ou R-squared é uma medida estatística que nos mostra o quão próximos os dados estão ajustados à linha de regressão. É um valor de 0 à 1 que, quanto mais próximo de 1, melhor o ajuste e menor o erro associado.

O R² nos mostra a porcentagem da variação da variável resposta que é explicada por um modelo linear, podendo ser descrito por:

$R² = Variação explicada / Variação total$

- $0_% $ indica que o modelo não explica nada da variabilidade dos dados de resposta ao redor de sua média.

- $100_% $ indica que o modelo explica toda a variabilidade dos dados de resposta ao redor de sua média.

Bibliotecas necessárias para o desenvolvimento e implementação são importadas abaixo.

In [None]:
from sklearn import datasets, linear_model, metrics
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression 
from sklearn.metrics import mean_squared_error, r2_score
import math, scipy, numpy as np
import matplotlib.pyplot as plt
import pandas as pd

<div class="alert alert-block alert-info">
2. DESCRIÇÃO DO PROBLEMA
</div>

O conjunto de dados que serão utilizados para a reprodução do método de regressão linear em python, são disponibilizados em [[1]](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset). Os dados são referentes ao estudo de  Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) “Least Angle Regression,” Annals of Statistics (with discussion), 407-499. 

Abaixo o conjunto de dados:

In [None]:
# dataset 

data = datasets.load_diabetes()
data

In [None]:
# Criando um data frame com os dados do estudo:

df = pd.DataFrame(data['data'])
df

In [None]:
# Atributos do DF

feature_names = data['feature_names']
feature_names

In [None]:
# Medida quantitativa da progressão da doença um ano após a linha de base

df_target = pd.DataFrame(data['target'])
df_target

Portanto, temos um conjunto de dados com 442 instâncias e 10 colunas de atributos mais uma coluna do target. Os atributos considerados são:

- age age in years

- sex

- bmi body mass index

- bp average blood pressure

- s1 tc, total serum cholesterol

- s2 ldl, low-density lipoproteins

- s3 hdl, high-density lipoproteins

- s4 tch, total cholesterol / HDL

- s5 ltg, possibly log of serum triglycerides level

- s6 glu, blood sugar level

Cada uma dessas 10 variáveis ​​de recursos foram centradas na média e escalonadas pelo desvio padrão vezes n_samples (ou seja, a soma dos quadrados de cada coluna totaliza 1).

Enquanto a coluna 11(target) é uma medida quantitativa da progressão da doença um ano após a linha de base.


<div class="alert alert-block alert-info">
3. MÉTODOS APLICADOS À SOLUÇÃO
</div>

A seguir será realizado um exemplo básico de regreção linear em um conjunto de dados limitado, somente para demontração.

In [None]:
# variável preditora
X = np.array([1.47, 1.5, 1.52, 1.55, 1.57, 1.63, 1.65, 1.68, 1.7, 1.73, 1.78, 1.8, 1.83]).reshape(-1, 1)
# variável alvo
y = np.array ([52.21, 53.12, 57.2, 58.6, 58.57, 59.93, 62, 63.11, 65.4, 66.28, 68.1, 72.19, 80.24])

In [None]:
# instanciando do modelo

model = LinearRegression()

In [None]:
# treinando o modelo

model.fit(X, y)

In [None]:
# imprimindo o coeficiente que corta o eixo y:

intercept = model.intercept_
print(f'Coeficiente de interceptação: {intercept:.4f}')

In [None]:
# imprimindo o coeficiente de inclinação da reta

slope = model.coef_
print(f'Coeficiente de inclinação:    {slope.round(4)}')

In [None]:
# Criando a equação:

print(f"y = {intercept} + {slope} * X")

In [None]:
# criando a equação e prevendo nos dados de X

y_pred_eq = intercept + slope * X
print(y_pred_eq.tolist())

In [None]:
# prevendo com o modelo nos dados de X

y_pred_model = model.predict(X)
print(y_pred_model)

- Então agora vamos plotar os dados num gráfico junto a linha de regressão gerada:

In [None]:
# definindo a área de plotagem e grafico
plt.figure(figsize=(8,6))
plt.scatter (X, y, color = 'blue') 
plt.plot (X, model.predict (X), color = 'red', linewidth = 2)

# definindo x e y
plt.xticks(np.arange(1.40, 1.95, 0.1))
plt.yticks([50, 60, 70, 80])

# inserindo os rótulos dos eixos
plt.xlabel("Altura (m)")
plt.ylabel("Peso (kg)")

# inserindo o título do gráfico
plt.title("Demonstração de Regressão Linear", fontweight="bold", size=15)

# plotando o gráfico
plt.show()

A Regressão Linear é um modelo muito utilizado para prever a relação entre duas ou mais variáveis. Neste exemplo o objetivo foi demonstrar como implementar o modelo em python de uma forma bem simples.

<div class="alert alert-block alert-info">
4. IMPLEMENTAÇÃO
</div>

Aqui você irá  mostrar sua implementação para o problema considerado, explicando o que foi feito em cada passo e cada saída de cada trecho de código, sempre relacionando com a descrição do método mostrada acima.

- Carregando o conjunto de dados de diabetes

In [None]:
data = datasets.load_diabetes()

- Usando apenas um recurso

In [None]:
diabetes_X = diabetes.data[:, np.newaxis, 8]
diabetes_X

- Dividindo os dados em conjuntos de treinamento / teste

In [None]:
# conjunto de treino
diabetes_X_train = diabetes_X[:-20]
diabetes_X_train

In [None]:
# conjunto de teste
diabetes_X_test = diabetes_X[-20:] 
diabetes_X_test

- Criando o objeto de regressão linear

In [None]:
regr = linear_model.LinearRegression()

- Treinando o modelo usando os conjuntos de treinamento

In [None]:
regr.fit(diabetes_X_train, diabetes_y_train)

- Fazendo previsões usando o conjunto de teste

In [None]:
diabetes_y_pred = regr.predict(diabetes_X_test)
print(diabetes_y_pred)

- Os coeficientes

In [None]:
print('Coeficientes: ', regr.coef_, "\n")

- O erro quadrático médio

In [None]:
print("Erro quadrático médio: %.2f"
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))

- Pontuação de variância explicada: 1 é a previsão perfeita

In [None]:
print('Pontuação de variância : %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))

In [None]:
plt.scatter(diabetes_X_test, diabetes_y_test,  color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='red', linewidth=3)

plt.xticks(())
plt.yticks(())

plt.show()

#### Agora fazendo uso de várias varáveis:
- Primeiro passo para simplificar a visualização dos dados atuais, colocar os dados em um dataframe:

In [None]:
df = pd.DataFrame(data['data'])
df

- Queremos apenas variáveis/colunas 0, 1, 3, 4, 7 e 8 (pode ser qualquer coluna para usar)

In [None]:
# variáveeis preditórias

predictor_variables = [0,1,3,4,7,8]
X = df[predictor_variables]
X

In [None]:
# variável alvo

y = data['target']
print(y)

- Dividindo nossos dados em 70% de treinamento (para ajuste) e 30% de teste (para previsão)

In [None]:
X_train, x_test, Y_train, y_test = train_test_split(X, y, train_size=.7)

- Ajustaando o modelo

In [None]:
model = regr.fit(X_train, Y_train)

- Verificando a precisão/variação

In [None]:
score_r2 = model.score(x_test, y_test)

- valores previstos a partir dos dados de teste

In [None]:
predictions = model.predict(x_test)
print(predictions)

- Para olhar os dados de teste com variáveis independentes (preditores) vamos configurar um dataframe de resumo para capturar a saída de nossas previsões de modelo para nossos dados de teste

In [None]:
summary_df = pd.DataFrame(x_test)
summary_df['alvo'] = y_test
summary_df = summary_df.rename(columns={0:"A", 1:"B", 3:"C", 4:"D", 7:"E", 8:"F"})
summary_df['alvo'] = y_test

- Capturando nossas previsões em uma nova coluna a partir do método model.predict

In [None]:
summary_df['predicao'] = predictions
summary_df

- Métricas adicionais

In [None]:
print(" Pontuação R2:  ", score_r2)
print("Interceptação:", regr.intercept_)

In [None]:
summary_df.plot(kind="scatter", x="alvo", y="predicao")

#### Referências:

https://medium.com/data-hackers/como-funciona-uma-regressão-linear-f7208fa6c662

https://pt.wikipedia.org/wiki/Regressão_linear