<a href="https://colab.research.google.com/github/rafaelacirino/NumberMethods/blob/main/RegressaoLinear_RafaelaCirino.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center>__MÉTODOS NUMÉRICOS__</center>
## <center>__PROJETO DA UNIDADE 2__</center>
### <center>PREDIÇÃO DE DADOS DE SAÚDE USANDO REGRESSÃO LINEAR</center>
#### <center>__ALUNO: Rafaela Borba Falcão Cirino__</center>

<div class="alert alert-block alert-info">
1. INTRODUÇÃO
</div>

<p>Como bem define Souza (2001) a análise de regressão compreende analisar dados amaostrais com o intuito de identificar como duas variáveis relacionam-se umas com as outras. A análise de regressão tem como resultado uma equação matemática que descreve o relacionamento entre essas variáveis e pode ser usada para estimar ou predizer, valores futuros de uma variável quando se conhecem ou se supõem conhecidos valores de outra variável.</p>
<p>O aprendizado de máquina surgiu com o intuito de suprir diversas necessidades, dentre elas a predição de valores. O qual a regressão linear é um desses modelos de aprendizado de máquinas.</p>
<p>A requessão linear tem como objetivo tratar de um valor que não se consegue mensurar no início. Neste projeto, será utilizada a Regressão Linear com o intuito de analisar conjunto de dados de pacientes com diabetes. Os dados são compostos de  442 amostras e 10 variáveis, sendo a variável dependente uma medida quantitativa da progressão da doença um ano após o diagnóstico.</p>

<div class="alert alert-block alert-info">
2. DESCRIÇÃO DO PROBLEMA
</div>

<p>Por ser a regressão linear um método da álgebra, ela visa modelar uma relação entre uma ou mais variáveis independentes e uma variável dependente. A regressão linear pode ser do tipo simples (quando lida com appenas uma variável independente), ou múltipla, também pode chamar-se multivariada (lida com duas ou mais variáveis independentes). A classificação da regressão linear depende, desta forma, da quantidade de variáveis independentes que a função possui.</p>
<p>Como objetivo primordial, a regressão linear simples busca encontrar os coeficientes de uma função linear a partir da relação entre variável dependente y e a variável independente x.</p>
<p>Percebe-se que a equação de regressão linear resulta em:</p>
<p>y = bO + b1.X</p>
<ol>
  <li>y: variável dependente ou valor previsto;</li>
  <li>x: variável independente ou variável preditora;</li>
  <li>bO: coeficiente que intercepta ou que corta o eixo y;</li>
  <li>b1: coeficiente que define a inclinação da reta.</li>
</ol>

<div class="alert alert-block alert-info">
3. MÉTODOS APLICADOS À SOLUÇÃO
</div>

<p>Há inúmeros algoritmos que solucionam problemas de regressão linear. Neste projeto serão demonstrados os métodos Cholesky, fatoração QR e SVD.</p>
<p><strong> Solução Ingênua</strong></p>
<p>Dentre os métodos elencados, é o mais simples daregressão linear. Implementa a forma mais simples das equações normais.</p>
<p>x = (A^TA)^-1A^Tb</p>
<p><strong>Cholesky</strong></p>
<p>Utiliza o memso princípio d efuncionamento do método da decomposição LU. Tem como implementação a fatoração da matriz A em outras duas matrizes, sendo uma triangular inferior e outra superior. Esse tipo de regressão resolve equações normais do tipo A^T Ax = A^Tb utilizando a matriz pseu-inversa de Moore-Penrose, ou matriz inversa generalizada.</p>
<p><strong>Fatoração QR</strong></p>
<p>Decompõe uma matriz em um produto A = QR, Onde Q(mxm) é uma matriz ortogonal e R(mxn) é uma matriz triangular superior. A fatoração QR é usada para resolver problemas de mínimos quadrados linear e é base para determinado algoritmo de autovalores, o algoritmo QR.</p>
<p><strong>SVD</strong></p>
<p>SVD traduz-se como decomposição em valores singulares. Consiste na decomposição da matriz em um produto onde A = 𝑈Σ𝑉. Onde:</p>
<p>Ax = b</p>
<p>Sendno A = 𝑈Σ𝑉, portanto:</p>
<p>𝑈Σ𝑉 = b</p>
<p>Σ𝑉x = 𝑈^𝑇𝑏</p>
<p>Então:</p>
<p>Σ𝑤=𝑈^𝑇𝑏 , sendo o resultado final da regressão linear.</p>


<div class="alert alert-block alert-info">
4. IMPLEMENTAÇÃO
</div>

<p>Importações necessárias</p>

In [23]:
import numpy as np
import scipy as sp

*   Solução ingênua:

x = (𝐴^T𝐴)−1𝐴𝑇𝑏

In [24]:
def ls_naive(A, b):
    return np.linalg.inv(A.T @ A) @ A.T @ b

*   Cholesky


𝐴=𝐿𝐿^𝑇

In [25]:
def ls_chol(A, b):
    R = sp.linalg.cholesky(A.T @ A)
    
    w = sp.linalg.solve_triangular(R, A.T @ b, trans='T')    
    
    return sp.linalg.solve_triangular(R, w)


*   Fatoração QR

𝐴=𝑄𝑅

In [26]:
def ls_qr(A,b):
    Q, R = sp.linalg.qr(A, mode='economic')
    
    return sp.linalg.solve_triangular(R, Q.T @ b)



*   SVD

      𝐴=𝑈Σ𝑉



In [27]:
def ls_svd(A,b):
    U, sigma, Vh = sp.linalg.svd(A, full_matrices=False, lapack_driver='gesdd')
    w = (U.T @ b)/ sigma
    
    return Vh.T @ w

<div class="alert alert-block alert-info">
5. CASOS DE USO
</div>



*   Como mencionado anteriormente, serão analisados os dados de planos de saúde.
*   Serão implementados inicialmente os métodos os quais serão aplicadas a Regressão Linear.



In [28]:
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures

In [29]:
np.set_printoptions(precision=6)

data = datasets.load_diabetes()

feature_names=['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

trn,test,y_trn,y_test = train_test_split(data.data, data.target, test_size=0.2)

trn_int = np.c_[trn, np.ones(trn.shape[0])]

In [30]:
coeffs_naive = ls_naive(trn_int, y_trn)
coeffs_naive

array([   8.59575 , -239.237457,  449.067916,  338.959978, -504.59826 ,
        315.084659,  -59.011685,   29.776676,  661.076961,   50.479282,
        150.172674])

In [31]:
coeffs_chol = ls_chol(trn_int, y_trn)
coeffs_chol

array([   8.59575 , -239.237457,  449.067916,  338.959978, -504.59826 ,
        315.084659,  -59.011685,   29.776676,  661.076961,   50.479282,
        150.172674])

In [32]:
coeffs_qr = ls_qr(trn_int, y_trn)
coeffs_qr

array([   8.59575 , -239.237457,  449.067916,  338.959978, -504.59826 ,
        315.084659,  -59.011685,   29.776676,  661.076961,   50.479282,
        150.172674])

In [33]:
coeffs_svd = ls_svd(trn_int, y_trn)
coeffs_svd

array([   8.59575 , -239.237457,  449.067916,  338.959978, -504.59826 ,
        315.084659,  -59.011685,   29.776676,  661.076961,   50.479282,
        150.172674])



*   Definição do conjunto de dados de habitação na Califórnia



In [34]:
np.set_printoptions(precision=6)

data = datasets.fetch_california_housing()

feature_names=['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitutde', 'Longitude']

trn,test,y_trn,y_test = train_test_split(data.data, data.target, test_size=0.2)

trn_int = np.c_[trn, np.ones(trn.shape[0])]

In [35]:
coeffs_naive = ls_naive(trn_int, y_trn)
coeffs_naive

array([ 4.326087e-01,  9.493077e-03, -1.005346e-01,  6.162046e-01,
       -4.661642e-06, -3.414303e-03, -4.254021e-01, -4.379011e-01,
       -3.719596e+01])

In [36]:
coeffs_chol = ls_chol(trn_int, y_trn)
coeffs_chol

array([ 4.326087e-01,  9.493077e-03, -1.005346e-01,  6.162046e-01,
       -4.661642e-06, -3.414303e-03, -4.254021e-01, -4.379011e-01,
       -3.719596e+01])

In [37]:
coeffs_qr = ls_qr(trn_int, y_trn)
coeffs_qr

array([ 4.326087e-01,  9.493077e-03, -1.005346e-01,  6.162046e-01,
       -4.661642e-06, -3.414303e-03, -4.254021e-01, -4.379011e-01,
       -3.719596e+01])



*   SVD



In [38]:
coeffs_svd = ls_svd(trn_int, y_trn)
coeffs_svd

array([ 4.326087e-01,  9.493077e-03, -1.005346e-01,  6.162046e-01,
       -4.661642e-06, -3.414303e-03, -4.254021e-01, -4.379011e-01,
       -3.719596e+01])

O resultado final obtido ao final da execução de cada função é o resultado da execução de uma regressão linear em cada conjunto de dados usando cada método descrito neste projeto.