<a href="https://colab.research.google.com/github/Carol-ACDR/Metodos-Numericos/blob/main/Pred_sa%C3%BAde_reg_linear.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center>__MÉTODOS NUMÉRICOS__</center>
## <center>__PROJETO DA UNIDADE 2__</center>

## <center>__Predição de dados de saúde usando regressão linear__</center>

#### <center>__Dezembro de 2022__</center>

<div class="alert alert-block alert-info">
1. INTRODUÇÃO
</div>

Este relatório visa por apresentar o tema: Predição de dados de saúde usando regressão linear. Para isso, serão demonstradas diversas formas de montagem da função de regressão linear disponiveis utilizando-se das bibliotecas basicas de python (math,pandas, scipy e numpy). Os metodos debruçados incluem:



**Scipy Sparse Least Squares** =

Encontra a solução de mínimos quadrados para um sistema de equações grande, esparso e linear.

A função resolve Ax = b ou min ||Ax - b||^2 ou min ||Ax - b||^2 + d^2 ||x - x0||^2.

A matriz A pode ser quadrada ou retangular (sobredeterminada ou subdeterminada) e pode ter qualquer classificação.




**Normal equation: "Naive Solution"** =

 Uma solução mais basica e direta, utilizando equações normais como guia.


**Normal equation: Cholesky** =

é uma decomposição de uma matriz positiva-definida Hermitiana no produto de uma matriz triangular inferior e sua transposta conjugada, que é útil para soluções numéricas eficientes.

**QR Factorization** =

é uma decomposição de uma matriz A em um produto A = QR de uma matriz ortogonal Q e uma matriz triangular superior R. A decomposição QR é frequentemente usada para resolver o problema de mínimos quadrados lineares e é a base para um algoritmo de autovalor específico, o algoritmo QR

**SVD** =

a fatoração de uma matriz real ou complexa, com diversas aplicações importantes em processamento de sinais e estatística.


Cada um com suas peculiaridades que serão explicadas mais a diante.


<div class="alert alert-block alert-info">
2. DESCRIÇÃO DO PROBLEMA
</div>


Independente da situação, ser capaz de realizar uma previsão com uma propabilidade de acerto elevada sobre alguma situação é definitivamente útil no dia a dia. Uma previsão correta pode ser capaz de salvar tempo, dinheiro e até mesmo a vida de varias pessoas. No entanto, para realizar tal ação de forma precisa, muitas vezes se faz necessario a analise de uma imensa quantidade de dados. Nessa linha de pensamento, torna-se mais comodo buscar uma forma segura que possa prever dados novos ao inves de ficar sempre recalculando paramentros, e como a função é feita para espelhar matematicamente nossa realidade, é interessante utilizar-se dela.

Então começa a busca por uma função linear que esteja o menos distante possivel de todos os pontos de data, de forma que essa mesma função seja capaz de prever com um nivel aceitavel de distancia o proximo dado a ser gerado.


<div class="alert alert-block alert-info">
3. MÉTODOS APLICADOS À SOLUÇÃO
</div>

Nessa seção, você descreverá que métodos numéricos usará para solucionar o problema acima, explicando como esses métodos funcionam, para que tipos de problemas eles são úteis e, principalmente, porque são úteis para o problema descrito na seção anterior

**Scipy Sparse Least Squares** =

Somando a definição com o que diz na propria fonte do código: " Se A for simétrico, LSQR não deve ser usado! As alternativas são o método do gradiente conjugado simétrico (cg) e/ou SYMMLQ. SYMMLQ é uma implementação de cg simétrico que se aplica a qualquer A simétrico e convergirá mais rapidamente que LSQR. Se A for positivo definido, existem outras implementações de cg simétrico que requerem um pouco menos de trabalho por iteração do que SYMMLQ (mas terão o mesmo número de iterações)."

Por tanto, deve ser usado em sistemas de equações grandes, esparsas e lineares. Considerando que estamos a procura de uma equação linear, essa função pode ajudar nessa busca.

Vale observar que é possivel mudar o modo LAPACK(Algebra Linear Package) em que a função opera, podendo ser:

gelsd: que usa SVD e um método de divisão e conquista

gelsy: que usa fatoração QR

gelss: que usa SVD

O primeiro é o default, o segundo roda melhor em alguns casos e o terceiro é o geralmente usado.


**Normal equation: "Naive Solution"** =

Trata-se de procurar um vetor "b" que esteja mais proximo da imagem de A,
sendo assim a projeção de b sobre A.

 Como b−Ax deve ser perpendicular a imagem de A, vemos que

(A^T)*(b−Ax)=0

então tem-se:

x= (A^T)b*((A^T)A)^−1


**Normal equation: Cholesky** =

Utilizada quando uma matriz é "full rank". Pois pode-se constatar que a pseudo-inversa (A^T)((A^T)A)^-1 é uma matriz quadrada, simetrica positiva definida. E portanto pode-se utilizar da fatoração de Cholesky, que encontra a matriz L triangular .

A = LL*

onde L é uma matriz triangular inferior com entradas diagonais positivas e reais, e L* denota a matriz conjugada transposta de L.

E, utilizando a função normal e resolvendo a matriz triangular, podemos achar a resolução da equação.


**QR Factorization** =

Há varios jeitos de calcular Q e R, utilizando "Reflexão de Householder" (uma transformação linear que permite que um vetor seja refletido através de um plano ou hiperplano): Cria-se uma matriz triangular superior com R . De forma que ocorra uma reflexão vetorial onde todas as coordenadas, exceto uma, desaparessem. A matriz Q é construída como uma sequência de multiplicações de matrizes que eliminam cada coordenada sucessivamente, até o rank da matriz A.


**SVD** =

Parte da ideia de que qualquer matriz A pode ser decomposta em três matrizes U , Σ e V tais que A=UΣV.

Onde A é a matriz m x n real que se deseja decompor, U é uma matriz m x m, Σ é uma matriz diagonal m x n e V é uma matriz unitária conjugada nxn.

Os valores diagonais da Σ são os valores singulares da matriz A original. As colunas da matriz U são os vetores singulares à esquerda de A e as colunas de V os vetores singulares à direita de A.

Vale ressaltar que o SVD é calculado por meio de métodos numéricos iterativos.

<div class="alert alert-block alert-info">
4. IMPLEMENTAÇÃO
</div>

Aqui você irá  mostrar sua implementação para o problema considerado, explicando o que foi feito em cada passo e cada saída de cada trecho de código, sempre relacionando com a descrição do método mostrada acima.

In [None]:

import math, scipy, numpy as np
from scipy import linalg

In [None]:
# Primeiro para a função Scipy Sparse Least Squares, lembrando que não pode ser usada com matrizes simetricas e não é a mais recomendada para matrizes positivas definidas.
def SSLS(A,b,tipo = "sd"): #Passando as duas matrizes, além da especificação do tipo
  if (tipo == "sd"):
    return linalg.lstsq(A, b, lapack_driver="gelsd") #Já irá retornar a solução final da equação, utilizando o método SVD e  divisão e conquista, como já citado
  elif(tipo == "sy"):
    return linalg.lstsq(A, b, lapack_driver="gelsy") #Já irá retornar a solução final da equação,utilizando o método fatoração QR
  elif(tipo == "ss"):
    return linalg.lstsq(A, b, lapack_driver="gelss") #Já irá retornar a solução final da equação, utilizando o método SVD


In [None]:
# Seguindo para Naive Solution
def Naiv(A,b):#Passando as duas matrizes
   return np.linalg.inv(A.T @ A) @ A.T @ b #Multiplicação da matriz inversa de A multiplicada pela Trasposta de T, esse resultado é multiplicado pela transposta de A e pela matriz B, já devolvendo os coeficientes encontrados.

In [None]:
#Seguindo para Normal com Cholesky

def cho(A, b):#Passando as duas matrizes
    L = scipy.linalg.cholesky(A.T @ A) #Multiplicando por A por sua transposta para garantir uma matriz simetrica e quadrada, antes de passa-la pela fatoração de Cholesky, como já mencionado
    L1 = scipy.linalg.solve_triangular(L, A.T @ b, trans='T') # Resolvendo a equação triangular, usando como resposta a multiplicação da trasposta de A com a matriz b, passando a especificação de resolução para transposta, preparando L1 para ser a transposta conjugada de L
    return scipy.linalg.solve_triangular(L, L1) #Achando a resposta final resolvendo as equações juntas para achar os coeficientes.

In [None]:
#Seguindo para QR Factorization

def QF(A,b):#Passando as duas matrizes
    Q, R = scipy.linalg.qr(A, mode='economic') #Calculando Q e R a partir de A, colocando fatoração parcial para garantir matriz quadrada
    return scipy.linalg.solve_triangular(R, Q.T @ b) #Resolvendo para achar a resposta final pela matriz triangular

In [None]:
#Por fim, temos o metodo SVD.

def svd(A,b):
    m, n = A.shape #Adquirindo numero de linhas e numero de colunas de A
    U, sigma, Vh = scipy.linalg.svd(A, full_matrices=False, lapack_driver='gesdd') # Achando os valores das matrizes já mencionadas, mas tratando de destacar de utilizar uma estrategia de divisão e conquista eficientes. E utilizando fatoração parcial por conta do tamanho da matriz
    w = (U.T @ b)/ sigma #Multiplicando aos vetores singulares a esquerda de A (U) pela matriz b e dividindo o resultado pelos valores singulares da matriz A(sigma)
    return Vh.T @ w # Multiplicando o resultado a cima pela transposta a dos vetores singulares a direita de A(V). Para por fim achar os coeficientes.

<div class="alert alert-block alert-info">
5. CASOS DE USO
</div>

In [None]:
from sklearn import datasets, linear_model, metrics
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
import timeit
import pandas as pd

Preparando o mesmo exemplo das referencias( dataset sobre pacientes com Diabetes)

In [None]:
data = datasets.load_diabetes() #Passando para uma variavel

In [None]:
feature_names=['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']# Arrumando os labels

In [None]:
x_trn,x_test,y_trn,y_test = train_test_split(data.data, data.target, test_size=0.2) #Separando a matriz

In [None]:
x_trn.shape, x_test.shape

((353, 10), (89, 10))

Calculo da Norma quadrática média  e o erro absoluto médio, para testar precisão dos códigos

In [None]:
def regr_metrics(act, pred):
    return (math.sqrt(metrics.mean_squared_error(act, pred)),
     metrics.mean_absolute_error(act, pred))

Lembrando que possivelmente há uma constante na equação que estamos buscando, é necessario fazer um pequeno tratamento nas matrizes "x", de forma que seja possivel inclui-la nos calculos

In [None]:
trnX = np.c_[x_trn, np.ones(x_trn.shape[0])]
testX = np.c_[x_test, np.ones(x_test.shape[0])]

Testando os métodos Scipy Sparse Least Squares

In [None]:
SD = SSLS(trnX,y_trn,tipo = "sd")

print(" SVD e  divisão e conquista", regr_metrics(y_test, testX @ SD[0]))

SY = SSLS(trnX,y_trn,tipo = "sy")

print(" QR", regr_metrics(y_test, testX @ SY[0]))

SS = SSLS(trnX,y_trn,tipo = "ss")

print(" SVD ", regr_metrics(y_test, testX @ SS[0]))

SDR^2: 0.4595741601060638
 SVD e  divisão e conquista (53.84091444930269, 42.06503959301822)
SYR^2: 0.45957416010606245
 QR (53.84091444930275, 42.06503959301826)
SSR^2: 0.45957416010606444
 SVD  (53.84091444930266, 42.06503959301819)


Testando Naive Solution



In [None]:
Nai = Naiv(trnX,y_trn)

print("Naive", regr_metrics(y_test, testX @ Nai))



NaiveR^2: 0.4595741601060652
Naive (53.84091444930262, 42.06503959301814)


Testando Normal com Cholesky

In [None]:
Cho = cho(trnX,y_trn)

print("Cholesky", regr_metrics(y_test, testX @ Cho))

CholeR^2: 0.4595741601060618
Cholesky (53.84091444930279, 42.0650395930183)


Testando QR Factorization

In [None]:
Qf =  QF(trnX,y_trn)

print("Qf", regr_metrics(y_test, testX @ Qf))

QfR^2: 0.4595741601060619
Qf (53.84091444930279, 42.06503959301829)


Testando método SVD

In [None]:
Svd =  svd(trnX,y_trn)

print("SVD", regr_metrics(y_test, testX @ Svd))

SVDR^2: 0.45957416010606456
SVD (53.84091444930265, 42.0650395930182)


Comparação das funções por tempo e erro:

In [None]:
def scipylstq(A, b):
    return scipy.linalg.lstsq(A,b)[0]


In [None]:


row_names = ['Normal Eqns- Naive',
             'Normal Eqns- Cholesky',
             'QR Factorization',
             'SVD',
             'Scipy lstsq']

name2func = {'Normal Eqns- Naive': 'Naiv',
             'Normal Eqns- Cholesky': 'cho',
             'QR Factorization': 'QF',
             'SVD': 'svd',
             'Scipy lstsq': 'scipylstq'}

pd.options.display.float_format = '{:,.9f}'.format
df = pd.DataFrame(index=row_names, columns=['Time', 'Error'])
for name in row_names:
    fcn = name2func[name]
    t = timeit.timeit(fcn + '(testX,y_test)', number=5, globals=globals())
    coeffs = locals()[fcn](testX, y_test)
    df.at[name, 'Time'] =  t
    df.at[name, 'Error'] = regr_metrics(y_test, testX @ coeffs)[0]
df

Unnamed: 0,Time,Error
Normal Eqns- Naive,0.00493737,49.165197129
Normal Eqns- Cholesky,0.00049712,49.165197129
QR Factorization,0.00058234,49.165197129
SVD,0.00066886,49.165197129
Scipy lstsq,0.00597845,49.165197129


Por tanto, para essa predição, Cholesky foi o método com melhor desempenho

 **Agora, para o segundo exemplo**

In [None]:
data2 = datasets.load_linnerud()

In [None]:
feature_names=['Weight', 'Waist', 'Pulse']# Arrumando os labels

In [None]:
x_trn,x_test,y_trn,y_test = train_test_split(data2.data, data2.target, test_size=0.2) #Separando a matriz

In [None]:
x_trn.shape, x_test.shape

((16, 3), (4, 3))

Vamos utilizar da mesma função já definida "regr_metrics" para testar a precisão do código e fazer o mesmo tratamento para as matrizes de forma a possibilitar a constante.

In [None]:
trnX = np.c_[x_trn, np.ones(x_trn.shape[0])]
testX = np.c_[x_test, np.ones(x_test.shape[0])]

Testando os métodos Scipy Sparse Least Squares

In [None]:
SD = SSLS(trnX,y_trn,tipo = "sd")


print(" SVD e  divisão e conquista", regr_metrics(y_test, testX @ SD[0]))

SY = SSLS(trnX,y_trn,tipo = "sy")

print(" QR", regr_metrics(y_test, testX @ SY[0]))

SS = SSLS(trnX,y_trn,tipo = "ss")

print(" SVD ", regr_metrics(y_test, testX @ SS[0]))

 SVD e  divisão e conquista (24.34496024268713, 15.477736134746257)
 QR (24.34496024268714, 15.47773613474625)
 SVD  (24.344960242687183, 15.477736134746289)


Testando Naive solution

In [None]:
Nai = Naiv(trnX,y_trn)

print("Naive", regr_metrics(y_test, testX @ Nai))

Naive (24.344960242686916, 15.477736134746094)


Testando Normal com Cholesky

In [None]:
Cho = cho(trnX,y_trn)

print("Cholesky", regr_metrics(y_test, testX @ Cho))

Cholesky (24.34496024268719, 15.477736134746282)


Testando QR Factorization

In [None]:
Qf =  QF(trnX,y_trn)

print("Qf", regr_metrics(y_test, testX @ Qf))

Qf (24.344960242687105, 15.477736134746218)


(Como o teste de SVD já foi realizado pelo Scipy, partiremos para a comparação das funções por tempo e erro:

In [None]:
row_names = ['Normal Eqns- Naive',
             'Normal Eqns- Cholesky',
             'QR Factorization',
             'Scipy lstsq']

name2func = {'Normal Eqns- Naive': 'Naiv',
             'Normal Eqns- Cholesky': 'cho',
             'QR Factorization': 'QF',
             'Scipy lstsq': 'scipylstq'}

pd.options.display.float_format = '{:,.9f}'.format
df = pd.DataFrame(index=row_names, columns=['Time', 'Error'])
for name in row_names:
    fcn = name2func[name]
    t = timeit.timeit(fcn + '(testX,y_test)', number=5, globals=globals())
    coeffs = locals()[fcn](testX, y_test)
    df.at[name, 'Time'] =  t
    df.at[name, 'Error'] = regr_metrics(y_test, testX @ coeffs)[0]
df

Unnamed: 0,Time,Error
Normal Eqns- Naive,0.00680009,0.0
Normal Eqns- Cholesky,0.00504372,0.0
QR Factorization,0.00185152,0.0
Scipy lstsq,0.00032388,0.0


Como é possivel ver,  para essa predição, Scipy(SVD) foi o método com melhor desempenho