## <center>__MÉTODOS NUMÉRICOS__</center>
## <center>__PROJETO DA UNIDADE 2<br>Predição de dados de saúde usando regressão linear__</center>

### <center>ALUNO:Pedro Henrique Guerra de Abreu</center>

#### **1. INTRODUÇÃO**

A predição de dados tem como objetivo compreender o comportamento dos dados existente e gerar regras de predição para outras entradas de dados, e no nosso contexto iremos aplicar a regressão linear para predizer os dados do problema em questão. A regressão linear é uma função de primeiro grau, que busca entender o padrão de um conjunto de dados que possa ser descrito por essa função com uma variável. E para esse projeto será usado um conjunto de dados de pacientes com diabetes que possuem 442 amostra e 10 variáveis.

Durante o projeto iremos utilizar técnicas como: Regressão polinomial, caso especial de regressão linear, onde criamos recursos polinomiais antes da criação da regressão. Numba, projetado para ser utilizado como matrizes e funções NumPy, gera códigos especializados para distintos tipos de dados de array. Regularização, ajuda a resolver o problema de ajuste no machine learning. Entre outros métodos que acompanharemos durante a implementação.

#### **2. DESCRIÇÃO DO PROBLEMA**

Vários estudos foram desenvolvidos na área de aprendizado de máquina aplicado à saúde. Esse crescimento se da devido ao aumento da demanda por formas que possam facilitar os diagnósticos do paciente e diminuir o tempo dos médicos em suas prescrições.

E com o avanço constante da tecnologia é cada dia mais real a possibilidade desses diagnósticos serem feitos de forma computacional baseado em outros dados e utilizando tecnicas de aprendizado de máquina.

No Brasil foram desenvolvidos modelos preditivos de diabetes não diagnosticada a partir de 12.447 adultos, onde utilizaram cinco algoritimos de aprendizado de máquina. Como resultado eles obteram 11% de diabetes não diagnosticada. No conjunto de dados de teste 403 pessoas tinham diabetes não diagnoticada e 274 foram apontados como casos positivos.

#### **3. MÉTODOS APLICADOS À SOLUÇÃO**

Como principal método temos a Regressão Linear, que basicamente gera uma equação que descreve a relação entre uma ou mais variávies preditoras e a variável de resposta. Esse método encontra a reta que melhor representa o conjunto de entrada com a variável resposta. Podemos aplicar a regressão linear em diferentes contextos, como na análise de evasão escolar, variação da frequência cardíaca, valor de vendas de mercados, entre outras várias aplicações.

Também fazemos uso da regressão Polinomial partindo da ideia que podemos aproximar qualquer função com um polinômio. A ideia é bastante simples, iremos utilizar as variávis existentes para construir novas variáveis polinomiais e a regressão terá uma melhor aproximação de acordo com o grau do polinômio.

Para otimizar nosso código utilizamos a vetorização e o numba, pois ao usar uma implementação vetorizada podemos tornar o processo muito mais rápido em comparação com a nossa implementação convencional e para isso utilizamos a biblioteca Numpy. Já o numba é um compilador JIT que converte um subconjunto de Python e NumPy em um código de máquina mais rápido usando LLVM.

E a regularização ajuda a resolver o problema de ajuste no aprendizado de máquina. O modelo complexo não é tão bom desempenho nos dados de teste, já o modelo simples é a generalização muito pobre dos dados. É necessário optar por um dos modelos e a regularização ajuda a escolher a complexidade do modelo preferido afim que ele seja melhor nas previsões.

#### **4. IMPLEMENTAÇÃO**

##### **Importações**

In [1]:
from sklearn import datasets, linear_model, metrics 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
import math, scipy, numpy as np
from scipy import linalg

##### **Dataset Diabetes**

In [2]:
#carregando dados
data = datasets.load_diabetes() 

In [3]:
#recursos que serão utilizados na analise.
feature_names=['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

In [4]:
#divide em treino e teste, com a proporção 80% de treino e 20% teste
trn,test,y_trn,y_test = train_test_split(data.data, data.target, test_size=0.2)

In [5]:
#printa o numero de elementos presente nas dimensão da matriz
trn.shape, test.shape

((353, 10), (89, 10))

##### **Regressão Linear com Scikit Learn**

In [6]:
regr = linear_model.LinearRegression()
#treina e calcula tempo de execucao
%timeit regr.fit(trn, y_trn)

434 µs ± 13 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [7]:
#mostra a predição do modelo
pred = regr.predict(test)

In [8]:
#função responsável por verificar metricas de erros do modelo
def regr_metrics(act, pred):
    return (math.sqrt(metrics.mean_squared_error(act, pred)), 
     metrics.mean_absolute_error(act, pred))

In [9]:
regr_metrics(y_test, regr.predict(test))

(47.950339619338905, 38.197638602170876)

Regressão polinomial é um caso especial da regressão linear, pois criamos alguns recursos polinomiais antes de criar a regressão.

In [10]:
trn.shape

(353, 10)

In [11]:
poly = PolynomialFeatures(include_bias=False)

In [12]:
#treina os elementos
trn_feat = poly.fit_transform(trn)

In [13]:
#adiciona tudo a uma string usando a "," como separador
', '.join(poly.get_feature_names(feature_names))

'age, sex, bmi, bp, s1, s2, s3, s4, s5, s6, age^2, age sex, age bmi, age bp, age s1, age s2, age s3, age s4, age s5, age s6, sex^2, sex bmi, sex bp, sex s1, sex s2, sex s3, sex s4, sex s5, sex s6, bmi^2, bmi bp, bmi s1, bmi s2, bmi s3, bmi s4, bmi s5, bmi s6, bp^2, bp s1, bp s2, bp s3, bp s4, bp s5, bp s6, s1^2, s1 s2, s1 s3, s1 s4, s1 s5, s1 s6, s2^2, s2 s3, s2 s4, s2 s5, s2 s6, s3^2, s3 s4, s3 s5, s3 s6, s4^2, s4 s5, s4 s6, s5^2, s5 s6, s6^2'

In [14]:
trn_feat.shape

(353, 65)

In [15]:
#treino utilizando o regressão linear
regr.fit(trn_feat, y_trn)

LinearRegression()

In [16]:
#verifica a norma quadrada média e o erro absoluto medio.
regr_metrics(y_test, regr.predict(poly.fit_transform(test)))

(53.871288831807355, 41.62646848183116)

In [17]:
%timeit poly.fit_transform(trn)

244 µs ± 5.55 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


##### **Experimentos com vetorização e códigos nativos**

Experimentos com vetorização e códigos nativos

In [18]:
%matplotlib inline

In [19]:
import math, numpy as np, matplotlib.pyplot as plt
from scipy import ndimage
from numba import jit, vectorize, guvectorize, cuda, float32, void, float64

A utilização dessas bibliotecas vão acelerar o processo de vetorização.

In [20]:
def proc_python(xx,yy):
    zz = np.zeros(nobs, dtype='float32')
    for j in range(nobs):   
        x, y = xx[j], yy[j] 
        x = x*2 - ( y * 55 )
        y = x + y*2         
        z = x + y + 99      
        z = z * ( z - .88 ) 
        zz[j] = z           
    return zz

In [21]:
nobs = 10000
#retorno uma amostra da distribuição "normal padrão" em (float32)
x = np.random.randn(nobs).astype('float32')
y = np.random.randn(nobs).astype('float32')

In [22]:
%timeit proc_python(x,y)

88.7 ms ± 726 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [23]:
def proc_numpy(x,y):
    z = np.zeros(nobs, dtype='float32')
    x = x*2 - ( y * 55 )
    y = x + y*2         
    z = x + y + 99      
    z = z * ( z - .88 ) 
    return z

In [24]:
#retorna true se duas matrizes sao iguais em termos de elemento dentro de uma tolerancia.
np.allclose( proc_numpy(x,y), proc_python(x,y), atol=1e-4 )

True

In [25]:
%timeit proc_numpy(x,y)

28 µs ± 837 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


O numba é projetado para ser usado com matrizes e funções NumPy. Gera códigos especializados para diferentes tipos de dados de array afim de otimizar o desempenho.

In [26]:
@jit()
def proc_numba(xx,yy,zz):
    for j in range(nobs):   
        x, y = xx[j], yy[j] 
        x = x*2 - ( y * 55 )
        y = x + y*2         
        z = x + y + 99      
        z = z * ( z - .88 ) 
        zz[j] = z           
    return zz

In [27]:
z = np.zeros(nobs).astype('float32')
np.allclose( proc_numpy(x,y), proc_numba(x,y,z), atol=1e-4 )

True

In [28]:
%timeit proc_numba(x,y,z)

20.8 µs ± 611 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [29]:
#decodificador de vetorização do Numba
@vectorize
def vec_numba(x,y):
    x = x*2 - ( y * 55 )
    y = x + y*2         
    z = x + y + 99      
    return z * ( z - .88 )

In [30]:
np.allclose(vec_numba(x,y), proc_numba(x,y,z), atol=1e-4 )

True

In [31]:
%timeit vec_numba(x,y)

7.96 µs ± 136 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [32]:
# Funções polinomiais com Numba

@jit(nopython=True)
def vec_poly(x, res):
    m,n=x.shape
    feat_idx=0
    for i in range(n):
        v1=x[:,i]
        for k in range(m): res[k,feat_idx] = v1[k]
        feat_idx+=1
        for j in range(i,n):
            for k in range(m): res[k,feat_idx] = v1[k]*x[k,j]
            feat_idx+=1

In [33]:
#dividindo em treino e teste
trn = np.asfortranarray(trn)
test = np.asfortranarray(test)

In [34]:
m,n=trn.shape
n_feat = n*(n+1)//2 + n
trn_feat = np.zeros((m,n_feat), order='F')#features de treino
test_feat = np.zeros((len(y_test), n_feat), order='F')#features de teste

In [35]:
vec_poly(trn, trn_feat)
vec_poly(test, test_feat)

In [36]:
regr.fit(trn_feat, y_trn)

LinearRegression()

In [37]:
regr_metrics(y_test, regr.predict(test_feat))

(53.87128883180737, 41.62646848183122)

In [38]:
%timeit vec_poly(trn, trn_feat)

6.78 µs ± 194 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [39]:
%timeit poly.fit_transform(trn) #ajustar os dados e transforma-los

241 µs ± 8.23 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


##### **Regularização e ruído**

A regularização é uma maneira de reduzir o excesso de ajuste e criar modelos que generalizem melhor para novos dados.

In [40]:
reg_regr = linear_model.LassoCV(n_alphas=10) #modelo linear de laco com ajuste iterativo ao longo de um caminho de regularizacao.

In [41]:
reg_regr.fit(trn_feat, y_trn)

  model = cd_fast.enet_coordinate_descent_gram(


LassoCV(n_alphas=10)

In [42]:
reg_regr.alpha_  #valor dos alfas ao longo do caminho de regularização.

0.010312773107565636

In [43]:
regr_metrics(y_test, reg_regr.predict(test_feat))

(47.27045985070561, 37.417096083040434)

##### **Ruído**

Agora vamos adicionar algum ruído aos dados

In [44]:
idxs = np.random.randint(0, len(trn), 10) #retornando numeros aleatorios

In [45]:
y_trn2 = np.copy(y_trn)
y_trn2[idxs] *= 10 # label noise

In [46]:
regr = linear_model.LinearRegression()
regr.fit(trn, y_trn)
regr_metrics(y_test, regr.predict(test))

(47.950339619338905, 38.197638602170876)

In [47]:
regr.fit(trn, y_trn2)
regr_metrics(y_test, regr.predict(test))

(55.72435442057439, 43.06887548761054)

In [48]:
hregr = linear_model.HuberRegressor()
hregr.fit(trn, y_trn2)
regr_metrics(y_test, hregr.predict(test))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


(47.37403604174274, 37.47553298393954)