# Problema de Otimização Não-Linear
## Projeto da disciplina **SME5720 - Otimização Não-linear**
### Estudo de caso da Regressão Linear

## Membros

* Eduardo Zaffari Monteiro - eduardozaffarimonteiro@usp.br - 12559490

* Gustavo Silva de Oliveira - gustavo.oliveira03@usp.br - 12567231

* Lucas Ivars Cadima Ciziks - luciziks@usp.br - 125599472

* Pedro Henrique de Freitas Maçonetto - pedromaconetto@usp.br - 12675419

## Introdução

*Regressão* é a metodologia responsável por estudar e compreender o **relacionamento estatístico** entre uma variável resposta (ou dependente) e variáveis preditoras (ou independentes). Esse método captura a correlação entre as variáveis em investigação e avalia se tal relação é estatisticamente significativa ou não. A técnica mais simples e comum é a **Regressão Linear**, em que o relacionamento entre as variáveis é modelado de forma linear, procurando a reta ou plano que melhor se ajuste aos dados. O seguinte modelo com duas covariáveis ilustra a técnica:

$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon
$$

* $Y$: Variável Resposta ou Dependente;
* $X_1$ e $X_2$: Variáveis Preditoras ou Independente;
* $\beta_0$: Parâmetro que representa o intercepto;
* $\beta_1$ e $\beta_2$: Parâmetros cuja taxa de mudança quando as outras covariáveis são mantidas constate;
* $\epsilon$: Erro Aleatório associado ao modelo; 

![Exemplo de Regressão](./Regressão.png "Exemplo de Regressao")

Desse modo, a Regressão busca estimar os parâmetros do modelo proposto. Isso pode ser realizado de diversos modos, mas o método mais utilizado é o **Método dos Mínimos Quadrados**. Ele consiste em minimizar a soma dos erros ao quadrado, encontrando estimadores **não-viesados** para os parâmetros do modelo, com a **menor variância** dentre todos os estimadores não-viesados (Teorema de Gauss-Markov). 

Essa otimização pode ser resolvida de forma analítica, porém, estamos interessados em observar o comportamento dos métodos vistos durante a disciplina nesse contexto. Como o problema se trata de uma **Minimização Irrestrita**, podemos aplicar tanto os métodos de **Busca Linear** quanto os de **Região de Confiança** vistos no decorrer da disciplina: Método da Máxima Descida, Método de Newton modificado, Método dogleg, etc... Para resolvê-lo, implementamos dois métodos de busca linear: o **Método de Newton** e o **Método do Gradiente Conjugado**.

## Modelagem do Problema

O objetivo da regressão é estimar os $p$ parâmetros $\overrightarrow{{\beta}} = [\beta_0, \beta_1, ... \beta_{p-1}]$ que melhor ajustam o modelo aos dados observados. Nesse contexto, o método mais utilizado e poderoso é o **Mínimos Quadrados** ou **Least-Square**, cujo propósito é minimizar a soma quadrática dos erros ou ruídos gerados pelo modelo $S(\overrightarrow{{\beta}})$. Os estimadores calculados por esse método sao **não-viesados** e possuem a **menor variância** dentre todos os estimadores não-viesados (Teorema de Gauss-Markov). Portanto, o problema da regressão é equivalente a resolver o seguinte processo de otimização não-linear:

$$
S(\overrightarrow{{\beta}}) = \sum_{i=1}^{n} \epsilon_i^2 = \sum_{i=1}^{n}(Y - \beta_0-\beta_1 X_1 - ... - \beta_{p-1} X_{p-1})^2 = (\overrightarrow{Y} - \bm{X} \overrightarrow{{\beta}})^T (\overrightarrow{Y} - \bm{X} \overrightarrow{{\beta}})
$$

$$
\min{S(\overrightarrow{{\beta}})} = \min\sum_{i=1}^{n}(Y - \beta_0-\beta_1 X_1 - ... - \beta_{p-1} X_{p-1})^2
$$
com
* $\overrightarrow{{\beta}} \in \mathbb{R}^p$;
* $S \in \mathbb{R}^p \rightarrow \mathbb{R}$ é uma funçao suave. 

Como o problema se trata de uma **Minimização Irrestrita**, podemos aplicar tanto os métodos de **Busca Linear** quanto os de **Região de Confiança** vistos no decorrer da disciplina: 
* Método da Máxima Descida;
* Método de Newton;
* Método de Newton modificado;
* Método dos Gradientes Conjugados;
* Método de Quase-Newton;
* Método de Newton Truncado;
* Ponto de Cauchy;
* Método dogleg;

 Para resolvê-lo, implementamos dois métodos: o **Método de Newton** e o **Método do Gradiente Conjugado**.

## Implementação

In [1]:
# Importando bibliotecas
import numpy as np
import pandas as pd
import scipy

### Funções Auxiliares

In [175]:
# Verifica se a matriz é definida positiva
def positiva_definida(matrix):
    return np.all(np.linalg.eigvals(matrix) > 0)

In [176]:
# Verifica se a matriz é simétrica
def simetrica(matrix):
    return (matrix == matrix.T).any()

In [177]:
# Cálculo do Gradiente

In [178]:
# Cálculo da Hessiana

### Método de Newton

In [179]:
y = np.array([2.40, 4.70, 12, 14.44, 26]).T
dados = np.array([[1,1,1,1,1]
                ,[68, 137, 315, 405,700]]).T


In [181]:
# Definindo ponto de partida, covariaveis e target
y = np.array([2.40, 4.70, 12, 14.44, 26]).T
dados = np.array([[1,1,1,1,1]
                ,[68, 137, 315, 405,700]]).T
x0 = np.array([3,3])

In [182]:
# Definindo função
def f(b, dados, y):
  return y.T@y - 2*y.T@dados@b + b.T@dados.T@dados@b

In [183]:
## Definindo gradiente da função
def grad_f(b,dados,y):
  return -2*dados.T@y + 2 * dados.T@dados@b

In [185]:
## Definindo hessiana da função
def hess_f(dados):
  return (2)*(dados.T@dados)

In [190]:
def newton_method(Xk):
  i = 0
  a = 1
  while i < 5 and  not(np.isclose(grad_f(Xk,dados,y),[0,0], atol=1e-04).all()):
    p = np.linalg.inv(hess_f(dados)) @ grad_f(Xk,dados,y)
    Xk = Xk - a * p
    i += 1
  return Xk,i

In [191]:
newton_method(x0)

(array([-0.23421907,  0.03736067]), 1)

### Método dos Gradientes Conjugados

In [22]:
# Função que transforma os dados do problema original em uma equação de Mínimos Quadrados
def get_least_square(y, x):
    n_row = len(y)
    n_covariables = len(x)

    def f(beta):
        total_square_sum = 0

        for row in range(n_row):
            square_sum = y[row] - beta[0]

            for x_i in range(n_covariables):
                square_sum -= x[x_i][row] * beta[x_i + 1]

            total_square_sum += square_sum**2
        return total_square_sum
        
    return f

In [3]:
# Método dos Gradientes Conjugados
def gradiente_conjugado(y, x, x0):
    least_squares_function = get_least_square(y, x)
    minimium = scipy.optimize.minimize(least_squares_function, x0=x0, method="CG")
    return minimium

## Instâncias do Problema

### Produção de uma Fábrica

In [5]:
production_data = pd.read_csv("production.csv", index_col=0)
production_data.head()

Unnamed: 0,production,temperature,concentration
0,180,80,10
1,203,100,10
2,222,120,10
3,234,140,10
4,261,160,10


In [35]:
response_variable_prod = "production"
selected_regressors_prod = ["temperature", "concentration"]

y = production_data[response_variable_prod]
x = production_data[selected_regressors_prod].to_numpy().T
x0 = np.zeros(len(selected_regressors_prod) + 1)

In [None]:
# Aplicando Método de Newton


In [36]:
# Aplicando método dos Gradientes Conjugados
gradiente_conjugado(y, x, x0=x0)

     fun: 647.1600003705831
     jac: array([-0.00102234,  0.0007782 ,  0.0004425 ])
 message: 'Desired error not necessarily achieved due to precision loss.'
    nfev: 344
     nit: 20
    njev: 83
  status: 2
 success: False
       x: array([88.1392697 ,  0.89250373,  2.53201466])

## *Study on the Efficacy of Nosocomial Infection Control* (SENIC Data)

Nesse caso, utilizaremos dados de um estudo sobre a eficácia no controle de infecção nosocomial, isto é, infecções adquiridas durante a internação ou em procedimentos hospitalares. 

In [97]:
senic_data = pd.read_csv("./SENIC.csv")
senic_data.head()

Unnamed: 0,id,tempo,idade,risco_infeccao,cultura,x_ray,numero_camas,afiliacao,regiao,census,enfermeiras,servicos
0,1,7.13,55.7,4.1,9.0,39.6,279,2,4,207,241,60.0
1,2,8.82,58.2,1.6,3.8,51.7,80,2,2,51,52,40.0
2,3,8.34,56.9,2.7,8.1,74.0,107,2,3,82,54,20.0
3,4,8.95,53.7,5.6,18.9,122.8,147,2,4,53,148,40.0
4,5,11.2,56.5,5.7,34.5,88.9,180,2,1,134,151,40.0


Nesse problema de regressão linear múltipla, a **variável resposta** em estudo é o tempo que o paciente permanece no hospital. Desse modo, para entender o **tempo** de permanência, selecionaremos as seguintes covariáveis:
* Idade do paciente;
* Probabilidade do risco de infecção;
* Número de Enfermeiras;
* Cultura;
* Número de Camas oferecidas.



In [102]:
response_variable_senic = "tempo"
selected_regressors_senic = ["idade", "risco_infeccao", "cultura", "numero_camas", "enfermeiras"]

y = senic_data[response_variable_senic]
x = senic_data[selected_regressors_senic].to_numpy().T
x0 = np.zeros(len(selected_regressors_senic) + 1)
x0 = np.array([-100, -100, -100, -100, -100, -100])

In [None]:
# Aplicando Método de Newton


In [103]:
# Aplicando método dos Gradientes Conjugados
gradiente_conjugado(y, x, x0=x0)

     fun: 254.45046806550238
     jac: array([ -6.35216331,  10.95670128,   0.72226715,   9.43229675,
       -69.78525734,  -4.31576157])
 message: 'Maximum number of iterations has been exceeded.'
    nfev: 19208
     nit: 1200
    njev: 2744
  status: 1
 success: False
       x: array([-3.82007976,  0.18312441,  0.54082375,  0.04163497,  0.00623811,
       -0.00515775])

## Conclusão

## Referências

* Neter, John, et al. "Applied linear statistical models." (1996): 318.

* Montgomery, Douglas C., Elizabeth A. Peck, and G. Geoffrey Vining. Introduction to linear regression analysis. John Wiley & Sons, 2021.

* Chan, H. S. "Introduction to Probability for Data Science." (2021).