# Exercício de Programação 5: 4 formas de resolver mínimos quadrados

<font color="red">**Prazo de submissão: 23:55 do dia 14/02/2022** </font>

2021.2 Álgebra Linear Computacional - DCC - UFMG

Erickson - Fabricio

Instruções:
* Antes de submeter suas soluções, certifique-se de que tudo roda como esperado. Primeiro, **reinicie o kernel** no menu, selecione Kernel $\rightarrow$ Restart e então execute **todas as células** (no menu, Cell $\rightarrow$ Run All)
* **Transfira suas respostas para o arquivo .py com atenção.**
* **Confira se a indentação está correta antes de submeter.**
* Apenas o arquivo .py deve ser submetido. Ele não deve ser compactado.

## Carregando os dados

Iremos carregar os dados usando a biblioteca ```pandas```. Não se preocupe se você não conhece a biblioteca, pois o nosso objetivo é apenas extrair a matriz de dados $X$. Segue uma descrição do dataset, retirada [daqui](http://statweb.stanford.edu/~owen/courses/202/Cereals.txt).

* Datafile Name: Cereals
* Datafile Subjects: Food , Health
* Story Names: Healthy Breakfast
* Reference: Data available at many grocery stores
* Authorization: free use
* Description: Data on several variable of different brands of cereal.

A value of -1 for nutrients indicates a missing observation.
Number of cases: 77
Variable Names:

  1. Name: Name of cereal
  2. mfr: Manufacturer of cereal where A = American Home Food Products; G =
     General Mills; K = Kelloggs; N = Nabisco; P = Post; Q = Quaker Oats; R
     = Ralston Purina
  3. type: cold or hot
  4. calories: calories per serving
  5. protein: grams of protein
  6. fat: grams of fat
  7. sodium: milligrams of sodium
  8. fiber: grams of dietary fiber
  9. carbo: grams of complex carbohydrates
  10. sugars: grams of sugars
  11. potass: milligrams of potassium
  12. vitamins: vitamins and minerals - 0, 25, or 100, indicating the typical percentage of FDA recommended
  13. shelf: display shelf (1, 2, or 3, counting from the floor)
  14. weight: weight in ounces of one serving
  15. cups: number of cups in one serving
  16. rating: a rating of the cereals

In [None]:
#Execute esta célula para instalar o pandas caso já não tenha instalado
#import sys
#!{sys.executable} -m pip install --user pandas

In [None]:
import pandas as pd
df = pd.read_table('cereal.txt',sep='\s+',index_col='name')
df

A seguir iremos remover as linhas correspondentes aos cereais que possuem dados faltantes, representados pelo valor -1.
Também iremos remover as colunas com dados categóricos 'mfr' e 'type', e os dados numéricos, 'shelf', 'weight' e 'cups'.

In [None]:
import numpy as np
new_df = df.replace(-1,np.nan)
new_df = new_df.dropna()
new_df = new_df.drop(['mfr','type','shelf','weight','cups'],axis=1)
new_df

Finalmente, iremos converter os dados nutricionais numéricos de ```new_df``` para uma matriz X ('calories', 'protein', 'fat', 'sugars' e 'vitamins') e as avaliações (ratings) para um vetor $y$. Os nomes dos cereais serão salvos em uma lista ```cereral_names``` e os nomes das colunas em uma lista ```col_names```.

In [None]:
cereral_names = list(new_df.index)
print('Cereais:',cereral_names)
col_names = list(new_df.columns)
print('Colunas:',col_names)

X = new_df.loc[:,['calories', 'protein', 'fat', 'sugars', 'vitamins']].values
print('As dimensões de dados são:',X.shape)
y = new_df['rating'].values
print('As dimensões de y são:',y.shape)


## Sistemas Lineares e Mínimos Quadrados

Esse Exercício de Programação irá tratar das 4 formas de resolver a otimização de mínimos quadrados a partir da equação normal, iremos estimar os parâmetros de um regressor linear para o nosso dataset de cereais.

Dado o sistema linear $X\beta = b$, procuramos encontrar o valor de de $\hat{\beta}$ que minimiza o erro quadrático $||X\hat{\beta}-b||^{2}$.

Esse valor é definido pela **Equação Normal**:

$X^{T}X\hat{\beta} = X^{T}b$.

Foram apresentados em aula quatro métodos para resolver a Equação Normal:
- Inversa da matriz $X^{T}X$
- Pseudo-Inversa
- Decomposição QR
- Decomposição de Cholesky

Para relembrar os conceitos, revise as aulas [19](https://www.youtube.com/watch?v=SBsdyq2ha5k) e [20](https://www.youtube.com/watch?v=wuTbS0FOkLY).

**ATENÇÃO:**
- Programe as questões abaixo com atenção para as funções da biblioteca numpy que são permitidas.
- Não serão aceitos trabalhos em que a questão foi resolvida utilizando funções não permitidas.
- Para todas as questões, as operações básicas de multiplicação de matrizes serão permitidas.

In [None]:
## Não altere essa célula
import numpy as np

**1.1** Inversa da matriz $X^{T}X$

Defina a função **inversa(X, y)** (*1.1.1*) para calcular os parâmetros $\hat{\beta}$ a partir do método de **inversão da matriz $X^{T}X$**.

**Funções permitidas:**

[np.linalg.inv](https://numpy.org/doc/stable/reference/generated/numpy.linalg.inv.html)

In [None]:
## Insira seu código aqui
def inversa(X,y):
  p = np.linalg.inv(np.dot(X.T, X))
  p2 = np.dot(p, X.T)
  p3 = np.dot(p2, y)
  return p3
print(inversa(X,y))

**1.2** Pseudo-inversa

Defina a função **pseudo_inversa(X, y)** (*1.2.1*) para calcular os parâmetros $\hat{\beta}$ a partir do método da **pseudo-inversa**.

**Funções permitidas:**

[np.linalg.svd](https://numpy.org/doc/stable/reference/generated/numpy.linalg.svd.html)

In [None]:
## Insira seu código aqui
def pseudo_inversa2(X, y):
  ##u, s, vt = np.linalg.svd(X)
  u,s,v=np.linalg.svd(X)
  ##b = np.linalg.pinv(X) @ y
  pinv = np.dot(np.dot(v.T,s.T),u.T)
  b = pinv * y
  return b
  ## erro retornado: shapes (10,) and (150,150) not aligned: 10 (dim 0) != 150 (dim 0).


print(pseudo_inversa2(X, y))

**1.3** Decomposição QR

Defina a função **QR(X, y)** (*1.3.1*) para calcular os parâmetros $\hat{\beta}$ a partir do método de **Decomposição QR**.

**Funções permitidas:**

[np.linalg.inv](https://numpy.org/doc/stable/reference/generated/numpy.linalg.inv.html)

[np.linalg.qr](https://numpy.org/doc/stable/reference/generated/numpy.linalg.qr.html)

In [None]:
## Insira seu código aqui
def QR(X, y):
  at = np.array([[1, 1, 0], [-1, 1, 0])
  q, r = np.linalg.qr(at)
  return np.linalg.inv(r) @ q.T @ y
print(QR(X, y))


**1.4** Decomposição de Cholesky

Defina as funções **substituicao(L, b)** (*1.4.1*) e **retrosubstituicao(Lt, C)** (*1.4.2*) como funções auxiliares para efetuar as substituições do método pela **Decomposição de Cholesky**. Crie também as funções **positiva_definida(X)** (*1.4.3*) e **simetrica(X)** (*1.4.4*) que retornam um *booleano* indicando se a matriz de entrada é positiva definida e simétrica, respectivamente.

A partir das funções definidas anteriormente, crie uma função chamada **cholesky(X, y)** (*1.4.5*) para calcular os parâmetros $\hat{\beta}$ a partir do método de **Decomposição de Cholesky**, utilize a função **assert** do python e as funções **positiva_definida(X)** e **simetrica(X)** para garantir que a matriz decomposta é simétrica definida positiva.

**Funções permitidas:**

[np.linalg.cholesky](https://numpy.org/doc/stable/reference/generated/numpy.linalg.cholesky.html)

[np.linalg.eigvals](https://numpy.org/doc/stable/reference/generated/numpy.linalg.eigvals.html)

[np.allclose](https://numpy.org/doc/stable/reference/generated/numpy.allclose.html)

[np.all](https://numpy.org/doc/stable/reference/generated/numpy.all.html)


In [None]:
## Insira seu código aqui

def substituicao(L, b):
## c
    C = L.tT @ b
    return C
def retrosubstituicao(Lt, C):
## B
    B = np.divide(C, Lt)
    return B

def positiva_definida(X):
    return np.all(np.linalg.eigvals(X) > 0)


def simetrica(X):
    return numpy.allclose(X, X.T, rtol=rtol, atol=atol)

def cholesky(X, y):
  L = np.linalg.cholesky(X) ##matriz L
  return L



Vamos visualizar os parâmetros estimados utilizando cada método:

In [None]:
## Insira seu código aqui e descomente o código para imprimir os resultados

#betas_pseudo_inversa =
#betas_inversa =
#betas_qr =
#betas_cholesky =

#print(betas_pseudo_inversa)
#print(betas_inversa)
#print(betas_qr)
#print(betas_cholesky)