# **Linear Regression**
![png](reports/icon.png)

O algoritmo de _linear regression_ tem o objetivo de encontrar a melhor reta que se ajusta nos dados.


Basicamente a ideia de uma _linear regression_ é dar pequenos espaços entre os pontos para que a reta se aproxime de todos os pontos.

## Summary
  - [Definitions](#)
  - [Advantages](#)
  - [Disadvantages](#)
  - [Cost Functions](#)
  - [Descent Gradient](#)
  - [Regularization](#)
  - [Linear Regressions Types](#)
    - [Linear Regression](#)
    - [Polinomial Regression](#)
    - [Logistic Regression](#)
    - [Lasso Regression](#)
    - [Ridge Regression](#)
  - [Examples](#)
    - [Examples](#)
    - [Examples](#)
    - [Examples](#)
    - [Examples](#)

## Advantages
- Otima solução quando a relação entre as variáveis dependentes(y) e independentes(x) geram uma linha. 
- Encontrar correlação entre variáveis
- Fácil de encontrar outliers
- Quando tentar prever um valor contínuo - como preço, demanda, ou um índice qualquer - sempre comece usando regressão linear antes de tentar outros algoritmos de AM mais complexos.
- Mesmo com milhões de dados, é possível estimar os parâmetros em menos de um segundo. Além disso, uma vez treinado, o regressor ocupa muito pouco espaço, pois só armazena o vetor w^w^. 
- O modelo de regressão linear é de longe o mais utilizado em econometria

## Disadvantages

A regressão linear nem sempre é a melhor escolha dependendo da situação. Exemplos:
 - **Regressão linear funciona melhor quando os dados são lineares:** 
A regressão linear produz um modelo que é uma linha reta extraída a partir dos dados de treinamento

![png](reports/output_30_0.png)

 - **Regressões lineares são sensíveis a casos extraordinários:** 
A regressão linear tenta encontrar a linha que "melhor se encaixa" nos dados de treinamento. Caso o conjunto de dados tenha valores extremos que fujam muito do padrão geral, eles podem ter um efeito inesperadamente grande no modelo.

![png](reports/output_32_0.png)

- Problema de overfit que gera uma lata variância

![gif](reports/overfit_variance.png)

![gif](reports/overfit.gif)

![png](reports/output_4_0.png)

O **w** tambem é chamado de preditor.

![png](reports/output_5_0.png)

![png](reports/output_6_0.png)

![png](reports/output_7_0.png)

![png](reports/output_8_0.png)

![png](reports/output_9_0.png)

## Multiple Linear Regression

A regressão linear simples é útil para prever o valor de uma variável dependente por uma variável independente. Contudo, este tipo de regressão não é muito útil no contexto real pois sempre há mais de um fator que pode influenciar uma variável dependente (y).

Por exemplo, no caso abaixo temos o preço das casas (y = variável dependente) que é afetado pela qualidade de ensino das escolas proximas (x1) e pelo tamanho da casa(x2). 

![png](reports/output_24_0.png)

A partir disso, observamos que o preço de uma casa (y) pode ser afetado (ser dependente) por N variáveis(x).

![png](reports/output_26_0.png)

![png](reports/output_27_0.png)

![png](reports/output_28_0.png)

## Cost Function
- É a diferença entre o valor real e o valor predito.
- Resíduo = erro médio absoluto
- Cost Function = Error Function 

#### Cost ?
Uma função que mapeia um evento ou valores de uma ou mais variáveis ​​para um número real, representando intuitivamente algum "custo" associado ao evento.

![png](reports/variables_linear_regression.png)

![png](reports/output_11_0.png)

![png](reports/output_12_0.png)

### MSE(Mean Squared Error) 
É possivel calcular um erro médio quadrático.

mse.png

![png](reports/output_14_0.png)

 - OBS: a única difrença para o que eu vi em técnicas estatíticas de predição foi a derivação da fórmula.

## Comparison of error types

![png](reports/output_17_0.png)

#### Mean absolute error
Indiferente da reta, sempre dará o mesmo tamanho de erro.

#### Mean Square Error
Neste caso temos uma função de 2º grau, onde a linha B se encontra no ponto mais baixo.

![png](reports/output_20_0.png)

#### Mean absolute error x Mean Square Error

- Quando usar um e outro ?
Na prática, depende muito pois o que causa é a alteração no _learning rate_.


In [52]:
import matplotlib.pyplot as plt
import numpy as np


# original data
X = [1, 2, 3]
y = [1, 2.5, 3.5]


hyps = 1.0 

In [2]:
# mutiply the original X values by hyps to produce hypothesis values for each X
def multiply_matrix(mat, hyps):
    mutated = []
    for i in range(len(mat)):
        mutated.append(mat[i] * hyps)

    return mutated


def calc_cost(m, X, y):
    '''
    Calculates the cost for given X, y and vector total (m)
    
    m = total vector of thetas
    X = Row of X's np.zeros((2,j))
    y = Actual y's np.zeros((2,1))
    '''
    total = 0
    
    for i in range(m):
        squared_error = (y[i] - X[i]) ** 2
        total += squared_error
    
    return (1/(2*m)) * total 

In [3]:
# calculate cost for hypothesis
hyp_values = multiply_matrix(X, hyps)

print("Cost for hypotesis ", hyps, " is ", calc_cost(len(X), y, hyp_values))

Cost for hypotesis  1.0  is  0.08333333333333333


## Gradient Descent
_Gradient Descent is the method by which we make our model learn._

![png](reports/gradient_decent.gif)

gratient_cost.png

- É algoritmo de otimização para encontrar _local/global minima_
- É recomendado para casos de com > 100 features

![png](reports/less_100.png)

Menos que isso, a sugestãõ é usar algo analítico.

- Easy to implement
- Requires less memory and processing

Exemplo da montanha
- imagine que vc esta no alto de uma montanha e deseja descer de olhos fechados.
- descer é equivalente a aproximar a reta dos pontos.
![png](reports/gradient_descent.png)

![png](reports/gradient_descent_2.png)

![png](reports/gradient_descent_3.png)

#### Graphic
- Para minimizar os erros basta calcular a derivada da função de erro.
- Use a regra da cadeia
- Quanto mais baixo estiver o valor de _error_, menor é a taxa de aprendizagem α.


![png](reports/gardient_descent_mat.png)

![png](reports/cost_fucntion.png)


### Implementation

![png](reports/random.gif)

1. Insira parâmetros aleatórios
2. Calcule a _cost fucntion_
3. Aplique a regra da cadeia na _cost function_ até encontrar o menor valor

In [14]:
X = 3
learning_rate = 0.01 # Learning rate
precision = 0.000001 # Stop loop
previous_step_size = 1 
max_iters = 10000 # Maximum number of iterations
count = 0 # Iteration counter

# derivate cost function
derivative_function = lambda x: 2*(x+5) 

In [15]:
while previous_step_size > precision and count < max_iters:
    current_x = X
    X = X - learning_rate * derivative_function(current_x) # Grad descent
    
    previous_step_size = abs(X - current_x)
    count = count + 1
    # print("Iteration",count,"\nX value is",X) 
    
print("The local minimum at", X)

The local minimum at -4.9999518490318176


# Linear Regressions Types
Até 100k linhas pode ser usado os modelos abaixo, acima disso é recomendado reanalisar o modelo linear.


## Polinomial Regression

![gif](reports/polinomial_regression.gif)



## Regularization
_Regularization basically adds the penalty as model complexity increases._

- É uma técnica para evitar overfit
- Tranforma modelos complexos em modelos mais simples
- É usado somente para regressão polinomial
- Ex

![png](reports/regularizaion.png)

#### Complexity Calculate
Para calcular qual modelo generaliza melhor é preciso calcular a complexidade:

```
complexity = error + coefficients
```

![png](reports/regularization_2.png)




#### Rugularization Types

Há 2 tipos de regularização
- Lasso - L1

![png](reports/regularization_ex_1.png)

![png](reports/regularization_ex_2.png)

- Rigde - L2


![png](reports/l2_reg.png)



![png](reports/l2_reg_2.png)

![png](reports/sheet_cheat_regu.png)

### Comparation Linear, Lasso and Ridge Regression

In [166]:
X = [[0, 0], [1, 1]]
y = [0, 1]

In [173]:
from sklearn.linear_model import LinearRegression


linear_regression = LinearRegression()
linear_regression.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [174]:
from sklearn.linear_model import Lasso


linear_regression_regularization_l1 = Lasso(alpha=0.1)
linear_regression_regularization_l1.fit(X, y)

Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000,
      normalize=False, positive=False, precompute=False, random_state=None,
      selection='cyclic', tol=0.0001, warm_start=False)

In [175]:
from sklearn.linear_model import Ridge


linear_regression_regularization_l2 = Ridge(alpha=0.1)
linear_regression_regularization_l2.fit(X, y)

Ridge(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)

#### Predict

In [177]:
linear_regression.predict([[1, 1]])

array([1.])

In [171]:
linear_regression_regularization_l1.predict([[1, 1]])

array([0.8])

In [172]:
linear_regression_regularization_l2.predict([[1, 1]])

array([0.95454545])

## Logistic Regression

#### References
- [1] Material da disciplina de Técnicas Estatísticas de Prediçao:https://moodle.ufsc.br/pluginfile.php/1592338/mod_resource/content/1/An%C3%A1lise%20da%20regres%C3%A3o.pdf
- [2] https://www.coursera.org/learn/machine-learning/
- [3] https://towardsdatascience.com/implement-gradient-descent-in-python-9b93ed7108d1
- [4] https://en.wikipedia.org/wiki/Gradient_descent
- [5] https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
- [6] https://matheusfacure.github.io/2017/02/16/ols-mechanics/

---