# Revisão Machine Learning

## Importação de arquivos

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('datasetaqui.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'datasetaqui.csv'

## Padronização dos Dados

### Standard Scaler

Responsável por deixar todos os dados em uma mesma escala. 
* Centraliza a média em 0
* Ajusta o desvio padrão para 1
  
É necessário usá-lo em modelos que usem **regularização**, visto que eles podem interpretar dados maiores como mais importantes, o que nem sempre é verdade.

#### Fórmula

![image.png](attachment:448882d0-551a-41d5-bff4-d5e55b16e558.png)
![image.png](attachment:5829669a-2611-434d-a354-c5ff0ea949df.png)

#### Código

In [13]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x_train = scaler.fit_transform(x_train) # aprende média e desvio nos dados
x_test = scaler.transform(x_test) # aplica

NameError: name 'x_train' is not defined

## Encoder

### Label Encoding

Cada classe terá seu rótulo transformado para um valor numérico

* É comumente utilizado em algoritmos de **Classificação**
  
* É utilizado em dados ordenáveis, como:
  * Bronze, prata e ouro;
  * Criança, adulto e idoso;
  * Baixo, médio e alto.

* É preciso criar um objeto LabelEncoder **para cada coluna**

![image.png](attachment:dc5d0c35-2011-46d5-b977-61b2449d9b03.png)

#### Código

In [None]:
from sklearn.preprocessing import LabelEncoder

encoding_col1 = LabelEncoder()
endoding_col2 = LabelEncoder()

x[:,1] = encoding_col1.fit_transform(x[:,1])
x[:,2] = encoding_col2.fit_transform(x[:,2])


### One-hot Encoding

Cada categoria é transformada em um atributo: dummy variable, um valor binário que informa a ocorrência

#### Quando utilizar?

* Quando a variável categórica **não tem ordem** (nominal);
* Quando o número de categorias não é muito **grande**;

#### Observações

* Muitas colunas podem gerar um espaço de características de alta dimensão, que pode
causar super ajuste e ter um custo computacional muito alto.
* Maldição da Dimensionaldiade: Dados esparços, muitas colunas com valor zero,
tornando difícil encontrar valores nos dados
* Dummy Variable Trap: valores de colunas binárias podem ser previstos a partir dos
valores de outras colunas.

![image.png](attachment:c6dd72e6-4eb4-43c8-b0d8-27f569b647b0.png)

#### Código

In [None]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose mport ColumnTransformer

onehotX = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(handle_unknown='ignore', [6,7], remainder='passthrough')
x = onehotX.fit_transform(x)


## Regressão

* **Não** possui hiperparâmetro
* **Métrica de erro:** MAE
* **Métrica de desempenho:** Score


#### MAE

Mean Absolute Error

In [None]:
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_test, prev)

#### Score


In [11]:
regressor.score(x_train, y_train)
regressor.score(x_test, y_test)

NameError: name 'x_train' is not defined

### Regressão Linear Simples

Modelagem da relação entre variáveis numéricas (variável dependente y e variáveis explanatórias x)

#### Intersecção

O ponto de encontro da linha no eixo Y, onde X = 0

#### Inclinação 

Fator que determina a inclinação da linha onde a cada unidade que aumenta a variável **independente**(x), a variável de **resposta**(y) sobe o valor da inclinação

#### Fórmula

#### P = b + m * v

**onde:**

**p:** previsão

**b(constante):** intersecção

**m(coeficiente):** inclinação

**v:** valor a ser previsto em x

![image.png](attachment:e7f58790-e641-4a48-8b43-94ca4eca9f5b.png)


In [3]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(x, y)

NameError: name 'x' is not defined

### Regressão Linear Múltipla


É similar a Regressão Linear **Simples**, porém mais complexa.

* Possui **duas ou mais** variáveis exploratórias

#### Fórmula

P = b + m1 * v1 + m2 * v2 + ... + mn * vm

#### Código


In [None]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
regressor.fit(x_train, y_train)
prev = regressor.predict(x_test)

### Regressão Linear Polinomial

* Usada quando a relação entre x e y é **curva**, e não pode ser representada apenas por uma linha reta.
* Quando falamos em código, falamos em algo basicamente **igual** a uma regressão linear simples. 
* É preciso adequar os dados e criar novas features (elevadas a n) para finalmente treiná-lo

#### Fórmula

P = C + m1 * v1 + m2 * v2 + ... + mn * v1^n

#### Código

In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree = 2)
x_train = poly.fit_transform(x_train)
x_test = poly.transform(x_test)

regressor = LinearRegression()
regressor.fit(x_train, y_train)

### Elastic Net

Utilizado quando temos duas ou mais variáveis exploratórias.
  
Quando temos muitas variáveis, ou quando elas possuem valores muito parecidos, o modelo pode ficar "confuso" e distribuir pesos muito grandes, ocasionando em **overfitting**.

O Elastic usa:

* Ridge para remover exageros
* Lasso para remover variáveis que não são fortemente relacionadas com y.

![image.png](attachment:96359e8a-706f-4bdb-a86d-27f39283063e.png)

#### Ridge

Penaliza colocando um viés que reduz os grandes pesos o máximo possível, mas sem zerar, assim fazendo com que a variável contribua menos para a predição

![image.png](attachment:0ff8c647-0814-4191-b87d-dfb54a1196a7.png)

#### Lasso

* Penaliza o valor, assim como o Ridge, mas, ao invés de penalizar apenas os pesos de grande valor, ele penaliza os de baixo valor também.
* A penalização ocorre até que o valor seja zero.
* Os atributos zerados são descartados da predição.

![image.png](attachment:460c840f-e2c2-4fd7-bb5f-82c278805ad5.png)

#### Código

In [None]:
from sklearn.linear_model import ElasticNet

regressor_en = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=0)
regressor_en.fit(x_train, y_train)

prev = regressor_en.predict(x_test)

## Classificação

* **Métrica de erro:** Matriz de confusão
* **Métrica de desempenho:** accuracy_score

### Matriz de confusão (Confusion Matrix)
    

In [None]:
from yellowbrick.classifier import ConfusionMatrix

plt.figure(figsize=(4,4))
cm = ConfusionMatrix(svm)
cm.fit(x_train, y_train)
cm.score(x_test, y_test)

### Accuracy Score

In [None]:
from sklearn.metrics import accuracy_score, classification_report
previsao = svm.predict(x_test)
accuracy_score(y_test, previsao)

### Naive Bayes

É um algoritmo de classificação baseado no Teorema de Bayes
