# Revisão Machine Learning

## Importação de arquivos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('datasetaqui.csv')

## Gráficos

### Countplot & Histograma

![image.png](attachment:9fbff229-ed5d-4b62-a596-f8ee30fe00a9.png)

In [None]:
sns.countplot(x = base['coluna']

plt.hist(x = base['coluna']

### TreeMap

![image.png](attachment:701f17be-d5ef-4a17-b80f-76885c3161fd.png)


In [None]:
grafico = px.parallel_categories(base_census, dimensions=['occupation', 'relationship']
grafico.show()

### Heatmap

Nota: Precisa incluir o corr, heatmap lida com a **correlação** entre features

In [None]:
plt.figure(figsize=(10,5))
sns.heatmap(base_plano.corr(), annot=True, cmap='coolwarm', fmt=".4f")
plt.title('Correlation between Features')
plt.show()


### Box Plot

In [None]:
plt.boxplot(data)

plt.title("Multiple Box Plots")
plt.xlabel("Data Sets")
plt.ylabel("Values")

plt.show()

### Scater

![image.png](attachment:d2616948-3b67-48cd-a6d7-2296a3b4f338.png)

### Violin
![image.png](attachment:b7ba8e2e-bf18-43fb-b85a-7e968c4a8bea.png)


### Linha

![image.png](attachment:659a5b7d-871b-43df-a2f2-d281a8588e80.png)


## Dados de Treino e Teste

In [None]:
x = base_census.iloc[:, 0:14].values
y = base_census.iloc[:, 14].values

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)



## Limpeza

![image.png](attachment:4dea4ae5-36e6-4715-8c41-a34af43eb33a.png)

## ✩ Padronização dos Dados

### Standard Scaler

Responsável por deixar todos os dados em uma mesma escala. 
* Centraliza a média em 0
* Ajusta o desvio padrão para 1
  
É necessário usá-lo em modelos que usem **regularização**, visto que eles podem interpretar dados maiores como mais importantes, o que nem sempre é verdade.

#### Fórmula

![image.png](attachment:448882d0-551a-41d5-bff4-d5e55b16e558.png)
![image.png](attachment:5829669a-2611-434d-a354-c5ff0ea949df.png)

#### Código

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x_train = scaler.fit_transform(x_train) # aprende média e desvio nos dados
x_test = scaler.transform(x_test) # aplica

## Encoder

### Label Encoding

Cada classe terá seu rótulo transformado para um valor numérico

* É comumente utilizado em algoritmos de **Classificação**
  
* É utilizado em dados ordenáveis, como:
  * Bronze, prata e ouro;
  * Criança, adulto e idoso;
  * Baixo, médio e alto.
   
É preciso criar um objeto LabelEncoder **para cada coluna**

![image.png](attachment:dc5d0c35-2011-46d5-b977-61b2449d9b03.png)

#### Código

In [None]:
from sklearn.preprocessing import LabelEncoder

encoding_col1 = LabelEncoder()
endoding_col2 = LabelEncoder()

x[:,1] = encoding_col1.fit_transform(x[:,1])
x[:,2] = encoding_col2.fit_transform(x[:,2])


### One-hot Encoding

Cada categoria é transformada em um atributo: dummy variable, um valor binário que informa a ocorrência

#### Quando utilizar?

* Quando a variável categórica **não tem ordem** (nominal);
* Quando o número de categorias não é muito **grande**;

#### Observações

* Muitas colunas podem gerar um espaço de características de alta dimensão, que pode
causar super ajuste e ter um custo computacional muito alto.
* Maldição da Dimensionaldiade: Dados esparços, muitas colunas com valor zero,
tornando difícil encontrar valores nos dados
* Dummy Variable Trap: valores de colunas binárias podem ser previstos a partir dos
valores de outras colunas.

![image.png](attachment:c6dd72e6-4eb4-43c8-b0d8-27f569b647b0.png)

#### Código

In [None]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose mport ColumnTransformer

onehotX = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(handle_unknown='ignore', [6,7], remainder='passthrough')
x = onehotX.fit_transform(x)


## ✩ Regressão

* **Não** possui hiperparâmetro
* **Métrica de erro:** MAE
* **Métrica de desempenho:** Score


#### MAE

Mean Absolute Error

In [None]:
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_test, prev)

#### Score


In [None]:
regressor.score(x_train, y_train)
regressor.score(x_test, y_test)

### Regressão Linear Simples

Modelagem da relação entre variáveis numéricas (variável dependente y e variáveis explanatórias x)

#### Intersecção

O ponto de encontro da linha no eixo Y, onde X = 0

#### Inclinação 

Fator que determina a inclinação da linha onde a cada unidade que aumenta a variável **independente**(x), a variável de **resposta**(y) sobe o valor da inclinação

#### Fórmula

#### P = b + m * v

**onde:**

**p:** previsão

**b(constante):** intersecção

**m(coeficiente):** inclinação

**v:** valor a ser previsto em x

![image.png](attachment:e7f58790-e641-4a48-8b43-94ca4eca9f5b.png)


In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(x, y)

### Regressão Linear Múltipla


É similar a Regressão Linear **Simples**, porém mais complexa.

* Possui **duas ou mais** variáveis exploratórias

#### Fórmula

P = b + m1 * v1 + m2 * v2 + ... + mn * vm

#### Código


In [None]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
regressor.fit(x_train, y_train)
prev = regressor.predict(x_test)

### Regressão Linear Polinomial

* Usada quando a relação entre x e y é **curva**, e não pode ser representada apenas por uma linha reta.
* Quando falamos em código, falamos em algo basicamente **igual** a uma regressão linear simples. 
* É preciso adequar os dados e criar novas features (elevadas a n) para finalmente treiná-lo

#### Fórmula

P = C + m1 * v1 + m2 * v2 + ... + mn * v1^n

#### Código

In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree = 2)
x_train = poly.fit_transform(x_train)
x_test = poly.transform(x_test)

regressor = LinearRegression()
regressor.fit(x_train, y_train)

### Elastic Net

Utilizado quando temos duas ou mais variáveis exploratórias.
  
Quando temos muitas variáveis, ou quando elas possuem valores muito parecidos, o modelo pode ficar "confuso" e distribuir pesos muito grandes, ocasionando em **overfitting**.

O Elastic usa:

* Ridge para remover exageros
* Lasso para remover variáveis que não são fortemente relacionadas com y.

**Hiperparâmetros:**

* **l1_ratio:** parâmetro de mistura, determina o balanço entre as penalidades L1(lasso) e L2 (Ridge)
* Quando ratio = 0, o modelo é L2
* Quando ratio = 1, o modelo é L1
* **alpha:** Quanto maior o alpha, mais forte é a penalização, o modelo fica mais simples (coeficientes menores).Valores muito altos → podem subajustar (underfitting).

![image.png](attachment:96359e8a-706f-4bdb-a86d-27f39283063e.png)

#### Ridge

Penaliza colocando um viés que reduz os grandes pesos o máximo possível, mas sem zerar, assim fazendo com que a variável contribua menos para a predição

![image.png](attachment:0ff8c647-0814-4191-b87d-dfb54a1196a7.png)
![image.png](attachment:01374546-752b-4fae-9339-dbdcd76c5c0d.png)
#### Lasso

* Penaliza o valor, assim como o Ridge, mas, ao invés de penalizar apenas os pesos de grande valor, ele penaliza os de baixo valor também.
* A penalização ocorre até que o valor seja zero.
* Os atributos zerados são descartados da predição.

![image.png](attachment:460c840f-e2c2-4fd7-bb5f-82c278805ad5.png)

![image.png](attachment:637d176a-03e2-4b2e-9888-52b9cc0ad7bc.png)

#### Código

In [None]:
from sklearn.linear_model import ElasticNet

regressor_en = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=0)
regressor_en.fit(x_train, y_train)

prev = regressor_en.predict(x_test)

## ✩ Classificação

* **Métrica de erro:** Matriz de confusão
* **Métrica de desempenho:** accuracy_score

### Matriz de confusão (Confusion Matrix)


    

In [None]:
from yellowbrick.classifier import ConfusionMatrix

plt.figure(figsize=(4,4))
cm = ConfusionMatrix(svm)
cm.fit(x_train, y_train)
cm.score(x_test, y_test)

### Accuracy Score

In [None]:
from sklearn.metrics import accuracy_score, classification_report
previsao = svm.predict(x_test)
accuracy_score(y_test, previsao)

### Naive Bayes

É um algoritmo de classificação que usa o teorema de Bayes para calcular a probabilidade de um dado pertencer a uma classe específica.

Ele é muito usado em classificação de textos, como detecção de spam, análise de sentimentos e categorização de documentos.

* Esse e-mail é spam ou não spam?
* Esse comentário é positivo, neutro ou negativo?
* Esse cliente vai comprar ou não comprar?

![image.png](attachment:4ca06ed6-6bf4-4e93-9774-817a6edd1bcc.png)

Onde A é cada classe e B a quantidade de dados
Na prática, temos uma base de dados original:

![image.png](attachment:9b20f0f4-3e9f-49b2-9107-7dda7b4b4af5.png)

E para cada feature faz a divisão relacionada com a classe que queremos prever

![image.png](attachment:628140d7-2210-4b02-8403-996dac3cff4b.png)

Essa tabela pronta é o que vai gerar o aprendizado do algoritmo, a partir disso podemos prever novos valores com os cálculos de probabilidade de cada classe

![image.png](attachment:e289a6da-d6ce-41e0-9264-32edff115bc5.png)

### Métricas de desempenho para classificação

**TP - True Positive:** Quantidade de dados que **eram** de uma classe e foram preditas **corretamente**

**TN - True Negative:** Quantidade de dados que **não** eram de uma classe e foram preditas **corretamente**

**FP - False Positive:** Quantidade de dados que **eram** de uma classe e foram preditas **incorretamente**

**FN - False Negative:** Quantidade de dados que **não** eram de uma classe e foram preditas **incorretamente**

![image.png](attachment:a4ae9c31-7c2b-472f-abbb-a8a296fcb51c.png)

#### Acurácia

Mede a porcentagem/proporção de valores que foram preditos de forma correta. ((tp + tn) /
(tp + tn + fp + fn))

#### Precisão

Retorna a proporção de todos os dados que foram predições corretas apenas para quais seu
modelo apontou como verdadeiras. (tp / (tp + fpl)



In [None]:
from sklearn.naive_bayes import GaussianNB
import pickle
with open('census.pkl', 'rb') as f:
 X_census_treinamento, y_census_treinamento, X_census_teste, y_census_teste = pick
naive_census = GaussianNB()
naive_census.fit(X_census_treinamento.toarray(), y_census_treinamento)
previsoes = naive_census.predict(X_census_teste.toarray()) #to array não é necessário
previsoes

In [None]:
print(classification_report(y_census_teste, previsoes))

#### Recall

Retorna a proporção de todos os dados que eram de fato verdadeiras e quantas foram
corretamente preditas como positiva. (tp / (tp + fn)

#### F1_SCORE

Ele é a média harmônica entre a precisão e o recall. 2(precisao*recall/precisao+recall)

  ![image.png](attachment:6b469d46-2b4d-4502-b29a-ad6a93d1b8f4.png)  
  ![image.png](attachment:768d4f2f-d580-4640-ad7a-1771ee5147d6.png)

![image.png](attachment:59ac14fa-4f43-474c-84a8-6ef8247725d4.png)

### KNN (K-Nearest Neighbors)

"K Vizinhos Mais Próximos" — é um algoritmo simples de classificação, que classifica um
novo dado olhando quem são os vizinhos mais próximos dele. Onde o valor de K determina
o número de vizinhos que o modelo vai considerar

![image.png](attachment:7f1519aa-1762-4b49-8975-d826f60ceba8.png)

Calcula a distância entre o novo ponto e todos os pontos do conjunto de treinamento
(geralmente usa-se a distância Euclidiana).
![image.png](attachment:43356e41-a939-4def-8a8c-6e3826818e78.png)

Pega os K vizinhos mais próximos (os que têm menor distância)

![image.png](attachment:dd20ec43-ccea-40ac-9d20-180a56c9abb1.png)

O modelo escolhe a classe mais frequente entre os vizinhos

![image.png](attachment:a705fe79-b4a0-4ec9-86d6-0a81de352b7a.png)
![image.png](attachment:0979294b-e56e-430d-b9a9-3e45ef12fab4.png)

Nesse algoritmo, **não** é criado um modelo, mas sim uma memorização dos dados vizinhos e o cálculo das distâncias para determinar a classe.

#### Código:

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn_census = KNeighborsClassifier(n_neighbors=10)
knn_census.fit(X_census_treinamento, y_census_treinamento)
previsoes = knn_census.predict(X_census_teste)
previsoes
accuracy_score(y_census_teste, previsoes)


### Regressão Logística

**Hiperparâmetro:** Número de iterações

É um algoritmo para resolver problemas de classificação, ou seja, prevê um resultado categórico. Funciona estimando a probabilidade de um determinado evento ocorrer com base em uma ou mais variáveis independentes.

É mais eficiente quando usado em problemas que terão uma classificação binária, como sim ou não. Esse algoritmo identifica esses valores como 0 e 1 para traçar uma reta entre eles e aplica a função da sigmoide para encontrar a melhor linha e encaixar os dados.

![image.png](attachment:0a66bf77-652b-4b25-bded-26c5f98268ab.png)
![image.png](attachment:b737fa5a-703d-4219-bb9c-4236912d33e9.png)
![image.png](attachment:297d8e4a-aa88-470b-902e-1158badba8c6.png)

In [5]:
from sklearn.linear_model import LogisticRegression

logistic_census = LogisticRegression(random_state = 1,max_iter=100)
logistic_census.fit(X_census_treinamento, y_census_treinamento)
previsoes = logistic_census.predict(X_census_teste)
previsoes


### SVM

Algoritmo de classificação que cria um hiperplano com base nos vetores de suporte
para dividir classes. 

Procura forma de separar grandes grupos de dados.
- Tenta encontrar linha (ou plano) que divide os grupos.
- Tenta ao máximo MAXIMIZAR a margem e cria uma “zona de segurança”.
- É potente para dados de alta dimensão, mas exige normalização e não escala bem para datasets gigantes.



**Hiperparâmetros**
* **Kernel Trick:** (Transformação dos Dados)
Usado quando os dados não podem ser separados por uma linha reta. Transforma os dados para outra dimensão.

**Principais tipos de kernel:**
- Kernel Linear
- Kernel Polinomial
- Kernel Gaussiano (RBF/Radial) - rbf
- Sigmoid
  
![image.png](attachment:4c1215d8-825c-4e49-9bf5-a1ed7e3047dd.png)
![image.png](attachment:15cb5c4f-709e-4c7f-8940-a0d11c1c54df.png)

* **C:** Penalização dos erros. Controla o quão rígido o modelo será com eles.
![image.png](attachment:8f9065af-8aca-4985-8b6a-651bc1e980a4.png)

Penaliza classificações incorretas.
- C alto → tenta separar completamente, maior risco de overfitting.
- C baixo → permite mais erros, modelo mais simples.
![image.png](attachment:adcbecb8-3fd5-4428-89d5-dd8afc3c8aa2.png)


### Random Forest

![image.png](attachment:69f4a6a1-ab7d-419c-a1a6-0afc5d9fec90.png)
![image.png](attachment:d76e1379-2551-4910-849e-5238dcdfe379.png)

### PCA - Principal Component Analysis

A Análise de Componentes Principais (PCA) é uma técnica utilizada para reduzir o número
de variáveis de um conjunto de dados, mantendo o máximo possível da informação
essencial. Ela é muito útil quando trabalhamos com bases de dados que possuem muitas
colunas e quando percebemos que algumas delas são redundantes ou estão correlacionadas
entre si.

**Característica:**  técnica utilizada para reduzir o número de variáveis de um conjunto de dados, mantendo o máximo possível da informação essencial, cria atributos artificiais.

**Hiperparâmetro:** n_components (número de componentes é a quantidade de features/colunas que você quer no fim, depois de reduzi-las)



### Select Atributes

A inclusão de muitas características do modelo deteriora sua performance, tornando o modelo super ajustado. Dessa forma a seleção de atributoes tem como objetivo definir quais características, entre as "naturais" e as produzidas, são mais importantes para a performance do modelo.

Para isso existem algumas técnicas:
* **Algoritmo de força bruta:** Testa todas as combinações possíveis de atributos para encontrar o subconjunto que gera o melhor desempenho do modelo, escolhe um modelo (por exemplo, uma árvore de decisão), gera todas as combinações possíveis de atributos (ex: se há 10 atributos, há 2¹⁰ = 1024 combinações), treina e avalia o modelo em cada combinação, seleciona o conjunto de atributos que teve o melhor desempenho.
* **Teste Qui-Quadrado (Chi²):** Mede o grau de dependência entre duas variáveis categóricas — por exemplo, um atributo e a classe alvo. Ele verifica se a distribuição observada dos dados difere da distribuição esperada caso as variáveis fossem independentes. Se uma variável (atributo) é independente da classe, não ajuda a prever, deve ser descartada.
* **ANOVA (Analysis of Variance):** É um teste estatístico usado para verificar se há diferença significativa entre as médias de dois ou mais grupos. O teste calcula uma estatística F:
![image.png](attachment:2802abc2-a1b4-46d8-bbda-1cebd23e154e.png)
Se F for alto, significa que as médias dos grupos são bem diferentes, variável importante. Se
F for baixo, significa que as médias são parecidas, variável irrelevante. O SelectKBest(f_classif)
faz exatamente isso para cada feature numérica, comparando-a com as classes da variável
alvo

**Tipos de Kernel:** 
* linear
* sigmoid
* polynomial
* rbf

**Hiperparâmetros**

* **K:** Número de atributos
* **f_classf:** Para atributos numéricos
* **chi2:** Para atributos categóricos

In [None]:
from sklearn.feature_selection import f_classif, SelectKBest

selecao = SelectKBest(f_classif, k=7)
X_anova = selecao.fit_transform(X, y)
X_treino, X_teste, y_treino, y_teste = train_test_split(X_anova, y, test_size=0.3, random_state=0)

svm_anova = SVC(kernel='linear', C = 2)
svm_anova.fit(X_treino, y_treino)
previsoes = svm_anova.predict(X_teste)
accuracy_score(y_teste, previsoes)


### Cross Validation

- É um método para avaliar o desempenho do modelo de uma forma mais segura.
- Ele repete vários treinos com alguns tipos de divisão de dados, por exemplo: 70% dos dados para treino e 30% para teste, depois 80% treino e 20% teste, com os resultados desses testes é calculado a média geral de todas as performances e assim um desempenho geral do seu modelo de aprendizado.

Benefícios:
- Fornece uma estimativa mais confiável.
- Rápido, evita testar com outras quantidades de dados manualmente.
- Garante que todas as amostras de dados sejam usadas.
- Detecção de OVERFITTING ou UNDERFITTING.

K-Fold Cross Validation (Método mais usado):
•	Consiste em dividir o conjunto de dados em K partes do mesmo tamanho. O modelo vai repetir o treino K vezes.
•	Em cada vez 1 das partes será usada para os testes.
![image.png](attachment:2988c801-50d6-4047-9f03-184273640d59.png)

Exemplo: 
Os dados serão divididos em 5 partes. 
Na primeira vez, a parte 1 parte será utilizada para teste e as partes restantes para treinamento gerando uma métrica de avaliação. 
Na segunda vez, a parte 2 será utilizada para teste enquanto as demais para treino, assim mostra na imagem acima.
Esse processo será repetido 5 vezes até que toda a base passe pelo processo de treino e teste gerando uma métrica de avaliação média para o modelo.
![image.png](attachment:88d380bd-c528-43c3-9763-8613bdaa6616.png)

Hiperparâmetro :
O CV é usado para avaliar e selecionar os melhores hiperparâmetros do algoritmo escolhido (Ex: Regressão Linear) 
Métricas de erro:
As métricas são calculadas com base nos testes realizados, então o CV é usado para gerar o melhor desempenho para elas.
Métricas de desempenho:
As métricas de desempenho são utilizadas em cada iteração da validação cruzada.
![image.png](attachment:eebbfd32-7f88-494c-96be-3d1d7e037cf7.png)

### Grid Search

Grid Search (busca em grade) é um método sistemático para testar várias combinações de parâmetros de um modelo de machine learning e descobrir qual configuração gera o melhor desempenho. Pense nele como um “teste exaustivo” — ele monta uma grade (grid) com todas as combinações possíveis dos valores que você indicar e treina o modelo para cada uma (geralmente usando cross-validation para validar).

In [None]:
from sklearn.model_selection import GridSearchCV

parametros = {'C': [1.0, 1.5, 2.0],
 'kernel': ['rbf', 'linear', 'poly', 'sigmoid']}

grid_search = GridSearchCV(estimator=SVC(), param_grid=parametros)
grid_search.fit(X, y)
melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_ 

print(melhores_parametros)
print(melhor_resultado)


![image.png](attachment:c629ae19-8510-4d7b-82f1-e07f6058750d.png)
![image.png](attachment:90080fa1-f198-42f1-ae23-2d6d9896c19f.png)
![image.png](attachment:51590118-d6fc-4ed5-8e7c-14025045ee3e.png)
![image.png](attachment:f3f94073-0d69-4e59-8efd-7510b729f271.png)
![image.png](attachment:2684065f-4c4d-40d1-bb96-ff9184570989.png)

![image.png](attachment:a05399fe-0409-4b9e-9bf2-7ef7b8a45526.png)
![image.png](attachment:8e809ef5-d0d8-47f0-9e78-eb2de3962124.png)
![image.png](attachment:7901e95d-37f6-47d6-9d67-68e49cf44528.png)