# **Cheat Sheet de Machine Learning com Scikit-Learn e Pandas**

## **Pré-processamento**

### **Divisao treino/teste (`sklearn`)**

```python
from sklearn.model_selection import train_test_split

# Dados fictícios
X = features
y = target

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
  X, y,
  test_size=0.2,
  random_state=42
)

# Divisão com classes desbalanceadas na resposta
# stratify=y  # opção que mantém proporção das classes
```

### **OneHoteEncoding  e LabelEncoding**

#### `pd.get_dummies()`

```python
import pandas as pd

# Dados fictícios
df = pd.DataFrame({'pay_method': ['credit', 'debit', 'pay_online']})

# Codificação (novas colunas True/False)
df_encoded = pd.get_dummies(df, columns=['pay_method'])
```

### `OneHotEncoder`

```python
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Dados fictícios

# Codificação para Arrays:
encoder = OneHotEncoder(sparse_output=False)
X = np.array(['credit', 'debit', 'pay_online']).reshape(-1, 1)
X_encoded = encoder.fit_transform(X)

# Codificação para Dataframes:
encoder = OneHotEncoder(sparse_output=False).set_output(transform="pandas")
data_cat = data[['credit', 'debit', 'pay_online']]
df_encoded = encoder.fit_transform(data_cat)
```

#### `LabelEncoding`

 ```python
 from sklearn.preprocessing import LabelEncoder

#  Codificação (rótulos para cada categoria)
encoder = LabelEncoder()
dados['categoria_cod'] = encoder.fit_transform(dados['categoria'])
# Visualização
print(tips['categoria'].unique())
print(tips['categorias_cod'].unique())
 ```

### **Scaling com `StandardScaler`**

```python
from sklearn.preprocessing import StandardScaler

# Dados fictícios
scaler = StandardScaler()
X = dados[['colunas_numericas']].copy()

# Normalização
X['col_std'] = scaler.fit_transform(X[['col']])
```

### Scaling com `MinMaxScaler`

```python
from sklearn.preprocessing import MinMaxScaler

# Dados fictícios
scaler = MinMaxScaler()
X = dados[['colunas_numericas']].copy()

# Normalização
X['col_std'] = scaler.fit_transform(X[['col']])
```

## **Algoritmos**

### **Simple Linear Regression (`sklearn`)**

```python
from sklearn.linear_model import LinearRegression

# Dados fictícios
X, y = ..., ...

# Treinamento do modelo
model = LinearRegression()
model.fit(X, y)

# Predições
y_pred = model.predict(X)
```

### **Polynomial Regression (`sklearn`)**

```python
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# Dados fictícios
X, y = ..., ...

# Transformação polinomial grau 3
poly = PolynomialFeatures(degree=3)
x_poly = poly.fit_transform(x)

# Treinar modelo
model = LinearRegression()
model.fit(x_poly, y)

# Predições
y_pred = model.predict(X_poly)
```

### **Logistic Regression (`sklearn`)**

```python
from sklearn.linear_model import LogisticRegression

# Dados fictícios
X, y = ..., ...

# Treinamento do modelo
model = LogisticRegression(random_state=10, class_weights=None)
model.fit(X, y)

# Predições
y_pred = model.predict(X)
```

* Alterando a probabilidade de corte:

```python
# Alterando a probabilidade de corte:
probabilidades = model.predict_proba(features)[:, 1] # P(Y=1)
threshold = 0.8
classe_pred = (probabilidades >= threshold).astype(int)

# Predições:
print('Predições com threshold =', threshold)
print(classe_pred[0:14])

print('\nProbabilidades da classe 1')
print(np.round(probs[0:14], 2))
```

## **KNN Imputeer**

```python
# Preenchimneto de dados ausentes
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=3)
real_estate['coluna_preenchida'] =  imputer.fit_transform(dados[['coluna']])
```

### **KNN (K-Nearest Neighbors)**

```python
from sklearn.neighbors import KNeighborsClassifier

# Dados fictícios
X, y = ..., ...

# Treinamento do modelo
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X, y)

# Predições
y_pred = model.predict(X)
```

### **Naive-Bayes**

```python
from sklearn.naive_bayes import GaussianNB

# Dados fictícios
X, y = ..., ...

# Treinamento do modelo
model = GaussianNB()
model.fit(X, y)

# Predições
y_pred = model.predict(X)
```

## **Decision Tree Classifier (`sklearn`)**

```python
from sklearn.tree import DecisionTreeClassifier

# Dados fictícios
X, y = ..., ...

# Treinamento do modelo
model = DecisionTreeClassifier(random_state=10)
model.fit(X, y)

# Predições
y_pred = model.predict(X)
```

## **Decision Tree Regressor (`sklearn`)**

```python
from sklearn.tree import DecisionTreeRegressor

# Dados fictícios
X, y = ..., ...

# Treinamento do modelo
model = DecisionTreeRegressor(random_state=10, criterion='entropy')
model.fit(X, y)

# Predições
y_pred = model.predict(X)
```

## Random Forest

```python
from sklearn.ensemble import RandomForestClassifier

# Dados fictícios
X, y = ..., ...

# Treinamento do modelo
model = RandomForestClassifier(n_estimators=100, random_state=10)
model.fit(X, y)

# Predições
y_pred = model.predict(X)
```

## **K-means**

```
from sklearn.cluster import KMeans

# Dados fictícios
X = ...

# Treinamento do modelo
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Predições
labels = kmeans.predict(X)
``` 

## **KModes**

```python
#  (para dados categóricos)
# Requer instalação: pip install kmodes
from kmodes.kmodes import KModes

# Exemplo para dados categóricos em DataFrame pandas
kmodes = KModes(n_clusters=3, init='Huang', n_init=5, verbose=1, random_state=42)
labels_kmodes = kmodes.fit_predict(X)
print("KModes labels:", labels_kmodes)

# Centroides/modes dos clusters
print("KModes centroids:")
print(kmodes.cluster_centroids_)
```

## **DBSCAN**

```python
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.5, min_samples=5)  # Ajuste esses hiperparâmetros conforme seu dado
dbscan.fit(X)
labels_dbscan = dbscan.labels_  # Note: -1 indica ruído (não clusterizado)
print("DBSCAN labels:", labels_dbscan)
```

## **Principal Components Analysis (PCA)**

```python
from sklearn.decomposition import PCA

# Obtenção das componentes principais
pca = PCA(n_components =3)
pca.fit(campaings)

# Variância explicada (PCn)
print(pca.explained_variance_ratio_)

# Coeficientes (PCn)
print(pca.singular_values_)

# Visualização
fig, ax = plt.subplots()
plt.plot(range(1, len(explained_variance) + 1), pca.explained_variance_ratio_.cumsum(), 'o--k')
plt.title('Variância explicada por componente');
plt.xlabel('Nº Componentes');
plt.ylabel('Variância explicada acumulada');     
```

## **Isolation Forest**

```python
from sklearn.ensemble import IsolationForest

# modelagem
modelo_IF = IsolationForest(contamination=0.05, random_state=50)

# scores
dados['score'] = modelo_IF.decision_function(dados[colunas_interesse])
# classe (anomalia)
dados['anomalia'] = modelo_IF.predict(dados[colunas_interesse])

# visualização (pairplot)
sns.pairplot(dados, vars=colunas_interesse, hue='anomalia')     
```

## **LocalOutlierFactor**

```python
from sklearn.neighbors import LocalOutlierFactor

cols = [...]

# especificar quantos vizinhos:
modelo_LOF = LocalOutlierFactor(n_neighbors=4, contamination='auto')
concreto['anomalia_LOF'] = modelo_LOF.fit_predict(dados[cols])
```

## **SVM (detecção de anomalias)**

```python
from sklearn.svm import OneClassSVM

# Treinando o One-Class SVM
oc_svm = OneClassSVM(kernel='poly', degree=3, nu=0.025, gamma='auto')
oc_svm.fit(dados[[coluna]])

# Fazendo previsões
predictions = oc_svm.predict(dados[[coluna]])
dados['Anomalia_SVM'] = predictions
```

## **Validação**

### **Métricas de Regressão com `sklearn`**

```python
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Dados fictícios
y_true = ...
y_pred = ...

# Métricas
mse = mean_squared_error(y_true, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_true, y_pred)
```

### **Métricas de Classificação com `sklearn`**

```python
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report

# Dados fictícios
y_true = ...
y_pred = ...

# Métricas
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred, average='binary')
recall = recall_score(y_true, y_pred, average='binary')
f1 = f1_score(y_true, y_pred, average='binary')
conf_matrix = confusion_matrix(y_true, y_pred)
report = classification_report(y_true, y_pred)
```

### **Matriz de confusão e relatório**

```python
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

y_teste = ...
y_pred = model.predict(x_teste)

# Matriz de confusão para o conjunto de teste
print("Matriz de confusão para o conjunto de teste:")
print(confusion_matrix(y_teste, ypred_teste))

# Visualizando a matriz  de confusão em gráfico
matriz = confusion_matrix(y_teste, ypred_teste)
plt.figure(figsize=(4,3))
sns.heatmap(matriz,annot=True,fmt='d')
plt.xlabel('Valores Preditos');
plt.ylabel('Valores Reais');
plt.title('Matriz de Confusão');

# Relatório
print(classification_report(y_teste, ypred_teste))
```

### **Curva ROC e AUC**

```python
from sklearn.metrics import roc_curve, roc_auc_score

y_teste = ...
y_pred = model.predict(x_teste)

# Calcular a curva ROC e a AUC
fpr, tpr, thresholds = roc_curve(y_teste, ypred_teste)
roc_auc = roc_auc_score(y_teste, ypred_teste)

# Plotar a curva ROC
fig, ax = plt.subplots(figsize=(6,4))
plt.plot(fpr, tpr, color='maroon', lw=2, label=f'Curva ROC (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='black', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsos Positivos')
plt.ylabel('Taxa de Verdadeiros Positivos')
plt.title('Curva ROC')
plt.legend(loc='lower right')
plt.show()
```
## **Visualizar árvore DT**

```python
import graphviz
from sklearn import tree

tree_data = tree.export_graphviz(model_DT, out_file=None)
graph = graphviz.Source(tree_data)
graph
```

## **Exportando um modelo**


```python
import pickle

with open('rf.pkl', 'wb') as file:
  pickle.dump(rf, file)
```

```python
with open('rf.pkl', 'rb') as file:
    loaded_model = pickle.load(file)
loaded_model
```
