# base

In [None]:
# normalizando dados

from sklearn.preprocessing import normalize

data_scaled = normalize(data)
data_scaled = pd.DataFrame(data_scaled, columns = data.columns)

In [None]:
# padronizando os dados

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()
sc_y = StandardScaler()

X = sc_X.fit_transform(X)
y = sc_y.fit_transform(y)

In [None]:
# divisão variáveis explicativas e target

X = df.iloc[:, primeira_coluna:ultima_coluna]
y = df.iloc[:, coluna_target]

In [None]:
# divisão simples entre treino e teste

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(explicativas, target, test_size = 0.3, random_state = 42)

# cross validation

In [None]:
# para utilizar, é só incializar o algoritmo antes e passar como hiperparâmetro do cross_validate

from sklearn.model_selection import cross_validate

lr = LinearRegression()

# quando um inteiro é passado no hiperparâmetro cv o algoritmo faz um stratified kfold (se for um modelo de classificação)
cross_validate(lr, X, y, scoring = 'r2', cv = 3)

# agrupamento

### kmeans

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters = 3, init = 'random', max_iter = 300)
kmeans.fit(iris)
labels = kmeans.labels_

### clusterização hierárquica (aglomerativa)

In [None]:
from sklearn.cluster import AgglomerativeClustering

cluster = AgglomerativeClustering(n_clusters = 2, affinity = 'euclidean', linkage = 'ward')  
cluster.fit_predict(data_scaled)

### dbscan

In [None]:
m = DBSCAN(eps = 0.3, min_samples = 5)
m.fit(X)
clusters = m.labels_

# classificação

### svm

In [None]:
from sklearn import svm

clf = svm.SVC(C = 0.5, kernel = 'linear', gamma = 'auto')

clf.fit(X_train, y_train)

# base de teste toda
y_pred = clf.predict(X_test)

# exemplo específico
prediction = clf.predict([[0,6]])
print(prediction)

### árvore de decisão

In [None]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(criterion='entropy', max_depth=4, min_samples_split = 5, class_weight = 'balanced', random_state=1)
tree.fit(X_train, y_train)
y_pred = tree.predict(X_test)

### random forest

In [None]:
clf = RandomForestClassifier(n_estimators = 100, criterion='entropy', max_features = "auto", max_depth = 10, random_state = 0)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

### adaboost

In [None]:
from sklearn.ensemble import AdaBoostClassifier

clf = AdaBoostClassifier(n_estimators = 100)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

### gradient boosting

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

clf = GradientBoostingClassifier(n_estimators = 100)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

### regressão logística

In [None]:
from sklearn.linear_model import LogisticRegression

logisticRegr = LogisticRegression(penalty = "l1", C = 1e40)

fitted_model = logisticRegr.fit(X, y)

# base de teste toda
prediction_result = fitted_model.predict(x_test)

### knn

In [None]:
from sklearn.neighbors import KNeighborsClassifier

classifier = KNeighborsClassifier(n_neighbors = 5, algorithm = 'ball_tree', metric = 'minkowski', p = 2)
classifier.fit(X_train, Y_train)

Y_pred = classifier.predict(X_test)

# Regressão

### árvore de regressão

In [None]:
from sklearn.tree import DecisionTreeRegressor

tree = DecisionTreeRegressor(criterion='mse', max_depth=3)         
tree.fit(X, y)
tree.predict(X)

### knn regressor

In [None]:
from sklearn.neighbors import KNeighborsRegressor

regressor = KNeighborsRegressor(n_neighbors = 6, algorithm = 'ball_tree', metric = 'minkowski', p = 2)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

### regressão linear

In [None]:
# simples
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X, Y)
df['previsto'] = lr.predict(X)


# ridge

from sklearn.linear_model import Ridge

rg = Ridge(alpha = 10)
rg.fit(X_train, y)
y_pred = rg.predict(X_test)


# lasso

from sklearn.linear_model import Lasso

ls = Lasso(alpha = 20)
ls.fit(X_train, y)
y_pred = ls.predict(X_test)


# elastic net

from sklearn.linear_model import ElasticNet

# l1_ratio indica o quanto da penalização se deve ao Lasso
en = ElasticNet(alpha = 0.001, l1_ratio = 0.3)
en.fit(X_train, y)
y_pred = en.predict(X_test)

### svr

In [None]:
from sklearn.svm import SVR

regressor = SVR(C = 0.5, kernel = 'linear', gamma = 'auto')
regressor.fit(X,y)

y_pred = regressor.predict([[6.5]])
print(y_pred)

# Avaliação

In [None]:
from sklearn import metrics

# roc auc é uma métrica que calcula a área sob a curva de taxa de verdadeiros positivos x taxa de falsos positivos
print(round(metrics.roc_auc_score(y_test, prediction_result), 3))

# acurácia é a quantidade de predições corretas (TP+TN)/(TP+TN+FP+FN)
print(round(metrics.accuracy_score(y_test, prediction_result), 3))

# recall é "dos que realmente eram positivos, quanto o modelo indicou" TP/(TP+FN)
print(round(metrics.recall_score(y_test, prediction_result), 3))

# precision é "dos que o modelo indicou como positivo, quantos realmente eram" TP/(TP+FP)
print(round(metrics.precision_score(y_test, prediction_result), 3))

# o f1 é uma métrica que combina o precision e o recall dando determinado peso a cada um
print(round(metrics.f1_score(y_test, prediction_result, average = 'weighted'), 3))