#Importando as bibliotecas e carregando um df em uma variável 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import TimeSeriesSplit,cross_val_score,train_test_split

# importando os modelos
from sklearn.neural_network import MLPClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from google.colab import files
from oauth2client.client import GoogleCredentials
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Autenticação para acesso aos dados
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
# Download dos dados para esta máquina virtual
downloaded = drive.CreateFile({'id': '1YsLk4m04XeO2CKqOMKeug5dvZXhlwGQU'})
downloaded.GetContentFile('data.csv')

In [None]:
# Carregando os dados baixados no dataframe 
df = pd.read_csv('data.csv')

#Separando entre x e y e selecionando os modelos que vão ser testados


In [None]:
# separando entre x e y
x = df.drop(columns=["ind_engaj", "Unnamed: 0", "num_cpf_hash"]).copy()
y = df.drop(columns=["Unnamed: 0", "num_cpf_hash", "vlr_credito", "vlr_saldo", "num_atend_atrs", "vlr_score", "num_produtos", "qtd_oper", "qtd_reclm", "qtd_restr", "cod_rating", "ind_atrito", "num_atend"]).copy()

In [None]:
# Criando um array que contém um tuple com o nome do modelo e ele mesmo
models = [
    ("GaussianNB", GaussianNB()),
    ("DecisionTreeClassifier", DecisionTreeClassifier()),
    ("RandomForestClassifier", RandomForestClassifier()),
    ("MLPClassifier", MLPClassifier())
]

#Testando diferentes modelos de classificação e checando com o método de score padrão

In [None]:
# fazendo um loop que fará um de cada modelo previamente selecionado e checar as respectivas médias das validações cruzadas e os respectivos desvios padrão
resuls_score = []
for model in models:
    score = cross_val_score(model[1], x, y, cv=6)
    resuls_score.append({
        "modelo": model[0],
        "média": score.mean(),
        "desvio padrão": score.std()
    })

In [None]:
resuls_score

[{'modelo': 'GaussianNB',
  'média': 0.6796856524159655,
  'desvio-padrão': 0.0009751379758655668},
 {'modelo': 'DecisionTreeClassifier',
  'média': 0.6849105601677216,
  'desvio-padrão': 0.0028497674872243147},
 {'modelo': 'RandomForestClassifier',
  'média': 0.757295301783656,
  'desvio-padrão': 0.0014093852281746807},
 {'modelo': 'MLPClassifier',
  'média': 0.6798135209525785,
  'desvio-padrão': 0.041557739330682145}]

#Testando diferentes modelos de classificação e checando com o método de score "f1"

In [None]:
# fazendo um loop que fará um de cada modelo previamente selecionado e checar as respectivas médias das validações cruzadas e os respectivos desvios padrão
resuls_f1 = []
for model in models:
    score = cross_val_score(model[1], x, y, cv=6, scoring='f1')
    resuls_f1.append({
        "modelo": model[0],
        "média": score.mean(),
        "desvio padrão": score.std()
    })

In [None]:
resuls_f1

[{'modelo': 'GaussianNB',
  'média': 0.7793324833739493,
  'desvio-padrão': 0.0006427643735270461},
 {'modelo': 'DecisionTreeClassifier',
  'média': 0.7525589857098599,
  'desvio-padrão': 0.0015505064944041338},
 {'modelo': 'RandomForestClassifier',
  'média': 0.820000761392691,
  'desvio-padrão': 0.0010984693860869804},
 {'modelo': 'MLPClassifier',
  'média': 0.8001892330467353,
  'desvio-padrão': 0.00782797361619285}]