<a href="https://colab.research.google.com/github/mauricionoronha/ml_classificacao_simplificada/blob/main/ml_classificacao_simplificada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color='#FFA500'> ETAPA 1 : Pré-processamento dos dados:</font>

* É o processo de limpar, transformar e preparar os dados brutos antes de serem alimentados para um modelo de aprendizado de máquina. 

* É uma etapa crucial em qualquer projeto de machine learning, pois a qualidade dos dados usados para treinar um modelo tem um grande impacto no desempenho e na precisão do modelo.

>Considerada a etapa mais demorada e trabalhosa, mas neste projeto será otimizado em 10 passos. Basta preencher as informações necessárias e rodar a célula.


## <font color='#FFA500'> 1/10 - Carregando a base de dados:</font>

In [None]:
#@markdown ---

import pandas as pd
import numpy as np

print('[1;32mCarregando dados...')
# Criação dos campos de preenchimento usando #@param
#@markdown > ### Insira o endereço do arquivo abaixo e escolha o tipo correto de arquivo que deseja importar:
endereco = "/content/drive/MyDrive/MACHINE_LEARNNING/telecom_users.xlsx" #@param {type:"string"}
tipo_arquivo = "excel" #@param ["csv", "excel"]
separador = ";" #@param [",", ";"]

if tipo_arquivo == "csv":
    dados = pd.read_csv( endereco, sep = separador)
else:
    dados = pd.read_excel(endereco)

print('[1;32mPronto, verifique as 5 primeiras linhas do dataframe:')
dados.head()



## <font color='#FFA500'> 2/10 - Analisando atributos ( variáveis )</font>

In [None]:
#@markdown ---
#@markdown  ### Análise quantitativa em % e visualização gráfica por meio de um histograma.
#@markdown 
#@markdown > Informe o nome do atributo que deseja analisar:
import plotly.express as px
Nome_Atributo = "Churn" #@param {type:"string"}

print('[1;32mCriando gráfico...')
print(display(dados[Nome_Atributo].value_counts(normalize=True).map("{:.1%}".format)));

hist1 =  px.histogram (dados,  x = Nome_Atributo, nbins=60) 
hist1.update_layout(width=800,height=500,title_text='Distribuição {}'.format(Nome_Atributo)) 
hist1.show()

dados2 = dados.copy()
print('[1;32mPronto')

[1;32mCriando gráfico...


Nao    73.5%
Sim    26.5%
Name: Churn, dtype: object

None


[1;32mPronto


## <font color='#FFA500'> 3/10 - Verificando e corrigindo valores nulos ( NAN )</font>

In [None]:
#@markdown ---
print('[1;32mVerificando dados...')
#@markdown > ### Rode essa célula para identificar valores nulos
print('\033[0m' + str(dados2.isnull().sum()))
print('\033[1;32mPronto')

[1;32mVerificando dados...
[0mIDCliente                 0
Genero                    0
Dependentes               0
MesesComoCliente          0
ServicoTelefone           0
ValorTelefone             0
MultiplasLinhas           0
ServicoInternet           0
ValorInternet             0
ServicoSegurancaOnline    0
ValorSegurancaOnline      0
ServicoBackupOnline       0
ValorBackupOnline         0
ProtecaoEquipamento       0
ServicoSuporteTecnico     0
ServicoStreamingTV        0
ValorServiçoStreaming     0
ServicoFilmes             0
ValorServicoFilmes        0
TipoContrato              0
FaturaDigital             0
FormaPagamento            0
ValorMensal               0
Churn                     0
dtype: int64
[1;32mPronto


In [None]:
#@markdown > ### Se encontado valores nulos, como proceder?

#@markdown 1 - Excluir Dados Nulos

#@markdown 2 - Substituir Dados Nulos Pela Média

Escolha = 1 #@param ["1", "2"] {type:"raw"}

#@markdown > ###  Informe o nome do Atributo com dados nulos:

Nome_Atrib_Dados_Nulos = "Churn" #@param {type:"string"}


if Escolha == 1:
    dados2.dropna(inplace=True)
else:
    dados2[Nome_Atrib_Dados_Nulos].fillna(dados2[Nome_Atrib_Dados_Nulos].mean(), inplace=True)

print('[1;32mDados corrigidos!')



[1;32mDados corrigidos!


## <font color='#FFA500'>  4/10 - Analisando os tipos de atributos</font>

In [None]:
#@markdown ---
#@markdown  ### Verifique os tipos de atributos, que podem ser:
#@markdown * object: strings
#@markdown * int64: inteiros
#@markdown * float64: reais
#@markdown * complex: complexos
print('[1;32mAnalisando dados...')
print('\033[0m' + str(dados2.dtypes))
print('[1;32mPronto')

In [None]:
#@markdown > ### Será necessário alterar o tipo de um atributo especifico?

#@markdown * Desconsidere se não for necessário corrigir o tipo do atributo
print('[1;32mCorrigindo dados...')
#@markdown > Se for necessário fazer a correção, informe o nome do atributo:
Nome_Atributo = "" #@param {type:"string"}
#@markdown > Escolha agora, entre as opções abaixo, para qual tipo deseja alterar:
Tipo_Atributo = "float64" #@param ["object", "int64", "float64"]

if Tipo_Atributo == "object":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].astype(str)
elif Tipo_Atributo == "int64":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.int64)
else:
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.float64)

print(dados2[Nome_Atributo].dtype)

#@markdown * OBS.: Só é possivel converter uma STRING (object) em INT ou FLOAT quando essa string é composta apenas por números, logo não é possivel converter palavras em int ou float
print('[1;32mPronto')


## <font color='#FFA500'> 5/10 - Excluindo atributos desnecessários</font>

In [None]:
#@markdown ---
#@markdown > ### Informe o nome do atributo que deseja retirar do dataframe:
Nome_Atributo = "ValorBackupOnline" #@param {type:"string"}
dados2 = dados2.drop(Nome_Atributo, axis=1)
print('\033[1;32mAtributo excluído!')
print('\033[1;32mSegue amostra do dataframe atualizado:')
dados2.head()

[1;32mAtributo excluído!
[1;32mSegue amostra do dataframe atualizado:


Unnamed: 0,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,...,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,Feminino,Sim,9,Sim,54.9,...,Anual,Sim,BoletoImpresso,199.6,Nao
1,Masculino,Nao,9,Sim,54.9,...,Mensal,Nao,BoletoImpresso,169.7,Nao
2,Masculino,Nao,4,Sim,54.9,...,Mensal,Sim,BoletoEletronico,184.8,Sim
3,Masculino,Nao,13,Sim,54.9,...,Mensal,Sim,BoletoEletronico,254.5,Sim
4,Feminino,Nao,3,Sim,54.9,...,Mensal,Sim,BoletoImpresso,224.7,Sim


## <font color='#FFA500'> 6/10 - Relação quantitativa entre todos os atributos e um atributo chave:</font>

In [None]:
#@markdown ---
#@markdown * ### Veja através de histograma como o atributo chave é distribuído nos demais atributos do dataframe.
print('[1;32mCriando gráficos...')
#@markdown > Informe o nome do atributo chave: 
import plotly.express as px

Atributo_Chave = "" #@param{type: 'string'}

for coluna in dados2:      
        fig = px.histogram(dados2, x=coluna,nbins=60, color=Atributo_Chave)
        fig.show()

print('[1;32mPronto')

## <font color='#FFA500'> 7/10 - Análise Estatística Descritiva</font>

In [None]:
#@markdown ---

#@markdown > ### Tenha acesso aos seguintes perâmetros :

#@markdown * count: número de valores não nulos na coluna
#@markdown * mean: média dos valores na coluna
#@markdown * std: desvio padrão dos valores na coluna
#@markdown * 25%: primeiro quartil (valor abaixo do qual estão 25% dos valores)
#@markdown * 50%: segundo quartil, que é equivalente à mediana (valor abaixo do qual estão 50% dos valores)
#@markdown * 75%: terceiro quartil (valor abaixo do qual estão 75% dos valores)
#@markdown * max: valor máximo na coluna
print('[1;32mAnalisando dados...')
dados2.describe()




[1;32mAnalisando dados...


Unnamed: 0,MesesComoCliente,ValorTelefone,ValorInternet,ValorMensal
count,5984.0,5984.0,5984.0,5984.0
mean,32.456551,99.65752,128.135963,257.226237
std,24.511387,68.38464,104.312756,146.260736
min,0.0,0.0,0.0,44.9
25%,9.0,54.9,94.9,149.9
50%,29.0,74.9,94.9,229.4
75%,56.0,149.9,149.9,344.6
max,72.0,299.9,319.9,699.4


## <font color='#FFA500'> 8/10 - Verificando correlação entre variáveis</font>

In [None]:
#@markdown ---
#@markdown > ### Rode a célula para verificar em um quadro com gráficos de dispersão se existe alguma correlação entre variáveis
print('[1;32mProcessando dados...')
import seaborn as sns
import matplotlib.pyplot as plt
sns.pairplot(dados2);

print('[1;32mCriando gráficos...')

## <font color='#FFA500'> 9/10 - Verificando Outliers</font>

In [None]:
#@markdown ---
#@markdown > ### Informe o nome do atributo para criar um gráfico Boxplot e identificar possíveis outliers ( discrepâncias ):
print('[1;32mCriando gráfico...')
Nome_Atributo = "ValorMensal" #@param {type:"string"}

import plotly.express as px
px.box ( dados2, y = Nome_Atributo)

#@markdown * Apropriado para atributos categóricos ordinais ( que tenham valores numéricos )


In [None]:
#@markdown ### Corrigindo outliers
#@markdown ---
#@markdown > ###  Informe o atributo para correção:
Nome_Atributo = "ValorTelefone" #@param {type:"string"}

#@markdown >###  Informe como tratar outliers:
#@markdown * 1 - Exclua valores discrepantes baseados um uma condição
#@markdown * 2 - Substitua valores discrepantes pela média baseado em uma condição
#@markdown * 3 - Substitua valores discrepantes por um valor específico baseado em uma condição
Tipo_correcao = "2" #@param ["1", "2", "3"]

#@markdown > ###  Informe agora qual a condição:
#@markdown Corrija todos os valores que sejam:
Tipo_condicao = "maior_que" #@param ["igual_a", "maior_que", "menor_que", "diferente_de"]
Valor = 0 #@param {type:"number"}

#@markdown ---
#@markdown > Se escolheu a opção 3 para substituir os valores discrepantes por um valor específico, informe o valor para qual deseja substituir:
Valor_substituição = 0 #@param {type:"number"}

if Tipo_correcao == 1:
    # excluir os dados de um atributo baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] == Valor].index, inplace = True)
    elif Tipo_condicao == "maior_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] > Valor].index, inplace = True)
    elif Tipo_condicao == "menor_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] < Valor].index, inplace = True)
    elif Tipo_condicao == "diferente_de":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] != Valor].index, inplace = True)
elif Tipo_correcao == 2:
    # substituir os dados de um atributo pela média baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
else:
    # substituir os dados de um atributo por um valor específico baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = Valor_substituição

print('[1;32mDados corrigidos!')

## <font color='#FFA500'> 10/10 Salvando ou Carregando a base de dados pré-processada</font>

In [1]:
#@markdown ---
#@markdown * ### Opcionalmente é possivel salvar o dataframe tratado como um arquivo csv para consultas posteriores e também é possível carregar um dataframe salvo 

import pandas as pd
import numpy as np

#@markdown >  Se deseja salvar o dataframe tratado, marque a caixa abaixo e informe o nome do arquivo:
Salvar = False #@param {type:"boolean"}
Nome_arquivo = "churn_TRATADO" #@param {type:"string"}
Nome_arquivo_csv = Nome_arquivo + ".csv"

if Salvar:
  dados2.to_csv(Nome_arquivo_csv,sep = ",", encoding = "utf-8",  index = False)
  print('[1;32mDados Salvos!')

#@markdown >  Se deseja carregar um dataframe tratado, marque a caixa abaixo e informe o endereço do arquivo e o separador:
Carregar = True #@param {type:"boolean"}
endereco = "/content/drive/MyDrive/MACHINE_LEARNNING/churn_TRATADO.csv" #@param {type:"string"}
separador = "," #@param [",", ";"]

if Carregar:
    dados2 = pd.read_csv(endereco, sep = separador, encoding = "utf-8")
    print('[1;32mPronto, Dataframe carregado!'),
    print('\033[0m' + str(""))
    print('\033[0m' + str(dados2.info()))







[1;32mPronto, Dataframe carregado!
[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5984 entries, 0 to 5983
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Genero                  5984 non-null   object 
 1   Dependentes             5984 non-null   object 
 2   MesesComoCliente        5984 non-null   int64  
 3   ServicoTelefone         5984 non-null   object 
 4   ValorTelefone           5984 non-null   float64
 5   MultiplasLinhas         5984 non-null   object 
 6   ServicoInternet         5984 non-null   object 
 7   ValorInternet           5984 non-null   float64
 8   ServicoSegurancaOnline  5984 non-null   object 
 9   ServicoBackupOnline     5984 non-null   object 
 10  ProtecaoEquipamento     5984 non-null   object 
 11  ServicoSuporteTecnico   5984 non-null   object 
 12  ServicoStreamingTV      5984 non-null   object 
 13  ServicoFilmes           5984 non-null   object 
 14 

# <font color='#FFA500'>  ETAPA 2: Otimização dos dados para a criação do modelo</font>

In [2]:
#@markdown > ## <font color='#FFA500'> Transformando variáveis categóricas NOMINAIS em variáveis categóricas ORDINAIS </font>

#@markdown ---
#@markdown * ### É extremamente importante assegurar que não existam dados nominais (string) no dataframe, pois os modelos de machine learning usados entendem apenas dados numéricos (int ou float)

#@markdown * Essa tranformação ocorre do seguinte modo:

#@markdown * Considere um atributo Sexo com 2 opções: Masculino e Feminino. 

#@markdown * Realizando a transformação, os dados nominais "Masculino" e "Feminino" serão substituídos por dados ordinais 0 e 1. 

#@markdown  > ###  >>> Rode a célula para realizar os ajustes <<<

# Armazenando os indices das variaveis nominais para uso posterior ( onehotencoder )
indice_nominal = [dados2.columns.get_loc(col) for col in dados2.select_dtypes(include=[object]).columns]

# Importação da biblioteca para transformar as variáveis
from sklearn.preprocessing import LabelEncoder

# Criando uma lista com todos os atributos nominais
nominais = [i for i, dtype in enumerate(dados2.dtypes) if dtype == object]

# Usando LabelEncoder para transformar todos atributos nominais lista em ordinais 
for i in nominais:
    dados2.iloc[:, i] = LabelEncoder().fit_transform(dados2.iloc[:, i])

print('[1;32mDados alterados!')
print('\033[1;32mSegue amostra do dataframe atualizado:')
dados2.head()

[1;32mDados alterados!
[1;32mSegue amostra do dataframe atualizado:


Unnamed: 0,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,MultiplasLinhas,ServicoInternet,ValorInternet,ServicoSegurancaOnline,ServicoBackupOnline,ProtecaoEquipamento,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,0,1,9,1,54.9,0,0,94.9,0,2,0,2,2,0,1,1,1,199.6,0
1,1,0,9,1,54.9,2,0,94.9,0,0,0,0,0,2,2,0,1,169.7,0
2,1,0,4,1,54.9,0,1,129.9,0,0,2,0,0,0,2,1,0,184.8,1
3,1,0,13,1,54.9,0,1,129.9,0,2,2,0,2,2,2,1,0,254.5,1
4,0,0,3,1,54.9,0,1,129.9,0,0,0,2,2,0,2,1,1,224.7,1


In [3]:
#@markdown > ## <font color='#FFA500'> Divisão de Previsores e Alvo </font>
#@markdown ---
#@markdown * Atributos Previsores - (também conhecidos como "features" ou "variáveis independentes") são as características ou variáveis de entrada que são utilizadas para prever o valor de uma variável de saída. Em outras palavras, os atributos previsores são as informações que alimentam um modelo de machine learning, com o objetivo de produzir uma previsão ou classificação.
#@markdown * Atributo Alvo (também conhecido como "variável dependente" ou "rótulo") é a variável de saída que o modelo de machine learning está tentando prever ou classificar com base nos atributos previsores.

#@markdown > ### Informe o Atributo Alvo do dataframe:
Nome_Atributo = "Churn" #@param {type:"string"}
# o complemento .values retorna uma matriz com os dados do dataframe
# Divisão previsores e alvo
previsores = dados2.drop(Nome_Atributo, axis=1).values
alvo = dados2[[Nome_Atributo]].values

# Excluindo o atributo Alvo da lista de indice_nominal
indice_alvo = dados2.columns.get_loc(Nome_Atributo)
indice_nominal.remove(indice_alvo)
print('[1;32mPrevisores e Alvo criados!')

[1;32mPrevisores e Alvo criados!


In [4]:
#@markdown > ## <font color='#FFA500'> Escalonamento de variáveis </font>
#@markdown ---
#@markdown * O objetivo do escalonamento de variáveis é normalizar as variáveis para que elas tenham a mesma escala e variem em uma faixa semelhante.

#@markdown * Isso é necessário porque muitos algoritmos de Machine Learning são sensíveis à escala das variáveis. Se as variáveis tiverem escalas muito diferentes, isso pode levar a problemas como o algoritmo atribuir maior importância a variáveis com escalas maiores e menor importância a variáveis com escalas menores. Além disso, pode afetar a convergência dos algoritmos.

#@markdown  > ###  >>> Rode a célula para realizar os ajustes <<<

# Importanto as bibliotecas necessárias:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler

previsores_one = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), indice_nominal)],
                                       remainder = "passthrough").fit_transform(previsores)

previsores_esc = StandardScaler().fit_transform(previsores_one)                                       
print('[1;32mEscalonamento efetuado!')
print('[1;32mSegue os dados escalonados:')
previsores_esc


[1;32mEscalonamento efetuado!
[1;32mSegue os dados escalonados:


array([[ 1.01923578, -1.01923578, -1.5306916 , ..., -0.65455138,
        -0.31864502, -0.39402955],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.65455138,
        -0.31864502, -0.59847607],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.65455138,
         0.01691246, -0.49522716],
       ...,
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.80079527,
         0.20865958, -0.29078064],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.80079527,
        -0.31864502, -0.7352296 ],
       [-0.98112726,  0.98112726, -1.5306916 , ..., -0.80079527,
        -0.31864502, -0.59915984]])

In [5]:
#@markdown  ## <font color='#FFA500'> Separando base de treino e teste </font>
#@markdown ---
#@markdown * Informe o tamanho em porcentagem dos dados de teste. O restante será separado automaticamente para dos dados de treino. 

1#@markdown > O tamanho padrão de dados de teste é de 30% mas você pode escolher outros tamanhos conforme a necessidade: 
Tamanho_Base_Teste = "30% - PADRAO" #@param ["10%", "15%", "20%", "25%", "30% - PADRAO", "35%", "40%", "45%", "50%"]
if Tamanho_Base_Teste == "20%":
    Tamanho_Teste = 0.2
elif Tamanho_Base_Teste == "25%":
    Tamanho_Teste = 0.25
elif Tamanho_Base_Teste == "30% - PADRAO":
    Tamanho_Teste = 0.3
elif Tamanho_Base_Teste == "35%":
    Tamanho_Teste = 0.35
elif Tamanho_Base_Teste == "40%":
    Tamanho_Teste = 0.4
elif Tamanho_Base_Teste == "45%":
    Tamanho_Teste = 0.45
elif Tamanho_Base_Teste == "50%":
    Tamanho_Teste = 0.5
else:
    print("Valor inválido para Tamanho_Base_Teste")

# Importação de biblioteca 
from sklearn.model_selection import train_test_split

# Divisão de dados de treino e teste:
x_treino,x_teste,y_treino,y_teste = train_test_split(previsores_esc, alvo, test_size=Tamanho_Teste, random_state=0)

print('\033[1;32mDivisão efetuada!')
print('\033[1;32mTamanho base de treino (linhas, colunas):')
print('\033[0m'+ str(x_treino.shape))
print('\033[1;32mTamanho base de teste (linhas, colunas):')
print('\033[0m'+ str(x_teste.shape))

[1;32mDivisão efetuada!
[1;32mTamanho base de treino (linhas, colunas):
[0m(4188, 43)
[1;32mTamanho base de teste (linhas, colunas):
[0m(1796, 43)


# <font color='#FFA500'> ETAPA 3: Aplicação dos algoritmos de Machine Leaning</font>

Neste projeto será utilizado os principais algoritmos de classificação para aprendizado supervisionado, sendo eles:
* Naive Bayes
* SVM (Máquina de Vetor de Suporte)
* Regressão Logística
* KNN (K Vizinhos Próximos)
* Árvore de Decisão
* Random Forest
* XGBoost
* Light GBM


Alguns algoritmos disponibilizam configuração de hiperparâmetros para otimização de resultados. 

> ## ATENÇÃO!!! 
É possível rodar todos os algoritmos de uma única vez minimizando as células seguintes com a seta ao lado.
Todos os hiperparâmetros já estão estão configurados como default.


### <font color='#FFFF00'> Naive Bayes</font>

In [None]:
#@markdown ---
#@markdown Naive Bayes é um método probabilístico utilizado para classificar dados em categorias. Ele utiliza o Teorema de Bayes para calcular a probabilidade de um dado pertencer a uma determinada categoria com base nas probabilidades condicionais dos atributos que o caracterizam.
#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada
print('\033[1;32mProcessando Naive Bayes...')
print('\033[0m'+ str(55*"="))


# Importando as biliotecas:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Treinando o algoritmo:
naive = GaussianNB()
naive.fit(x_treino,y_treino)

# Usando base de teste
previsoes_naive = naive.predict(x_teste)

# Usando base de treino
previsoes_treino = naive.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste, previsoes_naive)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino,previsoes_treino)*100))

print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste,previsoes_naive)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste,previsoes_naive)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

# Importando as bibliotecas para Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

# Criando o modelo
modelo = GaussianNB()
resultado_nbayes = cross_val_score(modelo,previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão

print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_nbayes.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mNaive Bayes finalizado!')

### <font color='#FFFF00'> SVM - Máquina de Vetor de Suporte</font>

In [None]:
#@markdown ---
#@markdown O SVM (Support Vector Machine)  pode ser usado para problemas de classificação e regressão. O objetivo do SVM é encontrar um hiperplano que separe os dados em diferentes classes, maximizando a margem entre os pontos mais próximos de cada classe.

#@markdown ### Hiperparâmetros:
#@markdown > * C: Parâmetro de regularização. Um valor mais alto de C implica em uma classificação mais precisa dos dados de treinamento, mas pode resultar em sobreajuste.
#@markdown >
#@markdown > #### Informe o valor de C :
Valor_C = 5 #@param {type:"slider", min:0, max:100, step:1}
#@markdown >
#@markdown > * Kernel: utilizado para mapear os dados de entrada em um espaço de características de maior dimensão. Os kernels comuns são:
#@markdown >> * Linear: adequado para problemas de classificação simples onde os dados podem ser linearmente separáveis.
#@markdown >> * Polinomial: capaz de separar dados que não são linearmente separáveis, mas pode ser suscetível ao overfitting.
#@markdown >> * RBF (Função de Base Radial): capaz de separar dados que não são linearmente separáveis e geralmente produz resultados melhores que o kernel polinomial.
#@markdown >> * Sigmoid: adequado para problemas de classificação binária e é especialmente útil para problemas em que os dados têm uma distribuição bimodal.
#@markdown >  #### Informe o Kernel:
Tipo_Kernel = "linear" #@param ["linear", "polynomial", "rbf", "sigmoid"]

#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada

print('\033[1;32mProcessando SVM...')
print('\033[0m'+ str(55*"="))

# Importando a biblioteca SVM especifico para classificação ( SVC )
from sklearn.svm import SVC   
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Cria o vetor "svm". A configuração kernel para transformar os dados para aplicação da forma correta
svm = SVC(kernel=Tipo_Kernel, random_state=1, C= Valor_C) 

# Criação do fit de treinamento
svm.fit(x_treino, y_treino)

# Criação do PREVISOR baseado no svm
svm_teste =svm.predict(x_teste)

# Criação do PREVISOR da base de treino
svm_treino = svm.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste, svm_teste)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino, svm_treino)*100))


print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste, svm_teste)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino, svm_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste, svm_teste)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,svm_treino)))

print("")
print(55*"=")
print("")

# Validação cruzada:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

#Criando o modelo
modelo=SVC(kernel= Tipo_Kernel,random_state=1,C= Valor_C)
resultado_svm= cross_val_score(modelo, previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão

print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_svm.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mSVM finalizado!')


### <font color='#FFFF00'> Regressão Logística</font>

In [None]:
#@markdown A Regressão Logística é um algoritmo de aprendizado de máquina utilizado para classificação binária, ou seja, para prever se uma observação pertence a uma das duas categorias possíveis (por exemplo, sim ou não, verdadeiro ou falso, etc.).

#@markdown ### Hiperparâmetros:
#@markdown ---

#@markdown ### Max_Iter:
#@markdown  Define o número máximo de iterações para o algoritmo convergir. Este parâmetro controla a quantidade de tempo que o modelo terá para encontrar o melhor conjunto de pesos.
#@markdown >
#@markdown >  #### Informe o valor de Max_Iter :
Valor_Max_Iter = 200 #@param {type:"slider", min:20, max:1000, step:20}
#@markdown ---

#@markdown ### Penalty:
#@markdown  Define o tipo de regularização que será aplicada ao modelo. A regularização é uma técnica que ajuda a prevenir overfitting, penalizando coeficientes muito grandes. Opções:
#@markdown * l1: Adiciona uma penalidade igual à soma dos valores absolutos dos coeficientes. Essa opção pode ser usada para selecionar recursos importantes do modelo, tornando os outros coeficientes iguais a zero.
#@markdown * l2: Regularização L2: Adiciona uma penalidade igual à soma dos quadrados dos coeficientes. Essa opção pode ser usada para evitar overfitting, tornando os coeficientes pequenos, mas não necessariamente iguais a zero.
#@markdown >  #### Informe o Penalty:
Tipo_Penalty = "l2" #@param ["l1", "l2"]
#@markdown ---

#@markdown ### C:
#@markdown  Define o inverso da força da regularização. Quanto maior o valor de C, menos regularização é aplicada. Este parâmetro pode ser usado para controlar o trade-off entre o viés e a variância do modelo.
#@markdown > #### Informe o valor de C:
Valor_C = 1 #@param {type:"slider", min:1, max:10, step:1}
#@markdown ---

#@markdown ### Solver:
#@markdown  Define o algoritmo a ser utilizado no processo de otimização. Opções:
#@markdown * newton-cg: É eficiente para dados com muitas amostras e muitas características, mas pode ser lento para conjuntos de dados muito grandes. <font color='#FFFF00'> Somente para Penalty l2 </font>
#@markdown * lbfgs: É uma opção mais rápida que o solver "newton-cg" e é adequado para conjuntos de dados com muitas amostras e poucas características. <font color='#FFFF00'> Somente para Penalty l2 </font>
#@markdown * liblinear: É uma opção mais rápida para conjuntos de dados pequenos e médios, mas pode ter dificuldades para convergir em conjuntos de dados muito grandes.
#@markdown * saga: É adequado para conjuntos de dados grandes, mas pode ter dificuldades para convergir em problemas com regularização L1.

#@markdown >  #### Informe o Solver:
Tipo_Solver = "liblinear" #@param ["newton-cg", "lbfgs", "liblinear", "saga"]
#@markdown ---

#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada

print('\033[1;32mProcessando Regressão Logística...')
print('\033[0m'+ str(55*"="))

# Importando biblioteca LogisticRegression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Criando o modelo
logistica = LogisticRegression(random_state=1,max_iter= Valor_Max_Iter, penalty= Tipo_Penalty,tol=0.0001, C= Valor_C, solver= Tipo_Solver)

# Criação do fit de treinamento
logistica.fit(x_treino,y_treino)

# Criação do PREVISOR da base de teste
previsoes_logistica = logistica.predict(x_teste)

# Criando Dataframe para receber dados treino
previsoes_treino= logistica.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste,previsoes_logistica)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino,previsoes_treino)*100))

print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste, previsoes_logistica)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino, previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste, previsoes_logistica)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

# Validação cruzada:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

#Criando o modelo
#Criando o modelo
modelo=LogisticRegression(random_state=1,max_iter= Valor_Max_Iter, penalty= Tipo_Penalty,tol=0.0001, C= Valor_C, solver= Tipo_Solver)
resultado_rl =cross_val_score(modelo, previsores_esc,alvo, cv=kfold)

# Usando a média e desvio padrão

print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_rl.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mRegressão Logística finalizada!')

### <font color='#FFFF00'> KNN</font>

In [None]:
#@markdown O objetivo do KNN é classificar uma amostra desconhecida com base nas classes de exemplos de treinamento mais próximos. Isso é feito calculando a distância entre a amostra desconhecida e todos os exemplos de treinamento no espaço de recursos e selecionando os k exemplos de treinamento mais próximos. A classe mais comum entre esses k exemplos é então atribuída à amostra desconhecida.
#@markdown ### Hiperparâmetros:
#@markdown ---

#@markdown ### N_Neighbors:
#@markdown  é um dos principais parâmetros do algoritmo KNN (K-Nearest Neighbors). Ele controla o número de vizinhos mais próximos que serão considerados para determinar a classe de uma nova amostra. Em outras palavras, o valor de n_neighbors define o tamanho do subconjunto de amostras de treinamento que serão usadas para tomar uma decisão sobre a classe de uma nova amostra.
#@markdown >
#@markdown >  #### Informe o valor de N_Neighbors :
Valor_N_Neighbors = 20 #@param {type:"slider", min:1, max:30, step:1}
#@markdown ---

#@markdown ### Metric:
#@markdown  Metric controla a métrica de distância que será utilizada para medir a distância entre as amostras do conjunto de treinamento e a nova amostra a ser classificada. Opções:
#@markdown * euclidean: mede a distância entre dois pontos em um espaço euclidiano, definida pela raiz quadrada da soma dos quadrados das diferenças entre as coordenadas dos dois pontos.
#@markdown * manhattan: mede a distância entre dois pontos ao longo dos eixos, em vez de uma linha reta. A distância Manhattan é definida pela soma das diferenças absolutas entre as coordenadas dos dois pontos.
#@markdown * chebyshev: mede a distância máxima ao longo de qualquer dimensão entre dois pontos. É definida como o valor absoluto da diferença máxima entre as coordenadas dos dois pontos.
#@markdown * minkowski: é uma métrica de distância geral que inclui a distância Euclidiana e a distância de Manhattan como casos especiais. 
#@markdown * cosine: calcula a similaridade entre duas amostras, em vez da distância. É útil para dados esparsos e para dados onde a magnitude das características é irrelevante.

#@markdown >  #### Informe o Metric:
Tipo_Metric = "minkowski" #@param ["euclidean", "manhattan", "chebyshev", "minkowski", "cosine"]
#@markdown ---


#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada

print('\033[1;32mProcessando KNN...')
print('\033[0m'+ str(55*"="))

# Importando biblioteca 
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Criando o modelo. Se metrics for minkowski recebe um componente adicional p
if Tipo_Metric == 'minkowski':
    knn = KNeighborsClassifier(n_neighbors=Valor_N_Neighbors, metric='minkowski',p=2,)
else:
    knn = KNeighborsClassifier(n_neighbors=Valor_N_Neighbors, metric=Tipo_Metric)

# Criação do fit de treinamento
knn.fit(x_treino,y_treino)

# Criação do PREVISOR da base de teste
previsoes_knn = knn.predict(x_teste)

# Criando Dataframe para receber dados treino
previsoes_treino= knn.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste, previsoes_knn)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino,previsoes_treino)*100))

print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste,previsoes_knn)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino, previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste,previsoes_knn)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

# Validação cruzada:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)


# Criando o modelo. Se metrics for minkowski recebe um componente adicional p
if Tipo_Metric == 'minkowski':
    modelo= KNeighborsClassifier(n_neighbors=Valor_N_Neighbors, metric='minkowski',p=2,)
else:
    modelo= KNeighborsClassifier(n_neighbors=Valor_N_Neighbors, metric=Tipo_Metric)

resultado_knn =cross_val_score(modelo, previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão

print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_knn.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mKNN finalizada!')

### <font color='#FFFF00'> Árvore de Decisão</font>

In [None]:
#@markdown Árvore de decisão é um modelo de aprendizado de máquina supervisionado que pode ser usado tanto para tarefas de classificação quanto de regressão. A árvore de decisão divide o conjunto de dados em subconjuntos menores, com base nos valores das variáveis ​​explicativas, para prever a variável de resposta.
#@markdown ### Hiperparâmetros:
#@markdown ---

#@markdown ### Criterion:
#@markdown  é usado na árvore de decisão para definir o critério de avaliação da qualidade da divisão em cada nó da árvore. Existem dois critérios populares usados na árvore de decisão:
#@markdown * gini: O critério de impureza de Gini mede a probabilidade de classificar incorretamente uma amostra aleatória com base na distribuição das classes naquele nó. Quanto menor o valor da impureza de Gini, mais puro é o nó em termos de distribuição de classe.
#@markdown * entropy: O critério de entropia mede a incerteza da classificação em um determinado nó. Ele é calculado como a soma ponderada do logaritmo da probabilidade de cada classe, multiplicado pela probabilidade negativa. Quanto menor o valor da entropia, mais puro é o nó em termos de distribuição de classe.
#@markdown >  #### Informe o valor de Criterion :
Tipo_Criterion = "entropy" #@param ["gini", "entropy"]
#@markdown ---

#@markdown ### Max_Depth:
#@markdown  hiperparâmetro importante na árvore de decisão que controla a profundidade máxima da árvore. A profundidade de uma árvore de decisão é medida pelo número de ramos que precisamos seguir a partir da raiz para chegar a um nó folha.

#@markdown Limitar a profundidade da árvore pode ajudar a evitar o sobreajuste (overfitting) do modelo. Isso significa que, ao limitar a profundidade máxima da árvore, estamos impedindo que a árvore se torne muito complexa e especializada no conjunto de treinamento específico.

#@markdown No entanto, definir um valor muito baixo para max_depth pode resultar em subajuste (underfitting), onde o modelo não é complexo o suficiente para capturar padrões importantes no conjunto de dados.

#@markdown >  #### Informe o valor de Max_Depth:
Valor_Max_Depth = 5 #@param {type:"slider", min:1, max:10, step:1}
#@markdown ---


#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada

print('\033[1;32mProcessando Árvore de Decisão...')
print('\033[0m'+ str(55*"="))

# Importando biblioteca 
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Criando o modelo. 
arvore = DecisionTreeClassifier(criterion= Tipo_Criterion,random_state=0,max_depth= Valor_Max_Depth)

# Criação do fit de treinamento
arvore.fit(x_treino,y_treino)

# Criação do PREVISOR da base de teste
previsoes_arvore = arvore.predict(x_teste)

# Criando Dataframe para receber dados treino
previsoes_treino = arvore.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste,previsoes_arvore)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino,previsoes_treino)*100))

print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste,previsoes_arvore)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste,previsoes_arvore)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

# Validação cruzada:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

# Criando o modelo.
modelo=DecisionTreeClassifier(criterion= Tipo_Criterion,random_state=0,max_depth= Valor_Max_Depth)

resultado_ad =cross_val_score(modelo, previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão
print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_ad.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mÁrvore de Decisão Finalizada!')

### <font color='#FFFF00'> Random Forest</font>


In [None]:
#@markdown É um algoritmo que combina várias árvores de decisão para fazer previsões. É altamente preciso e pode lidar com conjuntos de dados grandes com características de alta dimensão. Um aspecto importante do algoritmo Random Forest é a sua capacidade de evitar overfitting. 
#@markdown ### Hiperparâmetros:
#@markdown ---

#@markdown ### N_Estimators:
#@markdown  este é o número de árvores de decisão a serem construídas pelo algoritmo. Valores mais altos podem levar a um modelo mais preciso, mas também aumentam o risco de overfitting.
#@markdown >  #### Informe o valor de Max_Depth :
Valor_N_Estimators = 150 #@param {type:"slider", min:10, max:500, step:10}
#@markdown ---

#@markdown ### Criterion:
#@markdown  é usado na árvore de decisão para definir o critério de avaliação da qualidade da divisão em cada nó da árvore. Existem dois critérios populares usados na árvore de decisão:
#@markdown * gini: O critério de impureza de Gini mede a probabilidade de classificar incorretamente uma amostra aleatória com base na distribuição das classes naquele nó. Quanto menor o valor da impureza de Gini, mais puro é o nó em termos de distribuição de classe.
#@markdown * entropy: O critério de entropia mede a incerteza da classificação em um determinado nó. Ele é calculado como a soma ponderada do logaritmo da probabilidade de cada classe, multiplicado pela probabilidade negativa. Quanto menor o valor da entropia, mais puro é o nó em termos de distribuição de classe.
#@markdown >  #### Informe o valor de Criterion :
Tipo_Criterion = "entropy" #@param ["gini", "entropy"]
#@markdown ---

#@markdown ### Max_Depth:
#@markdown   é a profundidade máxima que cada árvore de decisão pode atingir. Árvores mais profundas podem capturar mais detalhes nos dados, mas também podem levar a overfitting.

#@markdown >  #### Informe o valor de Max_Depth:
Valor_Max_Depth = 5 #@param {type:"slider", min:1, max:10, step:1}
#@markdown ---



#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada

print('\033[1;32mProcessando Random Forest...')
print('\033[0m'+ str(55*"="))

# Importando biblioteca 
from sklearn.ensemble import RandomForestClassifier

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Criando o modelo. 
random = RandomForestClassifier(n_estimators= Valor_N_Estimators, criterion= Tipo_Criterion, random_state = 0, max_depth= Valor_Max_Depth)

# Criação do fit de treinamento
random.fit(x_treino, y_treino)

# Criação do PREVISOR da base de teste
previsoes_random = random.predict(x_teste)

# Criando Dataframe para receber dados treino
previsoes_treino = random.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste, previsoes_random)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino, previsoes_treino)*100))

print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste, previsoes_random)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste, previsoes_random)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

# Validação cruzada:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

# Criando o modelo.
modelo = RandomForestClassifier(n_estimators= Valor_N_Estimators, criterion= Tipo_Criterion, random_state = 0, max_depth= Valor_Max_Depth)

resultado_rf = cross_val_score(modelo, previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão
print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_rf.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mRandom Forest Finalizado!')

### <font color='#FFFF00'> XGBOOST</font>

In [None]:
#@markdown Algoritmo de aprendizado de máquina baseado em árvores de decisão que foi desenvolvido para melhorar o desempenho do Gradient Boosting. O XGBoost funciona através da criação de um conjunto de árvores de decisão sequenciais, onde cada nova árvore é treinada para corrigir os erros do modelo anterior. Isso é conhecido como boosting, que é um método de aprendizado em que os modelos mais fracos são combinados para criar um modelo mais forte.
#@markdown ### Hiperparâmetros:
#@markdown ---

#@markdown ### Max_Depth:
#@markdown  a profundidade máxima de cada árvore. Valores mais altos podem levar a um modelo mais preciso, mas também aumentam o risco de overfitting.
#@markdown >  #### Informe o valor de Max_Depth :
Valor_Max_Depth = 2 #@param {type:"slider", min:1, max:10, step:1}
#@markdown ---

#@markdown ### Learning_Rate:
#@markdown  a taxa de aprendizado do modelo. Valores menores podem levar a uma melhor precisão do modelo, mas também aumentam o tempo de treinamento.

#@markdown >  #### Informe o valor de Learning_Rate:
Valor_Learning_Rate = 0.3 #@param {type:"slider", min:0.1, max:10, step:0.1}
#@markdown ---

#@markdown ### N_Estimators :
#@markdown  especifica o número de árvores de decisão que serão criadas no modelo. Cada árvore é adicionada sequencialmente ao modelo e visa corrigir os erros do modelo anterior. Um valor muito baixo pode resultar em um modelo impreciso, enquanto um valor muito alto pode resultar em overfitting e um modelo que não generaliza bem para novos dados.

#@markdown >  #### Informe o valor de N_Estimators:
Valor_N_Estimators = 200 #@param {type:"slider", min:10, max:500, step:10}
#@markdown ---

#@markdown ### Objective :
#@markdown  especifica a função objetivo a ser otimizada durante o treinamento do modelo. A escolha da função objetivo depende do tipo de problema que está sendo abordado, como regressão ou classificação binária/multiclasse. Opções:
#@markdown * reg:squarederror: Erro quadrático médio para problemas de regressão.
#@markdown * reg:logistic: Função de perda de regressão logística para problemas de classificação binária.
#@markdown * binary:logistic:  Função de perda de regressão logística para problemas de classificação binária.
#@markdown * multi:softmax: Função de perda de entropia cruzada para problemas de classificação multiclasse.
#@markdown * rank:pairwise: Função de perda de classificação para problemas de classificação de ranking.

#@markdown >  #### Informe o tipo de Objective:
Tipo_Objective = "reg:squarederror" #@param ["reg:squarederror", "reg:logistic", "binary:logistic", "multi:softmax", "rank:pairwise"]
#@markdown ---

#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada

print('\033[1;32mProcessando XGBOOST...')
print('\033[0m'+ str(55*"="))

# Importando biblioteca 
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Criando o modelo. 
xg=XGBClassifier(max_depth= Valor_Max_Depth, learning_rate= Valor_Learning_Rate, n_estimators= Valor_N_Estimators, objective=Tipo_Objective, random_state=3)

# Criação do fit de treinamento
xg.fit(x_treino, y_treino)

# Criação do PREVISOR da base de teste
previsoes_xg = xg.predict(x_teste)

# Criando Dataframe para receber dados treino
previsoes_treino=xg.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste,previsoes_xg)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino,previsoes_treino)*100))

print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste,previsoes_xg)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste,previsoes_xg)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

# Validação cruzada:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

# Criando o modelo.
modelo=XGBClassifier(max_depth= Valor_Max_Depth, learning_rate= Valor_Learning_Rate, n_estimators= Valor_N_Estimators, objective=Tipo_Objective, random_state=3)		

resultado_xgboost = cross_val_score(modelo, previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão
print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_xgboost.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mXGBOOST Finalizado!')

### <font color='#FFFF00'> LightGBM</font>

In [None]:
print('\033[1;32mProcessando LightGBM...')
print('\033[0m'+ str(55*"="))

#@markdown Algoritmo de aprendizado de máquina baseado em árvore que se destaca pela sua eficiência e escalabilidade. Ele usa uma técnica chamada "histograma de decisão" para construir as árvores de decisão, o que torna a construção das árvores muito mais rápida do que os algoritmos tradicionais de árvore de decisão.
#@markdown ### Hiperparâmetros:
#@markdown ---

#@markdown ### Num_Boost_Round :
#@markdown é um parâmetro no LightGBM, que especifica o número máximo de iterações de treinamento que serão realizadas para ajustar o modelo. Cada iteração adiciona uma nova árvore ao modelo, de modo que aumentar o número de iterações aumenta a complexidade do modelo.

#@markdown >  #### Informe o valor de Num_Boost_Round:
Valor_Num_Boost_Round = 200 #@param {type:"slider", min:10, max:500, step:10}
#@markdown ---


#@markdown ### Max_Depth:
#@markdown  este é o limite máximo de profundidade da árvore. Quanto mais profunda a árvore, mais complexa ela será e mais fácil será para o modelo memorizar os dados de treinamento. No entanto, um número muito grande de profundidade pode levar ao overfitting.
#@markdown >  #### Informe o valor de Max_Depth :
Valor_Max_Depth = 2 #@param {type:"slider", min:1, max:10, step:1}
#@markdown ---

#@markdown ### Learning_Rate:
#@markdown  a taxa de aprendizado do modelo. Valores menores podem levar a uma melhor precisão do modelo, mas também aumentam o tempo de treinamento.

#@markdown >  #### Informe o valor de Learning_Rate:
Valor_Learning_Rate = 0.5 #@param {type:"slider", min:0.1, max:10, step:0.1}
#@markdown ---

#@markdown ### Num_Leaves :
#@markdown  este é o número máximo de folhas permitidas em uma árvore. Quanto maior o número de folhas, mais complexa será a árvore e mais fácil será para o modelo memorizar os dados de treinamento. No entanto, um número muito grande de folhas pode levar ao overfitting.

#@markdown >  #### Informe o valor de Num_Leaves:
Valor_Num_Leaves = 250 #@param {type:"slider", min:10, max:500, step:10}
#@markdown ---

#@markdown ### Max_Bins :
#@markdown  este é o número máximo de bins (intervalos) que serão usados para discretizar as variáveis contínuas. A discretização ajuda a lidar com valores extremos e a reduzir o impacto de outliers nos dados. Um número maior de bins pode levar a uma melhor precisão, mas também pode levar a overfitting.

#@markdown >  #### Informe o valor de Max_Bins:
Valor_Max_Bins = 100 #@param {type:"slider", min:10, max:500, step:10}
#@markdown ---

#@markdown ### Objective :
#@markdown  é usado para especificar a função de perda que o modelo irá otimizar durante o treinamento. Opções:
#@markdown * binary: Usado para problemas de classificação binária. O modelo tenta otimizar a log-verossimilhança binária.
#@markdown * multiclass: Usado para problemas de classificação multiclasse. O modelo tenta otimizar a log-verossimilhança softmax.
#@markdown * multiclassova:  Usado para problemas de classificação multiclasse. O modelo trata cada classe como um problema de classificação binária e tenta otimizar a log-verossimilhança binária para cada classe.
#@markdown * cross_entropy: Usado para problemas de classificação binária ou multiclasse. O modelo tenta minimizar a entropia cruzada entre as distribuições de probabilidade previstas e as distribuições de probabilidade verdadeiras.
#@markdown * xentropy: Também usado para problemas de classificação binária ou multiclasse, esta opção é semelhante à cross_entropy`, mas usa uma versão mais eficiente do cálculo da entropia cruzada.

#@markdown >  #### Informe o tipo de Objective:
Tipo_Objective = "binary" #@param ["binary", "multiclass", "multiclassova", "cross_entropy", "xentropy"]
#@markdown ---

#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada

print('\033[1;32mProcessando LightGBM...')
print('\033[0m'+ str(55*"="))

# Importando biblioteca 
import lightgbm as lgb 

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Dataset para treino
dataset = lgb.Dataset(x_treino,label=y_treino)

# Parâmetros


# Criando o modelo. 
lgbm = lgb.train(
    {'num_leaves': Valor_Num_Leaves,
     'objective': Tipo_Objective,
     'max_depth': Valor_Max_Depth,
     'learning_rate': Valor_Learning_Rate,
     'max_bin': Valor_Max_Bins
    },
    dataset,
    num_boost_round=Valor_Num_Boost_Round
)

# Criação do PREVISOR da base de teste
previsoes_lgbm = lgbm.predict(x_teste)

# Criando Dataframe para receber dados treino
previsoes_treino = lgbm.predict(x_treino)

# Base de teste: Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, len(previsoes_lgbm)):
    if previsoes_lgbm[i] >= 0.5:       
       previsoes_lgbm[i] = 1
    else:  
       previsoes_lgbm[i] = 0

# Base de treino: Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, len(previsoes_treino)):
    if previsoes_treino[i] >= 0.5:       
       previsoes_treino[i] = 1
    else:  
       previsoes_treino[i] = 0

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_teste, previsoes_lgbm)*100))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ "%0.2f%%" % (accuracy_score(y_treino, previsoes_treino)*100))

print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste, previsoes_lgbm)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino, previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste, previsoes_lgbm)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino, previsoes_treino)))

print("")
print(55*"=")
print("")

# Validação cruzada:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

# Criando o modelo.
modelo = lgb.LGBMClassifier(num_leaves = Valor_Num_Leaves, objective = Tipo_Objective,     
                            max_depth = Valor_Max_Depth, learning_rate = Valor_Learning_Rate, max_bin =Valor_Max_Bins)

resultado_lgbm = cross_val_score(modelo, previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão
print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado_lgbm.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mLightGBM Finalizado!')