<a href="https://colab.research.google.com/github/mauricionoronha/ml_classificacao_simplificada/blob/main/ml_classificacao_simplificada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color='#FFA500'> ETAPA 1 : Pré-processamento dos dados:</font>

* É o processo de limpar, transformar e preparar os dados brutos antes de serem alimentados para um modelo de aprendizado de máquina. 

* É uma etapa crucial em qualquer projeto de machine learning, pois a qualidade dos dados usados para treinar um modelo tem um grande impacto no desempenho e na precisão do modelo.

>Considerada a etapa mais demorada e trabalhosa, mas neste projeto será otimizado em 10 passos. Basta preencher as informações necessárias e rodar a célula.


## <font color='#FFA500'> 1/10 - Carregando a base de dados:</font>

In [None]:
#@markdown ---

import pandas as pd
import numpy as np

print('[1;32mCarregando dados...')
# Criação dos campos de preenchimento usando #@param
#@markdown > ### Insira o endereço do arquivo abaixo e escolha o tipo correto de arquivo que deseja importar:
endereco = "/content/drive/MyDrive/MACHINE_LEARNNING/telecom_users.xlsx" #@param {type:"string"}
tipo_arquivo = "excel" #@param ["csv", "excel"]
separador = ";" #@param [",", ";"]

if tipo_arquivo == "csv":
    dados = pd.read_csv( endereco, sep = separador)
else:
    dados = pd.read_excel(endereco)

print('[1;32mPronto, verifique as 5 primeiras linhas do dataframe:')
dados.head()



## <font color='#FFA500'> 2/10 - Analisando atributos ( variáveis )</font>

In [None]:
#@markdown ---
#@markdown  ### Análise quantitativa em % e visualização gráfica por meio de um histograma.
#@markdown 
#@markdown > Informe o nome do atributo que deseja analisar:
import plotly.express as px
Nome_Atributo = "Genero" #@param {type:"string"}

print('[1;32mCriando gráfico...')
print(display(dados[Nome_Atributo].value_counts(normalize=True).map("{:.1%}".format)));

hist1 =  px.histogram (dados,  x = Nome_Atributo, nbins=60) 
hist1.update_layout(width=800,height=500,title_text='Distribuição {}'.format(Nome_Atributo)) 
hist1.show()

dados2 = dados.copy()
print('[1;32mPronto')

## <font color='#FFA500'> 3/10 - Verificando e corrigindo valores nulos ( NAN )</font>

In [None]:
#@markdown ---
print('[1;32mVerificando dados...')
#@markdown > ### Rode essa célula para identificar valores nulos
print('\033[0m' + str(dados2.isnull().sum()))
print('\033[1;32mPronto')

In [None]:
#@markdown > ### Se encontado valores nulos, como proceder?

#@markdown 1 - Excluir Dados Nulos

#@markdown 2 - Substituir Dados Nulos Pela Média

Escolha = 1 #@param ["1", "2"] {type:"raw"}

#@markdown > ###  Informe o nome do Atributo com dados nulos:

Nome_Atrib_Dados_Nulos = "Dependentes" #@param {type:"string"}


if Escolha == 1:
    dados2.dropna(inplace=True)
else:
    dados2[Nome_Atrib_Dados_Nulos].fillna(dados2[Nome_Atrib_Dados_Nulos].mean(), inplace=True)

print('[1;32mDados corrigidos!')



## <font color='#FFA500'>  4/10 - Analisando os tipos de atributos</font>

In [None]:
#@markdown ---
#@markdown  ### Verifique os tipos de atributos, que podem ser:
#@markdown * object: strings
#@markdown * int64: inteiros
#@markdown * float64: reais
#@markdown * complex: complexos
print('[1;32mAnalisando dados...')
print('\033[0m' + str(dados2.dtypes))
print('[1;32mPronto')

In [None]:
#@markdown > ### Será necessário alterar o tipo de um atributo especifico?

#@markdown * Desconsidere se não for necessário corrigir o tipo do atributo
print('[1;32mCorrigindo dados...')
#@markdown > Se for necessário fazer a correção, informe o nome do atributo:
Nome_Atributo = "" #@param {type:"string"}
#@markdown > Escolha agora, entre as opções abaixo, para qual tipo deseja alterar:
Tipo_Atributo = "float64" #@param ["object", "int64", "float64"]

if Tipo_Atributo == "object":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].astype(str)
elif Tipo_Atributo == "int64":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.int64)
else:
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.float64)

print(dados2[Nome_Atributo].dtype)

#@markdown * OBS.: Só é possivel converter uma STRING (object) em INT ou FLOAT quando essa string é composta apenas por números, logo não é possivel converter palavras em int ou float
print('[1;32mPronto')


## <font color='#FFA500'> 5/10 - Excluindo atributos desnecessários</font>

In [None]:
#@markdown ---
#@markdown > ### Informe o nome do atributo que deseja retirar do dataframe:
Nome_Atributo = "ValorBackupOnline" #@param {type:"string"}
dados2 = dados2.drop(Nome_Atributo, axis=1)
print('\033[1;32mAtributo excluído!')
print('\033[1;32mSegue amostra do dataframe atualizado:')
dados2.head()

## <font color='#FFA500'> 6/10 - Relação quantitativa entre todos os atributos e um atributo chave:</font>

In [None]:
#@markdown ---
#@markdown * ### Veja através de histograma como o atributo chave é distribuído nos demais atributos do dataframe.
print('[1;32mCriando gráficos...')
#@markdown > Informe o nome do atributo chave: 
import plotly.express as px

Atributo_Chave = "Churn" #@param{type: 'string'}

for coluna in dados2:      
        fig = px.histogram(dados2, x=coluna,nbins=60, color=Atributo_Chave)
        fig.show()

print('[1;32mPronto')

## <font color='#FFA500'> 7/10 - Análise Estatística Descritiva</font>

In [None]:
#@markdown ---

#@markdown > ### Tenha acesso aos seguintes perâmetros :

#@markdown * count: número de valores não nulos na coluna
#@markdown * mean: média dos valores na coluna
#@markdown * std: desvio padrão dos valores na coluna
#@markdown * 25%: primeiro quartil (valor abaixo do qual estão 25% dos valores)
#@markdown * 50%: segundo quartil, que é equivalente à mediana (valor abaixo do qual estão 50% dos valores)
#@markdown * 75%: terceiro quartil (valor abaixo do qual estão 75% dos valores)
#@markdown * max: valor máximo na coluna
print('[1;32mAnalisando dados...')
dados2.describe()




## <font color='#FFA500'> 8/10 - Verificando correlação entre variáveis</font>

In [None]:
#@markdown ---
#@markdown > ### Rode a célula para verificar em um quadro com gráficos de dispersão se existe alguma correlação entre variáveis
print('[1;32mProcessando dados...')
import seaborn as sns
import matplotlib.pyplot as plt
sns.pairplot(dados2);

print('[1;32mCriando gráficos...')

## <font color='#FFA500'> 9/10 - Verificando Outliers</font>

In [None]:
#@markdown ---
#@markdown > ### Informe o nome do atributo para criar um gráfico Boxplot e identificar possíveis outliers ( discrepâncias ):
print('[1;32mCriando gráfico...')
Nome_Atributo = "ValorMensal" #@param {type:"string"}

import plotly.express as px
px.box ( dados2, y = Nome_Atributo)

#@markdown * Apropriado para atributos categóricos ordinais ( que tenham valores numéricos )


In [None]:
#@markdown ### Corrigindo outliers
#@markdown ---
#@markdown > ###  Informe o atributo para correção:
Nome_Atributo = "ValorTelefone" #@param {type:"string"}

#@markdown >###  Informe como tratar outliers:
#@markdown * 1 - Exclua valores discrepantes baseados um uma condição
#@markdown * 2 - Substitua valores discrepantes pela média baseado em uma condição
#@markdown * 3 - Substitua valores discrepantes por um valor específico baseado em uma condição
Tipo_correcao = "2" #@param ["1", "2", "3"]

#@markdown > ###  Informe agora qual a condição:
#@markdown Corrija todos os valores que sejam:
Tipo_condicao = "maior_que" #@param ["igual_a", "maior_que", "menor_que", "diferente_de"]
Valor = 200 #@param {type:"number"}

#@markdown ---
#@markdown > Se escolheu a opção 3 para substituir os valores discrepantes por um valor específico, informe o valor para qual deseja substituir:
Valor_substituição = 0 #@param {type:"number"}

if Tipo_correcao == 1:
    # excluir os dados de um atributo baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] == Valor].index, inplace = True)
    elif Tipo_condicao == "maior_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] > Valor].index, inplace = True)
    elif Tipo_condicao == "menor_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] < Valor].index, inplace = True)
    elif Tipo_condicao == "diferente_de":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] != Valor].index, inplace = True)
elif Tipo_correcao == 2:
    # substituir os dados de um atributo pela média baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
else:
    # substituir os dados de um atributo por um valor específico baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = Valor_substituição

print('[1;32mDados corrigidos!')

## <font color='#FFA500'> 10/10 - Transformando variáveis categóricas NOMINAIS em variáveis categóricas ORDINAIS</font>

In [None]:
#@markdown ---
#@markdown * ### É extremamente importante assegurar que não existam dados nominais (string) no dataframe, pois os modelos de machine learning usados entendem apenas dados numéricos (int ou float)

#@markdown * Essa tranformação ocorre do seguinte modo:

#@markdown * Considere um atributo Sexo com 2 opções: Masculino e Feminino. 

#@markdown * Realizando a transformação, os dados nominais "Masculino" e "Feminino" serão substituídos por dados ordinais 0 e 1. 

#@markdown  > ###  >>> Rode a célula para realizar os ajustes <<<

# Armazenando os indices das variaveis nominais para uso posterior ( onehotencoder )
indice_nominal = [dados2.columns.get_loc(col) for col in dados2.select_dtypes(include=[object]).columns]

# Importação da biblioteca para transformar as variáveis
from sklearn.preprocessing import LabelEncoder

# Criando uma lista com todos os atributos nominais
nominais = [i for i, dtype in enumerate(dados2.dtypes) if dtype == object]

# Usando LabelEncoder para transformar todos atributos nominais lista em ordinais 
for i in nominais:
    dados2.iloc[:, i] = LabelEncoder().fit_transform(dados2.iloc[:, i])

print('[1;32mDados alterados!')
print('\033[1;32mSegue amostra do dataframe atualizado:')
dados2.head()

# <font color='#FFFF00'>Salvando e Carregando a base de dados pré-processada</font>

In [20]:
#@markdown ---
#@markdown * ### Opcionalmente é possivel salvar o dataframe tratado como um arquivo csv para consultas posteriores e também é possível carregar um dataframe salvo 

#@markdown >  Se deseja salvar o dataframe tratado, marque a caixa abaixo e informe o nome do arquivo:
Salvar = True #@param {type:"boolean"}
Nome_arquivo = "churn_TRATADO" #@param {type:"string"}
Nome_arquivo_csv = Nome_arquivo + ".csv"
if not Salvar:
  print("")
else:
  dados2.to_csv(Nome_arquivo_csv,sep = ",", encoding = "utf-8",  index = False)
  print('[1;32mDados Salvos!')

#@markdown >  Se deseja carregar um dataframe tratado, marque a caixa abaixo e informe o endereço do arquivo e o separador:
Carregar = False #@param {type:"boolean"}
endereco = "" #@param {type:"string"}
separador = ";" #@param [",", ";"]

if not Carregar:
    print("")
else:
    dados2 = pd.read_csv( endereco, sep = separador, encoding = "utf-8")
    print('[1;32mPronto, verifique as 5 primeiras linhas do dataframe:')
    dados.head()


[1;32mDados Salvos!



# <font color='#FFA500'>  ETAPA 2: Otimização dos dados para a criação do modelo</font>

In [21]:
#@markdown > ## <font color='#FFA500'> Divisão de Previsores e Alvo </font>
#@markdown ---
#@markdown * Atributos Previsores - (também conhecidos como "features" ou "variáveis independentes") são as características ou variáveis de entrada que são utilizadas para prever o valor de uma variável de saída. Em outras palavras, os atributos previsores são as informações que alimentam um modelo de machine learning, com o objetivo de produzir uma previsão ou classificação.
#@markdown * Atributo Alvo (também conhecido como "variável dependente" ou "rótulo") é a variável de saída que o modelo de machine learning está tentando prever ou classificar com base nos atributos previsores.

#@markdown > ### Informe o Atributo Alvo do dataframe:
Nome_Atributo = "Churn" #@param {type:"string"}
# o complemento .values retorna uma matriz com os dados do dataframe
# Divisão previsores e alvo
previsores = dados2.drop(Nome_Atributo, axis=1).values
alvo = dados2[[Nome_Atributo]].values

# Excluindo o atributo Alvo da lista de indice_nominal
indice_alvo = dados2.columns.get_loc(Nome_Atributo)
indice_nominal.remove(indice_alvo)
print('[1;32mPrevisores e Alvo criados!')

[1;32mPrevisores e Alvo criados!


In [22]:
#@markdown > ## <font color='#FFA500'> Escalonamento de variáveis </font>
#@markdown ---
#@markdown * O objetivo do escalonamento de variáveis é normalizar as variáveis para que elas tenham a mesma escala e variem em uma faixa semelhante.

#@markdown * Isso é necessário porque muitos algoritmos de Machine Learning são sensíveis à escala das variáveis. Se as variáveis tiverem escalas muito diferentes, isso pode levar a problemas como o algoritmo atribuir maior importância a variáveis com escalas maiores e menor importância a variáveis com escalas menores. Além disso, pode afetar a convergência dos algoritmos.

#@markdown  > ###  >>> Rode a célula para realizar os ajustes <<<

# Importanto as bibliotecas necessárias:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler

previsores_one = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), indice_nominal)],
                                       remainder = "passthrough").fit_transform(previsores)

previsores_esc = StandardScaler().fit_transform(previsores_one)                                       
print('[1;32mEscalonamento efetuado!')
print('[1;32mSegue os dados escalonados:')
previsores_esc


[1;32mEscalonamento efetuado!
[1;32mSegue os dados escalonados:


array([[ 1.01923578, -1.01923578, -1.5306916 , ..., -0.65455138,
        -0.31864502, -0.39402955],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.65455138,
        -0.31864502, -0.59847607],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.65455138,
         0.01691246, -0.49522716],
       ...,
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.80079527,
         0.20865958, -0.29078064],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.80079527,
        -0.31864502, -0.7352296 ],
       [-0.98112726,  0.98112726, -1.5306916 , ..., -0.80079527,
        -0.31864502, -0.59915984]])

In [23]:
#@markdown  ## <font color='#FFA500'> Separando base de treino e teste </font>
#@markdown ---
#@markdown * Informe o tamanho em porcentagem dos dados de teste. O restante será separado automaticamente para dos dados de treino. 

1#@markdown > O tamanho padrão de dados de teste é de 30% mas você pode escolher outros tamanhos conforme a necessidade: 
Tamanho_Base_Teste = "30% - PADRAO" #@param ["10%", "15%", "20%", "25%", "30% - PADRAO", "35%", "40%", "45%", "50%"]
if Tamanho_Base_Teste == "20%":
    Tamanho_Teste = 0.2
elif Tamanho_Base_Teste == "25%":
    Tamanho_Teste = 0.25
elif Tamanho_Base_Teste == "30% - PADRAO":
    Tamanho_Teste = 0.3
elif Tamanho_Base_Teste == "35%":
    Tamanho_Teste = 0.35
elif Tamanho_Base_Teste == "40%":
    Tamanho_Teste = 0.4
elif Tamanho_Base_Teste == "45%":
    Tamanho_Teste = 0.45
elif Tamanho_Base_Teste == "50%":
    Tamanho_Teste = 0.5
else:
    print("Valor inválido para Tamanho_Base_Teste")

# Importação de biblioteca 
from sklearn.model_selection import train_test_split

# Divisão de dados de treino e teste:
x_treino,x_teste,y_treino,y_teste = train_test_split(previsores_esc, alvo, test_size=Tamanho_Teste, random_state=0)

print('\033[1;32mDivisão efetuada!')
print('\033[1;32mTamanho base de treino (linhas, colunas):')
print('\033[0m'+ str(x_treino.shape))
print('\033[1;32mTamanho base de teste (linhas, colunas):')
print('\033[0m'+ str(x_teste.shape))

[1;32mDivisão efetuada!
[1;32mTamanho base de treino (linhas, colunas):
[0m(4188, 43)
[1;32mTamanho base de teste (linhas, colunas):
[0m(1796, 43)


# <font color='#FFA500'> ETAPA 3: Aplicação dos algoritmos de Machine Leaning</font>

Neste projeto será utilizado os principais algoritmos de classificação para aprendizado supervisionado, sendo eles:
* Naive Bayes
* SVM (Máquina de Vetor de Suporte)
* Regressão Logística
* KNN (K Vizinhos Próximos)
* Árvore de Decisão
* Random Forest
* XGBoost
* Light GBM
* CATBoost

Alguns algoritmos disponibilizam configuração de hiperparâmetros para otimização de resultados. 

> ## ATENÇÃO!!! 
É possível rodar todos os algoritmos de uma única vez minimizando as células seguintes com a seta ao lado.
Todos os hiperparâmetros já estão estão configurados como default.


### <font color='#FFFF00'> Naive Bayes</font>

In [24]:
#@markdown ---
#@markdown Naive Bayes é um método probabilístico utilizado para classificar dados em categorias. Ele utiliza o Teorema de Bayes para calcular a probabilidade de um dado pertencer a uma determinada categoria com base nas probabilidades condicionais dos atributos que o caracterizam.
#@markdown > * Rode a célula para usar o algoritmo. 

#@markdown > Ao final do processamento você terá acesso aos seguintes resultados:
#@markdown    * Acurácia usando base de treino e teste
#@markdown    * Matriz de Confusão da base de treino e teste
#@markdown    * Relatório de Classificação (precision, recall, f1-score, support)
#@markdown    * Acurácia média usando Validação Cruzada
print('\033[1;32mProcessando Naive Bayes...')
print('\033[0m'+ str(55*"="))


# Importando as biliotecas:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

#Evitando a apresentação de mensagens de erro
np.warnings.filterwarnings('ignore')

# Treinando o algoritmo:
naive = GaussianNB()
naive.fit(x_treino,y_treino)

# Usando base de teste
previsoes_naive = naive.predict(x_teste)

# Usando base de treino
previsoes_treino = naive.predict(x_treino)

print("")

print('\033[1;32mAcurácia da Base de Teste:')
print('\033[0m'+ str(accuracy_score(y_teste, previsoes_naive)))

print("")

print('\033[1;32mAcurácia da Base de Treino:')
print('\033[0m'+ str(accuracy_score(y_treino,previsoes_treino)))


print("")
print(55*"=")
print("")

print('\033[1;32mMatriz de Confusão da Base de Teste:')
print('\033[0m'+ str(confusion_matrix(y_teste,previsoes_naive)))

print("")

print('\033[1;32mMatriz de Confusão da Base de Treino:')
print('\033[0m'+ str(confusion_matrix(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

print('\033[1;32mRelatório de Classificação da Base de Teste:')
print('\033[0m'+ str(classification_report(y_teste,previsoes_naive)))

print('\033[1;32mRelatório de Classificação da Base de Treino:')
print('\033[0m'+ str(classification_report(y_treino,previsoes_treino)))

print("")
print(55*"=")
print("")

# Importando as bibliotecas para Validação Cruzada
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# separando os dados em Folds
kfold = KFold(n_splits=30, shuffle=True, random_state=5)

# Criando o modelo
modelo = GaussianNB()
resultado = cross_val_score(modelo,previsores_esc,alvo,cv=kfold)

# Usando a média e desvio padrão

print('\033[1;32mAcurácia na Validação Cruzada:')
print('\033[0m'+ str("Acurácia Média: %.2f%%" %(resultado.mean()*100)))

print("")
print(55*"=")
print("")

print('\033[1;32mNaive Bayes finalizado!')

[1;32mProcessando Naive Bayes...

[1;32mAcurácia da Base de Teste:
[0m0.6826280623608018

[1;32mAcurácia da Base de Treino:
[0m0.6914995224450812


[1;32mMatriz de Confusão da Base de Teste:
[0m[[842 498]
 [ 72 384]]

[1;32mMatriz de Confusão da Base de Treino:
[0m[[1924 1133]
 [ 159  972]]


[1;32mRelatório de Classificação da Base de Teste:
[0m              precision    recall  f1-score   support

           0       0.92      0.63      0.75      1340
           1       0.44      0.84      0.57       456

    accuracy                           0.68      1796
   macro avg       0.68      0.74      0.66      1796
weighted avg       0.80      0.68      0.70      1796

[1;32mRelatório de Classificação da Base de Treino:
[0m              precision    recall  f1-score   support

           0       0.92      0.63      0.75      3057
           1       0.46      0.86      0.60      1131

    accuracy                           0.69      4188
   macro avg       0.69      0.74      

### <font color='#FFFF00'> SVM - Máquina de Vetor de Suporte</font>