<a href="https://colab.research.google.com/github/mauricionoronha/ml_classificacao_simplificada/blob/main/ml_classificacao_simplificada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ETAPA 1 : Pré-processamento dos dados:

É o processo de limpar, transformar e preparar os dados brutos antes de serem alimentados para um modelo de aprendizado de máquina. 

É uma etapa crucial em qualquer projeto de machine learning, pois a qualidade dos dados usados para treinar um modelo tem um grande impacto no desempenho e na precisão do modelo.

Considerado a etapa mais demorada e trabalhosa, mas neste projeto será otimizado em 10 passos. Basta preencher as informações necessárias e rodar a célula.


## 1/10 - Carregando a base de dados:

In [1]:
#@markdown ---

import pandas as pd
import numpy as np

print('[1;32mCarregando dados...')
# Criação dos campos de preenchimento usando #@param
#@markdown Insira o endereço do arquivo abaixo e escolha o tipo correto de arquivo que deseja importar:
endereco = "/content/drive/MyDrive/MACHINE_LEARNNING/telecom_users.xlsx" #@param {type:"string"}
tipo_arquivo = "excel" #@param ["csv", "excel"]
separador = ";" #@param [",", ";"]

if tipo_arquivo == "csv":
    dados = pd.read_csv( endereco, sep = separador)
else:
    dados = pd.read_excel(endereco)

print('[1;32mPronto, verifique as 5 primeiras linhas do dataframe:')
dados.head()



[1;32mCarregando dados...
[1;32mPronto, verifique as 5 primeiras linhas do dataframe:


Unnamed: 0,IDCliente,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,MultiplasLinhas,ServicoInternet,ValorInternet,ServicoSegurancaOnline,...,ServicoSuporteTecnico,ServicoStreamingTV,ValorServiçoStreaming,ServicoFilmes,ValorServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,0002-ORFBO,Feminino,Sim,9,Sim,54.9,Nao,DSL,94.9,Nao,...,Sim,Sim,39.9,Nao,0.0,Anual,Sim,BoletoImpresso,199.6,Nao
1,0003-MKNFE,Masculino,Nao,9,Sim,54.9,Sim,DSL,94.9,Nao,...,Nao,Nao,0.0,Sim,19.9,Mensal,Nao,BoletoImpresso,169.7,Nao
2,0004-TLHLJ,Masculino,Nao,4,Sim,54.9,Nao,Fibra,129.9,Nao,...,Nao,Nao,0.0,Nao,0.0,Mensal,Sim,BoletoEletronico,184.8,Sim
3,0011-IGKFF,Masculino,Nao,13,Sim,54.9,Nao,Fibra,129.9,Nao,...,Nao,Sim,39.9,Sim,19.9,Mensal,Sim,BoletoEletronico,254.5,Sim
4,0013-EXCHZ,Feminino,Nao,3,Sim,54.9,Nao,Fibra,129.9,Nao,...,Sim,Sim,39.9,Nao,0.0,Mensal,Sim,BoletoImpresso,224.7,Sim


## 2/10 - Analisando atributos ( variáveis )

In [2]:
#@markdown ---
#@markdown Análise quantitativa em % e visualização gráfica por meio de um histograma.
#@markdown 
#@markdown Informe o nome do atributo que deseja analisar:
import plotly.express as px
Nome_Atributo = "Genero" #@param {type:"string"}

print('[1;32mCriando gráfico...')
print(display(dados[Nome_Atributo].value_counts(normalize=True).map("{:.1%}".format)));

hist1 =  px.histogram (dados,  x = Nome_Atributo, nbins=60) 
hist1.update_layout(width=800,height=500,title_text='Distribuição {}'.format(Nome_Atributo)) 
hist1.show()

dados2 = dados.copy()
print('[1;32mPronto')

[1;32mCriando gráfico...


Masculino    51.0%
Feminino     49.0%
Name: Genero, dtype: object

None


[1;32mPronto


## 3/10 - Verificando e corrigindo valores nulos ( NAN )

In [6]:
#@markdown ---
print('[1;32mVerificando dados...')
#@markdown Rode essa célula para identificar valores nulos
print('\033[0m' + str(dados2.isnull().sum()))
print('\033[1;32mPronto')

[1;32mVerificando dados...
[0mIDCliente                 0
Genero                    0
Dependentes               0
MesesComoCliente          0
ServicoTelefone           0
ValorTelefone             0
MultiplasLinhas           0
ServicoInternet           0
ValorInternet             0
ServicoSegurancaOnline    0
ValorSegurancaOnline      0
ServicoBackupOnline       0
ValorBackupOnline         0
ProtecaoEquipamento       0
ServicoSuporteTecnico     0
ServicoStreamingTV        0
ValorServiçoStreaming     0
ServicoFilmes             0
ValorServicoFilmes        0
TipoContrato              0
FaturaDigital             0
FormaPagamento            0
ValorMensal               0
Churn                     0
dtype: int64
[1;32mPronto


In [5]:
#@markdown ### Se encontado valores nulos, como proceder?

#@markdown 1 - Excluir Dados Nulos

#@markdown 2 - Substituir Dados Nulos Pela Média

Escolha = 1 #@param ["1", "2"] {type:"raw"}

#@markdown  Informe o nome do Atributo com dados nulos:

Nome_Atrib_Dados_Nulos = "Dependentes" #@param {type:"string"}


if Escolha == 1:
    dados2.dropna(inplace=True)
else:
    dados2[Nome_Atrib_Dados_Nulos].fillna(dados2[Nome_Atrib_Dados_Nulos].mean(), inplace=True)

print('[1;32mDados corrigidos!')



[1;32mDados corrigidos!


## 4/10 - Analisando os tipos de atributos

In [None]:
#@markdown ---
#@markdown Verifique os tipos de atributos, que podem ser:
#@markdown * object: strings
#@markdown * int64: inteiros
#@markdown * float64: reais
#@markdown * complex: complexos
print('[1;32mAnalisando dados...')
print('\033[0m' + str(dados2.dtypes))
print('[1;32mPronto')

In [None]:
#@markdown ### Será necessário alterar o tipo de um atributo especifico?

#@markdown * Desconsidere se não for necessário corrigir o tipo do atributo
print('[1;32mCorrigindo dados...')
#@markdown Se for necessário fazer a correção, informe o nome do atributo:
Nome_Atributo = "" #@param {type:"string"}
#@markdown Escolha agora, entre as opções abaixo, para qual tipo deseja alterar:
Tipo_Atributo = "float64" #@param ["object", "int64", "float64"]

if Tipo_Atributo == "object":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].astype(str)
elif Tipo_Atributo == "int64":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.int64)
else:
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.float64)

print(dados2[Nome_Atributo].dtype)

#@markdown * OBS.: Só é possivel converter uma STRING (object) em INT ou FLOAT quando essa string é composta apenas por números, logo não é possivel converter palavras em int ou float
print('[1;32mPronto')


## 5/10 - Excluindo atributos desnecessários

In [11]:
#@markdown ---
#@markdown Informe o nome do atributo que deseja retirar do dataframe:
Nome_Atributo = "ValorBackupOnline" #@param {type:"string"}
dados2 = dados2.drop(Nome_Atributo, axis=1)
print('\033[1;32mAtributo excluído!')
print('\033[1;32mSegue amostra do dataframe atualizado:')
dados2.head()

[1;32mAtributo excluído!
[1;32mSegue amostra do dataframe atualizado:


Unnamed: 0,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,MultiplasLinhas,ServicoInternet,ValorInternet,ServicoSegurancaOnline,ServicoBackupOnline,ProtecaoEquipamento,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,Feminino,Sim,9,Sim,54.9,Nao,DSL,94.9,Nao,Sim,Nao,Sim,Sim,Nao,Anual,Sim,BoletoImpresso,199.6,Nao
1,Masculino,Nao,9,Sim,54.9,Sim,DSL,94.9,Nao,Nao,Nao,Nao,Nao,Sim,Mensal,Nao,BoletoImpresso,169.7,Nao
2,Masculino,Nao,4,Sim,54.9,Nao,Fibra,129.9,Nao,Nao,Sim,Nao,Nao,Nao,Mensal,Sim,BoletoEletronico,184.8,Sim
3,Masculino,Nao,13,Sim,54.9,Nao,Fibra,129.9,Nao,Sim,Sim,Nao,Sim,Sim,Mensal,Sim,BoletoEletronico,254.5,Sim
4,Feminino,Nao,3,Sim,54.9,Nao,Fibra,129.9,Nao,Nao,Nao,Sim,Sim,Nao,Mensal,Sim,BoletoImpresso,224.7,Sim


## 6/10 - Relação quantitativa entre todos os atributos e um atributo chave:

In [None]:
#@markdown ---
#@markdown Veja através de histograma como o atributo chave é distribuído nos demais atributos do dataframe.
print('[1;32mCriando gráficos...')
#@markdown Informe o nome do atributo chave: 
import plotly.express as px

Atributo_Chave = "Churn" #@param{type: 'string'}

for coluna in dados2:      
        fig = px.histogram(dados2, x=coluna,nbins=60, color=Atributo_Chave)
        fig.show()

print('[1;32mPronto')

## 7/10 - Análise Estatística Descritiva

In [12]:
#@markdown ---

#@markdown Tenha acesso aos seguintes perâmetros :

#@markdown * count: número de valores não nulos na coluna
#@markdown * mean: média dos valores na coluna
#@markdown * std: desvio padrão dos valores na coluna
#@markdown * 25%: primeiro quartil (valor abaixo do qual estão 25% dos valores)
#@markdown * 50%: segundo quartil, que é equivalente à mediana (valor abaixo do qual estão 50% dos valores)
#@markdown * 75%: terceiro quartil (valor abaixo do qual estão 75% dos valores)
#@markdown * max: valor máximo na coluna
print('[1;32mAnalisando dados...')
dados2.describe()




[1;32mAnalisando dados...


Unnamed: 0,MesesComoCliente,ValorTelefone,ValorInternet,ValorMensal
count,5984.0,5984.0,5984.0,5984.0
mean,32.456551,99.65752,128.135963,257.226237
std,24.511387,68.38464,104.312756,146.260736
min,0.0,0.0,0.0,44.9
25%,9.0,54.9,94.9,149.9
50%,29.0,74.9,94.9,229.4
75%,56.0,149.9,149.9,344.6
max,72.0,299.9,319.9,699.4


## 8/10 - Verificando correlação entre variáveis

In [None]:
#@markdown ---
#@markdown Rode a célula para verificar em um quadro com gráficos de dispersão se existe alguma correlação entre variáveis
print('[1;32mProcessando dados...')
import seaborn as sns
import matplotlib.pyplot as plt
sns.pairplot(dados2);

print('[1;32mCriando gráficos...')

## 9/10 - Verificando Outliers

In [None]:
#@markdown ---
#@markdown Informe o nome do atributo para criar um gráfico Boxplot e identificar possíveis outliers ( discrepâncias ):
print('[1;32mCriando gráfico...')
Nome_Atributo = "ValorMensal" #@param {type:"string"}

import plotly.express as px
px.box ( dados2, y = Nome_Atributo)

#@markdown Apropriado para atributos categóricos ordinais ( que tenham valores numéricos )


In [None]:
#@markdown # Corrigindo outliers
#@markdown ---
#@markdown ###* Informe o atributo para correção:
Nome_Atributo = "ValorTelefone" #@param {type:"string"}

#@markdown ###* Informe como tratar outliers:
#@markdown * 1 - Exclua valores discrepantes baseados um uma condição
#@markdown * 2 - Substitua valores discrepantes pela média baseado em uma condição
#@markdown * 3 - Substitua valores discrepantes por um valor específico baseado em uma condição
Tipo_correcao = "2" #@param ["1", "2", "3"]

#@markdown ###* Informe agora qual a condição:
#@markdown Corrija todos os valores que sejam:
Tipo_condicao = "maior_que" #@param ["igual_a", "maior_que", "menor_que", "diferente_de"]
Valor = 200 #@param {type:"number"}

#@markdown ---
#@markdown Se escolheu a opção 3 para substituir os valores discrepantes por um valor específico, informe o valor para qual deseja substituir:
Valor_substituição = 0 #@param {type:"number"}

if Tipo_correcao == 1:
    # excluir os dados de um atributo baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] == Valor].index, inplace = True)
    elif Tipo_condicao == "maior_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] > Valor].index, inplace = True)
    elif Tipo_condicao == "menor_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] < Valor].index, inplace = True)
    elif Tipo_condicao == "diferente_de":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] != Valor].index, inplace = True)
elif Tipo_correcao == 2:
    # substituir os dados de um atributo pela média baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
else:
    # substituir os dados de um atributo por um valor específico baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = Valor_substituição

print('[1;32mDados corrigidos!')

## 10/10 - Transformando variáveis categóricas NOMINAIS em variáveis categóricas ORDINAIS

In [13]:
#@markdown ---
#@markdown É extremamente importante assegurar que não existam dados nominais (string) no dataframe, pois os modelos de machine learning usados entendem apenas dados numéricos (int ou float)

#@markdown Essa tranformação ocorre do seguinte modo:

#@markdown Considere um atributo Sexo com 2 opções: Masculino e Feminino. 

#@markdown Realizando a transformação, os dados nominais "Masculino" e "Feminino" serão substituídos por dados ordinais 0 e 1. 

#@markdown  ###  >>> Rode a célula para realizar os ajustes <<<

# Armazenando os indices das variaveis nominais para uso posterior ( onehotencoder )
indice_nominal = [dados2.columns.get_loc(col) for col in dados2.select_dtypes(include=[object]).columns]

# Importação da biblioteca para transformar as variáveis
from sklearn.preprocessing import LabelEncoder

# Criando uma lista com todos os atributos nominais
nominais = [i for i, dtype in enumerate(dados2.dtypes) if dtype == object]

# Usando LabelEncoder para transformar todos atributos nominais lista em ordinais 
for i in nominais:
    dados2.iloc[:, i] = LabelEncoder().fit_transform(dados2.iloc[:, i])

print('[1;32mDados alterados!')
print('\033[1;32mSegue amostra do dataframe atualizado:')
dados2.head()

[1;32mDados alterados!
[1;32mSegue amostra do dataframe atualizado:


Unnamed: 0,Genero,Dependentes,MesesComoCliente,ServicoTelefone,ValorTelefone,MultiplasLinhas,ServicoInternet,ValorInternet,ServicoSegurancaOnline,ServicoBackupOnline,ProtecaoEquipamento,ServicoSuporteTecnico,ServicoStreamingTV,ServicoFilmes,TipoContrato,FaturaDigital,FormaPagamento,ValorMensal,Churn
0,0,1,9,1,54.9,0,0,94.9,0,2,0,2,2,0,1,1,1,199.6,0
1,1,0,9,1,54.9,2,0,94.9,0,0,0,0,0,2,2,0,1,169.7,0
2,1,0,4,1,54.9,0,1,129.9,0,0,2,0,0,0,2,1,0,184.8,1
3,1,0,13,1,54.9,0,1,129.9,0,2,2,0,2,2,2,1,0,254.5,1
4,0,0,3,1,54.9,0,1,129.9,0,0,0,2,2,0,2,1,1,224.7,1


# ETAPA 2: Otimização dos dados para a criação do modelo

* divisão previsor e alvo
* onehotencoder para criar variaveis dummy
* padronizando os dados com standardscaler
* salvando variaveis
* separando base de treino e teste
* identificando previsores: não tratado, tratado com onehotencoder e tratado com onehotencoder e standardscaler ( inormar na tela )

previsores - não tratado
previsores_esc - escalonado
previsores_one_esc - Onehotencoder + StandardeScale





In [14]:
#@markdown # Divisão de Previsores e Alvo
#@markdown ---
#@markdown * Atributos Previsores - (também conhecidos como "features" ou "variáveis independentes") são as características ou variáveis de entrada que são utilizadas para prever o valor de uma variável de saída. Em outras palavras, os atributos previsores são as informações que alimentam um modelo de machine learning, com o objetivo de produzir uma previsão ou classificação.
#@markdown * Atributo Alvo (também conhecido como "variável dependente" ou "rótulo") é a variável de saída que o modelo de machine learning está tentando prever ou classificar com base nos atributos previsores.

#@markdown Informe o Atributo Alvo do dataframe:
Nome_Atributo = "Churn" #@param {type:"string"}
# o complemento .values retorna uma matriz com os dados do dataframe
# Divisão previsores e alvo
previsores = dados2.drop(Nome_Atributo, axis=1).values
alvo = dados2[[Nome_Atributo]].values

# Excluindo o atributo Alvo da lista de indice_nominal
indice_alvo = dados2.columns.get_loc(Nome_Atributo)
indice_nominal.remove(indice_alvo)
print('[1;32mPrevisores e Alvo criados!')

[1;32mPrevisores e Alvo criados!


In [15]:
#@markdown # Escalonamento de variáveis
#@markdown ---
#@markdown O objetivo do escalonamento de variáveis é normalizar as variáveis para que elas tenham a mesma escala e variem em uma faixa semelhante.

#@markdown Isso é necessário porque muitos algoritmos de Machine Learning são sensíveis à escala das variáveis. Se as variáveis tiverem escalas muito diferentes, isso pode levar a problemas como o algoritmo atribuir maior importância a variáveis com escalas maiores e menor importância a variáveis com escalas menores. Além disso, pode afetar a convergência dos algoritmos.

#@markdown  ###  >>> Rode a célula para realizar os ajustes <<<

# Importanto as bibliotecas necessárias:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler

previsores_one = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), indice_nominal)],
                                       remainder = "passthrough").fit_transform(previsores)

previsores_esc = StandardScaler().fit_transform(previsores_one)                                       
print('[1;32mEscalonamento efetuado!')
print('[1;32mSegue os dados escalonados:')
previsores_esc


[1;32mEscalonamento efetuado!
[1;32mSegue os dados escalonados:


array([[ 1.01923578, -1.01923578, -1.5306916 , ..., -0.65455138,
        -0.31864502, -0.39402955],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.65455138,
        -0.31864502, -0.59847607],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.65455138,
         0.01691246, -0.49522716],
       ...,
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.80079527,
         0.20865958, -0.29078064],
       [-0.98112726,  0.98112726,  0.65329946, ..., -0.80079527,
        -0.31864502, -0.7352296 ],
       [-0.98112726,  0.98112726, -1.5306916 , ..., -0.80079527,
        -0.31864502, -0.59915984]])

In [50]:
#@markdown # Separando base de treino e teste
#@markdown ---
#@markdown Informe o tamanho em porcentagem dos dados de teste. O restante será separado automaticamente para dos dados de treino. 

1#@markdown O tamanho padrão de dados de teste é de 30% mas você pode escolher outros tamanhos conforme a necessidade: 
Tamanho_Base_Teste = "30% - PADRAO" #@param ["10%", "15%", "20%", "25%", "30% - PADRAO", "35%", "40%", "45%", "50%"]
if Tamanho_Base_Teste == "20%":
    Tamanho_Teste = 0.2
elif Tamanho_Base_Teste == "25%":
    Tamanho_Teste = 0.25
elif Tamanho_Base_Teste == "30% - PADRAO":
    Tamanho_Teste = 0.3
elif Tamanho_Base_Teste == "35%":
    Tamanho_Teste = 0.35
elif Tamanho_Base_Teste == "40%":
    Tamanho_Teste = 0.4
elif Tamanho_Base_Teste == "45%":
    Tamanho_Teste = 0.45
elif Tamanho_Base_Teste == "50%":
    Tamanho_Teste = 0.5
else:
    print("Valor inválido para Tamanho_Base_Teste")

# Importação de biblioteca 
from sklearn.model_selection import train_test_split

# Divisão de dados de treino e teste:
x_treino,x_teste,y_treino,y_teste = train_test_split(previsores_esc, alvo, test_size=Tamanho_Teste, random_state=0)

print('\033[1;32mDivisão efetuada!')
print('\033[1;32mTamanho base de treino (linhas, colunas):')
print('\033[0m'+ str(x_treino.shape))
print('\033[1;32mTamanho base de teste (linhas, colunas):')
print('\033[0m'+ str(x_teste.shape))

[1;32mDivisão efetuada!
[1;32mTamanho base de treino (linhas, colunas):
[0m(4188, 43)
[1;32mTamanho base de teste (linhas, colunas):
[0m(1796, 43)
