<a href="https://colab.research.google.com/github/mauricionoronha/ml_classificacao_simplificada/blob/main/ml_classificacao_simplificada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ETAPA 1 : Pré-processamento dos dados:

É o processo de limpar, transformar e preparar os dados brutos antes de serem alimentados para um modelo de aprendizado de máquina. 

É uma etapa crucial em qualquer projeto de machine learning, pois a qualidade dos dados usados para treinar um modelo tem um grande impacto no desempenho e na precisão do modelo.

Considerado a etapa mais demorada e trabalhosa, mas neste projeto será otimizado em 10 passos. Basta preencher as informações necessárias e rodar a célula.


## 1/10 - Carregando a base de dados:

In [None]:
#@markdown ---

import pandas as pd
import numpy as np

print('[1;32mCarregando dados...')
# Criação dos campos de preenchimento usando #@param
#@markdown Insira o endereço do arquivo abaixo e escolha o tipo correto de arquivo que deseja importar:
endereco = "/content/drive/MyDrive/MACHINE_LEARNNING/telecom_users.xlsx" #@param {type:"string"}
tipo_arquivo = "excel" #@param ["csv", "excel"]
separador = ";" #@param [",", ";"]

if tipo_arquivo == "csv":
    dados = pd.read_csv( endereco, sep = separador)
else:
    dados = pd.read_excel(endereco)

print('[1;32mPronto, verifique as 5 primeiras linhas do dataframe:')
dados.head()



## 2/10 - Analisando atributos ( variáveis )

In [None]:
#@markdown ---
#@markdown Análise quantitativa em % e visualização gráfica por meio de um histograma.
#@markdown 
#@markdown Informe o nome do atributo que deseja analisar:
import plotly.express as px
Nome_Atributo = "MultiplasLinhas" #@param {type:"string"}

print('[1;32mCriando gráfico...')
print(display(dados[Nome_Atributo].value_counts(normalize=True).map("{:.1%}".format)));

hist1 =  px.histogram (dados,  x = Nome_Atributo, nbins=60) 
hist1.update_layout(width=800,height=500,title_text='Distribuição {}'.format(Nome_Atributo)) 
hist1.show()

dados2 = dados.copy()
print('[1;32mPronto')

## 3/10 - Verificando e corrigindo valores nulos ( NAN )

In [None]:
#@markdown ---
print('[1;32mVerificando dados...')
#@markdown Rode essa célula para identificar valores nulos
print('\033[0m' + str(dados2.isnull().sum()))
print('\033[1;32mPronto')

In [None]:
#@markdown ### Se encontado valores nulos, como proceder?

#@markdown 1 - Excluir Dados Nulos

#@markdown 2 - Substituir Dados Nulos Pela Média

Escolha = 1 #@param ["1", "2"] {type:"raw"}

#@markdown  Informe o nome do Atributo com dados nulos:

Nome_Atrib_Dados_Nulos = "Dependentes" #@param {type:"string"}


if Escolha == 1:
    dados2.dropna(inplace=True)
else:
    dados2[Nome_Atrib_Dados_Nulos].fillna(dados2[Nome_Atrib_Dados_Nulos].mean(), inplace=True)

print('[1;32mDados corrigidos!')



## 4/10 - Analisando os tipos de atributos

In [None]:
#@markdown ---
#@markdown Verifique os tipos de atributos, que podem ser:
#@markdown * object: strings
#@markdown * int64: inteiros
#@markdown * float64: reais
#@markdown * complex: complexos
print('[1;32mAnalisando dados...')
print('\033[0m' + str(dados2.dtypes))
print('[1;32mPronto')

In [None]:
#@markdown ### Será necessário alterar o tipo de um atributo especifico?

#@markdown * Desconsidere se não for necessário corrigir o tipo do atributo
print('[1;32mCorrigindo dados...')
#@markdown Se for necessário fazer a correção, informe o nome do atributo:
Nome_Atributo = "" #@param {type:"string"}
#@markdown Escolha agora, entre as opções abaixo, para qual tipo deseja alterar:
Tipo_Atributo = "float64" #@param ["object", "int64", "float64"]

if Tipo_Atributo == "object":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].astype(str)
elif Tipo_Atributo == "int64":
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.int64)
else:
    dados2[Nome_Atributo] = dados2[Nome_Atributo].apply(np.float64)

print(dados2[Nome_Atributo].dtype)

#@markdown * OBS.: Só é possivel converter uma STRING (object) em INT ou FLOAT quando essa string é composta apenas por números, logo não é possivel converter palavras em int ou float
print('[1;32mPronto')


## 5/10 - Excluindo atributos desnecessários

In [None]:
#@markdown ---
#@markdown Informe o nome do atributo que deseja retirar do dataframe:
Nome_Atributo = "IDCliente" #@param {type:"string"}
dados2 = dados2.drop(Nome_Atributo, axis=1)
print('\033[1;32mAtributo excluído!')
print('\033[1;32mSegue amostra do dataframe atualizado:')
dados2.head()

## 6/10 - Relação quantitativa entre todos os atributos e um atributo chave:

In [None]:
#@markdown ---
#@markdown Veja através de histograma como o atributo chave é distribuído nos demais atributos do dataframe.
print('[1;32mCriando gráficos...')
#@markdown Informe o nome do atributo chave: 
import plotly.express as px

Atributo_Chave = "" #@param{type: 'string'}

for coluna in dados2:      
        fig = px.histogram(dados2, x=coluna,nbins=60, color=Atributo_Chave)
        fig.show()

print('[1;32mPronto')

## 7/10 - Análise Estatística Descritiva

In [None]:
#@markdown ---

#@markdown Tenha acesso aos seguintes perâmetros :

#@markdown * count: número de valores não nulos na coluna
#@markdown * mean: média dos valores na coluna
#@markdown * std: desvio padrão dos valores na coluna
#@markdown * 25%: primeiro quartil (valor abaixo do qual estão 25% dos valores)
#@markdown * 50%: segundo quartil, que é equivalente à mediana (valor abaixo do qual estão 50% dos valores)
#@markdown * 75%: terceiro quartil (valor abaixo do qual estão 75% dos valores)
#@markdown * max: valor máximo na coluna
print('[1;32mAnalisando dados...')
dados2.describe()




## 8/10 - Verificando correlação entre variáveis

In [None]:
#@markdown ---
#@markdown Rode a célula para verificar em um quadro com gráficos de dispersão se existe alguma correlação entre variáveis
print('[1;32mProcessando dados...')
import seaborn as sns
import matplotlib.pyplot as plt
sns.pairplot(dados2);

print('[1;32mCriando gráficos...')

## 9/10 - Verificando Outliers

In [None]:
#@markdown ---
#@markdown Informe o nome do atributo para criar um gráfico Boxplot e identificar possíveis outliers ( discrepâncias ):
print('[1;32mCriando gráfico...')
Nome_Atributo = "ValorTelefone" #@param {type:"string"}

import plotly.express as px
px.box ( dados2, y = Nome_Atributo)

#@markdown Apropriado para atributos categóricos ordinais ( que tenham valores numéricos )


In [None]:
#@markdown # Corrigindo outliers
#@markdown ---
#@markdown ###* Informe o atributo para correção:
Nome_Atributo = "ValorTelefone" #@param {type:"string"}

#@markdown ###* Informe como tratar outliers:
#@markdown * 1 - Exclua valores discrepantes baseados um uma condição
#@markdown * 2 - Substitua valores discrepantes pela média baseado em uma condição
#@markdown * 3 - Substitua valores discrepantes por um valor específico baseado em uma condição
Tipo_correcao = "2" #@param ["1", "2", "3"]

#@markdown ###* Informe agora qual a condição:
#@markdown Corrija todos os valores que sejam:
Tipo_condicao = "maior_que" #@param ["igual_a", "maior_que", "menor_que", "diferente_de"]
Valor = 200 #@param {type:"number"}

#@markdown ---
#@markdown Se escolheu a opção 3 para substituir os valores discrepantes por um valor específico, informe o valor para qual deseja substituir:
Valor_substituição = 0 #@param {type:"number"}

if Tipo_correcao == 1:
    # excluir os dados de um atributo baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] == Valor].index, inplace = True)
    elif Tipo_condicao == "maior_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] > Valor].index, inplace = True)
    elif Tipo_condicao == "menor_que":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] < Valor].index, inplace = True)
    elif Tipo_condicao == "diferente_de":
        dados2 = dados2.drop(dados2[dados2[Nome_Atributo] != Valor].index, inplace = True)
elif Tipo_correcao == 2:
    # substituir os dados de um atributo pela média baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = dados2[Nome_Atributo].mean()
else:
    # substituir os dados de um atributo por um valor específico baseado em uma condição
    if Tipo_condicao == "igual_a":
        dados2.loc[dados2[Nome_Atributo] == Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "maior_que":
        dados2.loc[dados2[Nome_Atributo] > Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "menor_que":
        dados2.loc[dados2[Nome_Atributo] < Valor, Nome_Atributo] = Valor_substituição
    elif Tipo_condicao == "diferente_de":
        dados2.loc[dados2[Nome_Atributo] != Valor, Nome_Atributo] = Valor_substituição

print('[1;32mDados corrigidos!')

## 10/10 - Transformando variáveis categóricas NOMINAIS em variáveis categóricas ORDINAIS

In [None]:
#@markdown ---
#@markdown É extremamente importante assegurar que não existam dados nominais (string) no dataframe, pois os modelos de machine learning usados entendem apenas dados numéricos (int ou float)

#@markdown Essa tranformação ocorre do seguinte modo:

#@markdown Considere um atributo Sexo com 2 opções: Masculino e Feminino. 

#@markdown Realizando a transformação, os dados nominais "Masculino" e "Feminino" serão substituídos por dados ordinais 0 e 1. 
from sklearn.preprocessing import LabelEncoder
# Criando uma lista com todos os atributos nominais
nominais = [i for i, dtype in enumerate(dados2.dtypes) if dtype == object]
# Usando LabelEncoder para transformar todos atributos nominais lista em ordinais 
for i in nominais:
    dados2.iloc[:, i] = LabelEncoder().fit_transform(dados2.iloc[:, i])

print('[1;32mDados alterados!')
