Até agora, já vimos os seguintes pontos:
# Primeira coisa a se fazer ao receber uma base de dados:
* Verificar a tabela
* Verificar a quantidade/porcentagem de dados nulos por coluna
* Verificar o tipo de dados das colunas
* Verificar informações descritivas a respeito das colunas numéricas e textuais

# Após estas verificações, devemos realizar o tratamento da base de dados:
* Tratar os dados nulos:
    * Excluir linhas;
    * Excluir colunas;
    * Substituir valores nulos por média, mediana ou moda;
* v (Iremos ver hoje);
* Normalizar a base de dados (Iremos ver hoje).

#### Então, o que veremos hoje é a parte final do tratamento da base de dados antes de aplicar um modelo de aprendizado de máquina

# 1 - Converter os valores textuais para valores numéricos
Não sei se todos se lembram, mas ao vermos o conceito de rede neural artificial, vimos que os valores são multiplicados por pesos e, desta forma, não teria como multiplcar um texto pelo peso.

Para resolver isto, nós iremos converter todos os valores textuais para números, por exemplo, todos os valores 'Sim' para 1 e os valores 'Não' para 0.

Então, neste caso, já vamos utilizar a base de dados tratada, sem valores nulos

In [None]:
# Realizamos a importação da biblioteca
# que nos permite ler e manipular tabelas
import pandas as pd

In [None]:
# Atribuimos a base de dados à variável df
df = pd.read_csv('banco_aula_11.csv')

# Apenas para verificar quantos valores núlos cada coluna possui
df.isnull().sum()

O foco aqui é converter os valores das colunas object (Colunas com valores textuais) para valores numéricos.
Para verificar quais as colunas são do tipo object, podemos usar a função info()

In [None]:
df.info()

Com isto, podemos verificar que as colunas emprego, estado_civil, educacao, possui_casa, emprestimo, mes e deposito são colunas que possuem valores textuais

In [None]:
# Exibe as colunas com valores textuais
df[['emprego', 'estado_civil', 'educacao', 'possui_casa', 'emprestimo', 'mes', 'deposito']]

## 1.1 - Como realizar a conversão de valores textuais para numéricos?

Aqui existem duas abordagens principais.

## A primeira é usar a função loc para selecionar o valor desejado e alterar para um número específico
Nesta função, após realizar a substituição para os valores numéricos, é necessário que especifique que a coluna se tornou numérica

Esta abordagem é boa para substituir 'yes' para 1, 'no' para 0, os mese pelos respectivos números...

Pensando nesta primeira abordagem, podemos utilinar nas colunas educacao, possui_casa, emprestimo, mes e deposito.

## A segunda abordagem é utilizada quando existem muitos valores textuais diferentes
Esta abordagem exige uma outra biblioteca além do pandas, chamada `LabelEncoder`

Pensando nesta segunda abordagem, podemos utilinar nas colunas emprego e estado_civil


In [None]:
# Quais os valores da coluna educacao
df.educacao.value_counts()

In [None]:
df.loc[df['educacao'] == 'unknown', 'educacao'] = 0
df.loc[df['educacao'] == 'primary', 'educacao'] = 1 
df.loc[df['educacao'] == 'secondary', 'educacao'] = 2
df.loc[df['educacao'] == 'tertiary', 'educacao'] = 3

# Converte a coluna para o tipo de dados numérico
df['educacao'] = pd.to_numeric(df['educacao'])

Perceba que colocamos valores intuitivos para substituir

unknown para 0

primary para 1

secondary para 2

tertiary para 3

In [None]:
# Estas 3 colunas abaixo possuem somente os valores
# yes e no, então podemos substituir estes valores
# por 1 e 0, respectivamente
df.loc[df['possui_casa'] == 'no', 'possui_casa'] = 0
df.loc[df['possui_casa'] == 'yes', 'possui_casa'] = 1

df.loc[df['emprestimo'] == 'no', 'emprestimo'] = 0
df.loc[df['emprestimo'] == 'yes', 'emprestimo'] = 1

df.loc[df['deposito'] == 'no', 'deposito'] = 0
df.loc[df['deposito'] == 'yes', 'deposito'] = 1

In [None]:
# Repare que, mesmo após a substituição por valores numéricos,
# As colunas continuam classificadas como object. 
df[['possui_casa', 'emprestimo', 'deposito']].info()

In [None]:
# Para solucionar este problema, usamos a função pd.to_numeric() 
df['possui_casa'] = pd.to_numeric(df['possui_casa'])
df['emprestimo'] = pd.to_numeric(df['emprestimo'])
df['deposito'] = pd.to_numeric(df['deposito'])

In [None]:
# Agora as colunas são do tipo numérico int. 
df[['possui_casa', 'emprestimo', 'deposito']].info()

In [None]:
# Verifica os valores da coluna mes
df.mes.unique()

In [None]:
# Irá converter cada mês para o respectivo valor numérico
df.loc[df['mes'] == 'jan', 'mes'] = 1
df.loc[df['mes'] == 'feb', 'mes'] = 2
df.loc[df['mes'] == 'mar', 'mes'] = 3
df.loc[df['mes'] == 'apr', 'mes'] = 4
df.loc[df['mes'] == 'may', 'mes'] = 5
df.loc[df['mes'] == 'jun', 'mes'] = 6
df.loc[df['mes'] == 'jul', 'mes'] = 7
df.loc[df['mes'] == 'aug', 'mes'] = 8
df.loc[df['mes'] == 'sep', 'mes'] = 9
df.loc[df['mes'] == 'oct', 'mes'] = 10
df.loc[df['mes'] == 'nov', 'mes'] = 11
df.loc[df['mes'] == 'dec', 'mes'] = 12

# Define a coluna como valor numérico
df['mes'] = pd.to_numeric(df['mes'])

# Exibe o tipo de dados da coluna
df[['mes']].info()

#### Ao verificar o tipo de dados de todas as colunas, encontramos que apenas as colunas emprego e estado_civil não são do tipo numérico.

In [None]:
df.info()

In [None]:
# Exibe as colunas com valores textuais
df[['emprego', 'estado_civil', 'educacao', 'possui_casa', 'emprestimo', 'mes', 'deposito']]

## 1.2 - Substituição dos valores textuais por numéricos com o LabelEncoder

In [None]:
# Primeiro passo, importar a biblioteca necessária
from sklearn.preprocessing import LabelEncoder

# Chamamos a função LabelEncoder e atribuimos à variável le 
le = LabelEncoder()

In [None]:
# Apenas no caso do bloco de código a cima der erro, 
# execute este bloco para instalar a biblioteca
!pip install sklearn

In [None]:
# Converte todos os valores textuais para numéricos
# Nas colunas emprego e estado_civil
df['emprego'] = le.fit_transform(df['emprego'])
df['estado_civil'] = le.fit_transform(df['estado_civil'])

In [None]:
# Exibe as colunas com valores textuais
df[['emprego', 'estado_civil', 'educacao', 'possui_casa', 'emprestimo', 'mes', 'deposito']]

## Importante
Este método é mais simples, entretanto, ele não usa um critério para atribuir os valores numéricos, por isto, em alguns casos, é preferível utilizar o outro método

In [None]:
# Verificando o tipo de dados das colunas
df.info()

# 2 - Normalização dos Dados
Agora que estamos sem dados nulos e sem valores textuais, podemos realizar a normalização dos dados.

## O que é normalização dos dados?
É remodelar os dados das colunas para uma escala padrão, por exemplo, colocar todos os valores das colunas entre 0 e 1 ou -1 e 1 

## Para que serve a normalização dos dados?
Serve para não distorcer as diferenças nos intervalos de valores nem perder informações.

## Exemplo?
Por exemplo, considere um conjunto de dados contendo duas variáveis explicativas: idade e renda. A faixa etária varia de 18 a 100 anos, enquanto a renda varia de R$ 0,00 a R$ 100.000,00. A renda é cerca de 1.000 vezes maior que a idade, ou seja, os intervalos são muito diferentes.

Para um algoritmo de machine learning, a variável renda seria muito mais relevante que a idade, mas, com as duas variáveis normalizadas, o algoritmo irá considerar igualmente as duas.

## Como Fazer?
Para isto, podemos utilizar cálculos matemáticos ou também outras biblioteca, chamadas StandardScaler ou MinMaxScaler (A priori, iremos ver apenas os métodos matemáticos).

Com o método matemático, particularmente acho mais fácil pois não exige importar nenhuma biblioteca e o cálculo já está pronto, podendo ser utilizado em qualquer tabela.

## Devo fazer a normalização em todas as colunas?
Quase todas, menos nossa classe alvo... Lá dos conceitos de Ciência de Dados, temos as variáveis independentes (atributos) e a variável dependente (classe).

Devemos realizar a normalização em todos os nossos atributos, mas nunca em nossa classe. 

## Qual a normalização iremos utilizar?
A normalização que realizamos é conhecida por normalização min max, onde o menor valor de cada coluna será convertido para 0 e o o maior para 1.

In [None]:
# Realiza a normalização de toda a base de dados e atribui à variável df_norm
df_norm = (df - df.min()) / (df.max() - df.min())

# Exibe as 5 primeiras linhas do df_norm
df_norm.head(5)

In [None]:
# Entretanto, nossa base de dados em df não foi alterada
df.head(5)

In [None]:
# Repare que desta forma, toda a base de dados foi normalizada
# Inclusive a nossa classe alvo, que é a coluna deposito
# Para solucionar isto, atribuimos a coluna deposito do df
# à coluna depósito do df_norm
df_norm[['deposito']] = df[['deposito']]

# Com isto, nossa base de dados está pronta para treinar um modelo de machine learning

Este código abaixo não é importante e não realiza nenhuma alteração, mas ele mostra o nome da coluna, o maior valor e o menor valor da coluna, da base normalizada e em seguida da base normal.

In [None]:
for x in df_norm.columns:
    print(f'{x} {df_norm[x].max()}, {df_norm[x].min()}')

In [None]:
for x in df.columns:
    print(f'{x} {df[x].max()}, {df[x].min()}')

# Exercício
Importe a biblioteca  pandas

Realize a leitura da base de dados 'campanha_marketing.csv'

Verifique o tipo de dados das colunas

Verifique os valores das colunas object (Textuais)

Utilize os métodos de conversão de textos para números adequados para cada coluna textual (Caso necessaŕio, importe a biblioteca LabelEncoder)

Realize a normalização da base de dados (Não se esqueça de tirar a normalização da coluna classe)
