Até agora, já vimos os seguintes pontos:
# Primeira coisa a se fazer ao receber uma base de dados:
* Verificar a tabela
* Verificar a quantidade/porcentagem de dados nulos por coluna
* Verificar o tipo de dados das colunas
* Verificar informações descritivas a respeito das colunas numéricas e textuais

# Após estas verificações, devemos realizar o tratamento da base de dados:
* Tratar os dados nulos:
    * Excluir linhas;
    * Excluir colunas;
    * Substituir valores nulos por média, mediana ou moda;
* v (Iremos ver hoje);
* Normalizar a base de dados (Iremos ver hoje).

#### Então, o que veremos hoje é a parte final do tratamento da base de dados antes de aplicar um modelo de aprendizado de máquina

# 1 - Converter os valores textuais para valores numéricos
Não sei se todos se lembram, mas ao vermos o conceito de rede neural artificial, vimos que os valores são multiplicados por pesos e, desta forma, não teria como multiplcar um texto pelo peso.

Para resolver isto, nós iremos converter todos os valores textuais para números, por exemplo, todos os valores 'Sim' para 1 e os valores 'Não' para 0.

Então, neste caso, já vamos utilizar a base de dados tratada, sem valores nulos

In [1]:
# Realizamos a importação da biblioteca
# que nos permite ler e manipular tabelas
import pandas as pd

In [2]:
# Atribuimos a base de dados à variável df
df = pd.read_csv('banco_aula_9.csv')

# Apenas para verificar quantos valores núlos cada coluna possui
df.isnull().sum()

idade             0
emprego           0
estado_civil      0
educacao          0
saldo_bancario    0
possui_casa       0
emprestimo        0
dia               0
mes               0
duracao           0
qtd_contato       0
deposito          0
dtype: int64

O foco aqui é converter os valores das colunas object (Colunas com valores textuais) para valores numéricos.
Para verificar quais as colunas são do tipo object, podemos usar a função info()

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   idade           11162 non-null  int64 
 1   emprego         11162 non-null  object
 2   estado_civil    11162 non-null  object
 3   educacao        11162 non-null  object
 4   saldo_bancario  11162 non-null  int64 
 5   possui_casa     11162 non-null  object
 6   emprestimo      11162 non-null  object
 7   dia             11162 non-null  int64 
 8   mes             11162 non-null  object
 9   duracao         11162 non-null  int64 
 10  qtd_contato     11162 non-null  int64 
 11  deposito        11162 non-null  object
dtypes: int64(5), object(7)
memory usage: 1.0+ MB


Com isto, podemos verificar que as colunas emprego, estado_civil, educacao, possui_casa, emprestimo, mes e deposito são colunas que possuem valores textuais

In [None]:
# Exibe as colunas com valores textuais
df[['emprego', 'estado_civil', 'educacao', 'possui_casa', 'emprestimo', 'mes', 'deposito']]

## 1.1 - Como realizar a conversão de valores textuais para numéricos?

Aqui existem duas abordagens principais.

## A primeira é usar a função loc para selecionar o valor desejado e alterar para um número específico
Nesta função, após realizar a substituição para os valores numéricos, é necessário que especifique que a coluna se tornou numérica

Esta abordagem é boa para substituir 'yes' para 1, 'no' para 0, os mese pelos respectivos números...

Pensando nesta primeira abordagem, podemos utilinar nas colunas educacao, possui_casa, emprestimo, mes e deposito.

## A segunda abordagem é utilizada quando existem muitos valores textuais diferentes
Esta abordagem exige uma outra biblioteca além do pandas, chamada `LabelEncoder`

Pensando nesta segunda abordagem, podemos utilinar nas colunas emprego e estado_civil


In [None]:
# Quais os valores da coluna educacao
df.educacao.value_counts()

In [None]:
df.loc[df['educacao'] == 'unknown', 'educacao'] = 0
df.loc[df['educacao'] == 'primary', 'educacao'] = 1 
df.loc[df['educacao'] == 'secondary', 'educacao'] = 2
df.loc[df['educacao'] == 'tertiary', 'educacao'] = 3

# Converte a coluna para o tipo de dados numérico
df['educacao'] = pd.to_numeric(df['educacao'])

Perceba que colocamos valores intuitivos para substituir

unknown para 0

primary para 1

secondary para 2

tertiary para 3

In [None]:
# Estas 3 colunas abaixo possuem somente os valores
# yes e no, então podemos substituir estes valores
# por 1 e 0, respectivamente
df.loc[df['possui_casa'] == 'no', 'possui_casa'] = 0
df.loc[df['possui_casa'] == 'yes', 'possui_casa'] = 1

df.loc[df['emprestimo'] == 'no', 'emprestimo'] = 0
df.loc[df['emprestimo'] == 'yes', 'emprestimo'] = 1

df.loc[df['deposito'] == 'no', 'deposito'] = 0
df.loc[df['deposito'] == 'yes', 'deposito'] = 1

In [None]:
# Repare que, mesmo após a substituição por valores numéricos,
# As colunas continuam classificadas como object. 
df[['possui_casa', 'emprestimo', 'deposito']].info()

In [None]:
# Para solucionar este problema, usamos a função pd.to_numeric() 
df['possui_casa'] = pd.to_numeric(df['possui_casa'])
df['emprestimo'] = pd.to_numeric(df['emprestimo'])
df['deposito'] = pd.to_numeric(df['deposito'])

In [None]:
# Agora as colunas são do tipo numérico int. 
df[['possui_casa', 'emprestimo', 'deposito']].info()

In [None]:
# Verifica os valores da coluna mes
df.mes.unique()

In [None]:
# Irá converter cada mês para o respectivo valor numérico
df.loc[df['mes'] == 'jan', 'mes'] = 1
df.loc[df['mes'] == 'feb', 'mes'] = 2
df.loc[df['mes'] == 'mar', 'mes'] = 3
df.loc[df['mes'] == 'apr', 'mes'] = 4
df.loc[df['mes'] == 'may', 'mes'] = 5
df.loc[df['mes'] == 'jun', 'mes'] = 6
df.loc[df['mes'] == 'jul', 'mes'] = 7
df.loc[df['mes'] == 'aug', 'mes'] = 8
df.loc[df['mes'] == 'sep', 'mes'] = 9
df.loc[df['mes'] == 'oct', 'mes'] = 10
df.loc[df['mes'] == 'nov', 'mes'] = 11
df.loc[df['mes'] == 'dec', 'mes'] = 12

# Define a coluna como valor numérico
df['mes'] = pd.to_numeric(df['mes'])

# Exibe o tipo de dados da coluna
df[['mes']].info()

#### Ao verificar o tipo de dados de todas as colunas, encontramos que apenas as colunas emprego e estado_civil não são do tipo numérico.

In [None]:
df.info()

In [None]:
# Exibe as colunas com valores textuais
df[['emprego', 'estado_civil']]

## 1.2 - Substituição dos valores textuais por numéricos com o LabelEncoder

In [None]:
# Primeiro passo, importar a biblioteca necessária
from sklearn.preprocessing import LabelEncoder

In [None]:
# Apenas no caso do bloco de código a cima der erro, 
# execute este bloco para instalar a biblioteca
#!pip install sklearn

In [None]:
# Chamamos a função LabelEncoder e atribuimos à variável le 
le_emprego = LabelEncoder()

# Converte todos os valores textuais para numéricos
# Nas colunas emprego
df['emprego'] = le_emprego.fit_transform(df['emprego'])

In [None]:
le_emprego.classes_

In [None]:
# Chamamos a função LabelEncoder e atribuimos à variável le 
le_estado_civil = LabelEncoder()

# Converte todos os valores textuais para numéricos
# Nas colunas estado_civil
df['estado_civil'] = le_estado_civil.fit_transform(df['estado_civil'])

In [None]:
le_estado_civil.classes_

In [None]:
df[['emprego','estado_civil']].head()

## Importante
Este método é mais simples, entretanto, ele não usa um critério para atribuir os valores numéricos, por isto, em alguns casos, é preferível utilizar o outro método

In [None]:
# Verificando o tipo de dados das colunas
df.info()

# 2 Machine Learning: Classificação e Regressão

#### 2.1. Classificação
Na classificação, o objetivo é prever uma classe (ou categoria) para uma entrada específica. 

- **Exemplos**: 
  - Determinar se um e-mail é spam ou não spam.
  - Classificar imagens de animais como cães, gatos ou pássaros.

- **Tipos**:
  - **Classificação Binária**: Apenas duas classes possíveis (por exemplo, Sim ou Não).
  - **Classificação Multiclasse**: Mais de duas classes possíveis.

#### 2.2. Regressão
Na regressão, o objetivo é prever um valor contínuo (e não uma classe).

- **Exemplos**: 
  - Prever o preço de uma casa com base em características como área, número de quartos, etc.
  - Estimar a temperatura para o próximo dia com base em dados históricos.

#### 2.3. X (Atributos ou Variáveis Independentes)
- São as entradas do modelo. 
- Representam as características ou recursos que serão usados para fazer previsões.
- **Exemplo**: Em um problema de previsão de preço de casa, os atributos podem incluir área da casa, número de quartos, número de banheiros, etc.

#### 2.4. y (Alvo ou Variável Dependente)
- É o que queremos prever ou estimar.
- **Exemplo**: No contexto da previsão de preço de casa mencionado acima, o 'y' seria o preço da casa.

**Observação**: A relação entre `X` e `y` é o que o modelo tenta aprender. Em termos simples, o modelo tenta entender como as variações em `X` podem prever ou explicar as variações em `y`.


In [None]:
df.head()

In [None]:
# Retorna o dataframe sem a coluna especificada (retornando somente as colunas de atributos)
df.drop('deposito', axis = 1)

In [None]:
# A variável X recebe todas as colunas dos atributos
X = df.drop('deposito', axis = 1)

In [None]:
# Retorna o dataframe somente com a coluna depósito (classe alvo)
df[['deposito']]

In [None]:
# A variável y recebe a classe alvo
y = df[['deposito']]

# Separação de Dados e Normalização em Machine Learning

## 3. Separação de Dados em Treinamento e Teste

### 3.1 O que é?

- **Dados de Treinamento (X_train, y_train)**: Dados usados para treinar o modelo. O modelo 'aprende' com esses dados.
  
- **Dados de Teste (X_test, y_test)**: Dados usados para avaliar a performance do modelo. Estes dados ajudam a entender como o modelo se comportará com novas entradas.

### 3.2 Por que separar?

- **Evitar Overfitting**: Treinar e testar com o mesmo conjunto de dados pode levar a um modelo que se comporta perfeitamente com os dados conhecidos, mas não generaliza bem para novos dados.

- **Avaliação Justa**: Ao testar o modelo com dados nunca vistos por ele, conseguimos uma avaliação mais honesta de sua performance.


In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Separa os dados em treinamento e teste com 30% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

In [None]:
# Ainda estamos lidando com tabelas pandas
X_train

In [None]:
X_train.shape

In [None]:
X_test.shape

In [None]:
X_train.shape[0] + X_test.shape[0]

In [None]:
X.shape

## 4. Normalização

### 4.1 O que é?

Normalização é o processo de redimensionar os atributos para que tenham uma escala similar. Isso é especialmente importante para algoritmos que dependem da magnitude dos valores, como SVM ou algoritmos de otimização baseados em gradiente.

### 4.2 MinMax Scaler

- **O que é**: Transforma os dados de modo que eles fiquem dentro de um intervalo definido (geralmente entre 0 e 1).
  
- **Fórmula**: (x - x.min()) / (x.max() - x.min())



### 4.3 Por que usar `fit_transform` nos dados de treinamento e `transform` nos dados de teste?

Vamos quebrar isso em partes:

#### 4.3.1 O que o `fit_transform` faz?

1. **Fit**: O método "aprende" os parâmetros necessários para a normalização. No caso do MinMax Scaler, ele identifica os valores mínimos e máximos dos dados de treinamento.

2. **Transform**: Depois de aprender os parâmetros, o método aplica a normalização, ajustando os dados de acordo com a fórmula mencionada anteriormente.

Portanto, quando aplicamos `fit_transform` aos dados de treinamento, estamos basicamente dizendo: "Descubra os valores mínimos e máximos desses dados e, em seguida, use esses valores para ajustar a escala dos dados entre 0 e 1".

#### 4.3.2 E o `transform`?

O método `transform` utiliza os valores mínimos e máximos já "aprendidos" (pelo `fit`) e aplica a normalização. Não "reaprende" os parâmetros.

#### 4.3.3 Por que essa distinção é crucial?

Imagine que você está tentando normalizar as temperaturas registradas durante um ano. Seus dados de treinamento contêm temperaturas dos primeiros 9 meses, e seus dados de teste contêm os últimos 3 meses.

1. Ao usar `fit_transform` nos dados de treinamento, o MinMax Scaler pode determinar que a temperatura varia de 0°C a 30°C.

2. Se usássemos `fit_transform` nos dados de teste também, e digamos que nesses últimos 3 meses houve um pico de calor e a temperatura foi de 0°C a 40°C, o scaler "aprenderia" essa nova faixa de valores. Isso seria problemático porque a escala de normalização dos dados de treinamento e teste seria diferente, levando a inconsistências.

Por isso, ao usar apenas `transform` nos dados de teste, garantimos que eles são ajustados à mesma escala dos dados de treinamento, usando os valores mínimos e máximos aprendidos a partir do conjunto de treinamento.

**Analogia**: Imagine que você está ajustando o tamanho de fotos para caber em um álbum. Se você decidir que todas as fotos devem ter 10x10cm com base nas primeiras fotos, é importante manter esse tamanho para todas as outras, mesmo que algumas das fotos originais sejam maiores ou menores. O `fit` é como decidir o tamanho com base nas primeiras fotos, e o `transform` é como cortar ou ampliar as outras fotos para esse tamanho decidido.


### 4.4 Quando usar a normalização?

- **Atributos**: Normalmente, queremos normalizar atributos que têm escalas muito diferentes, para garantir que todos tenham o mesmo peso no modelo.

- **Classe Alvo (y)**: Em tarefas de regressão, é comum normalizar a variável alvo, especialmente quando os algoritmos dependem da magnitude. No entanto, em tarefas de classificação, não normalizamos a variável alvo, pois geralmente é categórica.

**Nota**: Sempre se lembre de reverter a normalização da variável alvo (se aplicado) para obter previsões na escala original. (iremos ver nas próximas aulas)

In [None]:
# Importa a biblioteca para normalizar os dados com Min Max 
from sklearn.preprocessing import MinMaxScaler

# Cria um ainstância do normalizador
normalizador = MinMaxScaler()

# Normaliza o X_train e aprende quais são os valores mínimos e máximos de cada coluna de X
X_train = normalizador.fit_transform(X_train)

# Normaliza o X_trest com os valores mínimos e máximos de cada coluna de X do X_train
X_test = normalizador.transform(X_test)

In [None]:
# Agora já estamos lidando com matrizes numpy
X_train

# Exercício
Importe a biblioteca  pandas

Realize a leitura da base de dados 'campanha_marketing.csv'

Verifique o tipo de dados das colunas

Verifique os valores das colunas object (Textuais)

Utilize os métodos de conversão de textos para números adequados para cada coluna textual (Caso necessaŕio, importe a biblioteca LabelEncoder)

Separe os dados em X e y

Separe em X e y de treinamento e teste com 25% para teste

Normalize X de treinamento

Normalize X de Teste