# Sumário

- **[1.  PRÉ-PROCESSAMENTO COM PANDAS E SCIKIT-LEARN](#1.-PRÉ-PROCESSAMENTO-COM-PANDAS-E-SCIKIT-LEARN)**
    - [1.1 TIPOS DE VARIÁVEIS](#1.1-TIPOS-DE-VARIÁVEIS)
    - [1.2  ENVIANDO BASE DE DADOS PARA O PANDAS](#1.2-ENVIANDO-BASE-DE-DADOS-PARA-O-PANDAS)
    - [1.3 TRATAMENTO DE VALORES](#1.3-TRATAMENTO-DE-VALORES)
    - [1.4 TRATAMENTO DE VALORES FALTANTES](#1.4-TRATAMENTO-DE-VALORES-FALTANTES)
        - [1.4.1 Tratamento de valores faltantes com sklearn](#1.4.1-Tratamento-de-valores-faltantes-com-sklearn)
    - [1.5 ESCALONAMENTO DE ATRIBUTOS](#1.5-ESCALONAMENTO-DE-ATRIBUTOS)
        - [1.5.1 Escalonamento de atributos com sklearn](#1.5.1-Escalonamento-de-atributos-com-sklearn)
    - [1.6 TRANSFORMAÇÃO DE VARIÁVEIS CATEGÓRICAS](#1.6-TRANSFORMAÇÃO-DE-VARIÁVEIS-CATEGÓRICAS)
        - [1.6.1 Transformação de variáveis categóricas com sklearn](#1.6.1-Transformação-de-variáveis-categóricas-com-sklearn)
        - [1.6.2 Criação de variáveis do tipo dummy](#1.6.2-Criação-de-variáveis-do-tipo-dummy)
            - [1.6.2.1 Criação de variáveis do tipo dummy com sklearn](#1.6.2.1-Criação-de-variáveis-do-tipo-dummy-com-sklearn)
    - [1.7 DIVISÃO DA BASE DE DADOS EM TREINAMENTO E TESTE](#1.7-DIVISÃO-DA-BASE-DE-DADOS-EM-TREINAMENTO-E-TESTE)
        - [1.7.1 Divisão da base de dados em treinamento e teste com sklearn](#1.7.1-Divisão-da-base-de-dados-em-treinamento-e-teste-com-sklearn)

# **1. PRÉ-PROCESSAMENTO COM PANDAS E SCIKIT-LEARN**

## 1.1 TIPOS DE VARIÁVEIS

As variáveis podem se dividir em numéricas e categóricas.

- **Numéricas**: São variáveis na forma de números.
    - Contínua: Números reais (float).
    - Discreta: Números inteiros. 
    
          
- **Categóricas**: são basicamente strings.
    - Nominal: Não possui ordenação, ou seja, as variáveis não seguem uma sequência.
        - **Exemplo**: Cor dos olhos → azul não vem antes de castanho.
        
    - Ordinal: Essas sim possuem uma ordem.
        - **Exemplo**: Tamanho de camisa → P, M, G
        
        

## 1.2 ENVIANDO BASE DE DADOS PARA O PANDAS

- 1. Baixe e copie o arquivo da sua base de dados em uma determinada pasta.
- 2. Nessa mesma pasta crie o arquivo python com o código.

- **Biblioteca**:
    - [Pandas](http://pandas.pydata.org/pandas-docs/stable/)
- **Base de Dados**:
    - credit_data.csv

> OBS.: Se tiver duvidas de como inserir uma base de dados no kaggle, nesse kernel [aqui](https://www.kaggle.com/lucasfdutra/regras-de-associa-o?scriptVersionId=10604491) (mais ou menos na metade dele) eu mostrei como fazer isso.   

In [1]:
#---------------------------------Bibliotecas---------------------------------#
import pandas as pd

#----------------Coloca a base de dados na variável 'base'--------------------#
base = pd.read_csv('../input/credit-data/credit_data.csv')   # pd.read_csv -> ler arquivos .cvs
print('Base de dados:')
base.head()

Base de dados:


Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [2]:
#----------------Puxando algumas informações da base de dados-----------------#
print('\n Informações: ')
base.describe().head()


 Informações: 


Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0


Analisando os atributos da base de dados:

- Clientid: Temos o número de cada cliente, veja que apesar de o valor ser um número inteiro a variável é tida como categórica e nominal, isso porque o cliente 1 não difere do cliente 2, ele só veio antes porque esta em formato de lista, mas a ordem não importa.


- Income: Temos o salário anual, que por sua vez é uma variável numérica contínua.


- Age: Temos a idade de cada cliente, que é dada como variável numérica contínua (a idade é quebrada em meses e dias nesse caso).


- Loan: É valor do empréstimo que o cliente deseja, que também é dado em variável numérica contínua.


- Default: Temos uma variável numérica discreta, sendo:
    - 0 → não pagou o empréstimo
    - 1 → pagou o empréstimo

O comando `base.describe()` é para obtermos informações sobre nossa base de dados.

- count: Número de linhas
- mean: Média
- std: Desvio padrão
- min: Valor mínimo
- 25%: Percentil 25% 
- 50%: Percentil 50% (mediana) 
- 75%: Percentil 75% 
- max: Valor máximo 

> OBS.: O valor descrito no percentil significa que quando chegamos a `x%` da base de dados o valor que ali esta é `y`.

## 1.3 TRATAMENTO DE VALORES

No processo de captura de dados temos sempre que tomar cuidado com registros que possuem inconsistência, pois eles atrapalham toda a analise. Um exemplo disso pode ser observado na tabela de informações que o pandas gerou, em que o dado de idade mínima (linha 4 coluna 3) temos um valor de idade negativo, o que é impossível. Sendo assim temos que tratar esses dados para depois utilizá-los.

Para tal temos algumas opções:

- 1. Apagar todo o atributo com problemas.
      - Não é muito viável, pois perde-se um atributo inteiro de informação que pode ser importante para a analise.
      
      
- 2. Apagar o registro com problemas.
      - Costuma não ser muito aconselhável, porém se tivermos uma base de dados grandes o suficiente e poucos registros problemáticos, pode ser que eles não façam falta.
      
      
- 3. Procurar o dono do registro e corrigi-lo.
      - É a melhor, porém em muitos casos inviável de ser executada.
      
      
- 4. Substituir os atributos do registro que possui erros pela média dos valores das variáveis independentes daquele atributo (somente daqueles valores que são válidos).
      - É dentre todas a melhor, e no caso do exemplo anterior, essa sera a opção adotada.

Para substituir as variáveis erradas pela média, faz-se:

In [3]:
#------------------mostra quem esta menor que zero em age---------------------#
print('# Idades negativas: ')
base.loc[base['age'] < 0].head()

# Idades negativas: 


Unnamed: 0,clientid,income,age,loan,default
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


In [4]:
#---------------------------Substitui pela média------------------------------#
media = base['age'][base.age > 0].mean()
base.loc[base.age < 0, 'age'] = media

#--------------------Repetindo o comando de verificação-----------------------#
print('\n# Veja que ninguém possui idade negativas agora: ')
base.loc[base['age'] < 0].head()


# Veja que ninguém possui idade negativas agora: 


Unnamed: 0,clientid,income,age,loan,default


Caso decida adotar as outras alternativas siga uma das duas partes do código abaixo:

```python
#------------------------------Apaga a coluna---------------------------------#
base.drop('age',1,inplace=True)
    
#-------------------------------Apaga a Linha---------------------------------#
base.drop(base[base.age < 0].index, inplace = True)
```

## 1.4 TRATAMENTO DE VALORES FALTANTES

No exemplo anterior, note que a quantidade de variáveis existentes na coluna ‘age’ é de 1997, o que significa que temos 3 valores faltando.

Para resolver esse problema temos três estratégias, são elas:

- 1. Substituir os valores faltantes pela média.
      - Bom para casos em que os atributos em questão são idade, salário, peso, etc.
      
      
- 2. Substituir os valores faltantes pela mediana.
      - Quando as distribuições numéricas estão distorcidas, é conveniente utilizar a mediana, pois ela pega a tendência central dos dados.
      
      
- 3. Substituir os valores faltantes pela moda (mais frequente).
      - Bom para casos em que os dados são cor dos olhos, nacionalidade, etc.
      
      
> OBS.: Existem algoritmos que conseguem tratar essas viáveis, logo nem sempre é necessário efetuar o pré-processamento. Normalmente quando elas vem como NaN temos que tratá-las.

### **1.4.1 Tratamento de valores faltantes com sklearn**

- **Bibliotecas**: 
    - [scikit-learn](https://scikit-learn.org/stable/modules/classes.html)
    - [numpy](http://www.numpy.org/)
- **Base de Dados**:
    - credit_data.csv
    
Nesse exemplo vamos seguir pela primeira opção, sendo assim o código será:

In [5]:
#---------------------------------Bibliotecas---------------------------------#
import numpy as np
from sklearn.impute import SimpleImputer

#---------Alocando os valores das colunas 1 à 3 (dados de analise)------------#
previsores = base.iloc[:, 1:4].values

#----------------Alocando os valores da coluna 4 (Respostas)------------------#
classe = base.iloc[:, 4].values

#-----------------------Criando um objeto Imputer-----------------------------#
#  Pegar os valores com NaN e como estrategia ele os substituirá pela media   #
#-----------------------------------------------------------------------------#
imputer = SimpleImputer(missing_values = np.nan, strategy='mean')

#-------Encontra os parâmetros para preprocessar (fit) e os transforma--------#
previsores[:,0:3] = imputer.fit_transform(previsores[:,0:3])

## 1.5 ESCALONAMENTO DE ATRIBUTOS

Temos que tomar cuidado com os algoritmos que utilizamos, pois dependendo do algoritmo, podemos retirar conclusões erradas. No exemplo que estamos seguindo, a idade é um atributo que não varia muito, mas os valores de salário anual sim. Logo um algoritmo que se baseia em distancias euclidianas consideraria os dados de salário mais relevantes do que os de idade. Assim devemos efetuar o escalonamento (colocar tudo na mesma base), o qual pode ser feito de duas formas:

- Padronização
- Normalização

### **1.5.1 Escalonamento de atributos com sklearn**

[Padronização](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler): $x=\dfrac{x - média(dados)}{DesvioPadrão(dados)}$
```python
#---------------------------------Bibliotecas---------------------------------#
from sklearn.preprocessing import StandardScaler

#---------Cria um objeto que vai fazer o escalonamento por padronização-------#
scaler = StandardScaler()

#----------------------Ajusta os valores de previsores------------------------#
previsores = scaler.fit_transform(previsores)
```

[Normalização](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html#sklearn.preprocessing.Normalizer): $x=\dfrac{x - mínimo(dados)}{máximo(dados) - mínimo(dados)}$
```python
#---------------------------------Bibliotecas---------------------------------#
from sklearn.preprocessing import Normalizer

#---------Cria um objeto que vai fazer o escalonamento por padronização-------#
norma = Normalizer()

#----------------------Ajusta os valores de previsores------------------------#
previsores = norma.fit_transform(previsores)
```
Nesse exemplo seguiremos com a padronização.
- **Base de Dados**:
    - credit_data.csv

In [6]:
#---------------------------------Bibliotecas---------------------------------#
from sklearn.preprocessing import StandardScaler

#---------Cria um objeto que vai fazer o escalonamento por padronização-------#
scaler = StandardScaler()

#----------------------Ajusta os valores de previsores------------------------#
previsores = scaler.fit_transform(previsores)

## 1.6 TRANSFORMAÇÃO DE VARIÁVEIS CATEGÓRICAS 

Como já visto antes, variáveis categóricas são tidas como strings, porém para que o computador trabalhe, precisamos convertê-las para variáveis numéricas discretas. 

### **1.6.1 Transformação de variáveis categóricas com sklearn**
- **Base de Dados**:
    - census.cvs

In [7]:
#-------------------------------Bibliotecas-----------------------------------#
from sklearn.preprocessing import LabelEncoder

#----------------Coloca a base de dados na variável 'base'--------------------#
base = pd.read_csv('../input/census/census.csv')

#----------Alocando os valores das colunas em previsores e classes------------#
previsores = base.iloc[:,0:14].values
classe = base.iloc[:,14].values
print('# Previsores antes da conversão: ')
print(previsores)

#------Definindo um objeto LabelEncoder que é responsável pela conversão------#
labelencoder = LabelEncoder()

#-------Verificando onde estão as variáveis categóricas e as convertendo------#
for i in range(len(previsores[0])):
    if type(previsores[0][i]) == str:
        previsores[:,i] = labelencoder.fit_transform(previsores[:,i])

print('\n# Previsores após a conversão: ')
print(previsores)

# Previsores antes da conversão: 
[[39 ' State-gov' 77516 ... 0 40 ' United-States']
 [50 ' Self-emp-not-inc' 83311 ... 0 13 ' United-States']
 [38 ' Private' 215646 ... 0 40 ' United-States']
 ...
 [58 ' Private' 151910 ... 0 40 ' United-States']
 [22 ' Private' 201490 ... 0 20 ' United-States']
 [52 ' Self-emp-inc' 287927 ... 0 40 ' United-States']]

# Previsores após a conversão: 
[[39 7 77516 ... 0 40 39]
 [50 6 83311 ... 0 13 39]
 [38 4 215646 ... 0 40 39]
 ...
 [58 4 151910 ... 0 40 39]
 [22 4 201490 ... 0 20 39]
 [52 5 287927 ... 0 40 39]]


Após a conversão temos as variáveis que antes eram strings convertidos para numéricas. Ou seja, a classe [LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder) definiu valores numéricos para cada uma das palavras e as substituiu.

### **1.6.2 Criação de variáveis do tipo dummy**

O problema do código anterior é que a conversão feita daquela maneira, nem sempre é viável, porque se tivermos variáveis categóricas nominais e adotarmos valores para elas, vamos acabar estabelecendo uma ordem. Isso é errado, pois agora existe uma ordem entre as variáveis, afinal 1<2<3<...<n. Para evitar esse problema deve-se criar variáveis do tipo dummy.

Na criação dessas variáveis temos que particionar as colunas com variáveis nominais, assim se dentro de uma dada coluna tivéssemos três dados diferentes, dividiríamos essa coluna em três, e colocaríamos 1 para quando ela ocorresse, e 0 para quando não ocorresse. 

- **Exemplo**: Se tivermos a seguinte distribuição:

|Pessoas| País |
|-|------|
|1|Brasil|
|2|EUA   |
|3|Canada|
|4|Brasil|

    Do modo convencional, a conversão seria feita da seguinte forma:

|Pessoas|País|
|-|-|
|1|1|
|2|2|
|3|3|
|4|1|

    O que passa a ideia de que Canada>Estados Unidos>Brasil.
 
    Agora se utilizarmos a criação de variáveis do tipo dummy, a conversão será da seguinte forma:

|Pessoas| Brasil |EUA|Canada|
|-|-|-|-|
|1|1|0|0|
|2|0|1|0|
|3|0|0|1|
|4|1|0|0|

---
- Links para aprender mais:
    - [Machine Learning Tutorial Python - 6: Dummy Variables & One Hot Encoding - codebasics](https://www.youtube.com/watch?v=9yl6-HEY7_s)
    - [Using categorical data in machine learning with python - yonatan hadar](https://blog.myyellowroad.com/using-categorical-data-in-machine-learning-with-python-from-dummy-variables-to-deep-category-66041f734512), 
---

#### 1.6.2.1 Criação de variáveis do tipo dummy com sklearn

- **Base de Dados**:
    - census.cvs

In [8]:
#-------------------------------Bibliotecas-----------------------------------#
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

#----------------Coloca a base de dados na variável 'base'--------------------#
base = pd.read_csv('../input/census/census.csv')

#----------Alocando os valores das colunas em previsores e classes------------#
previsores = base.iloc[:,0:14].values
classe = base.iloc[:,14].values

#------Definindo um objeto LabelEncoder que é responsável pela conversão------#
labelencoder = LabelEncoder()

#---Verificando onde estão as variáveis categóricas e convertendo a classe----#
lista_categoricos = []
for i in range(len(previsores[0])):
    if type(previsores[0][i]) == str:
        lista_categoricos.append(i)
classe = labelencoder.fit_transform(classe)

#---------------------Criando as variáveis do tipo dummy----------------------#
ct = ColumnTransformer([('oh_enc', OneHotEncoder(sparse=False), lista_categoricos),],remainder='passthrough')
previsores = ct.fit_transform(previsores)

#---------------------------------Bibliotecas---------------------------------#
from sklearn.preprocessing import StandardScaler

#---------Cria um objeto que vai fazer o escalonamento por padronização-------#
scaler = StandardScaler()

#----------------------Ajusta os valores de previsores------------------------#
previsores = scaler.fit_transform(previsores)

print('# Previsores com variáveis dummy: \n {}'.format(previsores))



# Previsores com variáveis dummy: 
 [[-0.2444502  -0.17429511 -0.26209736 ...  0.1484529  -0.21665953
  -0.03542945]
 [-0.2444502  -0.17429511 -0.26209736 ... -0.14592048 -0.21665953
  -2.22215312]
 [-0.2444502  -0.17429511 -0.26209736 ... -0.14592048 -0.21665953
  -0.03542945]
 ...
 [-0.2444502  -0.17429511 -0.26209736 ... -0.14592048 -0.21665953
  -0.03542945]
 [-0.2444502  -0.17429511 -0.26209736 ... -0.14592048 -0.21665953
  -1.65522476]
 [-0.2444502  -0.17429511 -0.26209736 ...  1.88842434 -0.21665953
  -0.03542945]]




- **Observações**:

    - Primeiramente, ignore o aviso de warnings.
    
    - Nesse novo exemplo, as variáveis dependentes são dadas por <=50 ou >=50, ou seja, são variáveis do tipo categóricas ordinais, logo, o método utilizado para converter essas variáveis é apenas o LabelEncoder.

    - Para gerar as variáveis dummy não é necessário converter as variáveis nominais para numéricas.

    - Para identificar as variáveis categóricas eu utilizei uma busca por strings, porém esse não é um método muito viável, pois podemos ter no meio das variáveis independentes variáveis nominais e ordinais, e o tratamento para elas é um pouco diferente, as ordinais param na etapa do LabelEncoder, já as nominais vão até a criação das variáveis dummy. Então deve-se primeiro avaliar o tipo de variável que se encontra em cada atributo, para depois tomar a decisão.
    
    - Deve-se tomar cuidado ao fazer escalonamento de variáveis do tipo dummy, visto que em caso de existir um atributo indicando um país, não faz sentido escalonarmos ele, pois assim a nossa interpretação fica comprometida, pois a avaliação nesse caso é se a pessoa é ou não daquele pais.

    - Sobre o comando `ColumnTransformer: 'oh_enc'` é obrigatório e `remainder='passthrough'` faz com que as variáveis que não sefrerão mudanças permaneçam no array.

## 1.7 DIVISÃO DA BASE DE DADOS EM TREINAMENTO E TESTE

Sempre que tivermos uma base de dados, devemos primeiramente tratá-la para eliminar irregularidade, e posteriormente devemos dividi-la em base de treinamento e de testes. Pois assim com uma dada porcentagem dos registros iremos treinar o algoritmo e a outras verificaremos a sua validade.

### **1.7.1 Divisão da base de dados em treinamento e teste com sklearn**

- **Base de Dados**:
    - census.cvs

In [9]:
#-------------------------------Bibliotecas-----------------------------------#
from sklearn.model_selection import train_test_split

#-------------------Dividindo os Previsores e as Classes----------------------#
# Obs.: test_size = <porcentagem da divisão dos dados>                        #
#       nesse caso 25% dos dados serão de teste.                              #
#-----------------------------------------------------------------------------#
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)