# Introdução ao aprendizado de máquina utilizando Python

#### Professor: Luiz Antonio de Sousa Ferreira

#### Contato: luiz.ferreira@outlook.com | [@luizsferreira](http://instagram.com/luizsferreira) (IG)

Acesso: [bit.ly/pucpcaldas](http://bit.ly/pucpcaldas)

__________

Na aula de hoje, discutiremos o pré-processamento, a análise e a visualização de dados. Além disso, neste pré-processamento de dados em machine learning em Python, veremos o reescalonamento, a padronização, a normalização e a binarização dos dados. Além disso, veremos diferentes etapas na Análise e Visualização de Dados.

Então, vamos começar o aprendizado de máquina com o pré-processamento de dados do Python.

![](https://d2h0cx97tjks2p.cloudfront.net/blogs/wp-content/uploads/Python-Machine-Learning-01.jpg)


## Data pre-processing

O uso de pré-processamento de dados é um passo necessário em uma análise de dados, uma vez que se trata de um processo de converter ou mapear dados da forma bruta inicial para outro formato, a fim de preparar os dados para uma análise mais aprofundada.

Podemos encontrar o pré-processamento como `"Data Cleaning"` ou `"Data Wranging"`.

### Nessa aula teremos como objetivo:

- Identificar e tratar dados ausêntes em nossa base
- Adequar formatos de dados, que possuem diferentes unidades
- Normalização de dados (centering / scaling) (trabalhar com o range de aplicação dos dados)
- Data binning, criação de categorias de dados
- Tornando dados categóricos em numéricos



### Data missing

Quando não possuímos nenhum valor relacionado à coluna de dados em que esta está presente, dizemos que temos um dado ausente. Podemos encontrar diversas variações para esse fenômeno, a célula pode conter o símbolo de interrogação, um valor nulo ou apenas estar em branco. Em nosso caso, os campos estarão marcados com o mneunômico `"NaN"`.

Temos diversas formas de trabalhar com dados ausentes, sendo que a abordagem de todas seria impossível em um curto período de tempo, mas podemos dizer que esses métodos podem ser aplicados utilizando Python ou R. Consideremos então algumas opções de uso comum, são elas:


#### Remover os valores ausentes
- remover a variável
- remover a entrada do dado

Essa primeira opção trata a presença desse registro como prejudicial à nossa análise e que o mesmo pode ser descartado. Essa remoção pode vir tanto por um único valor, como pode ser o registro todo (linha do banco).

Essa solução é empregada, principalmente, quando a quantidade de dados ausentes é pequena, pois isso acarretará em impactos em nossa base de dados, o que não é interessante, mas devido ao problema gerado por um dado inexistente, o preço da remoção pode sair mais em conta.

#### Substituir os valores ausentes
- substituir com a média 
- substituir pela frequência
- substituir baseado em outras funções

A substituição de dados é a melhor alternativa, pois preserva características da base original, focando em apenas estipular o valor ausente, o que trará um menor impacto dentro de nossa base (comparado à remoção).

Um padrão utilizado em massa é a substituição dos valores ausentes pelo valor médio da variável inteira. Como exemplo, imaginemos que tenhamos algumas entradas com valores omissos para a coluna de perdas normalizadas e a média da coluna para as entradas seja 4500. Embora não seja possível obter uma estimativa realmente eficiente, a média trará um valor de menor impacto, pois é estimado em conformidade com os dados que a base já possui. 

Caso nosso dado ausente não seja numérico, a média é um recurso que não possuímos, porém, podemos estipular os valores através do uso de ferramentas de frequência, utilizando os mais comuns de acontecer.

### Remover dados ausentes

Imaginemos a seguinte sequência de dados:

In [1]:
import pandas as pd
import numpy as np

data = pd.DataFrame(data=[ 20, 22, 29], columns=["highway-mpg"])
data["price"] = np.array([23875,np.nan, 16430])
display(data)

Unnamed: 0,highway-mpg,price
0,20,23875.0
1,22,
2,29,16430.0


Aqui temos uma microbase, onde inserimos três linhas de valores para as colunas `highway-mpg` e `price`. 

Passamos então para a remoção de dados ausentes.

In [2]:
data.dropna(subset=["price"],axis=0, inplace=True)

display(data)

Unnamed: 0,highway-mpg,price
0,20,23875.0
2,29,16430.0


O uso correto do `df.dropna()`:

- Devemos sempre especificar qual coluna devemos utilizar, através do parâmetro `subset`
- Informamos qual a forma de remoção, se é por linha ou coluna para isso utilizaremos `axis=0` para linha e `axis=1` para coluna
- O último parâmetro pode ser interpretado como modificação por substituição, afinal, ele representa o mesmo que:
    - data = data.dropna(subset=["price"], axis=0)

### Substituição de valores

A biblioteca `Pandas` irá nos auxiliar também nesse caso, utilizaremos uma função chamada `replace` para que possamos fazer as substituições pelos novos valores calculados.

Vejamos uma outra fonte de dados:

In [12]:
data = pd.DataFrame(data=[166,164,np.nan,158], columns=["normalized-losses"])
data["make"] = np.array(["audi","audi","audi","audi"])
display(data)

Unnamed: 0,normalized-losses,make
0,166.0,audi
1,164.0,audi
2,,audi
3,158.0,audi


Notamos que o valor de id 2 está com uma ausência de dados. Devemos então substituir o valor nulo pela média dos valores daquela coluna.

In [13]:
mean = data["normalized-losses"].max()
print("Valor médio: ", mean,"\n\n")
data["normalized-losses"].replace(np.nan, mean, inplace=True)
display(data)

Valor médio:  166.0 




Unnamed: 0,normalized-losses,make
0,166.0,audi
1,164.0,audi
2,166.0,audi
3,158.0,audi


Note que a média calculada foi inserida na base.

Existem diversas técnicas que podemos utilizar, porém, devido ao curto período de tempo, essa técnica já tratará nossas informações de forma adequada.

### Data formatting

No mundo real, geralmente encontraremos bases de dados coletadas de diferentes lugares e armazenadas de diferentes formas, preservando as características necessárias para o estabelecimento que as possui.

Fazer com que os dados possuam uma padronização nos permitirá utilizar comparações realísticas de como trabalhar essas informações. Como parte de uma limpeza de uma base de dados, o processo de formatação de dados visa fazer com que tenhamos uma base consistente e de fácil compreensão.

#### Exemplo:

Costumamos tratar siglas de cidades de diferentes formas, pensemos na cidade de New York. Podemos ter as representações como:

- New York
- NY
- N.Y.
- NY.
- N.Y

Quando não formatado, temos uma situação confusa, de difícil compreensão (uma vez que pode se tratar de ambiguidades), difícil de ser somada ou comparada com outra variável.

Imaginemos outra situação.

Temos uma base de dados onde o dataset de carros possui o consumo dentro de uma cidade para cada modelo, porém, essa mesma encontra-se em milhas por galão, um padrão não muito fácil de compreender.

In [14]:
data = pd.DataFrame(data=["cruze","audi","porsche"], columns=["auto"])
data["city-mpg"] = np.array([21,21,19])

display(data)

Unnamed: 0,auto,city-mpg
0,cruze,21
1,audi,21
2,porsche,19


Podemos realizar conversões de unidade com apenas uma linha de código em Python:

In [15]:
data["city-mpg"] = 235/data["city-mpg"]
data.rename(columns={"city-mpg":"city-L/100km"}, inplace=True)
display(data)

Unnamed: 0,auto,city-L/100km
0,cruze,11.190476
1,audi,11.190476
2,porsche,12.368421


Muitas vezes, problemas podem ocorrer durante uma importação de dados para o Python, fazendo com que o tipo do dado esteja incorreto, tornando assim, os cálculos não interpretáveis de maneira correta. 

Imaginemos a seguinte situação:

In [16]:
data = pd.DataFrame(data=[ 20, 22, 27, 29], columns=["highway-mpg"])
data["price"] = np.array([23875,23587, 16430, 45500])
display(data)

Unnamed: 0,highway-mpg,price
0,20,23875
1,22,23587
2,27,16430
3,29,45500


Podemos obter o tipo de cada coluna dentro de um DataFrame em `pandas` utilizando o comando .dtypes()

In [17]:
data["price"].dtypes

dtype('int32')

Observemos que o tipo retornado para a variável "price" foi de int32, mas como sabemos, por se tratar de preços, essa informação deveria ser do tipo `float`, portanto, devemos alterar o tipo dessa informação:

In [19]:
data["price"] = data["price"].astype("float")

O que nos retornará:

In [20]:
data["price"].dtypes

dtype('float64')

## Data normalization

Essa técnica é utilizada para uniformizar dados para que os mesmos possam interagir entre assim, afim de obtermos resultados melhor elaborados. Observemos o seguinte DataFrame:

In [27]:
data = pd.DataFrame(data=[168.8,168.8,171.2,176.6,176.6,177.3,192.7,192.7,197.7], columns=["length"])
data["width"] = np.array([64.1,64.1,65.5,66.2,66.4,66.3,71.4,71.4,71.4])
data["height"] = np.array([48.8,48.8,52.4,54.3,54.3,53.1,55.7,55.7,55.9])
display(data)

Unnamed: 0,length,width,height
0,168.8,64.1,48.8
1,168.8,64.1,48.8
2,171.2,65.5,52.4
3,176.6,66.2,54.3
4,176.6,66.4,54.3
5,177.3,66.3,53.1
6,192.7,71.4,55.7
7,192.7,71.4,55.7
8,197.7,71.4,55.9


Fomos comunicados que nossos dados na coluna `"lenght"` possuem os limites entre 150 e 250 e os dados das colunas `"width"` e `"height"` dentro do intervalo entre 50 a 100.

Com uma breve análise, foi nos passado que diferenças entre os valores não possuem tamanha relevância pra a solução de nosso problema, apenas são formas de classificar cada dado sobre veículo.

Sabendo disso, aplicaremos a normalização como forma de categorizar cada veículo conforme segue:

In [22]:
from IPython.display import HTML, display
import tabulate
table = [["Scale","[150-250]","[50-100]","[50-100]"],
         ["impact","large","small","small"]]
display(HTML(tabulate.tabulate(table, tablefmt='html')))

0,1,2,3
Scale,[150-250],[50-100],[50-100]
impact,large,small,small


Utilizaremos a normalização de dados para fazer com que nosso modelo possa ter valores minimizados, porém, com a mesma influência em nossa base como um todo.

Para isso, possuímos três métodos principais utilizando o Python, são eles:

- Simple feature scaling

$$X_{new}= \frac {X_{old}}{X_{max}}$$
- Min-Max

$$X_{new}= \frac {X_{old}-X_{min}}{X_{max}-X_{min}}$$

- z-Score

$$X_{new}= \frac {X_{old}-\mu}{\sigma}$$

    - Para: 
        - valor médio = mu
        - desvio padrão = sigma

Seguindo nosso exemplo anterior, temos:

In [23]:
display(data)

Unnamed: 0,length,width,height
0,168.8,64.1,48.8
1,168.8,64.1,48.8
2,171.2,65.5,52.4
3,176.6,66.2,54.3
4,176.6,66.4,54.3
5,177.3,66.3,53.1
6,192.7,71.4,55.7
7,192.7,71.4,55.7
8,197.7,71.4,55.9


Passamos a executar a normalização utilizando o primeiro método:

In [24]:
data["length"] = data["length"]/data["length"].max()
display(data)

Unnamed: 0,length,width,height
0,0.853819,64.1,48.8
1,0.853819,64.1,48.8
2,0.865959,65.5,52.4
3,0.893273,66.2,54.3
4,0.893273,66.4,54.3
5,0.896813,66.3,53.1
6,0.974709,71.4,55.7
7,0.974709,71.4,55.7
8,1.0,71.4,55.9


Já utilizando o método min-max:

In [26]:
data["length"] = (data["length"]-data["length"].min())/(data["length"].max()-data["length"].min())
display(data)

Unnamed: 0,length,width,height
0,0.0,64.1,48.8
1,0.0,64.1,48.8
2,0.083045,65.5,52.4
3,0.269896,66.2,54.3
4,0.269896,66.4,54.3
5,0.294118,66.3,53.1
6,0.82699,71.4,55.7
7,0.82699,71.4,55.7
8,1.0,71.4,55.9


Por último faremos com os valores zScore:

In [28]:
data["length"] = (data["length"]-data["length"].mean())/data["length"].std()
display(data)

Unnamed: 0,length,width,height
0,-1.028721,64.1,48.8
1,-1.028721,64.1,48.8
2,-0.813408,65.5,52.4
3,-0.328952,66.2,54.3
4,-0.328952,66.4,54.3
5,-0.266152,66.3,53.1
6,1.115445,71.4,55.7
7,1.115445,71.4,55.7
8,1.564015,71.4,55.9


## Data Binning

Esse processo define a categorização de nossos dados em detrimento dos valores, utilizamos então uma base de dados de preço:

In [29]:
data = pd.DataFrame(data=[13495,16500,18920,41315,5151,6295], columns=["price"])
display(data)

Unnamed: 0,price
0,13495
1,16500
2,18920
3,41315
4,5151
5,6295


Podemos então criar três categorias:

- baixo = para valores entre 5000 e 12000
- médio = para valores entre 30000,31000
- alto = para valores entre 39000 e 44500

In [30]:
binwidth = int((max(data["price"])-min(data["price"]))/4)

bins = range(min(data["price"]), max(data["price"]), binwidth)

group_names = ["baixo", "médio", "alto"]

data["price-binned"] = pd.cut(data["price"], bins, labels=group_names)

display(data)

Unnamed: 0,price,price-binned
0,13495,baixo
1,16500,médio
2,18920,médio
3,41315,
4,5151,
5,6295,baixo


## Categórico em quantitativo

Diversas vezes teremos de traduzir para nossa base os valores categorizados em quantitativos, observemos nossa base:

In [31]:
data = pd.DataFrame(data=["A","B","C","D"], columns=["car"])
data["fuel"] = np.array(["gas","diesel","gas","gas"])
display(data)

Unnamed: 0,car,fuel
0,A,gas
1,B,diesel
2,C,gas
3,D,gas


Em python podemos utilizar o método `dummies` para extrair essa informação:

In [32]:
pd.get_dummies(data["fuel"])

Unnamed: 0,diesel,gas
0,0,1
1,1,0
2,0,1
3,0,1
