# Aula 07 &mdash; Pré-processamento de dados

Renato Vimieiro
rv2 {em} cin.ufpe.br

abril 2017

## Tópicos da aula

1. [tipos de atributos](#tipos-atributos)
2. [ajustar tipos de dados em pandas](#tipos-em-pandas)
5. [tratamento de dados ausentes](#dados-ausentes)
4. [discretização](#discretizacao)
3. [normalização](#normalizacao)

Como discutimos no início do curso, frequentemente trabalharemos com dados heterogêneos obtidos de diversas fontes. É importante ter claro em mente o conceito de objetos, atributos e os diversos tipos de dados que podemos nos deparar. Além disso, devemos dedicar uma parte considerável do tempo para formatação, limpeza e transformação dos dados obtidos. Um dos dizeres mais populares em análise de dados é *Garbage in, Garbage out*. Em outras palavras, não podemos esperar bons resultados de dados 'ruins'. Logo, essa é, de fato, uma das tarefas mais importantes em data science.

Antes de iniciarmos nossos estudos sobre as tarefas de pré-processamento dos dados, precisamos esclarecer alguns termos que são frequentemente usados. O primeiro deles é o conceito de **objetos**. Um objeto é a unidade básica da coleta dos dados. Objetos podem ser itens de uma loja, pacientes numa base de dados médicos, clientes, estudantes, documentos, páginas web, etc. Os objetos de um conjunto de dados também são referidos por outros termos como *amostras*, *exemplos* e *instâncias*. O uso desses termos vária de acordo com a origem do profissional. Pessoas de aprendizado de máquina tendem a usar mais o termo *exemplo*, já outras da área de bioinformática, por exemplo, usam o termo *amostra*.

Objetos são descritos por **atributos**. Os atributos representam as características de um objeto. Novamente o termo atributo não é unânime. Estatísticos, por exemplo, adotam o termo variável. Pessoas de aprendizado de máquina usam característica ou *feature*. Outras ainda utilizam o termo *dimensão*. De fato, esse termo é muito utilizado quando se deseja referenciar a quantidade de atributos no conjunto de dados (e.g. conjuntos de alta/baixa dimensionalidade).


## <a id="tipos-atributos"></a> Tipos de atributos

O conceito de tipos de dados não é estranho para nós da computação. Podemos classificar os atributos de acordo com os valores que eles podem assumir. Os tipos possíveis são:

- nominal
- binário
- ordinal
- numérico


#### Atributos nominais

Os atributos nominais ou categóricos são descrições **qualitativas** de objetos. Eles são nomes ou categorias que são atribuídas a um objeto. Por exemplo, a *cor_de_cabelo* é um atributo categórico para uma pessoa, podendo assumir os valores *ruivo*, *louro*, *preto*, *castanho*, *grisalho*, *branco*. Frequentemente escolhemos associar rótulos numéricos a esses valores. Contudo, tais rótulos são apenas artifícios de representação e não representam quantidades. Dessa forma, não podemos calcular nenhuma medida de tendência para esses atributos a não ser a frequência de ocorrência. Também não podemos estabelecer quaisquer comparações entre tais valores, exceto igualdade.

#### Atributos binários

Atributos binários são um caso particular de atributos nominais em que existem apenas duas categorias. Em geral representamos tais atributos por **0** e **1**. Também frequentemente associamos 0 com a ausência do atributo e 1 com a presença. Exemplos de atributos binários são: *fumante* (numa base de dados médicos, indicando se a pessoa é ou não fumante), genêro (0 indicando feminino e 1 masculino). Esses atributos podem ser **simétricos** ou **assimétricos**. Em atributos simétricos ambos os códigos possuem o mesmo 'peso' e são igualmente prováveis. Por exemplo, o gênero masculino e feminino são igualmente prováveis e, nesse caso, tanto faz associar masculino a 0 ou 1. Atributos assimétricos, por outro lado, não são igualmente prováveis. Por exemplo, a indicação de um resultado de um teste de câncer. Proporcionalmente temos mais eventos negativos que positivos. Isto é, os eventos positivos são mais raros que os negativos, logo associamos 1 à presença (evento positivo) e 0 à ausência (evento negativo).

#### Atributos ordinais

Atributos ordinais são aqueles em que existe uma ordem (total) definida entre suas possíveis categorias. Por exemplo, tamanho de roupas divididos P, M, e G. Sabemos que existe uma ordem entre as possíveis categorias, mas não sabemos quantificar tal diferença. Não sabemos quão grande é a diferença de tamanho entre o P e o G. Atributos desse tipo surgem com frequência em questionários associados a números (por exemplo, pesquisa de satisfação). Embora exista uma ordem entre as categorias e essas estejam relacionadas a números, não podemos executar certas operações algébricas com tais atributos. Por exemplo, não faz sentido subtrair duas categorias ou, ainda, calcular a média de um atributo ordinal. Em outras palavras, esses ainda continuam sendo descrições qualitativas de objetos.

#### Atributos numéricos

Esses atributos representam quantidades mensuradas. Os atributos numéricos podem ser grandezas reais ou inteiras. Eles estão subdivididos em dados **intervalares** e de **razão**. 

Nos dados intervalares existe uma relação de ordem entre os diversos valores, e além disso a diferença entre dois valores possui significado. O exemplo clássico é o atributo temperatura. Sabemos que 40 graus é mais quente que 30 (uma diferença de 10 graus). O mesmo pode ser dito em relação a 20 e 10 graus (novamente uma diferença de 10 graus). Contudo, não podemos dizer que um dia em que foi registrado 40 graus é 2x mais quente que um dia que foi registrado 20 graus. Isso é bastante evidente se mudarmos a escala de Celsius para Fahrenheit. 40 graus C é equivalente a 104 F, e 20C equivalente a 68F. Nesse caso, temos uma diferença de aproximadamente 1,5x. O mesmo ocorre quando comparamos anos (em datas). Existe uma diferença de 5 anos entre 1940 e 1945, mas não podemos dizer que 2016 é 2x 1008. A razão é simples: não sabemos a localização exata do zero. O que definimos como zero tanto na escala de temperatura quanto no calendário é uma mera convenção. Mesmo assim, podemos calcular médias, desvios e outras estatísticas de dados intervalares.

Os dados de razão são aqueles em que o zero absoluto é conhecido. Esse ponto representa a total ausência do atributo. A temperatura medida em Kelvin, ao contrário da escala de Celsius e Fahrenheit, é uma escala de razão; 20K é duas vezes mais quente que 10K. O mesmo ocorre, por exemplo, quando comparamos uma pessoa que recebe um salário de R\$20\.000,00, recebe cinco vezes mais que alguém que receba R\$4\.000,00.

## <a id="tipos-em-pandas"></a> Ajustar tipos de dados em Pandas



Muitas vezes quando carregamos dados com Pandas o tipo do atributo pode não ser assinalado corretamente. Nesses casos, temos de ajustá-los antes de iniciarmos a análise. Já tivemos um breve contato com ajuste dos tipos em aulas anteriores, mas iremos revisitar e explorar mais a fundo esse conceito nessa aula. Vamos utilizar os dados do MovieLens novamente como exemplo.

In [1]:
import pandas as pd
import numpy as np


Primeiro carregamos os dados.

In [2]:
usuarios = pd.read_csv(
    "http://files.grouplens.org/datasets/movielens/ml-100k/u.user",
    sep='|',header=None, names=["user_id", "age", "gender", "occupation", "zip_code"])
filmes = pd.read_csv(
    "http://files.grouplens.org/datasets/movielens/ml-100k/u.item",
    sep='|',header=None, names=["movie_id", "movie_title",  "release_date", "video_release_date", "IMDb_URL", "unknown", "Action", "Adventure", "Animation", 
        "Children", "Comedy", "Crime", "Documentary", "Drama", "Fantasy","FilmNoir", 
                                "Horror", "Musical", "Mystery", "Romance", "SciFi","Thriller", "War", "Western"],
encoding='latin1')
avaliacoes = pd.read_csv(
    "http://files.grouplens.org/datasets/movielens/ml-100k/u.data",
    sep='\t',header=None, names=["user_id", "movie_id", "rating", "timestamp"])


Agora verificamos se os dados foram carregados corretamente, assim como se os tipos dos atributos estão condizentes com o que esperamos. O atributo `dtypes` revela os tipos assinalados às colunas de um data frame.

In [3]:
print(usuarios.dtypes)
usuarios.head()

user_id        int64
age            int64
gender        object
occupation    object
zip_code      object
dtype: object


Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


Analisando a tabela de usuário, vemos que `user_id` e `age` foram assinalados corretamente, porém os demais não foram. O gênero, como discutimos anteriormente, é categórico. Pandas possui um tipo `category`, mas ainda assim assinalou o tipo `object`. Podemos corrigir transformando os valores com a função `astype`.

In [4]:
usuarios['gender'] = usuarios.gender.astype('category')
usuarios.gender

0      M
1      F
2      M
3      M
4      F
5      M
6      M
7      M
8      M
9      M
10     F
11     F
12     M
13     M
14     F
15     M
16     M
17     F
18     M
19     F
20     M
21     M
22     F
23     F
24     M
25     M
26     F
27     M
28     M
29     M
      ..
913    F
914    M
915    M
916    F
917    M
918    M
919    F
920    F
921    F
922    M
923    M
924    F
925    M
926    M
927    M
928    M
929    F
930    M
931    M
932    M
933    M
934    M
935    M
936    M
937    F
938    F
939    M
940    M
941    F
942    M
Name: gender, Length: 943, dtype: category
Categories (2, object): [F, M]

Pandas irá tratar atributos categóricos de forma muito similar a objetos. No entanto, algumas funções estarão indisponíveis pelo tipo do dado. Além disso, podemos adicionar outras categorias ao tipo, ainda que elas não estejam presentes nos dados. Podemos também alterar os rótulos das categorias.

In [5]:
usuarios.gender.cat.categories = ['Feminino', 'Masculino']
usuarios.gender

0      Masculino
1       Feminino
2      Masculino
3      Masculino
4       Feminino
5      Masculino
6      Masculino
7      Masculino
8      Masculino
9      Masculino
10      Feminino
11      Feminino
12     Masculino
13     Masculino
14      Feminino
15     Masculino
16     Masculino
17      Feminino
18     Masculino
19      Feminino
20     Masculino
21     Masculino
22      Feminino
23      Feminino
24     Masculino
25     Masculino
26      Feminino
27     Masculino
28     Masculino
29     Masculino
         ...    
913     Feminino
914    Masculino
915    Masculino
916     Feminino
917    Masculino
918    Masculino
919     Feminino
920     Feminino
921     Feminino
922    Masculino
923    Masculino
924     Feminino
925    Masculino
926    Masculino
927    Masculino
928    Masculino
929     Feminino
930    Masculino
931    Masculino
932    Masculino
933    Masculino
934    Masculino
935    Masculino
936    Masculino
937     Feminino
938     Feminino
939    Masculino
940    Masculi

O mesmo pode ser feito com a ocupação e CEP.

In [6]:
usuarios.occupation = usuarios.occupation.astype('category')
usuarios.zip_code = usuarios.zip_code.astype('category')

print(usuarios.occupation.value_counts())
print(usuarios.zip_code.describe())

student          196
other            105
educator          95
administrator     79
engineer          67
programmer        66
librarian         51
writer            45
executive         32
scientist         31
artist            28
technician        27
marketing         26
entertainment     18
healthcare        16
retired           14
lawyer            12
salesman          12
none               9
homemaker          7
doctor             7
Name: occupation, dtype: int64
count       943
unique      795
top       55414
freq          9
Name: zip_code, dtype: object


Repetimos o processo com as outras tabelas.

In [7]:
print(filmes.dtypes)
filmes.head()

movie_id                int64
movie_title            object
release_date           object
video_release_date    float64
IMDb_URL               object
unknown                 int64
Action                  int64
Adventure               int64
Animation               int64
Children                int64
Comedy                  int64
Crime                   int64
Documentary             int64
Drama                   int64
Fantasy                 int64
FilmNoir                int64
Horror                  int64
Musical                 int64
Mystery                 int64
Romance                 int64
SciFi                   int64
Thriller                int64
War                     int64
Western                 int64
dtype: object


Unnamed: 0,movie_id,movie_title,release_date,video_release_date,IMDb_URL,unknown,Action,Adventure,Animation,Children,...,Fantasy,FilmNoir,Horror,Musical,Mystery,Romance,SciFi,Thriller,War,Western
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


Vemos que as colunas de gênero do filme e a data não estão compatíveis com o que esparávamos. Logo, devemos ajustar os tipos.

In [8]:
filmes.release_date = pd.to_datetime(filmes.release_date, format="%d-%b-%Y")
print(filmes.release_date.head())
print(filmes.release_date.describe())

0   1995-01-01
1   1995-01-01
2   1995-01-01
3   1995-01-01
4   1995-01-01
Name: release_date, dtype: datetime64[ns]
count                    1681
unique                    240
top       1995-01-01 00:00:00
freq                      215
first     1922-01-01 00:00:00
last      1998-10-23 00:00:00
Name: release_date, dtype: object


In [9]:
filmes.iloc[:,5:] = filmes.iloc[:,5:].astype('bool')
filmes.iloc[:,5:].apply(pd.value_counts)

Unnamed: 0,unknown,Action,Adventure,Animation,Children,Comedy,Crime,Documentary,Drama,Fantasy,FilmNoir,Horror,Musical,Mystery,Romance,SciFi,Thriller,War,Western
False,1680,1431,1547,1640,1560,1177,1573,1632,957,1660,1658,1590,1626,1621,1435,1581,1431,1611,1655
True,2,251,135,42,122,505,109,50,725,22,24,92,56,61,247,101,251,71,27


Finalmente ajustamos a tabela de avaliações. Nesse caso, temos dois possíveis problemas. A avaliação e o horário estão como numéricos. A avaliação pode ser interpretada tanto como um atributo numérico nesse contexto quanto categórico. Em geral, não faz muito sentido falar de uma avaliação fracionária (ainda que possa ser interessante calcular a média de avaliações). Para praticar a transformação dos dados, vamos optar por codificar a avaliação como um atributo ordinal. O timestamp, por outro lado, deve ser transformado em data para facilitar a visualização.

In [10]:
print(avaliacoes.dtypes)
avaliacoes.head()

user_id      int64
movie_id     int64
rating       int64
timestamp    int64
dtype: object


Unnamed: 0,user_id,movie_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


In [11]:
from pandas.api.types import CategoricalDtype

avaliacoes.rating = avaliacoes.rating.astype(CategoricalDtype(categories=avaliacoes.rating.unique().sort(),
                                                                  ordered=True))
avaliacoes.rating.describe()

count     100000
unique         5
top            4
freq       34174
Name: rating, dtype: int64

In [12]:
avaliacoes.rating

0        3
1        3
2        1
3        2
4        1
5        4
6        2
7        5
8        3
9        3
10       2
11       5
12       5
13       3
14       3
15       3
16       5
17       2
18       4
19       2
20       4
21       4
22       4
23       2
24       4
25       2
26       5
27       2
28       4
29       5
        ..
99970    1
99971    2
99972    3
99973    4
99974    3
99975    3
99976    2
99977    3
99978    5
99979    2
99980    4
99981    3
99982    1
99983    3
99984    2
99985    4
99986    3
99987    2
99988    4
99989    4
99990    4
99991    4
99992    3
99993    2
99994    3
99995    3
99996    5
99997    1
99998    2
99999    3
Name: rating, Length: 100000, dtype: category
Categories (5, int64): [1 < 2 < 3 < 4 < 5]

In [13]:
avaliacoes.timestamp = pd.to_datetime(avaliacoes.timestamp,unit='s')
avaliacoes.timestamp.describe()

count                  100000
unique                  49282
top       1998-03-27 21:20:06
freq                       12
first     1997-09-20 03:05:10
last      1998-04-22 23:10:38
Name: timestamp, dtype: object

## <a id="dados-ausentes"></a> Tratamento de dados ausentes

Outro passo importante para limpeza dos dados é o tratamento de dados ausentes. É quase impossível não nos depararmos com a falta de algum dado para algum atributo. Também devemos tratar essa situação antes de iniciarmos a análise.

Temos algumas alternativas para tratar os dados ausentes:

1. Ignorar os objetos com dados ausentes
2. Preenchê-los manualmente
3. Preenchê-los com um valor único global
4. Usar alguma medida de tendência para atribuir o valor central
5. Usar uma medida de tendência calculado sobre o grupo ao qual o objeto pertence
6. Usar estatística inferencial ou aprendizado de máquina para inferir o valor

Com exceção do último, veremos como executar essa tarefa em Pandas.


#### Ignorar objetos com dados ausentes

Antes de tratar os dados ausentes, precisamos descobrir se eles existem ou não. Pandas possui a função `isnull` que retorna um valor boolean para cada linha/coluna indicando se o objeto possui ou não o dado. Logo, podemos contar quantos dados estão ausentes em cada coluna para sabermos a ausência nesses atributos.

In [14]:
filmes.isnull().sum()

movie_id                 0
movie_title              0
release_date             1
video_release_date    1682
IMDb_URL                 3
unknown                  0
Action                   0
Adventure                0
Animation                0
Children                 0
Comedy                   0
Crime                    0
Documentary              0
Drama                    0
Fantasy                  0
FilmNoir                 0
Horror                   0
Musical                  0
Mystery                  0
Romance                  0
SciFi                    0
Thriller                 0
War                      0
Western                  0
dtype: int64

A função para descartar linhas ou colunas com dados ausentes é `dropna`. Podemos especificar se queremos descartar linhas/colunas com pelo menos um dado ausente, ou se ela deve ser descarta somente se todos o são. Também podemos direcionar a consulta a elementos específicos. Por exemplo, vimos acima que *video_release_date* é ausente para todos os dados, portanto, não queremos descartar objetos que não possuam esse atributo, pois eliminaríamos todos.

In [15]:
print(filmes.dropna(subset=['release_date','IMDb_URL']).isnull().sum())
print(filmes.isnull().sum())

movie_id                 0
movie_title              0
release_date             0
video_release_date    1679
IMDb_URL                 0
unknown                  0
Action                   0
Adventure                0
Animation                0
Children                 0
Comedy                   0
Crime                    0
Documentary              0
Drama                    0
Fantasy                  0
FilmNoir                 0
Horror                   0
Musical                  0
Mystery                  0
Romance                  0
SciFi                    0
Thriller                 0
War                      0
Western                  0
dtype: int64
movie_id                 0
movie_title              0
release_date             1
video_release_date    1682
IMDb_URL                 3
unknown                  0
Action                   0
Adventure                0
Animation                0
Children                 0
Comedy                   0
Crime                    0
Documentary    

In [16]:
filmes.dropna(axis=1,how='all').isnull().sum()

movie_id        0
movie_title     0
release_date    1
IMDb_URL        3
unknown         0
Action          0
Adventure       0
Animation       0
Children        0
Comedy          0
Crime           0
Documentary     0
Drama           0
Fantasy         0
FilmNoir        0
Horror          0
Musical         0
Mystery         0
Romance         0
SciFi           0
Thriller        0
War             0
Western         0
dtype: int64

#### Preencher manualmente valores ausentes

Vimos que somente um filme não possui o *release_date*. Podemos querer consultar manualmente a data de lançamento desse filme e incluí-la no data frame.

In [17]:
np.where(filmes.release_date.isnull())

(array([266]),)

In [18]:
filmes.iloc[266]

movie_id                  267
movie_title           unknown
release_date              NaT
video_release_date        NaN
IMDb_URL                  NaN
unknown                  True
Action                  False
Adventure               False
Animation               False
Children                False
Comedy                  False
Crime                   False
Documentary             False
Drama                   False
Fantasy                 False
FilmNoir                False
Horror                  False
Musical                 False
Mystery                 False
Romance                 False
SciFi                   False
Thriller                False
War                     False
Western                 False
Name: 266, dtype: object

Nesse caso específico, percebemos que se trata de uma inconsistência e, portanto, é descartá-la.

#### Preencher dados ausentes com valor (global ou estatística)

Podemos preencher todos os dados ausentes com um único valor. Isso é feito em Pandas através da função `fillna`, tal como havíamos feito anteriormente quando extraímos o ano da data de lançamento e o convertemos para inteiro. A função espera um valor que será assinalado ao atributo. Esse valor pode ser arbitrário ou uma medida de tendência computada sobre os dados presentes. Por exemplo, podemos preencher a data de lançamento do filme descoberto acima com a moda.

In [19]:
filmes.release_date.fillna(value=filmes.release_date.mode()[0])[266]

Timestamp('1995-01-01 00:00:00')

#### Preencher dados ausentes com estatística computada por grupo

Esse caso requer o particionamento dos dados usando `groupby`. Em seguida, usamos a função `transform`. O tutorial de [*split-apply-combine*](http://pandas.pydata.org/pandas-docs/stable/groupby.html#transformation) mostra um exemplo de como executar essa transformação.

## <a id="discretizacao"></a> Discretização

A depender do tipo de análise que se queira fazer com os dados, será necessária a conversão de dados do tipo numérico para categórico, ou até mesmo mapear o conjunto de categorias para um outro espectro. Por exemplo, em aulas anteriores dividimos os filmes por décadas para contar a quantidade de filmes de cada gênero por década. Podemos discretizar o atributo *release_date*, mapeando para um novo atributo década.

Existem de forma geral dois tipos de discretização: não-supervisionada, e supervisionada. Os métodos não-supervisionados assumem que os objetos não possuem rótulos e, portanto, levam em consideração apenas os valores do atributo para discretizá-lo. As duas técnicas mais comuns de discretização não-supervisionada são divisão em intervalos de mesma **largura**, e de mesma **frequência**. As técnicas supervisionadas, por outro lado, levam em consideração o rótulo dos objetos ao buscar os intervalos. A técnica mais comum é a baseada em entropia proposta por [Fayyad e Irani (1993)](http://web.donga.ac.kr/kjunwoo/files/Multi%20interval%20discretization%20of%20continuous%20valued%20attributes%20for%20classification%20learning.pdf). A ideia básica desse método é encontrar intervalos de tal forma que a proporção de objetos com um mesmo rótulo seja maximizada.

Python/Pandas possui suporte para discretização não-supervisionada. Contudo, não existe um módulo (oficial) que forneça suporte a discretização por entropia. É possível fazê-la utilizando as bibliotecas de R atrvés do módulo `rpy2`. Dessa forma, restringiremos nossos exemplos à discretização não-supervisionada.

#### Discretização por intervalos com mesma largura

A discretização por intervalos com mesma largura é feita através da função `cut` de Pandas.

```python
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
```

O número de intervalos é definido pelo parâmetro `bins`. Esse parâmetro pode ser tanto um inteiro quanto uma sequência de valores escalares. No caso de inteiro, a função ordena os valores a serem discretizados e determina os intervalos igualmente espaçados. No caso de ser uma sequência, a função utiliza os valores como limites dos intervalos. O parâmetro `labels` permite ainda que os rótulos das categorias sejam informados. Caso contrário a função gerará rótulos do tipo `(inicio, fim]`.

In [46]:
filmes['decada'] = pd.cut(filmes.release_date.map(lambda x: x.year),
       bins=np.insert(np.linspace(1940,2000,7,dtype=np.int32),0,1920),
        labels=["20s"]+list(map(lambda x: '{}s'.format(x%100),
       np.linspace(1940,2000,7,dtype=np.int32)[:6])))

filmes.decada


0       90s
1       90s
2       90s
3       90s
4       90s
5       90s
6       90s
7       90s
8       90s
9       90s
10      90s
11      90s
12      90s
13      90s
14      90s
15      90s
16      90s
17      90s
18      90s
19      90s
20      90s
21      90s
22      90s
23      90s
24      90s
25      90s
26      90s
27      90s
28      90s
29      60s
       ... 
1652    90s
1653    90s
1654    90s
1655    90s
1656    90s
1657    90s
1658    90s
1659    90s
1660    90s
1661    90s
1662    90s
1663    90s
1664    90s
1665    90s
1666    90s
1667    90s
1668    90s
1669    90s
1670    90s
1671    90s
1672    90s
1673    60s
1674    90s
1675    90s
1676    90s
1677    90s
1678    90s
1679    90s
1680    90s
1681    90s
Name: decada, Length: 1682, dtype: category
Categories (7, object): [20s < 40s < 50s < 60s < 70s < 80s < 90s]

#### Discretização por intervalos com mesma frequência

A discretização por intervalos com mesma frequência é feita em Pandas através da função `qcut`:

```python
pandas.qcut(x, q, labels=None, retbins=False, precision=3)
```

A discretização nesse caso é feita por quantis. O parâmetro `q` pode ser tanto um inteiro quanto uma lista de quantis. No caso de inteiro, esse é referente ao número de quantis; por exemplo, 4 faz com que a discretização seja feita com base nos quartis. Caso seja uma lista de quantis, eles serão usados para discretizar. É importante ressaltar que os quantis são sempre calculados sobre a amostra (dados).

Podemos usar essa função para discretizar as avaliações (tomadas como números) em *ruim*, *média*, e *boa*.

In [51]:
pd.qcut(avaliacoes.rating.astype(int),3)
#pd.qcut(avaliacoes.rating.astype(int),3).cat.rename_categories(
#    {pd.Interval(left=0.999, right=3.0,closed='right'):'ruim'})
#pd.qcut(avaliacoes.rating.astype(int),3).cat.rename_categories(['ruim','media','boa'])

0        (0.999, 3.0]
1        (0.999, 3.0]
2        (0.999, 3.0]
3        (0.999, 3.0]
4        (0.999, 3.0]
5          (3.0, 4.0]
6        (0.999, 3.0]
7          (4.0, 5.0]
8        (0.999, 3.0]
9        (0.999, 3.0]
10       (0.999, 3.0]
11         (4.0, 5.0]
12         (4.0, 5.0]
13       (0.999, 3.0]
14       (0.999, 3.0]
15       (0.999, 3.0]
16         (4.0, 5.0]
17       (0.999, 3.0]
18         (3.0, 4.0]
19       (0.999, 3.0]
20         (3.0, 4.0]
21         (3.0, 4.0]
22         (3.0, 4.0]
23       (0.999, 3.0]
24         (3.0, 4.0]
25       (0.999, 3.0]
26         (4.0, 5.0]
27       (0.999, 3.0]
28         (3.0, 4.0]
29         (4.0, 5.0]
             ...     
99970    (0.999, 3.0]
99971    (0.999, 3.0]
99972    (0.999, 3.0]
99973      (3.0, 4.0]
99974    (0.999, 3.0]
99975    (0.999, 3.0]
99976    (0.999, 3.0]
99977    (0.999, 3.0]
99978      (4.0, 5.0]
99979    (0.999, 3.0]
99980      (3.0, 4.0]
99981    (0.999, 3.0]
99982    (0.999, 3.0]
99983    (0.999, 3.0]
99984    (

## <a id="normalizacao"></a> Normalização

Em várias situações devemos ajustar valores em diferentes escalas para uma escala comum (em geral [0,1] ou [-1,1]). Isso ocorre porque os algoritmos de mineração/aprendizado podem atribuir pesos maiores aos atributos com valores maiores. Por exemplo, algoritmos de clustering usam distância euclidiana entre objetos computada sobre os atributos. Atributos com grandezas maiores podem 'dominar' outros com grandezas menores.

O processo de normalização é uma tentativa de conferir pesos iguais a todos os atributos. As técnicas mais comuns de normalização são *min-max* e *z-score*.

Usaremos, como exemplo de normalização, os dados sobre qualidade de vinhos disponível em http://mlr.cs.umass.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv.
Veremos como as duas técnicas podem ser facilmente computadas em Python, usando Pandas e Scikit-Learn.

Logo, antes de iniciarmos as discussões sobre as técnicas, precisamos carregar os dados.

In [34]:
wine = pd.read_csv("http://mlr.cs.umass.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv",
                   sep=';')
print(wine.info())
wine.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4898 entries, 0 to 4897
Data columns (total 12 columns):
fixed acidity           4898 non-null float64
volatile acidity        4898 non-null float64
citric acid             4898 non-null float64
residual sugar          4898 non-null float64
chlorides               4898 non-null float64
free sulfur dioxide     4898 non-null float64
total sulfur dioxide    4898 non-null float64
density                 4898 non-null float64
pH                      4898 non-null float64
sulphates               4898 non-null float64
alcohol                 4898 non-null float64
quality                 4898 non-null int64
dtypes: float64(11), int64(1)
memory usage: 459.3 KB
None


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


Podemos observar que os atributos numéricos possuem escalas bastante diferentes. Por exemplo, o teor alcoólico, dióxido de enxofre e cloretos variam em escalas bem diferentes. Nesse caso, precisamos ajustar os valores a uma escala comum.

#### Normalização por *min-max*

Os valores de um atributo são ajustados ao novo intervalo $[a,b]$ pela seguinte fórmula:

$$
v[i] = \frac{v[i] - min(v)}{max(v) - min(v)}(b-a)+a
$$

Podemos aplicar a fórmula usando a função `apply` de Pandas, ou usar [MinMaxScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler) de `sklearn`.

In [35]:
wine.drop('quality',axis=1).apply(lambda x: (x-x.min())/(x.max()-x.min())).head()
#wine.iloc[:,:-1].apply(lambda x: (x-x.min())/(x.max()-x.min()))

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,0.307692,0.186275,0.216867,0.308282,0.106825,0.149826,0.37355,0.267785,0.254545,0.267442,0.129032
1,0.240385,0.215686,0.204819,0.015337,0.118694,0.041812,0.285383,0.132832,0.527273,0.313953,0.241935
2,0.413462,0.196078,0.240964,0.096626,0.121662,0.097561,0.204176,0.154039,0.490909,0.255814,0.33871
3,0.326923,0.147059,0.192771,0.121166,0.145401,0.156794,0.410673,0.163678,0.427273,0.209302,0.306452
4,0.326923,0.147059,0.192771,0.121166,0.145401,0.156794,0.410673,0.163678,0.427273,0.209302,0.306452


In [36]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [52]:
scaler = MinMaxScaler()
#scaler.fit_transform(wine.drop('quality',axis=1))
pd.DataFrame(scaler.fit_transform(wine.drop('quality',axis=1)), columns=wine.drop('quality',axis=1).columns)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,0.307692,0.186275,0.216867,0.308282,0.106825,0.149826,0.373550,0.267785,0.254545,0.267442,0.129032
1,0.240385,0.215686,0.204819,0.015337,0.118694,0.041812,0.285383,0.132832,0.527273,0.313953,0.241935
2,0.413462,0.196078,0.240964,0.096626,0.121662,0.097561,0.204176,0.154039,0.490909,0.255814,0.338710
3,0.326923,0.147059,0.192771,0.121166,0.145401,0.156794,0.410673,0.163678,0.427273,0.209302,0.306452
4,0.326923,0.147059,0.192771,0.121166,0.145401,0.156794,0.410673,0.163678,0.427273,0.209302,0.306452
5,0.413462,0.196078,0.240964,0.096626,0.121662,0.097561,0.204176,0.154039,0.490909,0.255814,0.338710
6,0.230769,0.235294,0.096386,0.098160,0.106825,0.097561,0.294664,0.150183,0.418182,0.290698,0.258065
7,0.307692,0.186275,0.216867,0.308282,0.106825,0.149826,0.373550,0.267785,0.254545,0.267442,0.129032
8,0.240385,0.215686,0.204819,0.015337,0.118694,0.041812,0.285383,0.132832,0.527273,0.313953,0.241935
9,0.413462,0.137255,0.259036,0.013804,0.103858,0.090592,0.278422,0.128976,0.454545,0.267442,0.483871


Veja que o resultado da transformação é um vetor de numpy. Podemos criar um novo data frame a partir desse vetor e assinalar as colunas do data frame original, ou podemos substituir os valores no data frame original.

In [39]:
wineCopy = wine.copy().drop('quality',axis=1)
print(wineCopy.head())
wineCopy.iloc[:,:] = scaler.fit_transform(wine.drop('quality',axis=1))
wineCopy.head()

   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.0              0.27         0.36            20.7      0.045   
1            6.3              0.30         0.34             1.6      0.049   
2            8.1              0.28         0.40             6.9      0.050   
3            7.2              0.23         0.32             8.5      0.058   
4            7.2              0.23         0.32             8.5      0.058   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 45.0                 170.0   1.0010  3.00       0.45   
1                 14.0                 132.0   0.9940  3.30       0.49   
2                 30.0                  97.0   0.9951  3.26       0.44   
3                 47.0                 186.0   0.9956  3.19       0.40   
4                 47.0                 186.0   0.9956  3.19       0.40   

   alcohol  
0      8.8  
1      9.5  
2     10.1  
3      9.9  
4      9.9  


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,0.307692,0.186275,0.216867,0.308282,0.106825,0.149826,0.37355,0.267785,0.254545,0.267442,0.129032
1,0.240385,0.215686,0.204819,0.015337,0.118694,0.041812,0.285383,0.132832,0.527273,0.313953,0.241935
2,0.413462,0.196078,0.240964,0.096626,0.121662,0.097561,0.204176,0.154039,0.490909,0.255814,0.33871
3,0.326923,0.147059,0.192771,0.121166,0.145401,0.156794,0.410673,0.163678,0.427273,0.209302,0.306452
4,0.326923,0.147059,0.192771,0.121166,0.145401,0.156794,0.410673,0.163678,0.427273,0.209302,0.306452


#### Normalização por *z-score*

A normalização por *z-score* consiste em centralizar os dados em torno da média e reescalá-los para que o desvio-padrão seja unitário. A fórmula para o ajuste é:

$$
v[i] = \frac{v[i]-\bar{v}}{\sigma_v}
$$

Novamente, podemos fazê-lo aplicando a fórmula diretamente com Pandas, ou usando [StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler) de `sklearn`.

In [40]:
wine.drop('quality',axis=1).apply(lambda x: (x-x.mean())/x.std()).describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
count,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0
mean,2.653755e-14,-1.053431e-14,5.34461e-14,-2.538326e-15,-1.419036e-15,6.210721e-18,-1.387439e-16,2.148461e-12,1.316599e-14,-1.280696e-14,-2.846868e-14
std,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
min,-3.619982,-1.966784,-2.761461,-1.141827,-1.683102,-1.958477,-3.043919,-2.312802,-3.101091,-2.364468,-2.043089
25%,-0.657434,-0.6770318,-0.5304215,-0.924953,-0.447289,-0.7237012,-0.7144009,-0.770628,-0.6507699,-0.6996389,-0.8241915
50%,-0.06492444,-0.1809733,-0.117266,-0.2348977,-0.1268931,-0.07691388,-0.1026084,-0.09608339,-0.05474574,-0.1739035,-0.09285319
75%,0.5275851,0.414297,0.4611517,0.6917479,0.1935028,0.6286722,0.6738976,0.6929749,0.6075033,0.5270772,0.719745
max,8.704217,8.152811,10.9553,11.71292,13.74167,14.91679,7.09772,15.02976,4.183648,5.171074,2.99502


In [41]:
wineCopy = wine.copy().drop('quality',axis=1)
scaler = StandardScaler().fit(wineCopy)
wineCopy.iloc[:,:] = scaler.fit_transform(wineCopy)
wineCopy.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
count,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0
mean,7.584333000000001e-17,5.196832e-16,6.019639e-16,-1.024542e-16,6.482723e-17,-4.6716410000000003e-17,1.057636e-16,3.212112e-14,-1.20386e-15,-7.572999e-16,-2.178784e-15
std,1.000102,1.000102,1.000102,1.000102,1.000102,1.000102,1.000102,1.000102,1.000102,1.000102,1.000102
min,-3.620351,-1.966985,-2.761743,-1.141944,-1.683274,-1.958677,-3.04423,-2.313038,-3.101408,-2.364709,-2.043297
25%,-0.6575011,-0.677101,-0.5304757,-0.9250474,-0.4473347,-0.723775,-0.7144739,-0.7707066,-0.6508363,-0.6997104,-0.8242757
50%,-0.06493106,-0.1809917,-0.117278,-0.2349217,-0.126906,-0.07692173,-0.1026189,-0.0960932,-0.05475133,-0.1739212,-0.09286267
75%,0.527639,0.4143393,0.4611988,0.6918185,0.1935226,0.6287364,0.6739664,0.6930457,0.6075653,0.527131,0.7198184
max,8.705106,8.153643,10.95642,11.71411,13.74308,14.91831,7.098444,15.0313,4.184075,5.171602,2.995326
