## 3. Análise e Transformação de Variáveis Qualitativas
#### Por Adriano Santos

Neste seguimento iremos analisar e, se necessário, transformar as variáveis qualitativas de nosso *dataset*. Por que devemos analisar e, se possível transformar essas variáveis?

Então... nós temos dois tipos de variáveis qualitativas: a) nominais e b) ordinais. Como o próprio nome já diz, a primeira são nomes e não expressam escalas. Por exemplo: uma variável (ou dimensão, como prefiro chamar) chamada de **cores** (variável nominal) possui as opções: preta, branca, amarela, azul etc. Por mais que você tenha uma cor preferida, em efeitos práticos e gerais, não significa dizer que ela tenha maior importância do que as demais cores - todas possuem o mesmo nível de importância. No entanto, quando a nossa variável é do tipo ordinal, a ordem faz diferença.

Imagine que você esteja se referindo ao tamanho de camisas (PP, P, M, G, GG, XG...). A ordem desses valores faz completa diferença para a nossa análise, porque: P > PP; M > P; etc. Quando temos uma variável qualitativa, podemos realizar algumas ações para melhorar a performance do nosso algoritmo. Porém, os procedimentos devem ser diferentes para as variáveis qualitativas nominais e para as ordinais. 

Vamos lá! Perceba que iremos repetir várias das etapas anteriores. Isso deve ser encarado como algo padrão. Então, você deve ter em mente que atividades como carregar os dados, analisar as estruturas, tratar *data missing* etc. fazem parte de quase todas as suas análises. 

In [55]:
# Importando as bibliotecas
import pandas as pd

# Parâmetro referente aos dataframes (https://stackoverflow.com/questions/21463589/pandas-chained-assignments)
pd.options.mode.chained_assignment = None

### 3.1 Carregando a estrutura do *dataset*

Nós já conhecemos esse procedimento. Lembre-se que nós o fizemos no exemplo anterior. Sendo assim, irei supor que você se lembre de como foi feito e que você o repetirá aqui. Aconselho que você nunca copie o texto ou o comando, mas que sempre digite. Isso fará com que você memorize e aprenda de verdade a cada passo.

In [3]:
# Carrangando os dados
df = pd.read_csv('dados/deputados.csv', delimiter=';', low_memory=False)
# Visualiza os 5 primeiros registros do dataset. 
df.rename({'txNomeParlamentar ':'parlamentar'}, axis='columns', inplace=True)
df.head()

Unnamed: 0,parlamentar,idecadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,...,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento
0,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,2.0,2018.0,0.0,,,1471159.0,6192.0,0.0,3074.0,6519085.0
1,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,4.0,2018.0,0.0,,,1497012.0,6289.0,0.0,3074.0,6586329.0
2,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,3.0,2018.0,0.0,,,1471173.0,6192.0,0.0,3074.0,6519234.0
3,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,3.0,2018.0,0.0,,,1483154.0,6238.0,0.0,3074.0,6549679.0
4,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,1.0,2018.0,0.0,,,1463325.0,6139.0,0.0,3074.0,6498316.0


In [4]:
# Analisando as informações do dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168380 entries, 0 to 168379
Data columns (total 29 columns):
parlamentar                  168380 non-null object
idecadastro                  167895 non-null float64
nuCarteiraParlamentar        167894 non-null object
nuLegislatura                168379 non-null float64
sgUF                         167894 non-null object
sgPartido                    167894 non-null object
codLegislatura               167894 non-null float64
numSubCota                   168379 non-null float64
txtDescricao                 168379 non-null object
numEspecificacaoSubCota      168378 non-null float64
txtDescricaoEspecificacao    40373 non-null object
txtFornecedor                168379 non-null object
txtCNPJCPF                   155428 non-null object
txtNumero                    166796 non-null object
indTipoDocumento             168376 non-null float64
datEmissao                   166796 non-null object
vlrDocumento                 168375 non-null float64

### 3.2 Iniciando procedimentos de análise e transformação

Antes de qualquer coisa, iremos reduzir as dimensões do nosso *dataset*. Não utilizaremos aqui nenhuma técnica especial para a redução das dimensões. Selecionaremos apenas algumas dimensões para que as técnicas que são foco do presente capítulo sejam aplicadas.


In [32]:
# Analisando se existe alguma dimensão do dataset com dados faltantes. 
df_reduzido = df[["parlamentar", "sgUF", "sgPartido", "txtDescricao", "vlrDocumento"]]
df_reduzido.head()

Unnamed: 0,parlamentar,sgUF,sgPartido,txtDescricao,vlrDocumento
0,ABEL MESQUITA JR.,RR,DEM,COMBUSTÍVEIS E LUBRIFICANTES.,70.0
1,ABEL MESQUITA JR.,RR,DEM,COMBUSTÍVEIS E LUBRIFICANTES.,200.0
2,ABEL MESQUITA JR.,RR,DEM,COMBUSTÍVEIS E LUBRIFICANTES.,1492.81
3,ABEL MESQUITA JR.,RR,DEM,COMBUSTÍVEIS E LUBRIFICANTES.,1474.33
4,ABEL MESQUITA JR.,RR,DEM,COMBUSTÍVEIS E LUBRIFICANTES.,1513.82


In [45]:
# Removendo as instâncias que possuem missing values
df_reduzido.dropna(inplace=True) 

### 3.2.1 Transformando os dados

Agora, iremos transformar as dimensões nominais em representações numéricas. Utilizaremos o módulo *LabelEncoder* do **Sckit-learn**. Por que isso é importante? Por dois motivos: além de ajudar na melhoria/desempenho do processamento das informações, ele evita o viés. Sim. O viés. 

Por exemplo: em nosso *dataset* temos uma dimensão com os nomes dos candidatos. Se desejarmos analisar, por exemplo, os gastos desses ou até mesmo realizar alguma análise mais aprofundada, idealmente devemos remover ou ocultar o nome dos participantes das pesquisas. Isso é padrão: não devemos usar os nomes das pessoas em nossas pesquisas, exceto que desejemos analisar a participação específica desses.

Vamos lá! Perceba que iremos repetir várias das etapas anteriores. Isso deve ser encarado como algo padrão. Então, você deve ter em mente que atividades como carregar os dados, analisar as estruturas, tratar *data missing* etc. fazem parte de quase todas as suas análises.

In [46]:
# Importando a biblioteca 
from sklearn.preprocessing import LabelEncoder
# Instanciando o objeto
le = LabelEncoder()

# Transformações
df_reduzido.sgPartido = le.fit_transform(df_reduzido.sgPartido.astype(str))
df_reduzido.sgUF = le.fit_transform(df_reduzido.sgUF.astype(str))
df_reduzido.txtDescricao = le.fit_transform(df_reduzido.txtDescricao.astype(str))
df_reduzido.parlamentar = le.fit_transform(df_reduzido.parlamentar.astype(str))

# Visualizando os dados
df_reduzido.head()

Unnamed: 0,parlamentar,sgUF,sgPartido,txtDescricao,vlrDocumento
0,110,14,11,10,70.0
1,110,14,11,10,200.0
2,110,14,11,10,1492.81
3,110,14,11,10,1474.33
4,110,14,11,10,1513.82


Ok... até aqui, tudo bem. Mas perceba o seguinte: os valores nominais foram convertidos para valores numéricos. Porém, isso nos gera um novo problema. O que significa o valor 2 na dimensão parlamentar, por exemplo? O valor 2 é maior do que o valor 1? Sabemos que, neste caso, não - e em todos os casos presentes em nosso *dataset*. Sendo assim, precisaremos realizar um procedimento conhecido como *Dummy Coding*. 

O *Dummy Coding* fará com que as classes (ex: branca, preta, amarela ...) de cada dimensão se torne uma nova dimensão e que receberão valores 0 ou 1 para indicar a ausência ou presença de um valor. Suponha que tenhamos uma dimensão chamada **cor** e os valores das classes são **branca**, **preta** e **vermelha**. Com o procedimento do LabelEncoder, teríamos a conversão dos nomes por números (1, 2 e 3). Porém, quando realizamos o *Dummy Coding*, a dimensão **cor** será substituída por três novas dimensões, que receberão os valores 0 e 1, de acordo com o valor de cada registro. Isso significa dizer que, se a cor preferia de um participante **U** for preta, então a dimensão preta receberá o valor 1 e as demais receberão o valor 0.

Por que devemos fazer isso? Quando aplicamos o procedimento de *Dummy Coding* possibilitamos que modelos de predição possam utilizar dos valores das variáveis nominais. Então, vamos lá.

Para realizarmos o procedimento de *Dummy Coding* precisaremos importar o módulo **OneHotEncoder** do *sklearn.preprocessing*. 

In [48]:
# Importando módulo
from sklearn.preprocessing import OneHotEncoder
# Criando objeto
dc = OneHotEncoder(categorical_features=[0, 1, 2, 3]) # Os números de 0 a 3 representam as colunas que serão processadas.
# Realiza a conversão
df_reduzido = dc.fit_transform(df_reduzido).toarray()
# Perceba que você não precisou informar quais as dimensões serão transformadas no dataframe. Isso porque já foi definido
# no momento que o objeto OneHotEncoder foi instanciado.

In [50]:
# Visualiza os dados
df_reduzido

array([[   0.  ,    0.  ,    0.  , ...,    0.  ,    0.  ,   70.  ],
       [   0.  ,    0.  ,    0.  , ...,    0.  ,    0.  ,  200.  ],
       [   0.  ,    0.  ,    0.  , ...,    0.  ,    0.  , 1492.81],
       ...,
       [   0.  ,    0.  ,    0.  , ...,    0.  ,    0.  ,  685.93],
       [   0.  ,    0.  ,    0.  , ...,    0.  ,    0.  ,  202.  ],
       [   0.  ,    0.  ,    0.  , ...,    0.  ,    0.  , -128.  ]])

### 3.3 Podemos fazer mais alguma coisa?

A resposta a essa pergunta é: depende. :)

Uma das atividades que, geralmente, é aplicada nesta etapa do tratamento dos dados é a *Feature scaling* (https://en.wikipedia.org/wiki/Feature_scaling). 

E o que se ganha com esse procedimento? Desempenho e modelos mais precisos. Ai você pode me perguntar: mas até nas dimensões que foram transformadas? Bem... se você realizar uma pesquisa no **Google** sobre *Feature scaling*, por exemplo, você encontrará vários defensores do seu uso (sim) e do não. Eu diria que depende muito do que se deseja fazer, mas, na maioria dos casos eu aconselho que sim. Bem porque, os dados "terão aparencia não identificada pelo homem" e isso evita viés. Bem... avalie, ok? 

Vamos agora apresentar como você utiliza o módulo **StandardScaler** para realizar o *Feature Scaling*.



In [54]:
# Importando módulo
from sklearn.preprocessing import StandardScaler
# Instancia o objeto StandardScaler
fs = StandardScaler(with_mean=True) # Utilizei a abordagem Mean normalization
# Realiza o treinamento
df_reduzido = fs.fit_transform(df_reduzido)
# Visualizando os dados
df_reduzido

array([[-0.06330153, -0.0490426 , -0.03698469, ..., -0.03225567,
        -0.01242743, -0.30145366],
       [-0.06330153, -0.0490426 , -0.03698469, ..., -0.03225567,
        -0.01242743, -0.23993662],
       [-0.06330153, -0.0490426 , -0.03698469, ..., -0.03225567,
        -0.01242743,  0.37183141],
       ...,
       [-0.06330153, -0.0490426 , -0.03698469, ..., -0.03225567,
        -0.01242743, -0.00999066],
       [-0.06330153, -0.0490426 , -0.03698469, ..., -0.03225567,
        -0.01242743, -0.2389902 ],
       [-0.06330153, -0.0490426 , -0.03698469, ..., -0.03225567,
        -0.01242743, -0.39514884]])

Você percebeu o que aconteceu com os dados? Não ficaram "estranhos ao nossos olhos"? Aos nossos olhos sim, mas não para os algoritmos de *machine learning*. :)

Muito bom, pessoal! Aprendemos a realizar várias atividades consideradas como fundamentais para a preparação dos nossos dados. Alguns detalhes deverão ser mais aprofundados ainda, claro. Mas já temos a base.

Ainda falta a ação de *splitting data* - que será a nossa última atividade desse curso. Conversaremos mais sobre a atividade de normalização de dados. Aqui, nós normalizamos tudo que tínhamos em nosso *dataset*, porém essa atividade não deve ser realizada em todos os casos analisados.

Na nossa próxima (e última) atividade, nós trabalharemos a atividade de *splitting data* que se traduz na atividade de dividir o nosso *dataset* (ou fatiar) em dados de treinamento e testes (e validação), que serão utilizados em nossos modelos de *machine learning*. Também apresentarei quando você deve ou não normalizar a dimensão que se caracteriza como variável dependente para o nosso modelo.

### O que aprendemos hoje?

* Revisamos como carregar os dados para análise e o processo de análise da estrutura dos dados;
* Reduzimos a dimensão do nosso dataset (mesmo que de forma manual);
* Aprendemos como analisar e transformar os nossos dados;
* Realizamos as atividades de transformação de dados nominas em valores numéricos e, também, a atividade de *Dummy Coding*;
* Aprendemos a atividade de normalização dos dados.