# Disciplina de Mineração de Dados

## Normalizando Dados

Universidade Federal de Sergipe, Campus Prof. Alberto Carvalho - Itabaiana

Professores:

- Raphael Silva Fontes

- Prof. Dr. Methanias Colaço Rodrigues Júnior

## Normalizando Dados
### O que é Normalização?

Normalização significa tornar normal, ou seja, tornar a distribuição de frequências dos valores parecido com a distribuição normal ou, pelo menos, torná-la simétrica, minimizando os problemas oriundos do uso de unidades e dispersões distintas entre as variáveis.

Por exemplo, o conjunto de dados possui informações em Dolar e Real, a normalização deve ser feita para que os valores "conversem", podendo ser convertido para o Dolar ou para o Real.
Outro exemplo prático: medidas de tamanho, o dataset contem informações em quilometro e metro, normalizar os dados para metro.

### Mas se não normalizar, o que pode acontecer?

Suponto que temos duas variáveis, númericas, idade e renda. A faixa etária varia de 1 a 110 anos, enquanto a renda varia de R100,000 a R40.000,00 ou mais. A renda é cerca de 1.000 vezes maior que a idade, ou seja, os intervalos são muito diferentes. A renda influenciará no modelo devido aos valores maiores e não necessariamente porque a renda é uma importante caracteristica para o modelo.

### Primeira Forma Normal (1FN)

Na primeira forma normal, os atributos precisam ser únicos, dessa forma as tabelas não podem conter valores repetidos e nem atributos possuindo mais de um valor. Por exemplo:

| cliente_id | cliente_endereco | cliente_telefones |
| --- | --- | --- |
| 1 | Rua das Flores, 101 | 79 9 9999-9999 |
| 1 | Rua das Flores, 101 | 79 9 8888-8888 |

Uma pessoa poderá ter mais de um número de telefone, ou seja o atributo "telefone" é multivalorado. Para normalizar nesse caso é necessário:
1. Identificar a chave primária e única;
1. Identificar a coluna que possui dados repetidos, neste cenário é "telefone";
1. Construir uma tabela para armazenar os valores do atributo "telefone, efetuando a relação entre as tabelas.

| cliente_id | cliente_endereco |
| --- | --- |
| 1 | Rua das Flores, 101 |

| telefone_id | cliente_id | cliente_endereco |
| --- | --- | --- |
| 1 | 1 | 79 9 8888-8888 |
| 2 | 1 | 79 9 8888-8888 |


### Segunda Forma Normal (2FN)

Obrigatoriamente para prosseguir na forma normal, os dados precisam ter passado pela normalização anterior (1FN).

A 2FN define que os atributos normais, ou seja, os atributos que não são chaves, devem depender unicamente da chave primária da tabela. Como as colunas da tabela não são dependentes dessa chavem, os atributos devem ser removidos da tabela principal, criando uma tabela para esses atributos.

| professor_id | curso_id | descricao_curso | valor_hora_aula |
| --- | --- | --- | --- |
| 1 | 1 | mineração de dados | 15.00 |
| 1 | 2 | engenharia de software | 7.50 |

Como é possível observar, o atributo "descricao_curso" não depende da chave primária "professor_id", mas somente da chave "curso_id". Para tratar:

1. O atributo descrição curso não depente da chave primária, nesse caso é possível removê-los;
1. Construir uma nova tabela para os dados removidos anteriormente.

| id_professor | id_curso | valor_hora_aula |
| --- | --- | --- |
| 1 | 1 | 15.00 |
| 1 | 2 | 7.50 |

| id_curso | descricao_curso |
| --- | --- |
| 1 | mineração de dados |
| 2 | engenharia de software |

### Terceira Forma Normal (3FN)

Obrigatoriamente para prosseguir na forma normal, os dados precisam ter passado pela normalização anterior (2FN e 1FN).

Na 3FN todos os atributos dessa tabela devem ser funcionalmente independentes uns dos outros, ao mesmo tempo que devem ser dependentes exclusivamente da chave primária. 

Essa Forma Normal foi projetada para melhorar o desempenho de processamento dos bancos de dados e minimizar os custos de armazenamento.

Seguindo ao exemplo: 

| funcionario_id | nome | salario | fgts |
| --- | --- | --- | --- |

O valor do FGTS, é proporcional ao valor do salário, logo o atributo normal "fgts" é dependente do atributo "salario". Para normalizar este caso, é necessário:

1. Identificar os dados dependentes de outros;
1. Removê-los da tabela, pois esses atribuos podem ser deixados para a camada de negócio a responsabilidade pelo seu cálculo. Esse valor de FGTs pode ser adicionado em uma nova tabela e referenciar o funcionário.

### Mas, como normalizar os dados?

Duas técnicas que podem ser utilizadas: normalização e a padronização.

A normalização transformará os dados das variáveis dentro de um intervalo de 0 e 1, ou -1 e 1 (negativo). Já a padronização irá resultar em uma média igual a 0 e um desvio padrão igual a 1.

Padronizar os dados normalmente é feito utilizando a fórmula do _z-score_:

![](https://miro.medium.com/max/279/1*bxVffEJZKnlJ5WfPMgefVg@2x.png)

Nornalização utiliza a fóruma de min-max: 

![](https://miro.medium.com/max/202/1*9N7QdpE_CfvkTyirk7_oWw.png)


Se uma distruição não é gaussiano, ou o desvio padrão é muito pequeno, normalizar os dados é uma **obrigação**.

## Exemplo prático de normalização

In [1]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go

In [5]:
np.random.seed(25112020)
idade = np.random.randint(1, 110, size = 1000)
salario = np.random.randint(0, 40000, size = 1000)

In [6]:
idade, salario

(array([ 62,  89,  72,  70,  12, 108,  66,  89,  16,  51,  39,  84, 108,
         28,  13,  49,  29, 106, 107,   4,  52,  89,  56,   1, 106,  78,
        104,  74,  73,  94, 109,  45,  62,  55,  33,  26,  93,  79,  21,
         46,  21, 104,  39,  85,  97,  73,  28,  32,  31,   6,  61,  69,
         67,  89,  51,  68,  32,  53,  99,  49,  83,  76,  42,  80,  47,
         67,  60,  55,  24,  26,  95,  21,  31, 100,  58,  76, 108,  29,
         28,  78,  33,   8,  10,  91,  26,  19,  20,  55,   3,  30,   2,
         70,   1,  31,  69,  18,  35,  63,  20,   6, 103, 108,  17,  71,
          6,   9,  85,  14, 106,  82,  16, 109,  16,  86,  69,  94,  63,
         70,  51,  79,  31,  73,  33,  49,  72,  43,  62,  57,  29,  17,
         43,  23,  32,  51,  30,  24,  74,  28, 109,  58, 105, 103,  83,
          4,  37,  86,  78, 106,  73, 108,  69,  72,  55,  17,  83, 109,
         41,  25,   5,   2,  11,  77,  89,  75,  99, 104,  93,  29,  33,
         99,  99, 107, 103,  55,  13,  60,   8,  73

In [7]:
fig = go.Figure()
fig.add_trace(go.Scatter(x = idade, y= salario, mode = 'markers'))
fig.show()

In [8]:
df = pd.DataFrame({'idade': idade, 'salario': salario})

In [9]:
df

Unnamed: 0,idade,salario
0,62,3601
1,89,35531
2,72,33004
3,70,4608
4,12,2053
...,...,...
995,31,20310
996,108,34691
997,68,3478
998,8,28276


In [None]:
#padronização
#x - média/desvio_padrao

In [17]:
df.mean()/df.std()

idade      1.765799
salario    1.742076
dtype: float64

In [18]:
((108-df.mean())/df.std())['idade']

1.6787913425046468

In [19]:
df_padronizacao = (df-df.mean())/df.std()

In [20]:
df_padronizacao

Unnamed: 0,idade,salario
0,0.211651,-1.430207
1,1.072799,1.335130
2,0.530595,1.116276
3,0.466806,-1.342995
4,-1.383067,-1.564274
...,...,...
995,-0.777074,0.016896
996,1.678791,1.262381
997,0.403017,-1.440860
998,-1.510644,0.706802


In [26]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=df_padronizacao['idade'], y=df_padronizacao['salario'], mode = 'markers'))
fig.show()

In [34]:
y1 = np.random.randn(50) - 1
y2 = np.random.randn(50) + 1

fig = go.Figure()

fig.add_trace(go.Box(y=y1, name = '2020'))
fig.add_trace(go.Box(y=y2, name = '2019'))
fig.update_layout(title = ' Aquisição de Medicamento em Itabaina durante a Pandêmia')
fig.show()

In [35]:
#normalização
df_min_max = (df-df.min())/(df.max()-df.min())

In [36]:
df_min_max

Unnamed: 0,idade,salario
0,0.564815,0.089625
1,0.814815,0.889434
2,0.657407,0.826136
3,0.638889,0.114849
4,0.101852,0.050849
...,...,...
995,0.277778,0.508166
996,0.990741,0.868393
997,0.620370,0.086544
998,0.064815,0.707705


In [39]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=df_min_max['idade'] , y=df_min_max['salario'], mode = 'markers'))
fig.show()

In [48]:
fig = go.Figure()
fig.add_trace(go.Box(y=df_min_max['idade'], name ='idade'))
fig.add_trace(go.Box(y=df_min_max['salario'], name = 'salario'))
fig.show()