# Tarefas: Mineração de dados 

## Pre-Processamento

1 - Normalize os dados do vetor a seguir considerando: 

`[67, 43, 58, 28, 74, 65, 70, 42, 57, 60]`

In [1]:
import numpy as np

X = np.array([67, 43, 58, 28, 74, 65, 70, 42, 57, 60])

### A) escalonamento decimal

É uma técnica de normalização onde os valores dos atributos são divididos por uma potência de 10 tal que o valor absoluto máximo esteja entre 0 e 1.
Fórmula:

$$
x' = \frac{x}{10^j}
$$

Onde $j$ é o menor número inteiro tal que:

$$
\max(|x'|) < 1
$$

In [2]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer

def decimal_scaling(X):
    #X = np.array(X, dtype=np.float64)
    j = np.ceil(np.log10(np.max(np.abs(X), axis=0))).astype(int)
    return X / (10 ** j)

scaler = FunctionTransformer(decimal_scaling)
X_scaled = scaler.fit_transform(X)
print(X_scaled)


[0.67 0.43 0.58 0.28 0.74 0.65 0.7  0.42 0.57 0.6 ]


### B) z-score

A fórmula do Z-Score é:

$$
z = \frac{x - \mu}{\sigma}
$$

Onde:

* $x$ é o valor original
* $\mu$ é a média da coluna
* $\sigma$ é o desvio padrão da coluna


In [3]:
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class ZScoreScaler(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        X = np.array(X, dtype=np.float64)
        self.mean_ = X.mean(axis=0)
        self.std_ = X.std(axis=0)
        return self

    def transform(self, X):
        X = np.array(X, dtype=np.float64)
        return (X - self.mean_) / self.std_

scaler = ZScoreScaler()
X_scaled = scaler.fit_transform(X)

# Verificar média ~0 e desvio padrão ~1
print("Média:", X_scaled.mean(axis=0))
print("Desvio padrão:", X_scaled.std(axis=0))

Média: 9.992007221626409e-17
Desvio padrão: 1.0


### C) max-min

É usado para normalizar os dados, escalando cada feature para um intervalo específico, geralmente entre 0 e 1. 

Ele aplica a seguinte fórmula:

$$
X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
$$


In [4]:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np

# Instanciar o scaler
scaler = MinMaxScaler()

# Aplicar o fit_transform
X_scaled = scaler.fit_transform(X.reshape(-1, 1)).flatten()

print(X_scaled)

[0.84782609 0.32608696 0.65217391 0.         1.         0.80434783
 0.91304348 0.30434783 0.63043478 0.69565217]
