# Handling Numerical Data

---

## Diferença entre Normalização e Padronização
- **Min-Max Scaling (Normalização)** → Reescala os valores para um intervalo fixo (exemplo: 0 a 1).
- **StandardScaler (Padronização)** → Ajusta os valores para terem **média 0 e desvio padrão 1**.

Se os dados seguem uma distribuição normal (ou aproximadamente normal), o StandardScaler é a melhor opção, sendo ideal para modelos que assumem essa distribuição, como PCA e Regressão Linear. Já o MinMaxScaler é útil quando o modelo se beneficia de valores em um intervalo fixo, como redes neurais e KNN, pois normaliza os dados para um range específico, preservando a escala original sem alterar a forma da distribuição.


## O que é o Min-Max Scaling?
O **Min-Max Scaling** é uma técnica de normalização usada em Machine Learning para **reescalar os valores de uma variável para um intervalo específico**, geralmente entre **0 e 1** ou **-1 e 1**.

Ele ajusta os valores de uma feature de forma que **o menor valor se torne 0 e o maior valor se torne 1**, mantendo a mesma distribuição relativa dos dados.

---

### Por que usar Min-Max Scaling?
Muitos algoritmos de Machine Learning, como **Redes Neurais, K-Means e SVM**, funcionam melhor quando os dados estão na **mesma escala**.  
Se os valores das variáveis tiverem faixas muito diferentes (por exemplo, uma feature variando de 0 a 1 e outra de 1.000 a 10.000), o modelo pode **dar mais peso para as features com valores maiores**, impactando negativamente no desempenho.

### Benefícios do Min-Max Scaling:
- **Evita que valores grandes dominem o modelo**.
- **Melhora a estabilidade numérica de algoritmos** baseados em gradiente (como Redes Neurais).
- **Ajuda modelos de distância (como KNN e K-Means)** a fazer comparações mais justas entre as variáveis.


O Min-Max Scaler é essencial para **evitar problemas de escala entre variáveis**, garantindo que o modelo de Machine Learning **aprenda de maneira equilibrada**

In [1]:
import numpy as np
from sklearn import preprocessing 

feature = np.array([[-500.5],
                    [-100.1],
                    [0],
                    [100.1],
                    [900.9]])

feature.shape

(5, 1)

In [2]:
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1)) # intervalo
scaled_feature = minmax_scale.fit_transform(feature)

scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

## O que é a Padronização (Standardization)?
A **padronização** é uma técnica de transformação de dados usada para ajustar uma feature para ter **média 0 e desvio padrão 1**. Isso garante que os valores sejam comparáveis em termos de quantos desvios padrão estão afastados da média.

---

### Por que usar StandardScaler?
Diferente da normalização (**Min-Max Scaling**), que reescala os valores para um intervalo fixo, a **padronização transforma os dados em uma distribuição com média zero**. Isso é essencial para **modelos baseados em distribuições estatísticas**.

### Benefícios da padronização:
- **Torna os dados comparáveis**, removendo viés de escala.
- **Evita que valores extremos tenham impacto desproporcional**.
- **É amplamente usada em modelos estatísticos e Machine Learning**, como:
  - **Regressão Linear**
  - **PCA (Análise de Componentes Principais)**
  - **SVM (Support Vector Machine)**
  - **K-Means**
  - **Redes Neurais (às vezes, dependendo do caso)**

O **StandardScaler** é essencial para tornar os dados comparáveis, removendo influência da escala e garantindo que os modelos estatísticos **aprendam padrões reais, não apenas diferenças de magnitude**  

In [3]:
x = np.array([[-1000.1],
              [-200.2],
              [500.5],
              [600.6],
              [9000.9]])

scaler = preprocessing.StandardScaler()
standardized = scaler.fit_transform(x)

standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

In [4]:
print("Mean:", round(standardized.mean()))
print("Standard deviation:", standardized.std())

Mean: 0
Standard deviation: 1.0


## O que é a Normalização de Observações?
A **normalização** (normalization) é uma técnica que **reescala** os valores de uma observação (linha) para que **tenham um comprimento total de 1**. Isso é feito dividindo cada valor da observação por uma norma específica.

Ao contrário de técnicas como MinMaxScaler e StandardScaler, que atuam **nas features (colunas)**, a normalização atua **nas observações (linhas)**.

---

### Por que usar Normalizer?
- **Torna os dados comparáveis em magnitude** independentemente da escala original.
- **Útil para dados esparsos ou de alta dimensionalidade**, como:
  - **Text Mining (TF-IDF, Bag of Words)**
  - **Vetores de características em Machine Learning**
  - **Redes Neurais, onde vetores normalizados podem melhorar a estabilidade do treinamento**

### Benefícios:
- Mantém a **proporção relativa entre os valores** dentro de cada linha.
- **Ajuda a evitar que valores grandes dominem o modelo**.
- **Útil para algoritmos baseados em similaridade vetorial**, como:
  - **KNN (K-Nearest Neighbors)**
  - **SVM (Support Vector Machine)**
  - **Redes Neurais**
  - **Modelos baseados em distâncias (ex: Cosine Similarity)**

### **Diferença entre L1 e L2**
- **L2 (Euclidiana):** Vetores de magnitude 1 e é útil quando a relação angular entre os pontos é mais importante do que a escala dos valores individuais.
- **L1 (Manhattan):** Preserva esparsidade dos dados (mantém zeros intactos), soma total sempre é 1.

In [5]:
from sklearn.preprocessing import Normalizer

features = np.array([[0.5, 0.5],
                    [1.1, 3.4],
                    [1.5, 20.2],
                    [1.63, 34.4],
                    [10.9, 3.3]])

normalizer = Normalizer(norm="l2")

normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

## Transformação de Features

In [6]:
from sklearn.preprocessing import FunctionTransformer

In [7]:
feature_array = np.array([[2, 3],
                          [2, 3],
                          [2, 3]])

In [9]:
def add_ten(x):
    return x + 10

ten_transformer = FunctionTransformer(add_ten)

feature_array = ten_transformer.transform(feature_array)
feature_array

array([[12, 13],
       [12, 13],
       [12, 13]])

## Discretizando Features

In [11]:
from sklearn.preprocessing import Binarizer

age = np.array([[6],
                [12],
                [20],
                [36],
                [65]])

binarizer = Binarizer(threshold=18) # limiar

age = binarizer.fit_transform(age)
age

array([[0],
       [0],
       [1],
       [1],
       [1]])

## Agrupando Observações com Clusterização

In [14]:
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

features, _ = make_blobs(n_samples=50, n_features=2, centers=3, random_state=1)

dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])
dataframe.head()

Unnamed: 0,feature_1,feature_2
0,-9.877554,-3.336145
1,-7.28721,-8.353986
2,-6.943061,-7.023744
3,-7.440167,-8.791959
4,-6.641388,-8.075888


In [15]:
clusters = KMeans(3, random_state=0)
clusters.fit(features)

dataframe["group"] = clusters.predict(features)
dataframe.head()



Unnamed: 0,feature_1,feature_2,group
0,-9.877554,-3.336145,2
1,-7.28721,-8.353986,0
2,-6.943061,-7.023744,0
3,-7.440167,-8.791959,0
4,-6.641388,-8.075888,0
