[View in Colaboratory](https://colab.research.google.com/github/thiagobrito/datasciencenotes/blob/master/feature_engineering.ipynb)

# Feature Engineering and generation

## Numeric Features


### Feature Scaling

Existem modelos que dependem de Feature Scale e outros que não. Em geral, modelos lineares dependem de Feature Scale e já modelos baseados em arvores não dependem deste tipo de pré-processamento. 

**Nearest neighbors, modelos lineares e redes neurais performam melhor com Feature Scaling**

```
sklearn.preprocessing.MinMaxScaler
sklearn.preprocessing.StandardScaler
```

### Outliers

Os outliers são dados que estão muito fora do padrão do resto dos dados e podem fazer com que os modelos se atrapalhem durante o processo de treinamento. Uma forma de resolver esta questão é remover os itens.


```
upperbound, lowerbound = np.percentile(x, [1, 99])
y = np.clip(x, upperbound, lowerbound)
```

### Rank Transformation

 Este tipo de transformação pode ser uma opção melhor do que MinMaxScaler se houverem Outliers, porque esta transformação irá mover os outliers para mais próximo de outros objetos. Veja o exemplo abaixo:


*   rank([-100, 0, 1e5]) = [0, 1, 2]
*   rank([1000,1,10]) = [2,0,1]

Modelos lineares, KNN e redes neurais podem se beneficiar deste tipo de transformação se você não tiver tempo para tratar os outliers de forma manual.

```
scipy.stats.rankdata
```

### Log transform:
Ajuda modelos não baseados em árvores e especialmente redes neurais.

Este tipo de transformação faz com que features com valores muito grandes cheguem mais próximos dos valores médios. Além disso, valores mais próximos de zero se tornam mais fáceis de serem identificados. Apesar da simplicidade isso pode aumentar significativamente os resultados de **redes neurais**

```
np.log(1 + x)
```

### Raising to the power < 1:
Ajuda modelos não baseados em árvores e especialmente redes neurais.

Este tipo de transformação faz com que features com valores muito grandes cheguem mais próximos dos valores médios. Além disso, valores mais próximos de zero se tornam mais fáceis de serem identificados. Apesar da simplicidade isso pode aumentar significativamente os resultados de **redes neurais**

```
np.sqrt(x + 2/3)
```

## Ideias interessantes



*   Concatenar o mesmo dataframe com diferentes técnicas de pré-processamento
*   Unir modelos que são treinados com dados pré-processados com técnicas diferentes
*   Estas ideias beneficiam principalmente **KNN, Linear Models e neural networks**

## Conclusão



1.   Processamento de features numericas são diferentes para modelos tree-based and non-tree based:
      *   Modelos Tree-based não são afetados por feature scaling
      *   Modelos não tree-based são **extremamente** dependentes de feature scaling
2.   As técnicas de pré-processamento mais utilizadas são:
      *   MinMaxScaler - to [0, 1]
      *   StandardScaler - to mean==0, std==1
      *   Rank - sets spaces between sorted values to be equal
      *   np.log(1+x) and np.sqrt(1+x)

## Categorical Features

## Categorical and ordinal features

## Datetime and coordinates

## Handling missing values

## Mean encoding

## Regularization

## Extensions and generalizations

## Statistics and distance based features

## Matrix factorizations

## Feature interactions

## t-SNE

## KNN Features Implementation