# Feature Engineering and generation

## Numeric Features


### Feature Scaling

Existem modelos que dependem de Feature Scale e outros que não. Em geral, modelos lineares dependem de Feature Scale e já modelos baseados em arvores não dependem deste tipo de pré-processamento. 

**Nearest neighbors, modelos lineares e redes neurais performam melhor com Feature Scaling**

```
sklearn.preprocessing.MinMaxScaler
sklearn.preprocessing.StandardScaler
```

### Outliers

Os outliers são dados que estão muito fora do padrão do resto dos dados e podem fazer com que os modelos se atrapalhem durante o processo de treinamento. Uma forma de resolver esta questão é remover os itens.


```
upperbound, lowerbound = np.percentile(x, [1, 99])
y = np.clip(x, upperbound, lowerbound)
```

### Rank Transformation

 Este tipo de transformação pode ser uma opção melhor do que MinMaxScaler se houverem Outliers, porque esta transformação irá mover os outliers para mais próximo de outros objetos. Veja o exemplo abaixo:


*   rank([-100, 0, 1e5]) = [0, 1, 2]
*   rank([1000,1,10]) = [2,0,1]

Modelos lineares, KNN e redes neurais podem se beneficiar deste tipo de transformação se você não tiver tempo para tratar os outliers de forma manual.

```
scipy.stats.rankdata
```

### Log transform:
Ajuda modelos não baseados em árvores e especialmente redes neurais.

Este tipo de transformação faz com que features com valores muito grandes cheguem mais próximos dos valores médios. Além disso, valores mais próximos de zero se tornam mais fáceis de serem identificados. Apesar da simplicidade isso pode aumentar significativamente os resultados de **redes neurais**

```
np.log(1 + x)
```

### Raising to the power < 1:
Ajuda modelos não baseados em árvores e especialmente redes neurais.

Este tipo de transformação faz com que features com valores muito grandes cheguem mais próximos dos valores médios. Além disso, valores mais próximos de zero se tornam mais fáceis de serem identificados. Apesar da simplicidade isso pode aumentar significativamente os resultados de **redes neurais**

```
np.sqrt(x + 2/3)
```

## Ideias interessantes



*   Concatenar o mesmo dataframe com diferentes técnicas de pré-processamento
*   Unir modelos que são treinados com dados pré-processados com técnicas diferentes
*   Estas ideias beneficiam principalmente **KNN, Linear Models e neural networks**

## Conclusão



1.   Processamento de features numericas são diferentes para modelos tree-based and non-tree based:
      *   Modelos Tree-based não são afetados por feature scaling
      *   Modelos não tree-based são **extremamente** dependentes de feature scaling
2.   As técnicas de pré-processamento mais utilizadas são:
      *   MinMaxScaler - to [0, 1]
      *   StandardScaler - to mean==0, std==1
      *   Rank - sets spaces between sorted values to be equal
      *   np.log(1+x) and np.sqrt(1+x)

## Categorical Features

### Ordinal features

Quando temos características diferentes entre as categorias, onde uma tende a ser maior ou representar algo mais complexo que a outra. Por exemplo:

* Ticket class 1, 2, 3
* Tipo da carteira de motorista: A, B, C, D
* Jardim de infancia, escola, colegial, graduação, mestrado, doutorado e pós-doutorado.

A forma mais simples é basicamente mapear as características cada uma com um número diferente. Podemos utilizar a técnica chamada **Label Encoding**

#### Label Encoding

Este método funciona muito bem com modelos baseados em árvore (tree-model), modelos não tree-model não utilizam este tipo de feature de forma efetiva. 

Podemos fazer label encoding de duas maneiras:

```
# Faz o encoding ordenado em ordem alfabetica
# Ex.: [S, C, Q] -> [2, 1, 3]

sklearn.preprocessing.LabelEncoder

# Faz o label encoding pela frequencia
# Ex.: [S, C, Q] -> [1, 2, 3]

Pandas.factorize
```

**Caso queira treinar um modelo linear, KNN ou Rede neural, você precisa tratar estes dados de forma diferente. Utilizando One-hot encoding**

#### One-hot-enconding

```
pandas.get_dummies
sklearn.preprocessing.OneHotEncoder
```

Quando você possui um dataframe com muitos zeros e alguns uns você tem uma matrix esparsa (Sparce Matrices) e é importante aprender a lidar com este tipo de dado de forma eficiente para reduzir o consumo de memória.

Ler mais em: [SkLearn Sparsity](http://scikit-learn.org/stable/modules/feature_extraction.html#sparsity)


#### Frequency Encoding

Podemos mapear os dados de acordo com a frequencia que eles aparecem na base de dados. Por exemplo, se um determinado valor (C) está em 30% da base, 50% do valor (S) está na base e 20% dos valores são (Q) então teremos:

* [S, C, Q] -> [0.50, 0.30, 0.20]


Este tipo de técnica vai preservar informações sobre a distribuição dos valores e pode **ajudar tanto modelos lineares quanto tree-models**

```
encoding = titanic.groupby('Embarked').size()
encoding = encoding / len(titanic)
titanic['enc'] = titanic.Embarked.map(enconding)
```

#### Unindo features categoricas

Quando existe uma correlação entre duas ou mais features com o target, é interessante criar os dummies da união das duas features: 
Exemplo:

```
pclass = [3, 1, 3, 1]
sex = ['male', 'female', 'female', 'female']

# Basta criar uma outra feature concatenando o texto das duas features juntas
pclass_sex = ['male3', '1female', '3female', '1female']
```

Agora executar o get_dummies e teremos a relação entre as duas categorias.


### Conclusão:

1. Values in ordinal features are sorted in some meaningful order
2. Label encoding maps categories to numbers
3. Frequency encoding maps categories to their frequencies
4. label and Frequency encodings are often used for tree-based models
5. One-hot encoding is often used for non-tree-based models
6. Interactions of categorical features can he,help linear models and kNN


## Categorical and ordinal features

## Datetime and coordinates

## Handling missing values

## Mean encoding

## Regularization

## Extensions and generalizations

## Statistics and distance based features

## Matrix factorizations

## Feature interactions

## t-SNE

## KNN Features Implementation