[View in Colaboratory](https://colab.research.google.com/github/thiagobrito/datasciencenotes/blob/master/feature_engineering.ipynb)

# Feature Engineering and generation

## Numeric Features


### Feature Scaling

Existem modelos que dependem de Feature Scale e outros que não. Em geral, modelos lineares dependem de Feature Scale e já modelos baseados em arvores não dependem deste tipo de pré-processamento. 

**Nearest neighbors, modelos lineares e redes neurais performam melhor com Feature Scaling**

```
sklearn.preprocessing.MinMaxScaler
sklearn.preprocessing.StandardScaler
```

### Outliers

Os outliers são dados que estão muito fora do padrão do resto dos dados e podem fazer com que os modelos se atrapalhem durante o processo de treinamento. Uma forma de resolver esta questão é remover os itens.


```
upperbound, lowerbound = np.percentile(x, [1, 99])
y = np.clip(x, upperbound, lowerbound)
```

### Rank Transformation

 Este tipo de transformação pode ser uma opção melhor do que MinMaxScaler se houverem Outliers, porque esta transformação irá mover os outliers para mais próximo de outros objetos. Veja o exemplo abaixo:


*   rank([-100, 0, 1e5]) = [0, 1, 2]
*   rank([1000,1,10]) = [2,0,1]

Modelos lineares, KNN e redes neurais podem se beneficiar deste tipo de transformação se você não tiver tempo para tratar os outliers de forma manual.

```
scipy.stats.rankdata
```

### Log transform:
Ajuda modelos não baseados em árvores e especialmente redes neurais.

Este tipo de transformação faz com que features com valores muito grandes cheguem mais próximos dos valores médios. Além disso, valores mais próximos de zero se tornam mais fáceis de serem identificados. Apesar da simplicidade isso pode aumentar significativamente os resultados de **redes neurais**

```
np.log(1 + x)
```

### Raising to the power < 1:
Ajuda modelos não baseados em árvores e especialmente redes neurais.

Este tipo de transformação faz com que features com valores muito grandes cheguem mais próximos dos valores médios. Além disso, valores mais próximos de zero se tornam mais fáceis de serem identificados. Apesar da simplicidade isso pode aumentar significativamente os resultados de **redes neurais**

```
np.sqrt(x + 2/3)
```

## Ideias interessantes



*   Concatenar o mesmo dataframe com diferentes técnicas de pré-processamento
*   Unir modelos que são treinados com dados pré-processados com técnicas diferentes
*   Estas ideias beneficiam principalmente **KNN, Linear Models e neural networks**

## Conclusão



1.   Processamento de features numericas são diferentes para modelos tree-based and non-tree based:
      *   Modelos Tree-based não são afetados por feature scaling
      *   Modelos não tree-based são **extremamente** dependentes de feature scaling
2.   As técnicas de pré-processamento mais utilizadas são:
      *   MinMaxScaler - to [0, 1]
      *   StandardScaler - to mean==0, std==1
      *   Rank - sets spaces between sorted values to be equal
      *   np.log(1+x) and np.sqrt(1+x)

## Categorical  and ordinal features

### Ordinal features

Quando temos características diferentes entre as categorias, onde uma tende a ser maior ou representar algo mais complexo que a outra. Por exemplo:

* Ticket class 1, 2, 3
* Tipo da carteira de motorista: A, B, C, D
* Jardim de infancia, escola, colegial, graduação, mestrado, doutorado e pós-doutorado.

A forma mais simples é basicamente mapear as características cada uma com um número diferente. Podemos utilizar a técnica chamada **Label Encoding**

#### Label Encoding

Este método funciona muito bem com modelos baseados em árvore (tree-model), modelos não tree-model não utilizam este tipo de feature de forma efetiva. 

Podemos fazer label encoding de duas maneiras:

```
# Faz o encoding ordenado em ordem alfabetica
# Ex.: [S, C, Q] -> [2, 1, 3]

sklearn.preprocessing.LabelEncoder

# Faz o label encoding pela frequencia
# Ex.: [S, C, Q] -> [1, 2, 3]

Pandas.factorize
```

**Caso queira treinar um modelo linear, KNN ou Rede neural, você precisa tratar estes dados de forma diferente. Utilizando One-hot encoding**

#### One-hot-enconding

```
pandas.get_dummies
sklearn.preprocessing.OneHotEncoder
```

Quando você possui um dataframe com muitos zeros e alguns uns você tem uma matrix esparsa (Sparce Matrices) e é importante aprender a lidar com este tipo de dado de forma eficiente para reduzir o consumo de memória.

Ler mais em: [SkLearn Sparsity](http://scikit-learn.org/stable/modules/feature_extraction.html#sparsity)


#### Frequency Encoding

Podemos mapear os dados de acordo com a frequencia que eles aparecem na base de dados. Por exemplo, se um determinado valor (C) está em 30% da base, 50% do valor (S) está na base e 20% dos valores são (Q) então teremos:

* [S, C, Q] -> [0.50, 0.30, 0.20]


Este tipo de técnica vai preservar informações sobre a distribuição dos valores e pode **ajudar tanto modelos lineares quanto tree-models**

```
encoding = titanic.groupby('Embarked').size()
encoding = encoding / len(titanic)
titanic['enc'] = titanic.Embarked.map(enconding)
```

#### Unindo features categoricas

Quando existe uma correlação entre duas ou mais features com o target, é interessante criar os dummies da união das duas features: 
Exemplo:

```
pclass = [3, 1, 3, 1]
sex = ['male', 'female', 'female', 'female']

# Basta criar uma outra feature concatenando o texto das duas features juntas
pclass_sex = ['male3', '1female', '3female', '1female']
```

Agora executar o get_dummies e teremos a relação entre as duas categorias.


### Conclusão:

1. Values in ordinal features are sorted in some meaningful order
2. Label encoding maps categories to numbers
3. Frequency encoding maps categories to their frequencies
4. label and Frequency encodings are often used for tree-based models
5. One-hot encoding is often used for non-tree-based models
6. Interactions of categorical features can he,help linear models and kNN


## Datetime

Este tipo de informação pode ser dividida em duas categorias, uma data especifica de um evento e quanto tempo se passou a partir de um evento.

1. Features de periodicidade podemos usar informações como:
    * Número do dia na semana
    * Mes
    * Estação do ano (season)
    * Ano
    * Segundo
    * Minuto
    * Hora

   Estes tipos de informações são úteis para identificar padrões repetitivos dos dados.

2. Time Since
    * Row-independent moment (Ex.: since 00:00:00 UTC, 1 January 1970)
    * Row-dependent important moment
        * Número de dias restantes até um feriado próximo / quanto tempo se passou após o último feriado.

3. Diferença entre datas

## Coordinates

* Calcular a distancia de um ponto com pontos importantes. Ex.:
   * Calcular a distancia de um ponto importante na cidade (centro da cidade, alguma construção importante)
   * Calcular um cluster e pegar a distancia do centro do cluster
   * Calcular informações estatisticas a partir de um determinado ponto. Ex.: 
      * número de flats disponíveis em um determinado ponto
      * identificar qual o custo por metro quadrado de uma determinada área

Você também pode adicionar  coordenadas "slightly rotated" como novas features.

## Handling missing values

Missing values podem ser NaN, strings vazias e também outliers como -999 ou 999.

Uma forma de entender melhor os missing values é plotar um histogram.

As principais formas de resolver questões com NaN são:
* Substituir NaN com valores -999, -1, etc
   * Este tipo de método é interessante especialmente em tree-models onde ele consegue separar os dados em categorias diferentes, facilitando o processo
   * Modelos lineares tendem a não responder muito bem a esse tipo de dado
* Calcular a média ou mediana
   * Este método é bom para non-tree-models mas pode ser confuso para tree-models identificarem que existem dados faltantes
      * Uma saída é gerar uma nova features indicando quais as linhas tiveram NaN para uma determinada feature, isto irá melhorar a performance tanto em tree-models quanto non-tree-models
* Reconstruir o valor
   * É possível reconstruir valores em uma série de dados

XgBoost já considera dados NaN, é importante tomar cuidado para que ao reconstruir os dados NaN ou criar novas features a partir destes dados não prejudicar a performance deste tipo de modelo.

### Conclusão:

1. A escolha do método para tratar os NaNs depende da situação
2. Uma forma normal de tratar os NaNs é substituir os mesmos por -999, mean and median
3. Dados faltantes podem ser substituidos por alguma outra coisa pelos criadores do dataset
4. Criar uma feature "isnull" pode ser benéfico
5. Em geral, evite preencher os dados com NaNs antes da geração de features
6. Xgboost trata NaNs

## Mean encoding

É uma técnica para gerar features a partir do target. Exemplo:
Inserir a informação indicando qual a porcentagem de vezes que uma determinada categoria é 0 e qual a porcentagem de vezes ela é 1.

1. Label encoding não traz qualquer correlação com o target
2. Mean encoding ajuda a separar os dados a partir do target

É importante que o Mean Encoding não pode ser utilizado diretamente e é necessária uma regularização dos dados corretamente. Caso o processo de regularization não seja feito apropriadamente, podemos ter um leak e gerar um overfiting dos dados.

### Regularization

Existem 4 métodos de Regularization que podemos utilizar:

1. CV loop inside training data (recomendado)
   * Método bastante robusto e intuitivo
   * Normalmente 4 ou 5 folds são o suficiente
   * É importante tomar cuidado em situações extremas como Leave-one-out
   
   ```
   y_tr = df_tr['target'].values
   skf = StratifiedKFold(y_tr, 5, shuffle=True, random_state=0)
   
   for tr_ind, val_ind in skf:
       X_tr, X_val = df_tr.iloc[tr_ind], df_tr.iloc[val_ind]
       for col in cols:
           means = X_val[col].map(X_tr.groupby(col).target.mean())
           X_val[col+'_mean_target'] = means
       train_new.iloc[val_ind] = X_val

   prior = df_tr['target'].mean()
   train_new.fillna(prior, inplace=True)
   ```
2. Smoothing
    * Se a categoria é grande, com diversas linhas podemos considerar um valor estimado mas se a categoria tem poucos dados (é rara) não podemos confiar.
    
    ```
    # Hyperparam alpha controla o "amount of regularization", se ele for 0 não temos regularização e quando ele se aproxima do infinito tudo tende a seguir para o globalmean
    row = (mean(target) * nrows + globalmean * alpha) / (nrows + alpha)
    ```

    * Tudo o que considera "punir" uma categoria mais rara, pode ser considerado Smoothing

3. Adding random noise
    * Este método é bastante instável e é difícil fazer ele funcionar, o principal problema é a quantidade de "noise" que devemos adicionar, muito noise irá transformar a feature em lixo e muito pouco não irá ser efetivo.

4. Sorting and calculating expanding mean (recomendado)
    * Menor quantidade de leakage
    * Não existem parametros para tunar
    * Qualidade de codificação irregular (irregular encoding quality)
    * Built-in CatBoost
    
    ```
    cumsum = df_tr.groupby(col)['target'].cumsum() - df_tr['target']
    cumcnt = df_tr.groupby(col).cumcount()
    train_new[col + '_mean_target'] = cumsum / cumcnt
    ```
    


## Statistics and distance based features

## Matrix factorizations

## Feature interactions

## t-SNE

## KNN Features Implementation