# Les Features Polynomiales

* La création de features polynomiales est une méthode simple et courante de feature engineering qui ajoute de la complexité aux nombres.

* Elles sont principalement utilisées pour ajouter de la complexité aux modèles linéaires avec peu d'entités, ou lorsque nous soupçonnons que l'effet d'une feature dépend d'une autre feature.

* Avant de gérer les valeurs manquantes, il faut décider si l'on souhaite utiliser des fonctions polynomiales ou non.

* Les valeurs alternatives de la médiane ou de la moyenne semblent être un choix raisonnable.

# Quelques règles pour utiliser les features polynomiales

## Séparez vos features numériques et catégorielles !

## Normaliser après la création de features polynomiales

* Lorsque vous multipliez le négatif par le positif, vous obtenez le négatif. 
* Faire cela à vos données créera des valeurs négatives à partir de valeurs précédemment entièrement positives.

* Imaginez multiplier les valeurs entre 0 et 1 les unes par les autres. 
* Vous ne pouvez vous retrouver avec plus de valeurs entre 0 et 1

## Ne faites pas d'intéractions avec des variables factices

#### Les variables factices sont 0 ou 1 :
* Multiplier quoi que ce soit par 1 ne le change pas. 
* Multiplier quoi que ce soit par 0 le rend nul...

# Code 

* Sklearn fournit une classe PolynomialFeatures() pour créer des fonctions polynomiales.

* Le paramètre degré détermine le degré maximum du polynôme :  
 - Par exemple, lorsque x = x1, x2, x1, x1, x1x2 et x2², degré maximum = 2.  
 - Les features créées seront 1, x1, x2, x1.x2 

* Le paramètre interaction_only indique à la fonction que nous voulons uniquement les features d'interaction, à savoir 1, x1, x2 et x1x2.

In [16]:
import numpy as np
import pandas as pd

X = pd.DataFrame(
    np.array([5,7,8, np.NaN, np.NaN, np.NaN, -5,
              0,25,999,1,-1, np.NaN, 0, np.NaN])\
              .reshape((5,3)))

X.columns = ['f1', 'f2', 'f3'] #feature 1, feature 2, feature 3

### Traitement des doonnées manquantes

In [17]:
X.fillna(X.mean(), inplace=True)

In [18]:
X

Unnamed: 0,f1,f2,f3
0,5.0,7.0,8.0
1,333.0,2.0,10.666667
2,-5.0,0.0,25.0
3,999.0,1.0,-1.0
4,333.0,0.0,10.666667


In [19]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=3, interaction_only=True)
polynomials = pd.DataFrame(poly\
                           .fit_transform(X), 
                           columns=['0','1','2','3', 
                                    'p1', 'p2', 'p3', 'p4'])\
                                        [['p1', 'p2', 'p3', 'p4']]

In [20]:
X = pd.concat([X, polynomials], axis=1)

##### Comme résultat quatre nouvelles features crées:  

* p1 = f1.f2  
* p2 = f1.f3  
* p3 = f2.f3  
* p4 = f1.f2.f3

In [21]:
X

Unnamed: 0,f1,f2,f3,p1,p2,p3,p4
0,5.0,7.0,8.0,35.0,40.0,56.0,280.0
1,333.0,2.0,10.666667,666.0,3552.0,21.333333,7104.0
2,-5.0,0.0,25.0,-0.0,-125.0,0.0,-0.0
3,999.0,1.0,-1.0,999.0,-999.0,-1.0,-999.0
4,333.0,0.0,10.666667,0.0,3552.0,0.0,0.0
