In [None]:
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

from sklearn.ensemble import VotingClassifier

### Initialisation et test des différents models individuellement

In [None]:
X_train = pass
y_train = pass

model_sgd = SGDClassifier(max_iter=1000) 
model_tree = DecisionTreeClassifier(max_depth=10)
model_knn = KNeighborsClassifier(n_neighbors=5)

for model in (model_sgd, model_tree, model_knn):
      model.fit(X_train, y_train)
      print(f"{model.__class__.__name__} score: {model.score(X_test, y_test)}")
   

### Techninque d'ensemble `VotingClassifier`

- ``voting soft`` = prend la probabilité de chaque classe et fait la moyenne
- ``voting hard`` = sélectionne la classe avec le plus de votes

Vote soft un peu meilleur quand les models sont bien qualibrés, à utiliser quand on a des models qui sortent des probabilités

`VotingClassifier` n'est pas une technique d'ensemble très efficace, elle ne garantie pas le respect du critère de diversité de la foule<br>

**loi des grands nombe** :
- taille
- compétence
- diversite

In [None]:
model_sgd = SGDClassifier(max_iter=1000) 
model_tree = DecisionTreeClassifier(max_depth=10)
model_knn = KNeighborsClassifier(n_neighbors=5)
model_voting = VotingClassifier([('SGD', model_sgd),
                                 ['Tree', model_tree],
                                 ['Knn', model_knn]],
                                 voting='soft')

for model in (model_sgd, model_tree, model_knn, model_voting):
      model.fit(X_train, y_train)
      print(f"{model.__class__.__name__} score: {model.score(X_test, y_test)}")

Pour gagner de la diversité, il faut utiliser les techniques de **bagging** ou **boosting**

### Techninque d'ensemble Bagging
A privilégier quand les models individuels font de l'overfitting

Diférents models sont disponible : de regression, extraTree, ...

Il faut déterminer :
- un estimateur de base avec lequel travailler
- le nombre d'estimateur dans la foule



### Bagging avec KNeighbors

In [None]:
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier

model = BaggingClassifier(base_estimator = KNeighborsClassifier(), 
                          n_estimators= 100)

model.fit(X_train, y_train)
model.score(X_test, y_test)

### Bagging avec RandomForest
meilleur résultat que Kneighbors, mais il faut le régler

In [None]:
#  Random forest utilise déjà par défaut un base_estimator de type arbre de décision
model = RandomForestClassifier(n_estimators= 100, max_depth = 10)
model.fit(X_train, y_train)
model.score(X_test, y_test)

### Technique d'ensemble Boosting

A privilégier quand les models individuels ont de maucais résultats sur le train set, si le dataset est complexe, underfitting.

Faire une GridSearchCV et tester des `base_estimators`, `learning_rate` et autres paramètres différents

In [None]:
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier

model = AdaBoostClassifier(n_estimators= 100)
model.fit(X_train, y_train)
model.score(X_test, y_test)


### Stacking
entraine un estimateur par dessus les pred des différents models

In [None]:
from sklearn.ensemble import StackingClassifier

meta_model = StackingClassifier([('SGD', model_sgd),
                                 ('Tree', model_tree),
                                 ('Knn', model_knn)],
                                 final_estimator = KNeighborsClassifier())
model.fit(X_train, y_train)
model.score(X_test, y_test)