# Librairies utilisée Scikit-learn 

C'est une librairie dédié au machine learning proposant un grands nombre de modéles de ML et DP

https://scikit-learn.org/

## Modéle utilisée : 

    - 1 : SVM  C-Support Vector Classification
    - 2 : Random forest classifier
    - 3 : Kneighbors classifier

## C-Support Vector Classificiation

Définition : C'est un algorithmes qui trace une frontière qui sépare au mieux les classes 

Utilisation : Prend en entrée un nombre prositif de régularisation et un algortihme de calcule linaire

In [20]:
from sklearn import svm, datasets

## Random Forest Classifier

Définition : C'est un algorithmes qui utilise plusieurs arbres de décisions et un ensemble learning

Utilisation : Prend en entrée un nombre d'arbres de décisions

In [21]:
from sklearn.ensemble  import RandomForestClassifier

## K Neighbors Classifier

Définition : C'est un algorithmes de classification qui calcule les distances de voisin en voisins

Utilisation : Prends en entrée -DataFrame (D) -Fonction de distance (d)  -Un nombre entier de voisins (K) 

In [22]:
from sklearn.neighbors import KNeighborsClassifier

## Grid Search CV

Optimise les HypersParamètres d'un modéle de données

In [23]:
from sklearn.model_selection import GridSearchCV

### pandas

Permet d'analyser les données

In [24]:
import pandas as pd

### get_param.keys()

C'est une fonction qui récupere les paramétres disponibles aux modèles 

In [25]:
svm.SVC(gamma='auto').get_params().keys()
# RandomForestClassifier().get_params().keys()
# KNeighborsClassifier().get_params().keys()

dict_keys(['C', 'break_ties', 'cache_size', 'class_weight', 'coef0', 'decision_function_shape', 'degree', 'gamma', 'kernel', 'max_iter', 'probability', 'random_state', 'shrinking', 'tol', 'verbose'])

### Load iris dataset 

Import du dataset via la librairies scikit learn

In [51]:
iris = datasets.load_iris()

### Content dataset 

    - iris.data dans une variable X qui correspond à des 150 tableau de 4 columns 
    ['longueur du sépale', 'largeur du sépale', 'longeur de la pétale', 'largeur de la pétale'] 
                   
    - iris.target dans une variable Y qui correspond à un tableau de 3 valeurs 0, 1, 2 *
    correspondants aux differents plantes ['setosa', 'versicolor', 'virginica']

In [52]:
X = iris.data
y = iris.target
# print(y)
# print(X)

## Création d'un ensemble 

Contenant les modéles testée et leurs paramétres

In [28]:
models_ml_params = {
    
    'svm': {
        
        'model': svm.SVC(gamma='auto'),
        'params' : {
            'C': [1, 10, 20],
            'kernel': ['rbf', 'linear']
        }  
    },
    
    'random_forest': {
        'model': RandomForestClassifier(),
        'params' : {
            'n_estimators': [1, 5, 10]
        }
    },
    
    'KNeighbors' : {
        'model': KNeighborsClassifier(),
        'params': {
            'n_neighbors': [1, 5, 11],
            'p': [1, 2, 3],
            'weights': ['uniform', 'distance']
        }
    }
}

## Fonction de teste des modèles et du datasets

### paramètre de la fonction : 

    - models_ml_params   : dictionnaire des modèles à testé et des paramètres des modèles 
    - X                  : colonne du dataset voir 2 cellules plus haut pour plus d'info 
    - y                  : differentes plantes du dataset voir 2 cellules plus haut pour plus d'info 

### GridSearchCV fonction d'optimisation des paramètres 
    
    - mp['model']        : correspond à la fonction du modèles essayée 
    - mp['params']       : correpond aux paramètres du modèles essayé
    - cv                 : correspond à la fonction de cross validation  
    - return_train_score : correponds à enlever les scores d'entraînement

Retourne les meilleurs scores et les meilleurs paramètre     

In [29]:

def tests_models_and_params_on_iris_dataset(models_ml_params, X, y):
    
    scores = []
    for model_name, mp in models_ml_params.items():
        
        clf = GridSearchCV(mp['model'], mp['params'], cv=5, return_train_score=False)        
        
        clf.fit(X, y)
        
        scores.append({
            'model': model_name,
            'best_score': clf.best_score_,
            'best_params': clf.best_params_
        })
        
    return (pd.DataFrame(scores, columns=["model", "best_score", "best_params"]))


In [30]:
tests_models_and_params_on_iris_dataset(models_ml_params, iris.data, iris.target)

Unnamed: 0,model,best_score,best_params
0,svm,0.98,"{'C': 1, 'kernel': 'rbf'}"
1,random_forest,0.96,{'n_estimators': 5}
2,KNeighbors,0.986667,"{'n_neighbors': 11, 'p': 2, 'weights': 'distan..."


# Utilisation de la librairies tpot 

Librairie basée sur les algorithmes génétiques
    
    - la génerations est le nombre de teste de differents hyperparam sur un modele 
    il genére au total ( generations x population_size = nombre de teste de modèles ML )
    
    - la population sont les différents algorithmes de modèles de MachineLearning
    
Tout les paramétres sont aléatoires tout comme les modèles utilisée rien n'est préciser.
Il géneres des teste de ML garde en mémoire les meilleures résultats et ajustes les meilleurs HyperParamétres. 

http://epistasislab.github.io/tpot/api/

In [31]:
from tpot import TPOTClassifier

tpot = TPOTClassifier(generations=10, population_size=50, verbosity=2, n_jobs=-1)

tpot.fit(iris.data, iris.target)

Optimization Progress:   0%|          | 0/550 [00:00<?, ?pipeline/s]


Generation 1 - Current best internal CV score: 0.9800000000000001

Generation 2 - Current best internal CV score: 0.9800000000000001

Generation 3 - Current best internal CV score: 0.9800000000000001

Generation 4 - Current best internal CV score: 0.9800000000000001

Generation 5 - Current best internal CV score: 0.9800000000000001

Generation 6 - Current best internal CV score: 0.9800000000000001

Generation 7 - Current best internal CV score: 0.9866666666666667

Generation 8 - Current best internal CV score: 0.9866666666666667

Generation 9 - Current best internal CV score: 0.9866666666666667

Generation 10 - Current best internal CV score: 0.9866666666666667

Best pipeline: KNeighborsClassifier(input_matrix, n_neighbors=10, p=2, weights=distance)


TPOTClassifier(generations=10, n_jobs=-1, population_size=50, verbosity=2)