## Entraînement d'un premier SVM (DIST_REL_CC_SVM_01)

Nous allons entraîner un modèle SVM (Support Vector Machine), afin de comparer les performances des réseaux de neurones à d'autres modèles d'apprentissage artificiel.

Les données d'entrée que nous allons donner au modèle sont identiques aux données que l'on donne aux modèles DIST_REL_CC_02, à la différence que nous allons donner l'inverse des distances plutôt que les distances.
En effet, l'influence des atomes sur la géométrie aux alentours des liaisons décroît avec la distance, et si les réseaux de neurones sont capables d'approximer la fonction inverse, les SVM ne le sont pas.

Nous allons donc préparer un nouveau jeu de données, et entraîner un modèle SVM avec des paramètres naïfs, afin d'une part d'avoir une idée des performances des SVM, mais surtout d'avoir une idée du temps d'entraînement nécessaire, pour prévoir la taille des recherches par quadrillages des meilleurs paramères que nous allons effectuer par la suite.

Précisément, nous entraînons deux SVM avec des noyaux différents (RBF et linéaire), afin de déterminer si les temps de calcul diffèrent en fonction du noyau.

### Entraînement impossible

Il s'avère impossible d'entraîner des SVM sur des jeux de données aussi grands (1000000 \* 870) en un temps raisonnable, à cause de la complexité de l'algorithme (n_samples^2 \* n_features ou n_samples^3 \* n_features si le cache n'est pas de taille suffisante). C'est pourquoi nous allons entraîner des SVM sur des jeux de tailles beaucoup plus raisonnables dans les notebooks suivants.

### JSONs

In [None]:
{
  "paths":{
        "train_set_loc":"../../data/train_set_riken_v2_reduced.h5",
        "test_set_loc":"../../data/test_set_riken_v2_reduced.h5",
        "train_prepared_input_loc":"../../data/DIST_REL_C_04/train_set_prepared_input.h5",
        "test_prepared_input_loc":"../../data/DIST_REL_C_04/test_set_prepared_input.h5",
        "train_labels_loc":"../../data/DIST_REL_C_04/train_set_labels.h5",
        "test_labels_loc":"../../data/DIST_REL_C_04/test_set_labels.h5",
        "model_loc":"../../models/DIST_REL_C_SVM_01/dist_rel_c_svm.pkl",
        "bonds_lengths_loc":"/home/jleguy/data/stats/C/C_bonds_lengths_total_set.h5",
        "plots_dir":"../../figures/DIST_REL_C_SVM_01/"
  },
  "tasks":[
    {
      "model_train": {
        "model_name": "DIST_REL_C_SVM_01",
        "model_type": "SVM",
        "params": {
          "kernel":"rbf",
          "epsilon":"0.1",
          "gamma":"auto",
          "coef0":"0",
          "shrinking":"True",
          "tol":"0.001",
          "cache_size":"200",
          "verbose":"True",
          "save_model": "True",
          "max_iter":"-1",
          "C":"1"
        }
      }
    },
    {
      "plot_predictions": {
        "paths":{
          "train_set_loc":"tests/train.h5",
          "test_set_loc":"tests/test.h5",
          "train_prepared_input_loc":"tests/DIST_REL_C_SVM_01/train_prepared_input_inv.h5",
          "test_prepared_input_loc":"tests/DIST_REL_C_SVM_01/test_prepared_input_inv.h5",
          "train_labels_loc":"tests/DIST_REL_C_SVM_01/train_labels_inv.h5",
          "test_labels_loc":"tests/DIST_REL_C_SVM_01/test_labels_inv.h5",
          "model_loc":"tests/DIST_REL_C_SVM_01/dist_rel_c_svm.pkl",
          "bonds_lengths_loc":"tests/cc_lengths.h5",
          "plots_dir":"tests/DIST_REL_C_SVM_01/"
        },
        "params": {
          "model_name": "DIST_REL_C_SVM_01",
          "model_type": "SVM",
          "anum_1": "6",
          "anum_2": "6",
          "plot_error_distrib": "True",
          "plot_targets_error_distrib": "True",
          "plot_targets_predictions": "True",
          "asymb_1": "C",
          "asymb_2": "C",
          "batch_size": "1060",
          "display_plots":"True"
        }
      }
    }
  ]
}

In [None]:
{
  "paths":{
        "train_set_loc":"../../data/train_set_riken_v2_reduced.h5",
        "test_set_loc":"../../data/test_set_riken_v2_reduced.h5",
        "train_prepared_input_loc":"../../data/DIST_REL_C_04/train_set_prepared_input.h5",
        "test_prepared_input_loc":"../../data/DIST_REL_C_04/test_set_prepared_input.h5",
        "train_labels_loc":"../../data/DIST_REL_C_04/train_set_labels.h5",
        "test_labels_loc":"../../data/DIST_REL_C_04/test_set_labels.h5",
        "model_loc":"../../models/DIST_REL_C_SVM_01/dist_rel_c_svm_lin.pkl",
        "bonds_lengths_loc":"/home/jleguy/data/stats/C/C_bonds_lengths_total_set.h5",
        "plots_dir":"../../figures/DIST_REL_C_SVM_01_lin/"
  },
  "tasks":[
    {
      "model_train": {
        "model_name": "DIST_REL_C_SVM_01_lin",
        "model_type": "SVM",
        "params": {
          "kernel":"linear",
          "epsilon":"0.1",
          "gamma":"auto",
          "coef0":"0",
          "shrinking":"True",
          "tol":"0.001",
          "cache_size":"200",
          "verbose":"True",
          "save_model": "True",
          "max_iter":"-1",
          "C":"1"
        }
      }
    },
    {
      "plot_predictions": {
        "paths":{
          "train_set_loc":"tests/train.h5",
          "test_set_loc":"tests/test.h5",
          "train_prepared_input_loc":"tests/DIST_REL_C_SVM_01/train_prepared_input_inv.h5",
          "test_prepared_input_loc":"tests/DIST_REL_C_SVM_01/test_prepared_input_inv.h5",
          "train_labels_loc":"tests/DIST_REL_C_SVM_01/train_labels_inv.h5",
          "test_labels_loc":"tests/DIST_REL_C_SVM_01/test_labels_inv.h5",
          "model_loc":"tests/DIST_REL_C_SVM_01/dist_rel_c_svm_lin.pkl",
          "bonds_lengths_loc":"tests/cc_lengths.h5",
          "plots_dir":"tests/DIST_REL_C_SVM_01/"
        },
        "params": {
          "model_name": "DIST_REL_C_SVM_01_lin",
          "model_type": "SVM",
          "anum_1": "6",
          "anum_2": "6",
          "plot_error_distrib": "True",
          "plot_targets_error_distrib": "True",
          "plot_targets_predictions": "True",
          "asymb_1": "C",
          "asymb_2": "C",
          "batch_size": "1060",
          "display_plots":"True"
        }
      }
    }
  ]
}