# Constitution des bases de données 
Cette première cellule vous présente la manière avec laquelle j'ai obtenu les features/caractéristiques à partir des jeux de données de "textes"
Pour obtenir les textes (et les "filtrer") j'ai utiliser le script ./textDatasets/conversion.sh (qui prends, par exemple les fichiers FR_* les concatene, supprime les accents (en gardant les caracteres sans accents) et enfin transforme en minuscules).
J'ai utilisé les livres "open data" de la base du site Guttenberg Project (qui archive énormément de livres en texte, "txt" simples", tombés dans le domaine publique).

## Code réalisé par R. Cogranne

In [1]:
import numpy as np
import string
BlockSz=1000

# On procede de la même façon pour les differents languages
# Ouverture du fichier texte contenant les caracteres alphabetiques "brutes"
textGERMAN = open('../input/GERMAN')
# Lecture
DE=textGERMAN.read()
textGERMAN.close()
# Calcule du nombre de blocks (arrondi par defaut) de BlockSz caracteres
NbBlock=int(np.floor(len(DE)/BlockSz))
# Creation des tableaux de donnees textuelles et de features
DataDE=[]
FeaDE =[]
# Pour tous les indices de blocks ...
for index in range(NbBlock):
    # Exctraction des donnees texte du block
    DataDE.append(DE[index*BlockSz:(index+1)*BlockSz])
    # Comptage de chacun des caracteres
    countDE=[]
    for letter in string.ascii_lowercase:
        countDE.append(DataDE[index].count(letter))
    # Comptage de toutes les 26**2 paires de caracteres possibles
    for letter1 in string.ascii_lowercase:
        for letter2 in string.ascii_lowercase:
            countDE.append(DataDE[index].count(letter1+letter2))
    # Une fois le vecteur de décompte obtenu  .... on ajoute ce vecteur (contenant tous les decomptes) au tableaux des features
    FeaDE.append(countDE)

# On procede de la même façon pour les differents languages ....
textFRENCH = open('../input/FRENCH')
FR=textFRENCH.read()
textFRENCH.close()
NbBlock=int(np.floor(len(FR)/BlockSz))
DataFR=[]
FeaFR =[]
for index in range(NbBlock):
    DataFR.append(FR[index*BlockSz:(index+1)*BlockSz])
    countFR=[]
    for letter in string.ascii_lowercase:
        countFR.append(DataFR[index].count(letter))
    for letter1 in string.ascii_lowercase:
        for letter2 in string.ascii_lowercase:
            countFR.append(DataFR[index].count(letter1+letter2))
    FeaFR.append(countFR)

# On procede de la même façon pour les differents languages ....
textSPANISH = open('../input/SPANISH')
ES=textSPANISH.read()
textSPANISH.close()
NbBlock=int(np.floor(len(ES)/BlockSz))
DataES=[]
FeaES =[]
for index in range(NbBlock):
    DataES.append(ES[index*BlockSz:(index+1)*BlockSz])
    countES=[]
    for letter in string.ascii_lowercase:
        countES.append(DataES[index].count(letter))
    for letter1 in string.ascii_lowercase:
        for letter2 in string.ascii_lowercase:
            countES.append(DataES[index].count(letter1+letter2))
    FeaES.append(countES)

# On procede de la même façon pour les differents languages ....
textENGLISH = open('../input/ENGLISH')
EN=textENGLISH.read()
textENGLISH.close()
NbBlock=int(np.floor(len(EN)/BlockSz))
DataEN=[]
FeaEN =[]
for index in range(NbBlock):
    DataEN.append(EN[index*BlockSz:(index+1)*BlockSz])
    countEN=[]
    for letter in string.ascii_lowercase:
        countEN.append(DataEN[index].count(letter))
    for letter1 in string.ascii_lowercase:
        for letter2 in string.ascii_lowercase:
            countEN.append(DataEN[index].count(letter1+letter2))
    FeaEN.append(countEN)

In [2]:
# Ici on sauvegarde les caracteristiques, pour eviter de les recalculer à chaque fois ....
np.save('./FeaEN.npy', FeaEN)
np.save('./FeaFR.npy', FeaFR)
np.save('./FeaDE.npy', FeaDE)
np.save('./FeaES.npy', FeaES)

In [3]:
# ... On peut simplement les loader (et commenter les cellules precedentes)
FeaEN = np.load('./FeaEN.npy')
FeaFR = np.load('./FeaFR.npy')
FeaDE = np.load('./FeaDE.npy')
FeaES = np.load('./FeaES.npy')

In [4]:
# Pour plus de "facilier de manipulation" on trasforme les donnes en "matrice numpy" et on affiche la dimension de la base de donnees.
FeaDE = np.array(FeaDE)
print(FeaDE.shape)

FeaFR = np.array(FeaFR)
print(FeaFR.shape)

FeaES = np.array(FeaES)
print(FeaES.shape)

FeaEN = np.array(FeaEN)
print(FeaEN.shape)

(4329, 702)
(4116, 702)
(4321, 702)
(4209, 702)


## Refactorisation du code pour comprendre la constitution des données

### Librairies

In [5]:
import numpy as np
import string
import pandas as pd

### Découpage en fonctions

In [6]:
#Fonction Feature qui permet à partir d'un fichier de comptabiliser le nombre d'occurences d'un caractère, le nombre d'occurences de deux caractères
def GenerateFeature(filename, BlockSz=1000) :
    # Ouverture du fichier texte contenant les caracteres alphabetiques "brutes"
    textCountry = open(filename)
    # Lecture
    content=textCountry.read()
    textCountry.close()
    # Calcule du nombre de blocks (arrondi par defaut) de BlockSz caracteres
    NbBlock=int(np.floor(len(content)/BlockSz))
    # Creation des tableaux de donnees textuelles et de features
    Data=[]
    Fea =[]
    # Pour tous les indices de blocks ...
    for index in range(NbBlock):
        # Exctraction des donnees texte du block
        Data.append(content[index*BlockSz:(index+1)*BlockSz])
        # Comptage de chacun des caracteres
        countCaracter=[]
        for letter in string.ascii_lowercase:
            countCaracter.append(Data[index].count(letter))
        # Comptage de toutes les 26**2 paires de caracteres possibles
        for letter1 in string.ascii_lowercase:
            for letter2 in string.ascii_lowercase:
                countCaracter.append(Data[index].count(letter1+letter2))
        # Une fois le vecteur de décompte obtenu  .... on ajoute ce vecteur (contenant tous les decomptes) au tableaux des features
        Fea.append(countCaracter)
    return Fea

In [7]:
import os
#Permet de générer la matrix en fonction d'un fichier d'entrée ou d'un fichier numpy si le travail sur le texte a déjà été réalisé
def GenerateMatrix(filenameIn, fileConvertNpy, BlockSz=1000):
    if(os.path.exists(fileConvertNpy)):
        feature = np.load(fileConvertNpy)
        return np.array(feature)
    else :
        feature = GenerateFeature(filenameIn, BlockSz)
        np.save(fileConvertNpy, feature)
        return np.array(feature)

In [8]:
germanArray = GenerateMatrix('../input/GERMAN', './FeatureDE.npy')
print("Shape german : " +str(germanArray.shape))
frenchArray = GenerateMatrix('../input/FRENCH', './FeatureFR.npy')
print("Shape french : " +str(frenchArray.shape))
spanishArray = GenerateMatrix('../input/SPANISH', './FeatureSP.npy')
print("Shape spanish : " +str(spanishArray.shape))
englishArray = GenerateMatrix('../input/ENGLISH', './FeatureEN.npy')
print("Shape english : " +str(englishArray.shape))


Shape german : (4329, 702)
Shape french : (4116, 702)
Shape spanish : (4321, 702)
Shape english : (4209, 702)


In [9]:
print("Verification German Array : ", (germanArray - FeaDE).sum())
print("Verification French Array : ", (frenchArray - FeaFR).sum())
print("Verification Spanish Array : ", (spanishArray - FeaES).sum())
print("Verification English Array : ", (englishArray - FeaEN).sum())

Verification German Array :  0
Verification French Array :  0
Verification Spanish Array :  0
Verification English Array :  0


Le code permet de comptabiliser dans un ensemble de textes concaténées et nettoyées via Conversion.sln :
* le nombre de lignes correspond au découpage du fichier consolidé en block de 1000 caractères
* les 26 premières colonnes correspondent au nombre d'occurences sur la ligne du nombre de A, ..., Z
* les 26 colonnes suivantes correspondent au nombre d'occurences de la succession de caractères AA, AB, ..., AZ
* les 26 colonnes suivantes correspondent au nombre d'occurences de la succession de caractères BA, BB, ..., BZ
* ...
* les 26 dernières colonnes correspondent au nombre d'occurences de la succession de caractères ZA, ZB, ..., ZZ

On retrouve bien que le nombre de colonnes 26 + 26*26

### Construction Dataframe

Les dataframe Panda sont pratiques notamment pour avoir des colonnes associées à la matrice de données.

In [10]:
#Permet de construire la liste a, b, ...,z, aa, ..., az, ..., zz
def BuildListColumn():
    listColumn = []
    for letter in string.ascii_lowercase:
        listColumn.append(letter)
    for letter1 in string.ascii_lowercase:
        for letter2 in string.ascii_lowercase:
            listColumn.append(letter1+letter2)
    return listColumn

In [11]:
def BuildDataFrame(data, listColumn):
    return pd.DataFrame(data, columns = listColumn)

In [12]:
listColumn = BuildListColumn()
df_spanish = BuildDataFrame(spanishArray,listColumn) 
df_german = BuildDataFrame(germanArray,listColumn)
df_french = BuildDataFrame(frenchArray,listColumn)
df_english = BuildDataFrame(englishArray,listColumn)

### Suppression des colonnes vides

* On identifie par langue les colonnes où le caractère est nul sur l'intégralité des blocks.
* On supprime ensuite en faisant l'intersection des colonnes vides pour l'ensemble des langues ce qui nous permet d'identifier une suite de caractères inutiles quelque soit la langue.

In [13]:
frenchEmptyColumn = [ val for val in listColumn if df_french[val].sum()==0]
spanishEmptyColumn = [ val for val in listColumn if df_spanish[val].sum()==0]
englishEmptyColumn = [ val for val in listColumn if df_english[val].sum()==0]
germanEmptyColumn = [ val for val in listColumn if df_german[val].sum()==0]
print("Empty French Column : " + str(len(frenchEmptyColumn)))
print("Empty Spanish Column : " + str(len(spanishEmptyColumn)))
print("Empty English Column : " + str(len(englishEmptyColumn)))
print("Empty German Column : " + str(len(germanEmptyColumn)))
intersectionEmpty = set(frenchEmptyColumn).intersection(spanishEmptyColumn).intersection(englishEmptyColumn).intersection(germanEmptyColumn)
print("Drop Column : " + str(len(intersectionEmpty)))
intersectionEmpty

Empty French Column : 42
Empty Spanish Column : 58
Empty English Column : 58
Empty German Column : 28
Drop Column : 6


{'jx', 'kx', 'qw', 'qx', 'qy', 'qz'}

In [14]:
df_french.drop(intersectionEmpty, axis=1, inplace=True)
df_spanish.drop(intersectionEmpty, axis=1, inplace=True)
df_german.drop(intersectionEmpty, axis=1, inplace=True)
df_english.drop(intersectionEmpty, axis=1,inplace=True)

# Classification linéaire à 2 classes

## Construction des ensembles X,y, Train et Test

### Ensemble X,y
On ajoute deux ensembles de features de deux langues et on construit la cible du modèle. Par convention, nous donnons 1 pour la première langue et -1 pour la seconde langue.

In [15]:
def BuildFeatureAndTarget(firstLang, secondLang):
    if(firstLang == "DE"):
        firstArray = df_german
    elif(firstLang == "FR"):
        firstArray = df_french
    elif(firstLang == "SP"):
        firstArray = df_spanish
    else:
        firstArray = df_english
    
    if(secondLang == "DE"):
        secondArray = df_german
    elif(secondLang == "FR"):
        secondArray = df_french
    elif(secondLang == "SP"):
        secondArray = df_spanish
    else:
        secondArray = df_english
        
    X = np.append(firstArray,secondArray, axis=0)
    
    targetFirst = np.array([1 for i in range(firstArray.shape[0])])
    targetSecond = np.array([-1 for i in range(secondArray.shape[0])])
    y = np.append(targetFirst,targetSecond, axis = 0)
    print("Shape de X : " + str(X.shape))
    print("Shape de y : " + str(y.shape))
    return(X,y)

In [16]:
X,y = BuildFeatureAndTarget("FR", "SP")

Shape de X : (8437, 696)
Shape de y : (8437,)


In [17]:
X, y

(array([[ 72,   8,  44, ...,   0,   0,   0],
        [ 81,   9,  37, ...,   0,   0,   0],
        [ 86,   8,  41, ...,   0,   0,   0],
        ...,
        [168,  17,  34, ...,   0,   0,   0],
        [149,  10,  46, ...,   0,   0,   0],
        [149,  28,  51, ...,   0,   0,   0]]),
 array([ 1,  1,  1, ..., -1, -1, -1]))

### Ensemble d'apprentissage et de test

Nous allons séparer les données entre apprentissage (80%) et test (20%). Fixons le germe pour la reproduction des résultats.

In [18]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=777)
print("Shape X_train : " + str(X_train.shape))
print("Shape y_train :"+str(y_train.shape))
print("Shape X_test : "+str(X_test.shape))
print("Shape y_test :"+str(y_test.shape))

Shape X_train : (6749, 696)
Shape y_train :(6749,)
Shape X_test : (1688, 696)
Shape y_test :(1688,)


### Différentes métriques pour la classification

Nous allons mesurer les méthodes par différentes métriques classiques pour un problème de classification.

In [19]:
from sklearn import metrics
import pandas as pd


def classification_metrics(y, y_pred):
    return pd.DataFrame(
        {
            "accuracy_score": metrics.accuracy_score(y_true=y, y_pred=y_pred),
            "f1_score": metrics.f1_score(y_true=y, y_pred=y_pred),
            "precision_score": metrics.precision_score(
                y_true=y, y_pred=y_pred),
            "recall_score": metrics.recall_score(y_true=y, y_pred=y_pred)
        },
        index=[0])

In [20]:
import matplotlib.pyplot as plt
%matplotlib inline
def roc_curves_plot(y_train, pred_proba_train, y_test, pred_proba_test):
    false_positive_rate_train, true_positive_rate_train, _ = metrics.roc_curve(
        y_train, pred_proba_train)
    roc_auc_train = metrics.auc(false_positive_rate_train,
                                true_positive_rate_train)

    false_positive_rate_test, true_positive_rate_test, _ = metrics.roc_curve(
        y_test, pred_proba_test)
    roc_auc_test = metrics.auc(false_positive_rate_test,
                               true_positive_rate_test)

    plt.title('Receiver Operating Characteristic')
    plt.plot(
        false_positive_rate_train,
        true_positive_rate_train,
        'b',
        label='AUC Train = %0.4f' % roc_auc_train)
    plt.plot(
        false_positive_rate_test,
        true_positive_rate_test,
        'g',
        label='AUC Test = %0.4f' % roc_auc_test)
    plt.legend(loc='lower right')
    plt.plot([0, 1], [0, 1], 'r--')
    plt.ylabel('True Positive Rate')
    plt.xlabel('False Positive Rate')
    plt.show()

## Différentes méthodes de classification

### Régression linéaire Ridge

Le modèle Ridge est une régression linéaire introduisant en plus un terme de régularisation en Norme L2 sur le vecteur de pondération. Nous utilisons une validation croisée avec 10 plis et nous faisons varier l'hyperparamètre $\alpha$ qui pénalise la régularisation. Plus le paramètre $\alpha$ est grand, plus les coefficients de la régression tendent à se rapprocher de zéro

In [21]:
np.logspace(-2,2,5)

array([1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02])

In [22]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import KFold
kf = KFold(n_splits=10,shuffle=True)
scores_ridge =[]
for regul in [10000]:
    clfRidge = Ridge(alpha=regul)
    scores_regul = []
    k=0
    for train, test in kf.split(X):
        k=k+1
        X_train = X[train,:]
        X_test  = X[test,:]
        y_train = y[train]
        y_test  = y[test]
        clfRidge.fit(X_train, y_train)
        y_pred=clfRidge.predict(X_test)
        scores_tmp=( np.sum( y_pred[y_test==-1] > 0 ) + np.sum( y_pred[y_test==1] < 0 ) ) / y_test.shape[0]
        scores_regul.append(scores_tmp)
        print("Intercept " + str(clfRidge.intercept_))
        print("Coeff " + str(clfRidge.coef_))
    scores_ridge.append( np.mean(scores_regul) )
    print("Proba d'erreur moyenne =  " + str(np.mean(scores_regul)) + " pour regul = " + str(regul) )
    #print("Information sur le modèle")
    #print("Intercept " + clfRidge.intercept_)
    #print("Nombre de features proche de 0 : " + clfRidge)

Intercept -0.15241875509729644
Coeff [-3.66202951e-03  4.67802436e-04  2.37729333e-03  8.40492811e-05
 -9.47903638e-05  1.31218487e-03  3.19890431e-04 -3.16706050e-03
 -5.54199654e-04  1.49279044e-03 -2.65013979e-03  7.66021082e-04
  3.77261966e-03  2.25346633e-03 -5.34688394e-03  2.73850337e-03
  2.34807032e-03  1.07102224e-03  1.87800644e-03  4.17239745e-03
  1.99560486e-03  2.83309127e-03 -9.70552829e-03  2.69413578e-03
 -5.90832952e-03 -1.48798803e-03 -2.59189366e-03  2.07213480e-03
 -1.16718084e-04 -4.15887026e-03 -4.88830667e-03  8.01172053e-04
  4.20172176e-03  3.02913246e-04  4.03005676e-03 -4.13450707e-04
 -7.87868250e-05 -9.57571579e-04 -1.14296043e-05 -1.94155521e-03
 -5.96419743e-04  9.84851881e-04 -2.69975128e-03 -2.13881314e-03
 -5.54362546e-03  3.12178338e-03  5.16557419e-03  1.18501067e-03
 -1.92592962e-04  3.67967959e-04  7.50010470e-04  2.09181367e-04
 -6.82757683e-05  7.94051176e-04  4.61483690e-04 -2.88910363e-04
 -1.10407792e-03 -8.76025976e-07  5.10468440e-05  8.2

Intercept -0.14747504654066268
Coeff [-3.72621059e-03  4.34168724e-04  2.44886549e-03  1.37695776e-04
  2.33179757e-05  1.26547772e-03  3.83406690e-04 -3.12364128e-03
 -4.95326139e-04  1.35332920e-03 -2.71862069e-03  5.89964933e-04
  3.64250490e-03  2.24654502e-03 -5.33397597e-03  2.83994886e-03
  2.37121880e-03  1.02265717e-03  1.82055554e-03  4.08062719e-03
  1.87931525e-03  2.77573783e-03 -9.65916433e-03  2.71570031e-03
 -5.83547611e-03 -1.13862226e-03 -2.72488847e-03  2.26180227e-03
 -6.82820511e-05 -3.90915305e-03 -5.21091076e-03  6.75930973e-04
  4.14853135e-03 -1.67124987e-06  4.05833962e-03 -1.47002311e-04
 -4.91768563e-05 -9.05222677e-04  1.40863129e-04 -1.78215439e-03
 -5.07613081e-04  8.52819890e-04 -2.81857526e-03 -2.03887017e-03
 -5.52135368e-03  3.22071805e-03  5.36228566e-03  7.54853597e-04
 -1.64074076e-04  5.41394565e-04  5.96954263e-04  2.97127383e-06
  1.01419534e-04  7.46934539e-04  4.42765792e-04 -1.60449763e-04
 -8.60933370e-04 -2.13204734e-05  4.76219140e-05  5.6

Intercept -0.12392255026267826
Coeff [-3.68248255e-03  3.96482096e-04  2.35330081e-03  2.86039827e-04
  9.18117227e-06  1.45735370e-03  2.06944684e-04 -3.17528089e-03
 -6.55820724e-04  1.35076315e-03 -2.87034199e-03  6.31690928e-04
  3.85649991e-03  2.26334037e-03 -5.42908983e-03  2.90064180e-03
  2.59662567e-03  9.84094929e-04  1.89672247e-03  4.13000042e-03
  1.92009005e-03  2.72678117e-03 -9.87086262e-03  2.77540342e-03
 -5.99363358e-03 -1.06444439e-03 -2.70169403e-03  2.05791667e-03
 -9.33070358e-05 -3.84668213e-03 -4.80826500e-03  7.48689951e-04
  3.94474198e-03  6.73392903e-04  4.15217718e-03 -5.85384832e-04
 -1.40457465e-04 -8.40824580e-04  2.96455266e-04 -1.81234018e-03
 -4.04015185e-04  7.26838239e-04 -2.93519230e-03 -2.06247573e-03
 -5.61792303e-03  3.14745795e-03  5.21965266e-03  1.00455876e-03
 -2.22939784e-04  5.46418699e-04  5.33884809e-04 -7.73995900e-05
  8.98769886e-05  7.59972683e-04  4.77454008e-04 -1.99062392e-04
 -9.51250027e-04 -2.85802333e-06  6.30327171e-06  1.0

Intercept -0.1579689998106158
Coeff [-3.65105876e-03  2.99336240e-04  2.50032892e-03  6.39088028e-05
 -5.78193892e-05  1.29814114e-03  3.47465813e-04 -3.05497022e-03
 -2.83237846e-04  1.25477524e-03 -2.73009452e-03  6.73820299e-04
  3.80762378e-03  2.33257412e-03 -5.36477051e-03  2.73855364e-03
  2.34004547e-03  1.01966154e-03  1.81049584e-03  4.20337442e-03
  1.86019230e-03  2.87330984e-03 -1.00835890e-02  2.87730328e-03
 -5.86486502e-03 -1.21050540e-03 -2.72124000e-03  2.11922112e-03
 -1.04943043e-04 -3.76584397e-03 -4.98325160e-03  2.95518700e-04
  4.04612103e-03  5.51860991e-04  3.92991139e-03 -3.58614829e-04
  2.70670289e-05 -9.93442290e-04  3.46522616e-04 -2.01695077e-03
 -4.77738205e-04  8.84461932e-04 -3.09888112e-03 -2.09610285e-03
 -5.55788748e-03  3.20035034e-03  5.05273650e-03  9.40431897e-04
 -7.05562320e-05  5.73534279e-04  9.19542860e-04  2.28869034e-05
 -1.64665317e-04  8.02052667e-04  4.93381421e-04 -2.24234845e-04
 -8.91787105e-04 -4.35184356e-06  4.58454326e-05  1.03

Intercept -0.1296870896488906
Coeff [-3.71134107e-03  6.38421810e-04  2.45901616e-03  7.87554184e-06
 -7.32043744e-05  1.34497757e-03  3.66035384e-04 -3.22105051e-03
 -6.17326889e-04  1.43362026e-03 -2.74903947e-03  7.59120431e-04
  3.75989337e-03  2.24552133e-03 -5.40182434e-03  2.81512591e-03
  2.37443475e-03  9.94927934e-04  1.75329840e-03  4.12641757e-03
  1.86228490e-03  3.00470401e-03 -9.70263572e-03  2.67129258e-03
 -6.02635907e-03 -1.11418648e-03 -2.81007932e-03  1.96191679e-03
 -3.53548033e-04 -3.62600045e-03 -4.95518689e-03  8.77295573e-04
  3.84135647e-03  4.08241466e-04  3.98372487e-03 -4.30000935e-04
  3.74308979e-05 -8.76137246e-04  3.83886289e-04 -1.81006802e-03
 -5.01031412e-04  8.56974220e-04 -2.66654880e-03 -1.96715001e-03
 -5.52898040e-03  2.96007212e-03  5.20585484e-03  7.84676205e-04
 -3.99188263e-05  5.57157858e-04  5.49798889e-04 -1.09616471e-04
 -9.42310216e-05  6.81246707e-04  5.45504914e-04 -1.47536853e-04
 -9.57447195e-04  1.40267814e-05  4.80724991e-05  8.63

In [23]:
from sklearn import linear_model
reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13),cv=10)
reg.fit(X,y)
print(reg.score(X,y))
reg.alpha_

0.9910634134808202


1000.0

In [24]:
#from sklearn.metrics import confusion_matrix
#confusion_matrix(y_train, proba_trainPredicted)

In [25]:
#from sklearn.metrics import confusion_matrix
#confusion_matrix(y_test, proba_testPredicted)

In [26]:
#roc_curves_plot(y_train, proba_trainPredicted, y_test, proba_testPredicted)

### Régression linéaire Lasso
La régression linéaire Lasso est une alternative à Ridge en utilisant une régularisation L1 du vecteur de pondération. La conséquence de la régularisation Lasso est que certains paramètres valent exactement 0 et donc sont totalement ignorées par le modèle.

In [27]:
from sklearn.linear_model import Lasso
from sklearn.model_selection import KFold
kf = KFold(n_splits=10,shuffle=True)
scores_lasso =[]
for regul in np.logspace(-2,2,5):
    clfLasso = Lasso(alpha=regul)
    scores_regul = []
    k=0
    for train, test in kf.split(X):
        k=k+1
        X_train = X[train,:]
        X_test  = X[test,:]
        y_train = y[train]
        y_test  = y[test]
        clfLasso.fit(X_train, y_train)
        y_pred=clfLasso.predict(X_test)
        scores_tmp=( np.sum( y_pred[y_test==-1] > 0 ) + np.sum( y_pred[y_test==1] < 0 ) ) / y_test.shape[0]
        scores_regul.append(scores_tmp)
    scores_lasso.append( np.mean(scores_regul) )
    print("Proba d'erreur moyenne =  " + str(np.mean(scores_regul)) + " pour regul = " + str(regul) )
    print("Numbre de features utilisées : {}".format(np.sum(clfLasso.coef_ != 0)))

  positive)
  positive)
  positive)
  positive)
  positive)
  positive)
  positive)
  positive)
  positive)


Proba d'erreur moyenne =  0.0 pour regul = 0.01
Numbre de features utilisées : 111
Proba d'erreur moyenne =  0.0 pour regul = 0.1
Numbre de features utilisées : 25
Proba d'erreur moyenne =  0.003792453042339198 pour regul = 1.0
Numbre de features utilisées : 5
Proba d'erreur moyenne =  0.003081271468969433 pour regul = 10.0
Numbre de features utilisées : 2
Proba d'erreur moyenne =  0.48785509886267164 pour regul = 100.0
Numbre de features utilisées : 0


### SVM avec noyau linéaire

## Questions:
* 1) Réaliser une classification binaire en utilisant les méthodes linéaires suivantes: regression "ridge", LASSO et SVM (sans noyau !).
 * Pour ces méthodes vous devez faire une recherche du meilleur paramètre de régularisation ;
 * Vous devrez égalemement selectionner les deux languages de votre choix

## Questions:
* 2) Réaliser une classification binaire avec l'une des méthodes linéaire précédent en utilisant la réduction de dimension (ACP par exemple, ou une autre méthode)

## Questions:
* 4. Réaliser une classification binaire en utilisant les SVM à noyau (comparer les performances obtenus avec un noyau Gaussien (rbf) et un noyau polynomial

## Questions:
* 5. Sur la base des résultats précédents, quelle est la méthode linéaire la plus adaptée à ce problème de classification


## Questions:
* 6. Enfin, mettre en place une méthode (de votre choix) de classification multi-classe;
 * Donner la matrice de confusion et indiquer les languages les plus difficile à distinguer.