In [21]:
import numpy as np
X_train = np . loadtxt ('cat_data_X.csv ', ndmin =2)
y_train = np . loadtxt ('cat_data_y.csv ')

In [12]:
print(f"Quantité de chats : {y_train.size}")
print(f"Quantité de chats de type A : {y_train[y_train==1].shape}")
print(f"Quantité de chats de type B : {y_train[y_train==-1].shape}")

Quantité de chats : 300
Quantité de chats de type A : (199,)
Quantité de chats de type B : (101,)


In [17]:
print(f"Poids mini : {X_train[np.argmin(X_train)]}")
print(f"Poids max : {X_train[np.argmax(X_train)]}")
print(f"Poids médian : {np.mean(X_train)}")

Poids mini : [1.7]
Poids max : [8.53]
Poids médian : 5.399633333333333


In [19]:
print(f"Poids mini chat A : {X_train[np.argmin(X_train[y_train==1])]}")
print(f"Poids max chat A : {X_train[np.argmax(X_train[y_train==1])]}")
print(f"Poids médian chat A : {np.mean(X_train[y_train==1])}")

Poids mini chat A : [4.04]
Poids max chat A : [4.86]
Poids médian chat A : 6.078743718592965


In [20]:
print(f"Poids mini chat A : {X_train[np.argmin(X_train[y_train==-1])]}")
print(f"Poids max chat A : {X_train[np.argmax(X_train[y_train==-1])]}")
print(f"Poids médian chat A : {np.mean(X_train[y_train==-1])}")

Poids mini chat A : [4.62]
Poids max chat A : [4.32]
Poids médian chat A : 4.061584158415842


In [141]:
# -*- coding: utf-8 -*-
"""
SY32 : Vision et apprentissage
Printemps 2020

TD01 : Apprentissage automatique
"""

import numpy as np

class CatClassifier():
    """ Classifieur de chats 
    
    On distingue deux types de chat : type A (-1) et type B (+1).
    On classifie les chats en fonction de leur poids x à l'aide du classifier
    f_h défini telle que : f_h(x) = -1 si x <= h et +1 sinon.
    
    Parameters
    ----------
    
    Attributes
    ----------
    h_hat : float
            Valeur optimale de h.
    
    """
    
    h_hat = -np.Inf
    
    def __init__(self):
        pass
    
    def predict(self, X, h=None):
        """
        Prédit le type de chat pour les poids X et le paramètre h
        
        Parameters
        ----------
        X : array-like of shape (n_sample, n_features)
            Poids des chats
        
        h : float (default=h_hat)
            Paramètre de décision 
        
        Returns
        -------
        y : array-like of shape (n_samples,)
            Type des chats
        """
        if h is None:
            h = self.h_hat
        
        y = []

        for item in X:
            if item <= h :
                y.append(-1)
            else:
                y.append(1)

        return np.array(y)
    
    def err_emp(self, X, y, h=None):
        """
        Calcule l'erreur empirique de f_h sur l'ensemble (X,y).

        Parameters
        ----------
        X : array-like of shape (n_sample, n_features)
            Poids des chats
            
        y : array-like of shape (n_samples,)
            Type des chats
            
        h : float (default=h_hat)
            Paramètre de décision 

        Returns
        -------
        erreur : float
                 Erreur empirique

        """
        if h is None:
            h = self.h_hat
        
        nb_errors = 0

        prediction = self.predict(X,h)

        for i in range(prediction.size):
            if prediction[i]!=y[i]:
                nb_errors+=1

        return nb_errors/prediction.size
    
    def fit(self, X, y):
        """
        Calcule la valeur optimale de h sur l'ensemble (X,y).
        L'attribut h_hat est mis à jour.'
        
        Parameters
        ----------
        X : array-like of shape (n_sample, n_features)
            Poids des chats
        
        y : array-like of shape (n_samples,)
            Type des chats
        
        Returns
        -------
        self : object
        """
        h_var=0
        prev_err = self.err_emp(X=X,y=y,h=h_var)
        best_err = prev_err

        while h_var<np.argmax(X_train):
            h_var += 0.01
            err = self.err_emp(X=X,y=y,h=h_var)
            #print(f"h_var : {h_var} err : {err}")

            if err < best_err:
                best_err = err
                self.h_hat = h_var

            prev_err = err
        

        return self
        pass

In [142]:
clf = CatClassifier()

In [None]:
clf.predict(X=X_train,h=5)

In [65]:
print(clf.err_emp(X=X_train,y=y_train,h=5))

0.15333333333333332


In [None]:
for i in range(np.argmax(X_train)):
    print(clf.err_emp(X=X_train,y=y_train,h=i))
    print(i)

In [112]:
clf.fit ( X_train , y_train )
print ( clf.h_hat )

4.599999999999946


In [116]:
print ( clf.err_emp ( X_train , y_train ))

0.12666666666666668


In [146]:
from sklearn.model_selection import KFold

def validation_croisee(X, y, K):
    h_hats = []

    kf = KFold(K)
    for train_index, test_index in kf.split(X):
        #print("TRAIN:", train_index, "TEST:", test_index)
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]   

        slice_clf = CatClassifier()
        slice_clf.fit(X_train,y_train)
        print(f"H hat : {slice_clf.h_hat}")
        h_hats.append(slice_clf.h_hat)
        print(f"Erreur : {slice_clf.err_emp (X_test , y_test)}")

    return np.mean(np.array(h_hats))

validation_croisee(X_train, y_train, 5)

H hat : 4.599999999999946
Erreur : 0.15
H hat : 4.599999999999946
Erreur : 0.15
H hat : 4.519999999999948
Erreur : 0.1
H hat : 4.329999999999952
Erreur : 0.16666666666666666
H hat : 4.599999999999946
Erreur : 0.16666666666666666


4.529999999999947

In [151]:
def var_fold(nb_fold, X, Y):
    import matplotlib.pyplot as plt

    clf = CatClassifier()
    folds = np.array(range(1,nb_fold))
    res = []

    for i in folds:
        t = validation_croisee(X, Y, i)
        res.append(clf.err_emp(X, Y, t))

    res = np.array(res)

    plt.xlabel("nb folds")
    plt.ylabel("errors")
    plt.plot(folds, res, color = "red", marker = "o", label = "Array elements")
    plt.legend()
    plt.show()

var_fold(10, X_train, y_train)


ValueError: k-fold cross-validation requires at least one train/test split by setting n_splits=2 or more, got n_splits=1.