In [36]:
import os
import urllib
import numpy as np
from sklearn.datasets.mldata import fetch_mldata
import tempfile

In [45]:
class Linear():
    
    def __init__(self, iter, eps, reg):
        self.iter = iter
        self.eps = eps
        self.reg = reg # coef de régularisation
    
    def fit(self, X, y):
        l = X.shape[0]
        n = X.shape[1] # nb_features
        self.w = np.random.rand(n)
        for i in range(self.iter):
            idx = np.random.randint(0, l-1)
            err = -2 * (y[idx] - self.w.dot(X[idx]))
            grad = np.ones(n)*err * X[idx] + np.ones(n)*self.reg * np.sign(self.w)
            w_old = np.copy(self.w)
            self.w = self.w - self.eps * grad
            tmp = self.w * w_old
            self.w[tmp < 0] = 0
            print("#iter", i)
            print("err_global", self.err_global(X, y))
            print("accuracy", self.accuracy(X, y))
            
    def err_global(self, X, y):
        return ((y - X.dot(self.w)) ** 2).sum() / X.shape[0]
    
    def accuracy(self, X, y):
        pred = self.predict(X)
        nb_true = np.equal(pred, y).sum()
        return float(nb_true) / X.shape[0]
    
    def predict(self, X):
        return np.where( X.dot(self.w) > 0, 1, -1 )
        
    def L0(self):
        return self.w[self.w != 0].shape[0]
    
    
class Dataset():
    
    def __init__(self):
        pass
        
    def _print(self, X, y):
        print("shape X", X.shape)
        print("shape y", y.shape)
        unique = np.unique(y)
        print("label", unique)
    
    def load_iris(self):
        test_data_home = tempfile.mkdtemp()
        iris = fetch_mldata('iris', data_home=test_data_home)
        X = iris.data
        y = iris.target
        y[y == 2] = -1 # transformer en 2 labels -1 ou 1
        y[y == 3] = -1
        self._print(X, y)
        return X, y
    
    def load_leuk(self):
        test_data_home = tempfile.mkdtemp()
        leuk = fetch_mldata('leukemia', data_home=test_data_home, transpose_data=True)
        X = leuk.data
        y = leuk.target
        self._print(X, y)
        return X, y
    
    def load_diab(self): # Pirma Indians Diabetes dataset (UCI Machine Learning Rep)
        raw_data = urllib.urlopen("http://goo.gl/j0Rvxq")
        dataset = np.loadtxt(raw_data, delimiter=",")
        X = dataset[:, 0:7]
        y = dataset[:, 8]
        y[y == 0] = -1
        self._print(X, y)
        return X, y
        #os.execute('wget -t inf ' + self.url +)

In [53]:
dataset = Dataset()
X, y = dataset.load_iris()

('shape X', (150, 4))
('shape y', (150,))
('label', array([-1,  1]))


In [54]:
from sklearn.cross_validation import KFold

cv = KFold(n=X.shape[0], n_folds=5)

for id_train, id_test in cv:
    X_train = X[id_train]
    y_train = y[id_train]
    X_test = X[id_test]
    y_test = y[id_test]
    
clf = Linear(iter=100, eps=1e-2, reg=0)
clf.fit(X, y)

('#iter', 0)
('err_global', 2.0782005915690469)
('accuracy', 0.3333333333333333)
('#iter', 1)
('err_global', 1.9710706352833669)
('accuracy', 0.3466666666666667)
('#iter', 2)
('err_global', 1.8796612099598573)
('accuracy', 0.35333333333333333)
('#iter', 3)
('err_global', 1.8744634156203843)
('accuracy', 0.35333333333333333)
('#iter', 4)
('err_global', 1.7218626331358742)
('accuracy', 0.36666666666666664)
('#iter', 5)
('err_global', 1.65808710348865)
('accuracy', 0.37333333333333335)
('#iter', 6)
('err_global', 1.5336703507274989)
('accuracy', 0.37333333333333335)
('#iter', 7)
('err_global', 1.5185277216260442)
('accuracy', 0.38666666666666666)
('#iter', 8)
('err_global', 1.5125907911580503)
('accuracy', 0.38666666666666666)
('#iter', 9)
('err_global', 1.508784060712645)
('accuracy', 0.38666666666666666)
('#iter', 10)
('err_global', 1.4483634434607378)
('accuracy', 0.4066666666666667)
('#iter', 11)
('err_global', 1.3422908004284857)
('accuracy', 0.43333333333333335)
('#iter', 12)
('err_

In [10]:
clf.w.shape

(150,)

In [12]:
X.shape

(150, 4)