In [45]:
import numpy as np
from sklearn.datasets.mldata import fetch_mldata
import tempfile
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.naive_bayes import GaussianNB
import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
from sklearn import cluster

In [7]:
test_data_home = tempfile.mkdtemp()
leuk = fetch_mldata('leukemia', transpose_data=True, data_home=test_data_home)

X = leuk['data']

y = leuk['target']

In [8]:
print(np.unique(y))

[-1  1]


# Preprocesamiento - Remoción de la media

In [100]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=3)

def remocion_train(X):
    X = X - X.mean(axis=0)
    X = X/X.std(axis=0)
    
    return X

def remocion_test(X_test):
    media = X_train.mean(axis=0)
    desviacion = X_train.std(axis=0)
    
    X_test = X_test - media
    X_test = X_test/desviacion
    
    return X_test

x_train_norm = remocion_train(X_train)
x_test_norm = remocion_test(X_test)

# Regresión Logística

In [41]:
# Regresión logística
clasificador = LogisticRegression(C=1000.0, random_state=0)
clasificador.fit(x_train_norm, y_train)
y_pred = clasificador.predict(x_test_norm)


iguales = (y_test == y_pred).sum()
n = len(y_pred)
porcentaje = (iguales / n)*100
print('numero de muestras iguales fueron %d / %d'%( iguales, n))
print('Porcentaje es: %f' %(porcentaje))

numero de muestras iguales fueron 21 / 22
Porcentaje es: 95.454545


In [42]:
nombres_clases = ['Primera Clase', 'Segunda Clase']
print('\n'+'*'*60)
print('Desempeño del clasificador sobre el conjunto de entranamiento')
print(classification_report(y_train, clasificador.predict(X_train), target_names = nombres_clases))
print('\n'+'*'*60)

print('\n'+'*'*60)
print('Desempeño del clasificador sobre el conjunto de validacion')
print(classification_report(y_test, y_pred, target_names = nombres_clases))
print('\n'+'*'*60)


************************************************************
Desempeño del clasificador sobre el conjunto de entranamiento
               precision    recall  f1-score   support

Primera Clase       1.00      1.00      1.00        16
Segunda Clase       1.00      1.00      1.00        34

  avg / total       1.00      1.00      1.00        50


************************************************************

************************************************************
Desempeño del clasificador sobre el conjunto de validacion
               precision    recall  f1-score   support

Primera Clase       0.90      1.00      0.95         9
Segunda Clase       1.00      0.92      0.96        13

  avg / total       0.96      0.95      0.95        22


************************************************************


# Bayes Naive

In [43]:
clasificador = GaussianNB()
clasificador.fit(X_train, y_train)
y_pred = clasificador.predict(X_test)

iguales = (y_test == y_pred).sum()
n = len(y_pred)
porcentaje = (iguales / n)*100
print('numero de muestras iguales fueron %d / %d'%( iguales, n))
print('Porcentaje es: %f' %(porcentaje))

numero de muestras iguales fueron 22 / 22
Porcentaje es: 100.000000


In [44]:
nombres_clases = ['Primera Clase', 'Segunda Clase']
print('\n'+'*'*60)
print('Desempeño del clasificador sobre el conjunto de entranamiento')
print(classification_report(y_train, clasificador.predict(X_train), target_names = nombres_clases))
print('\n'+'*'*60)

print('\n'+'*'*60)
print('Desempeño del clasificador sobre el conjunto de validacion')
print(classification_report(y_test, y_pred, target_names = nombres_clases))
print('\n'+'*'*60)


************************************************************
Desempeño del clasificador sobre el conjunto de entranamiento
               precision    recall  f1-score   support

Primera Clase       1.00      1.00      1.00        16
Segunda Clase       1.00      1.00      1.00        34

  avg / total       1.00      1.00      1.00        50


************************************************************

************************************************************
Desempeño del clasificador sobre el conjunto de validacion
               precision    recall  f1-score   support

Primera Clase       1.00      1.00      1.00         9
Segunda Clase       1.00      1.00      1.00        13

  avg / total       1.00      1.00      1.00        22


************************************************************


# NO SUPERVISADO

# Clúster

In [134]:
num_cluster = 2

modelo_kmeans = KMeans(init = 'k-means++', n_clusters = num_cluster, n_init = 10) # init establece el método de localización inicial de los centroides
modelo_kmeans.fit(X)
centroides = modelo_kmeans.cluster_centers_
labels = modelo_kmeans.labels_

print('Clase -1: %d' %(sum(labels == 1)))
print('Clase 1: %d' %(sum(labels == 0)))

labels_con_clase = list()
for clase in labels:
    dato = -1 if clase == 1 else 1
    labels_con_clase.append(dato)
    
acc = 0
for i in range(len(y)):
    if labels_con_clase[i] == y[i]:
        acc = acc + 1
        
print('Porcentaje de acierto al clasificar: %d' %(acc/len(y)*100))

Clase -1: 29
Clase 1: 43
Porcentaje de acierto al clasificar: 55
