In [40]:
# Para importar la base de datos leucemia
from sklearn.datasets.mldata import fetch_mldata
import tempfile

import numpy as np

# Para Procesamiento de datos
## Regresion logistica
from sklearn.linear_model import LogisticRegression   #Importa las fxn de validacion cruzadas
from sklearn.cross_validation import train_test_split #Importa las funciones de validación cruzada
from sklearn.preprocessing import StandardScaler      #Importar las funciones de preparacion 
## Naive bayes
from sklearn.metrics import classification_report
from sklearn.naive_bayes import GaussianNB #importar libreria del clasificador 
## Clustering
# K-Means
from sklearn.cluster import KMeans
from sklearn import cluster
## GMM
from matplotlib import patches # es para hacer elipses
from sklearn import datasets
from sklearn.mixture import GMM #mixture contiene los modelos de mezclas
from sklearn.cross_validation import StratifiedKFold #validación por K-folds
## Arboles 
from sklearn.tree import DecisionTreeClassifier
from sklearn import cross_validation
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier

# Analisis Supervisados

In [22]:
#__________________________________ Preprocesamiento de datos ___________________________________#
def Preprocesamiento_datos(X,y):
    # Remocion de la media
    X_train , X_test , y_train , y_test = train_test_split(X,y,test_size=0.3, random_state = 3)

    #Remoción para x_train
    def Remocion(X):
        med = X.mean(axis=0)
        des = X.std(axis=0)
        X = X - med
        X = X/des
        return X,med, des

    #Remocion para x_test
    def Remocion_test(X,med,des):
        X = X - med
        X = X/des
        return X

    #Remocion para x_train
    x_norm_train,t_train_mean,t_train_desv = Remocion(X_train)
    #Remocion para x_test
    x_norm_test = Remocion_test(X_test,t_train_mean,t_train_desv)

    clasificador = LogisticRegression(C=1000.0,random_state=0) # C es el parametro
    clasificador.fit(x_norm_train, y_train) # entrenamiento del clasificador

    # para validar el clasificador
    y_pred = clasificador.predict(x_norm_test)

    # Para visualizar los resultados y analizarlos: 
    print('Las muestras mal clasificadas fueron de %d/%d '%((y_test == y_pred).sum(),len(y_pred)))
    val = ((y_test == y_pred).sum()/len(y_pred))*100
    print('El porcentaje de muestras bien clasificadas es de : ',val,'%')
    validar_clasificador(y_train,X_train,clasificador,y_test,y_pred)


In [24]:
#____________________________ Naive Bayes ____________________________________#
def Naive_Bayes(X,y):
    # Dividimos la base de datos
    X_train , X_test , y_train , y_test = train_test_split(X,y,test_size=0.3, random_state = 3)

    #generar el clasificador
    clasificador = GaussianNB() #instanciamos y luego entrenamos
    clasificador.fit(X_train, y_train) #entrenamos el clasificador

    #hacer la predicion
    y_predict = clasificador.predict(X_test)

    # Entregar los resultados: 
    print('Las muestras mal clasificadas fueron de %d/%d '%((y_test == y_predict).sum(),len(y_predict)))
    val = ((y_test == y_predict).sum()/len(y_predict))*100
    print('El porcentaje de muestras bien clasificadas es de : ',val,'%')
    validar_clasificador(y_train,X_train,clasificador,y_test,y_predict)

# Aprendizaje No Supervisado

In [25]:
#__________________________ K-Means ______________________________________#

def k_means_Cluster(X,y): 
    # definimos el número de clusters o grupos
    num_cluster = 2
    #generamos el modelo 

    #init establece el método de localizacion inicial de los centroides
    modelo_kmeans= KMeans(init = 'k-means++',n_clusters = num_cluster, n_init=10)

    #entrenar el modelo 
    modelo_kmeans.fit(X)

    #centros
    centroides = modelo_kmeans.cluster_centers_

    labels = modelo_kmeans.labels_ 
    print('Etiquetas con Clustering : ')
    print('______________________________________________________________________________')
    print(labels)
    print('Etiquetas originales: ')
    print('______________________________________________________________________________')
    print(y)
    clase_0 = 0
    clase_1 = 0

    labels_t = np.where(labels==0,-1,labels)
    print('______________________________________________________________________________')
    print(labels_t)
    cont = 0
    for i in range(len(labels)):
        if labels_t[i] == labels[i]:
            cont = cont + 1
    val = (cont/len(labels))*100

    print('El porcentaje de muestras bien clasificadas es de : ',val,'%')


# Modelos de mezclas Gaussianas GMM

In [50]:
def GMM(X,y):
    # Utilizamos una variable externa para manipular las etiquetas y no alterar las originales
    y_respaldo = y
    y_respaldo = np.where(y_respaldo==-1,0,y_respaldo)

    #print(y_respaldo)

    #realizamos las particiones de los datos para entrenamiento y validacion 80/20
    indices = StratifiedKFold(y_respaldo, n_folds = 5)

    #objetos iterables para sacar los indices
    train_index,test_index = next(iter(indices))

    #extraer los datos de la base de datos
    X_train = X[train_index]
    y_train = y_respaldo[train_index]
    X_test = X[test_index]
    y_test = y_respaldo[test_index]


    #calculamos el número de clases
    numero_clases = len(np.unique(y_train))
    
    # Construir el clasificador GMM
    clasificador = GMM(n_components = numero_clases,covariance_type = 'full', init_params = 'w', n_iter = 20)

    clasificador.means_ = np.array([X_train[y_train==i].mean(axis=0)for i in range(numero_clases)])

    #Entrenamos con fit
    clasificador.fit(X_train)
    # Predecimos las etiquitas 
    y_train_predict = clasificador.predict(X_train)
    # Calculamos el porcentaje de aciertos de las muestras bien entrenadas
    acc_train = np.mean(y_train_predict.ravel() == y_train.ravel())*100
    print('El acierto de entrenamiento es del ',acc_train,'%')

    # Predecimos las etiquetas con los datos entrenados
    y_test_predict = clasificador.predict(X_test)
    # Calculamos el porcentaje de aciertos de las muestras de la prueba
    acc_test = np.mean(y_test_predict.ravel() == y_test.ravel())*100
    print('El acierto de pruebas es del ',acc_test,'%')

    # Reporte de validación
    validar_clasificador(y_train,X_train,clasificador,y_test,y_test_predict)


# Arboles de decisiones

In [27]:
def Arbol_desicion(X,y):
    # Separamos los datos de acuerdo a las etiquetas(2 clases), esto varia dependiendo del numero de clases
    clase1 = np.array(X[y==1])
    clase_1 = np.array(X[y==-1])

    # Dividimos los datos en entrenamiento y validación
    X_train, X_test, y_train, y_test = cross_validation.train_test_split(X,y, test_size = 0.25, random_state = 5)

    # construimos el clasificador
    # variable tipo diccionario con los parametros del arbol
    # random state: semilla con la que arranca las cosas aleatorias
    # max_depth: Numero de niveles del arbolito.
    parametros = {'random_state' : 0, 'max_depth':4}
    #construir arbol de clasificación
    clasificador = DecisionTreeClassifier(**parametros)

    # lo entrenamos para que con el conjunto de entrenamiento se arme el arbolito
    clasificador.fit(X_train, y_train)
    # Predecimos las etiquetas
    y_test_pred = clasificador.predict(X_test)
    # Mostramos los resultados
    val = ((y_test == y_test_pred).sum()/len(y_test_pred))*100
    print('El porcentaje de muestras bien clasificadas es de : ',val,'%')
    validar_clasificador(y_train,X_train,clasificador,y_test,y_test_pred)

# Bosques aleatorios

In [28]:
def bosques_aleatorios(X,y):    
    # Separamos los datos de acuerdo a las etiquetas(2 clases), esto varia dependiendo del numero de clases
    clase1 = np.array(X[y==1])
    clase_1 = np.array(X[y==-1])

    # Dividimos los datos en entrenamiento y validación
    X_train, X_test, y_train, y_test = cross_validation.train_test_split(X,y, test_size = 0.25, random_state = 5)

    # hay dos tipos de bosques aleatorios, 'ba' y 'baa'.
    # A continuación se define o se indica el tipo de arbol que queremos generar
    tipo_clasificador = 'ba'
    # Se crea un diccionario con los parametros o caracteristicas que debe de tener el árbol
    parametros = { 'n_estimators':100, 'max_depth': 4, 'random_state':0}

    # Se genere el bosque dependiendo de el parametro o tipo_clasificador que se necesita
    if tipo_clasificador == 'ba':
        # Bosque aleatorio
        clasificador = RandomForestClassifier(**parametros)
    else:
        # Bosque extra aleatorio
        clasificador = ExtraTreesClassifier(**parametros)

    # Entrenamos el clasificador
    clasificador.fit(X_train, y_train)

    #validamos el clasificador
    y_test_pred = clasificador.predict(X_test)

    ## REPORTE DE CLASIFICACIÓN
    val = ((y_test == y_test_pred).sum()/len(y_test_pred))*100
    print('El porcentaje de muestras bien clasificadas es de : ',val,'%')
    validar_clasificador(y_train,X_train,clasificador,y_test,y_test_pred)

## Reporte de Clasificación

In [29]:
# Funcion para el reporte de los diferentes metodos.
def validar_clasificador(y_train,X_train,clasificador,y_test,y_predict):
    # Evaluamos el desempeño del clasificador imprimiendo el reporte de clasificación.
    nombres_clases = ['Primera Clase','Segunda Clase']
    print('\n' + '#'*70)
    print('\n Desempeño del clasificador sobre el conjunto de entrenamiento \n')
    print(classification_report(y_train, clasificador.predict(X_train), target_names = nombres_clases))
    print('#'*70 + '\n')
    print('\n'+ '#'*70 )
    print('Desempeño del clasificador sobre el conjunto de la validación \n')
    print(classification_report(y_test,y_predict, target_names = nombres_clases))
    print('\n'+ '#'*70 )

# REPORTE Y CONCLUSIONES:


In [44]:
# Importamos las base de datos
test_data_home = tempfile.mkdtemp()
leuk = fetch_mldata('leukemia', transpose_data=True, data_home=test_data_home)

X = leuk['data']

y = leuk['target']


In [51]:
# MOSTRAMOS LOS DATOS DEL REPORTE.

# Aplicación de métodos 
print('\n\n________________PROCESAMIENTO DE DATOS_____________')
Preprocesamiento_datos(X,y)
print('\n\n________________NAIVE BAYES________________________')
Naive_Bayes(X,y)
print('\n\n_________________Clustering________________________')
k_means_Cluster(X,y)
print('\n\n_________________Arboles de decisión_______________')
Arbol_desicion(X,y)
print('\n\n_________________Bosques aleatorios________________')
bosques_aleatorios(X,y)
print('\n\n_________________Mezclas Gausianas_________________')
GMM(X,y)





________________PROCESAMIENTO DE DATOS_____________
Las muestras mal clasificadas fueron de 21/22 
El porcentaje de muestras bien clasificadas es de :  95.4545454545 %

######################################################################

 Desempeño del clasificador sobre el conjunto de entrenamiento 

               precision    recall  f1-score   support

Primera Clase       1.00      1.00      1.00        16
Segunda Clase       1.00      1.00      1.00        34

  avg / total       1.00      1.00      1.00        50

######################################################################


######################################################################
Desempeño del clasificador sobre el conjunto de la validación 

               precision    recall  f1-score   support

Primera Clase       0.90      1.00      0.95         9
Segunda Clase       1.00      0.92      0.96        13

  avg / total       0.96      0.95      0.95        22


#####################################

TypeError: GMM() got an unexpected keyword argument 'n_components'

En Conclusion, para la base de datos en estudio, las tecnicas que mejor utilizan los datos, se dan en este orden: 
1. Procesamiento de datos
2. Naive Bayes
3. Bosques de decision
4. Arboles de decision
5. GMM
6. Clustering