# Modelo Mezclas Gaussianas - Cancer - Taller
****

In [1]:
#Importamos las librerias
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import patches #patches sirve para la graficacion de elipses
from sklearn import datasets
from sklearn.mixture import GMM #Mixture contiene los modelos de mezclas
from sklearn.cross_validation import StratifiedKFold #validacion por k-fold

from sklearn.linear_model import LogisticRegression # Importa el modelo de clasificación
from sklearn.cross_validation import train_test_split # Importa las funciones de validación cruzada
from sklearn.preprocessing import StandardScaler # Importa las funciones de preprocesamineto

# Importamos la base de datos
cancer = datasets.load_breast_cancer()



In [2]:
# Seleccionamos todas las muestras con todas sus caracteristicas (30)
X = cancer.data[:, :30]
# También seleccionamos las muestras que tienen quienes cuales tiene cancer y cuales no
y = cancer.target

In [3]:
# Hacemos la división del conjunto de entrenamiento y el conjunto de validación
indices = StratifiedKFold(cancer.target, n_folds=5) # n_folds es nuestro numero de particiones, en este caso 5
train_index,test_index = next(iter(indices))

# Ahora obtenemos los datos
X_train = cancer.data[train_index]
y_train = cancer.target[train_index]
X_test = cancer.data[test_index]
y_test = cancer.target[test_index]

In [4]:
# Obtenemos el numero de clases
numero_clases = len(np.unique(y_train))

In [5]:
# Despues, pasamos a la fabricación el clasificador GMM
clasificador = GMM(n_components = numero_clases, covariance_type = 'full', init_params = 'wc', n_iter = 20) # wc es peso y covarianza
clasificador.means_= np.array([X_train[y_train==i].mean(axis=0) for i in range(numero_clases)])
clasificador.fit(X_train)



GMM(covariance_type='full', init_params='wc', min_covar=0.001, n_components=2,
  n_init=1, n_iter=20, params='wmc', random_state=None, tol=0.001,
  verbose=0)

In [6]:
# Para validar el clasificador

# Cálculamos la exactitud del clasificador (accurrancy)
y_train_predict = clasificador.predict(X_train)
acc_train = np.mean(y_train_predict.ravel() == y_train.ravel())*100
# Cálculamos la exactitud del clasificador de prueba (accurrancy)
y_test_predict = clasificador.predict(X_test)
acc_test = np.mean(y_test_predict.ravel() == y_test.ravel())*100
print('El acierto de entrenamiento es del ', format(acc_train, '.3f'),'%')
print('El acierto de prueba es del ', format(acc_test, '.3f'),'%')

El acierto de entrenamiento es del  92.5110132159 %
El acierto de prueba es del  90.4347826087 %




# Modelo de Regresión Logistica
****

In [10]:
# Hacemos la división del conjunto de entrenamiento y el conjunto de validación
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)

# Estándarizamos los datos
sc = StandardScaler()
sc.fit(X_train)
X_train_norm = sc.transform(X_train)
X_test_norm = sc.transform(X_test)

# Ahora entrenamos el clasificador
clasificador = LogisticRegression(C=1, random_state=0) # C es el parámetro de regularización
clasificador.fit(X_train_norm, y_train) # Entrenamiento del clasificador

#Para validar el clasificador
y_pred = clasificador.predict(X_test_norm)
correct = (y_pred - y_test) == 0
# Cálculamos la exactitud del clasificador (accurrancy)
acc = (sum(correct) / y_test.size)*100
# En la primera columna, la cantidad de errores

print('Cantidad de errores: ', (y_test != y_pred).sum())
print('El acierto de entrenamiento es del: ', format(acc, '.3f'),'%')

Cantidad de errores:  4
El acierto de entrenamiento es del:  97.661 %


Como el acierto de la Regresión Logistica es mejor (97%) que el de Mezclas Gaussianas (92%), podemos concluir que para el análisis de la base de datos de Cáncer, se debería utilizar la Regresión Logistica.