In [34]:
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split

# Eliminamos la tendencia central de las características para la matriz de entrenamiento
def remocion_train(X) :
    X = X - X.mean(axis=0)
    X = X/X.std(axis=0)

    return X

# Eliminamos la tendencia central de las características para la matriz de prueba
def remocion_test(X_test) :
    media = X_train.mean(axis=0)
    desviacion = X_train.std(axis=0)

    X_test = X_test - media
    X_test = X_test/desviacion

    return X_test

# Organizamos el diccionario descendentemente para saber las características que más aportan
def sort_dictionary(dictionary) :
    # Creamos un nuevo diccionario
    new_dict = {}
    # El item[1] es el valor y el item[0] es la llave, reverse=True nos permite hacerlo descendente
    for key, value in sorted(dictionary.items(), key=lambda item: (item[1], item[0]), reverse=True):
        # Llenamos el diccionario con los datos organizados
        new_dict.update({key:value})
        
    return new_dict

# Creamos el diccionario, cargamos los datos de la libreria
# y una lista con las etiquetas del cancer
resultados = {}
cancer = datasets.load_breast_cancer()
etiquetas = cancer.feature_names

# Vamos eliminando las 30 etiquetas una a una para obtener las
for i in range(0, 30):
    # Cogemos todas las observaciones
    X = cancer.data[:,:]
    # Vamos eliminando iterativamente (i) la característica 
    X = np.delete(X, i, 1)
    # Las clases maligna y no maligna
    y = cancer.target
    
    # Separamos los datos con un 30% para test y un 70% para entrenar y una semilla de valor 0
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

    # Aplicamos la técnica de preprocesamiento para las dos entramiento y test
    x_train_norm = remocion_train(X_train)
    x_test_norm = remocion_test(X_test)
    
    # Entrenamos el clasificador con un factor de regulación de 1.0
    clasificador = LogisticRegression(C=1.0, random_state=0)
    clasificador.fit(x_train_norm, y_train)

    # Obtenermos los resultados, comparamos los que son diferentes
    y_predict = clasificador.predict(x_test_norm)
    diferentes = (y_test != y_predict).sum()
    
    # Guardamos en el diccionario el nombre de la característica con el valor 
    # de muestras diferentes que obtuvo
    resultados.update({etiquetas[i]:diferentes})

# Organizamos los valores de mayor a menor e imprimimos los resultados
resultados = sort_dictionary(resultados)
print(resultados)


{'worst symmetry': 6, 'worst smoothness': 6, 'compactness error': 6, 'worst radius': 5, 'worst perimeter': 5, 'worst fractal dimension': 5, 'worst concave points': 5, 'texture error': 5, 'mean texture': 5, 'mean perimeter': 5, 'mean concave points': 5, 'fractal dimension error': 5, 'worst texture': 4, 'worst concavity': 4, 'worst compactness': 4, 'worst area': 4, 'symmetry error': 4, 'smoothness error': 4, 'radius error': 4, 'perimeter error': 4, 'mean symmetry': 4, 'mean smoothness': 4, 'mean radius': 4, 'mean fractal dimension': 4, 'mean concavity': 4, 'mean compactness': 4, 'mean area': 4, 'concavity error': 4, 'area error': 4, 'concave points error': 3}
