Diagnóstico del cáncer de mama (scikit-learn)
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/01-kNN-breast-cancer.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-predictive-analytics/blob/master/01-kNN-breast-cancer.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/readme.md)

In [2]:
## Lee el archivo. La función readlines() retorna una 
## una lista de strings donde cada string es una linea
## del archivo original.
wbcd = open('data/wisc_bc_data.csv').readlines()

## Convierte cada linea en una lista de strings, 
## partiendo la línea original por las comas.
wbcd = [x.split(',') for x in wbcd]

## Imprime los nombres de las columnas
wbcd[0]

['"id"',
 '"diagnosis"',
 '"radius_mean"',
 '"texture_mean"',
 '"perimeter_mean"',
 '"area_mean"',
 '"smoothness_mean"',
 '"compactness_mean"',
 '"concavity_mean"',
 '"concave points_mean"',
 '"symmetry_mean"',
 '"fractal_dimension_mean"',
 '"radius_se"',
 '"texture_se"',
 '"perimeter_se"',
 '"area_se"',
 '"smoothness_se"',
 '"compactness_se"',
 '"concavity_se"',
 '"concave points_se"',
 '"symmetry_se"',
 '"fractal_dimension_se"',
 '"radius_worst"',
 '"texture_worst"',
 '"perimeter_worst"',
 '"area_worst"',
 '"smoothness_worst"',
 '"compactness_worst"',
 '"concavity_worst"',
 '"concave points_worst"',
 '"symmetry_worst"',
 '"fractal_dimension_worst"\n']

In [3]:
## Elimina la primera fila
wbcd = wbcd[1:]

## Extrae la columna diagnosis que es la 
## variable de salida (columna 1)
wbcd_diagnosis = [x[1] for x in wbcd]

## Elimina las columnas 0 (id) y 1 (diagnosis)
## de los datos originales
wbcd_data = [x[2:] for x in wbcd]
wbcd_data[0]

['17.99',
 '10.38',
 '122.8',
 '1001',
 '0.1184',
 '0.2776',
 '0.3001',
 '0.1471',
 '0.2419',
 '0.07871',
 '1.095',
 '0.9053',
 '8.589',
 '153.4',
 '0.006399',
 '0.04904',
 '0.05373',
 '0.01587',
 '0.03003',
 '0.006193',
 '25.38',
 '17.33',
 '184.6',
 '2019',
 '0.1622',
 '0.6656',
 '0.7119',
 '0.2654',
 '0.4601',
 '0.1189\n']

In [4]:
## Convierte los strings a números.
wbcd_data = [[float(y) for y in x] for x in wbcd_data]
wbcd_data[0]

[17.99,
 10.38,
 122.8,
 1001.0,
 0.1184,
 0.2776,
 0.3001,
 0.1471,
 0.2419,
 0.07871,
 1.095,
 0.9053,
 8.589,
 153.4,
 0.006399,
 0.04904,
 0.05373,
 0.01587,
 0.03003,
 0.006193,
 25.38,
 17.33,
 184.6,
 2019.0,
 0.1622,
 0.6656,
 0.7119,
 0.2654,
 0.4601,
 0.1189]

In [5]:
## Escala la matriz de datos al intervalo [0, 1]
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
wbcd_n = scaler.fit_transform(wbcd_data)
wbcd_n

array([[0.52103744, 0.0226581 , 0.54598853, ..., 0.91202749, 0.59846245,
        0.41886396],
       [0.64314449, 0.27257355, 0.61578329, ..., 0.63917526, 0.23358959,
        0.22287813],
       [0.60149557, 0.3902604 , 0.59574321, ..., 0.83505155, 0.40370589,
        0.21343303],
       ...,
       [0.45525108, 0.62123774, 0.44578813, ..., 0.48728522, 0.12872068,
        0.1519087 ],
       [0.64456434, 0.66351031, 0.66553797, ..., 0.91065292, 0.49714173,
        0.45231536],
       [0.03686876, 0.50152181, 0.02853984, ..., 0.        , 0.25744136,
        0.10068215]])

In [6]:
#
# Se crean los conjuntos de entrenamiento y prueba
#
wbcd_train        = wbcd_n[0:468]
wbcd_train_labels = wbcd_diagnosis[0:468]
wbcd_test         = wbcd_n[469:]
wbcd_test_labels  = wbcd_diagnosis[469:]

In [7]:
#
# Se construye el clasificador
#
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=21)
knn.fit(wbcd_train, wbcd_train_labels)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=21, p=2,
           weights='uniform')

In [8]:
#
# Predicción para el conjunto de prueba
#
wbcd_test_pred = knn.predict(wbcd_test)
wbcd_test_pred

array(['"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"',
       '"B"', '"M"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"',
       '"M"', '"B"', '"B"', '"B"', '"B"', '"M"', '"B"', '"B"', '"B"',
       '"B"', '"B"', '"M"', '"M"', '"B"', '"M"', '"B"', '"M"', '"B"',
       '"B"', '"B"', '"B"', '"B"', '"M"', '"B"', '"B"', '"M"', '"B"',
       '"B"', '"B"', '"M"', '"M"', '"B"', '"B"', '"B"', '"M"', '"B"',
       '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"',
       '"B"', '"M"', '"B"', '"M"', '"M"', '"B"', '"B"', '"B"', '"B"',
       '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"',
       '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"', '"B"',
       '"B"', '"B"', '"B"', '"M"', '"M"', '"M"', '"M"', '"M"', '"M"'],
      dtype='<U3')

In [9]:
#
# Métricas de desempeño
#
from sklearn.metrics import confusion_matrix
confusion_matrix(y_true = wbcd_test_labels, y_pred = wbcd_test_pred, labels=['"M"', '"B"'])

array([[21,  2],
       [ 0, 76]])

In [16]:
tn, fp, fn, tp = confusion_matrix(y_true = wbcd_test_labels, y_pred=wbcd_test_pred).ravel()
(tn, fp, fn, tp)

(76, 0, 2, 21)

In [11]:
#
# Computa la tasa de éxito
#
from sklearn.metrics import accuracy_score
accuracy_score(y_true = wbcd_test_labels, y_pred = wbcd_test_pred)

0.9797979797979798

In [12]:
## Tasa de error 
1 - accuracy_score(y_true = wbcd_test_labels, y_pred = wbcd_test_pred)

0.02020202020202022

In [13]:
## Reporte de precisión del clasificador
from sklearn.metrics import classification_report
print(classification_report(y_true=wbcd_test_labels, y_pred=wbcd_test_pred))

             precision    recall  f1-score   support

        "B"       0.97      1.00      0.99        76
        "M"       1.00      0.91      0.95        23

avg / total       0.98      0.98      0.98        99



In [14]:
## Similitud
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(y_true=wbcd_test_labels, y_pred=wbcd_test_pred)

0.9797979797979798

# Ejercicio.-- Recomendación de paquetes a instalar en R

### Descripción del problema

Se desea construir un sistema de recomendación para la instalación de paquetes del lenguaje R, tal que cuando un usuario seleccione un paquete a instalar, el sistema le recomiende otros paquetes que se han instalado con el paquete seleccionado. 

### Definición del problema en términos de los datos

El archivo `installations.csv` tiene una muestra de 129324 registros de paquetes instalados por 65 usuarios. Las columnas son las siguientes:


* Package: El nombre del paquete instalado.


* User: Número entero que sirve como id del usuario.


* Installed: 1=Si, 2=No. 

In [1]:
installations = open('data/installations.csv').readlines()
installations[0:5]

['"Package","User","Installed"\n',
 '"abind",1,1\n',
 '"AcceptanceSampling",1,0\n',
 '"ACCLMA",1,0\n',
 '"accuracy",1,1\n']

Se debe construir un sistema de recomendación.

---

Diagnóstico del cáncer de mama (scikit-learn)
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/01-kNN-breast-cancer.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-predictive-analytics/blob/master/01-kNN-breast-cancer.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/readme.md)