# Primero instalamos las librerías de importancia. 
## Para ello, utilizamos el comando pip install, que significa "Programa Instalador de Paquetes", y usamos la función llamada "install" para instalar las librerías necesarias.
## Las librerías son las siguientes con sus funciones generales:
- **scikit-learn**: Modelos de Machine Learning.
- **seaborn**: Realizar gráficos más avanzados, parecido a ggplot2.
- **matplotlib**: Realizar gráficos, alternativa a ggplot2.
- **pandas**: Trabajar con estructuras de datos, similar a tidyverse.
- **numpy**: Trabajar con arreglos y matrices, más tidyverse.
- **python-Levenshtein**: Calcular la distancia de Levenshtein, que sirve para autocorregir errores de tipado.

In [5]:
pip install scikit-learn seaborn matplotlib pandas numpy python-Levenshtein

Note: you may need to restart the kernel to use updated packages.


Una vez instalado, las debemos de tener en nuestro sistema, similar al instalador de R. No obstante, para poder utilizarlas, debemos de importarlas. Para ello, utilizamos la función "import" y el nombre de la librería.

In [4]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import Levenshtein as Lev

La sintaxis del código es la siguiente:

- import: función que importa la librería.
- as: función que nos permite nombrar la librería o un objeto de la forma que queramos.

Un punto importante es que podemos nombrar un acrónimo de las librerías a trabajar de la forma que queramos. Por ejemplo, para la librería pandas, podemos nombrarla como pd, para numpy como np, y así sucesivamente. Esto se hace para no tener que escribir el nombre completo de la librería cada vez que la necesitemos. Sin embargo, es bastante común encontrar acrónimos ya establecidos, como pd para pandas, np para numpy, sns para seaborn, plt para matplotlib, etc.

En lo personal, me gusta cargar todas las librerías que pueda utilizar de manera regular. Para este caso, seaborn y matplotlib son librerías que hacen gráficos, pero por tiempo y objetivos, no las utilizaré. 

Ahora, tenemos que cargar nuestra base de datos a trabajar. Para ello, utilizamos la función "pd.read_csv" y colocamos el nombre del archivo que queremos cargar. En este caso, el archivo se llama "BD_CM.csv".

Es importante señalar que la forma de nombrar las bases de datos es bastante personal, puedes nomrbarlas como quieras. Sin embargo, es recomendable que el nombre sea lo más descriptivo posible para que puedas recordar qué contiene la base de datos, si es que trabajas con varias bases de datos a la vez. En este caso, bd_CM significa Base de Datos de Cáncer de Mama. Un punto que me gusta llevar a cabo, es utilizar nombres genéricos de mis bases de datos para que pueda reutilizar el código en otras bases de datos. Para ello, suelo nombrarla como bd_1, y para cada transformación importante que hago, creo una nueva base de datos para evitar sobreescribir la base de datos original y tener que recargar todo de nuevo.

In [5]:
bd_1 = pd.read_csv('bd_CM.csv', sep=';')
bd_1.to_csv("bd_1.csv", index=False)
bd_1.head(5)

Unnamed: 0,country,overall_survival_time_months,age_at_diagnosis_years,lymph_nodes_examined_positive,cellularity,estrogen_receptors_ihc,menopausal_state,claudin_subtype,vital_status,cancer_type_detailed,her2_status,progesterone_receptors_status,tumor_size_mm,CT_responde
0,mexico,84.633333,43.19,0,High,Positve,Pre,LumA,Living,Breast Invasive Ductal Carcinoma,Negative,Positive,10.0,0
1,usa,163.7,48.87,1,High,Positve,Pre,LumB,Died of Disease,Breast Invasive Ductal Carcinoma,Negative,Positive,15.0,0
2,canada,164.933333,47.68,3,Moderate,Positve,Pre,LumB,Living,Breast Mixed Ductal and Lobular Carcinoma,Negative,Positive,25.0,0
3,mexic,41.366667,76.97,8,High,Positve,Post,LumB,Died of Disease,Breast Mixed Ductal and Lobular Carcinoma,Negative,Positive,40.0,0
4,USA,7.8,78.77,0,Moderate,Positve,Post,LumB,Died of Disease,Breast Invasive Ductal Carcinoma,Negative,Positive,31.0,0


El código anterior tiene la siguiente sintaxis:
- **pd.read_csv("BD_CM.csv")**: Carga la base de datos "BD_CM.csv" y la guarda en la variable "bd_1". La forma llamar las funciones, a diferencia de R, es que aquí utilizamos el acrónimo de la librería y un punto para llamar la función. Por ejemplo. pd.read_csv significa que estamos llamando la función read_csv de la librería pandas, sep sirve para separar los datos, utilizando un símbolo en concreto, que lo habitual de los archivos CSV es la coma, ya que ese es el significado de CSV, Comma Separated Values.
- **bd_1.to_csv("BD_CM.csv")**: Guarda la base de datos "bd_1" en un archivo llamado "BD_1.csv". La función to_csv sirve para guardar la base de datos en un archivo CSV. Lo que queremos es generar nuestra copia de seguridad. La función de index=False sirve para no guardar el índice de la base de datos, el índice significa la numeración de las filas de la base de datos, lo cuál es innecesario.
- **bd_1.head()**: Muestra las primeras *n* filas de la base de datos "bd_1". De base se muestran cinco, pero podemos poner el número de filas que queramos.

Ya que tenemos nuestra base cargada, con copia de seguridad y ya visualizamos que se cargó correctamente, ahora vamos a hacer un pequeño resumen.

In [6]:
bd_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1830 entries, 0 to 1829
Data columns (total 14 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   country                        1830 non-null   object 
 1   overall_survival_time_months   1830 non-null   float64
 2   age_at_diagnosis_years         1830 non-null   float64
 3   lymph_nodes_examined_positive  1830 non-null   int64  
 4   cellularity                    1830 non-null   object 
 5   estrogen_receptors_ihc         1830 non-null   object 
 6   menopausal_state               1830 non-null   object 
 7   claudin_subtype                1830 non-null   object 
 8   vital_status                   1830 non-null   object 
 9   cancer_type_detailed           1830 non-null   object 
 10  her2_status                    1740 non-null   object 
 11  progesterone_receptors_status  1830 non-null   object 
 12  tumor_size_mm                  1830 non-null   f

La función de "bd_1.info()" nos muestra un resumen de la base de datos (número de columnas,  filas, el tipo de dato por columna,  valores nulos). Es útil para saber qué tipo de datos tenemos y saber cómo los vamos a trabajar.

Un punto importante, es que Python inicia su numeración o conteo desde el cero. Por lo tanto, si queremos seleccionar la primera columna, debemos de poner el número cero. Si, es un poco extraño...

Ahora, vamos a ver los valores únicos de cada columna, esto para ver si existen errores de tipado o cosas raras...

In [7]:
for i, col in enumerate(bd_1.columns):
    print(f"La variable '{col}', con el identificador {i}, tiene los valores únicos siguientes: {bd_1[col].unique()}")

La variable 'country', con el identificador 0, tiene los valores únicos siguientes: ['mexico' 'usa' 'canada' 'mexic' 'USA' 'Caada' 'Canada']
La variable 'overall_survival_time_months', con el identificador 1, tiene los valores únicos siguientes: [ 84.63333333 163.7        164.9333333  ... 175.9666667   86.23333333
 201.9       ]
La variable 'age_at_diagnosis_years', con el identificador 2, tiene los valores únicos siguientes: [43.19 48.87 47.68 ... 43.1  42.88 60.02]
La variable 'lymph_nodes_examined_positive', con el identificador 3, tiene los valores únicos siguientes: [ 0  1  3  8 24  4 16  5 14  6  2  9 22  7 21 13 12 25 10 41 15 11 19 17
 18 23 26 20 31 33 45]
La variable 'cellularity', con el identificador 4, tiene los valores únicos siguientes: ['High' 'Moderate' 'Low']
La variable 'estrogen_receptors_ihc', con el identificador 5, tiene los valores únicos siguientes: ['Positve' 'Negative']
La variable 'menopausal_state', con el identificador 6, tiene los valores únicos siguiente

En el código anterior hicimos un pequeño truco. Hacemos un bucle *for*, lo que hace es una especie de repetición de una acción, esto permite no tener que escribir muchas veces la misma función. La sintaxis es la siguiente:
- **for**: función que inicia el bucle.
- **i**: nombre de la variable que va a cambiar en cada iteración. Puedes utilizar el nombre que quieras, pero recuerda que debe de ser descriptivo. En este caso la i significa *index*. Pero puedes poner idx, tacos, perro, lo que quieras... 
- **col**: el nombre de la columna que vamos a recorrer. El nombre es igual que para *i*, puedes poner el nombre que quieras.
- **in**: función que indica que vamos a recorrer una lista.
- **enumerate**: función que nos permite recorrer una lista y obtener el índice de la lista. Es decir, si tenemos una lista de 10 elementos, nos va a devolver el índice de cada elemento. 
- **print**: función que nos permite imprimir en pantalla.
- **f**: función que nos permite hacer un formato de texto. Es decir, podemos poner texto y variables en la misma línea. Aquí viene la magia, ya que podemos agregar texto y variables en la misma línea para hacerlo más bonito y descriptivo.
- **bd_1[col].unique()**: función que nos permite obtener los valores únicos de una columna. En este caso, estamos obteniendo los valores únicos de todas las columnas gracias a nuestro bucle.

Puntos importantes:
- Las comillas nos permiten escribir texto plano, es decir, que se imprime tal cual.
- Las llaves nos permiten poner variables en el texto, como la *i* y *col*.
- Podemos anidar comillas simples y dobles para hacer que una función se ejecute dentro de otra función. En este caso, el poner comillas simples alrededor de *{col}* que el nombre de la columna se imprima entrecomillado.

Ahora, existen variables que pueden tener muchísimos valores que pueden ser difíciles de imprimir, como las edades, pesos, o en este caso, el *tumor_size_mm**. Pero podemos imprimirla por aparte para ver todos sus datos.

In [8]:
bd_1.tumor_size_mm.unique()

array([ 10.  ,  15.  ,  25.  ,  40.  ,  31.  ,  29.  ,  16.  ,  28.  ,
        22.  ,  21.  ,  19.  ,  36.  ,  33.  ,  23.  ,  17.  ,  18.  ,
        12.  ,  24.  ,  13.  ,  14.  ,  55.  ,  30.  ,  39.  ,  34.  ,
        70.  ,  45.  ,  27.  , 150.  ,  60.  ,  26.  ,  20.  ,  50.  ,
         9.  ,  35.  ,  80.  ,  38.  ,  52.  ,  44.  ,  48.  ,   3.  ,
        46.  ,  11.  ,  53.  ,  47.  ,  32.  ,  67.  ,  43.  ,  42.  ,
       180.  ,  57.  , 100.  ,  65.  ,  37.  ,  90.  ,   5.  ,   8.  ,
       160.  ,  84.  , 130.  ,   5.5 ,  62.  ,   1.  ,  49.  ,  99.  ,
        68.  ,   7.  ,  41.  ,   6.  ,   2.  ,  75.  ,  51.  , 120.  ,
        61.  ,  79.  ,  71.  ,  22.5 ,  17.9 ,  14.5 ,  12.8 ,  18.5 ,
        15.5 ,  21.5 ,  16.9 ,  24.4 ,  12.5 ,  40.3 ,  11.8 ,  32.6 ,
        17.2 ,  13.8 ,  15.7 , 182.  ,  85.  ,  18.3 ,  21.6 ,  28.5 ,
        16.2 ,   2.3 ,  15.2 ,  31.1 ,  14.3 ,  12.6 ,  25.1 ,  17.6 ,
         2.12,  21.3 ,  22.32,  17.7 ,  15.47,  24.15,  20.5 ])

Ahora, si te das cuenta, para hacer muchas cosas en python, llamamos la base datos, luego ponemos un punto, luego la variables de interés, otro punto, y luego la función que queremos hacer. 
Listo, con una función tan simple como hacer un *.unique()* después de la variable, podemos ver todos los valores únicos de una variable. Sin embargo, están desordenados, por lo que podemos ordenarlos con la función *sorted()*.

In [9]:
sorted(bd_1.tumor_size_mm.unique())

[1.0,
 2.0,
 2.12,
 2.3,
 3.0,
 5.0,
 5.5,
 6.0,
 7.0,
 8.0,
 9.0,
 10.0,
 11.0,
 11.8,
 12.0,
 12.5,
 12.6,
 12.8,
 13.0,
 13.8,
 14.0,
 14.3,
 14.5,
 15.0,
 15.2,
 15.47,
 15.5,
 15.7,
 16.0,
 16.2,
 16.9,
 17.0,
 17.2,
 17.6,
 17.7,
 17.9,
 18.0,
 18.3,
 18.5,
 19.0,
 20.0,
 20.5,
 21.0,
 21.3,
 21.5,
 21.6,
 22.0,
 22.32,
 22.5,
 23.0,
 24.0,
 24.15,
 24.4,
 25.0,
 25.1,
 26.0,
 27.0,
 28.0,
 28.5,
 29.0,
 30.0,
 31.0,
 31.1,
 32.0,
 32.6,
 33.0,
 34.0,
 35.0,
 36.0,
 37.0,
 38.0,
 39.0,
 40.0,
 40.3,
 41.0,
 42.0,
 43.0,
 44.0,
 45.0,
 46.0,
 47.0,
 48.0,
 49.0,
 50.0,
 51.0,
 52.0,
 53.0,
 55.0,
 57.0,
 60.0,
 61.0,
 62.0,
 65.0,
 67.0,
 68.0,
 70.0,
 71.0,
 75.0,
 79.0,
 80.0,
 84.0,
 85.0,
 90.0,
 99.0,
 100.0,
 120.0,
 130.0,
 150.0,
 160.0,
 180.0,
 182.0]

Listo! Tenemos todos nuestros datos bonitos y ordenados. Ahora, si retornamos a nuestra información general, pudimos ver que hubo un error de tipado... Alguien o "alguienes" puso "Positve" en vez de "Positive", por lo que ahora hay que corregirlo usando la función ".replace()".

In [10]:
bd_1.estrogen_receptors_ihc = bd_1.estrogen_receptors_ihc.replace('Positve', 'Positive')

La sintaxis de la función es la siguiente:
- El signo de igual sirve para asignar un valor a una variable, que en este caso, básicamente es reemplazar un valor por otro. Naturalmente, si queremos crear una nueva copia, podemos seguir la lógica de la numeración y hacer bd_2, pero sigamos con la 1 por lo pronto.
- **.replace**: función que nos permite reemplazar un valor por otro. Solo se debe de agregar el valor a reemplazar y el valor nuevo, en ese orden, separado por una coma, y los valores entrecomillados.

Pro tip: Puede que hallas notado que todas las variables usan guiones bajos en vez de espacios. Esto es ideal para trabajar, ya que los espacios generan conflicto en la computadora y piensa que son palabras separadas. Por lo tanto, es recomendable que uses guiones bajos en vez de espacios, pero si tus variables no los tienen y las has limpiado, puede hacer la siguiente alternativa.

bd_1['estrogen_receptors_ihc'] = bd_1['estrogen_receptors_ihc'].replace('Positve', 'Positive')

Es decir, abrir corchetes, entrecomillar y poner el nombre la variable con feos espacios inútiles para los nombres de las variables en la computadora... y listo! Ya tienes tu variable corregida.

Ahora, detectamos otro pequeño problema, es que tenemos datos vacíos en la variable de *her2_status*...
Existen varias formas de tratar los datos vacíos, dependiendo de si es númerico o categórico, lo ideal es volver a obtener esos datos, pero si no es posible, podemos inferirlos o eliminarlos. En este caso, como no queremos perder datos valiosos, vamos a inferirlos. Para ello, usamos una variable auxiliar que tenga dicha información, que es la de *claudin_subtype*. El código es el siguiente:

In [11]:
mask_Her = bd_1['claudin_subtype'].str.contains('Her2', regex=False)
bd_1.loc[mask_Her & pd.isna(bd_1['her2_status']), 'her2_status'] = 'Positive'
bd_1.to_csv("bd_2.csv", index=False)

Lo que acabamos de hacer es crear algo llamado máscara booleana, que básicamente consiste en crear una subvariable dentro de la variable que tenga valores de verdadero o falso, dependiendo de si se cumple una condición, que es un par de observaciones en especifico, por ejemplo, si tiene el nombre exacto de "Her2". La sintaxis es la siguiente:
- **.str.contains**: función que nos permite buscar una cadena de texto dentro de una variable. En este caso, estamos buscando la cadena de texto "Her2" dentro de la variable "claudin_subtype". El argumento de regex=False sirve para que no se busque una expresión regular, sino una cadena de texto exacta. Una expresión regular nos serviría si queremos que nos arroje un resultado positivo si tenemos una cadena de texto que contenga una palabra en específico, como "Her2" o "Her2+", "Her2 positive", etc., ya que todas contienen "Her2" dentro de ellas.
- **bd_1.loc**: seleccionar un subconjunto de datos. 
- **pd.isna**: permite detectar valores nulos o vacíos, en la columna de "her2_status".
-  **bd_1.to_csv("bd_2.csv", index=False)**: Guarda la base de datos transformada a una nueva base llamada "bd_2.csv", sin guardar el índice. Esto con el objetivo de evitar sobreescribir la base de datos original y tener que cargarla de nuevo.

El resultado anterior, a modo de resumen, es crear un subset que detecte "Her2" en la columna de "claudin_subtype", aquellos que tengan "Her2" se pondrá ese valor en la columna de "her2_status", y va a sobreescribir los valores vacíos en la columna de "her2_status" con los valores de "claudin_subtype" que contengan "Her2". 

Dicho de otra forma, obtuvimos los faltantes de "her2_status" a partir de "claudin_subtype".

Esto se puede aplicar a otras variables, pero es importante que puede tener errores... Otro punto de utilidad, es para extraer texto de una columna que contenga mucha información, pero hay que tener cuidado, ya que puede mencionar "Her2 resultado negativo", y esta técnica puede dar datos erróneos.

Ahora, vamos a verificar lo que hemos hecho, para ello, vamos a cargar la nueva base en un objeto.

In [12]:
bd_2 = pd.read_csv('bd_2.csv', sep=',')
bd_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1830 entries, 0 to 1829
Data columns (total 14 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   country                        1830 non-null   object 
 1   overall_survival_time_months   1830 non-null   float64
 2   age_at_diagnosis_years         1830 non-null   float64
 3   lymph_nodes_examined_positive  1830 non-null   int64  
 4   cellularity                    1830 non-null   object 
 5   estrogen_receptors_ihc         1830 non-null   object 
 6   menopausal_state               1830 non-null   object 
 7   claudin_subtype                1830 non-null   object 
 8   vital_status                   1830 non-null   object 
 9   cancer_type_detailed           1830 non-null   object 
 10  her2_status                    1830 non-null   object 
 11  progesterone_receptors_status  1830 non-null   object 
 12  tumor_size_mm                  1830 non-null   f

Muy bien, ya tenemos nuestra base de datos con los datos faltantes de "her2_status" completados. Ahora, recordemos que algunos datos de "country" estaban mal escritos, por ejemplo, salía "mexic" o "Caada", para evitar tener que sobreescribir cada palabra de forma correcta, o buscar una a una, podemos utilizar la función de autocorrección de errores de tipado, que es la distancia de Levenshtein.

Levenshtein permite anexar un diccionario propuesto y tomará eso como base para hacer una corrección de errores de tipado. 

In [13]:
import Levenshtein
palabras_correctas  = ['Mexico', 'USA', 'Canada']
def corregir_palabra(palabra_incorrecta, palabras_correctas):
    return min(palabras_correctas, key=lambda x: Levenshtein.distance(palabra_incorrecta, x))
bd_3 = bd_2
bd_3['country'] = bd_3['country'].apply(lambda x: corregir_palabra(x, palabras_correctas))
bd_3.to_csv("bd_3.csv", index=False)
print(bd_2['country'].unique())

['Mexico' 'USA' 'Canada']


La sintaxis es la siguiente:
- **palabras_correctas** = ['Mexico', 'USA', 'Canada']: Creamos un objeto que contenga las palabras correctas. Nosotros usamos las palabras que necesitemos, y hay que considerar que es sensible a mayúsculas.
- **def**: función que nos permite definir una función, puede sonar redundante, pero es forma de crear una función en Python.
- **corregir_palabra**: nombre de la función que vamos a crear, recordemos que poner los nombres que deseemos.
- **palabra_incorrecta**: argumento de la función que vamos a crear, es decir, la palabra que vamos a corregir.
- **return**: función que nos permite devolver un valor, en este caso, la palabra corregida.
- **min**: función que nos permite obtener el valor mínimo de una lista. En este caso, estamos obteniendo el valor mínimo de una lista de distancias de Levenshtein.
- **key=lambda x**: Define una función (lambda) que calcula la distancia de edición entre la "palabra_incorrecta" y cada palabra "x" en la lista "palabras_correctas". Dicho de otra manera, es un cálculo matemático para saber que tantas letras debe detectar para corregir empleando errores de tipado (inserciones, deleciones o sustituciones).

El resto de funcionesy argumentos ya los vimos, básicamente es aplicar la función, crear una nueva base e imprimirla.

Y nos damos cuenta que ahora solo tenemos tres tipos de variables: "Mexico", "USA" y "Canada". Omitimos los acentos por cuestiones facilidad en la escritura.

Ahora, vamos a llevar a cabo una conversión. En este caso, vamos a convertir las variables categóricas con carácter lógico a numéricas. Para ello, hacemos un truco muy sencillo con la función "replace". 

In [14]:
bd_4 = bd_3.replace({'Positive': 1, 'Negative': 0,
                    'Pre': 0, 'Post': 1})
bd_4.head()

Unnamed: 0,country,overall_survival_time_months,age_at_diagnosis_years,lymph_nodes_examined_positive,cellularity,estrogen_receptors_ihc,menopausal_state,claudin_subtype,vital_status,cancer_type_detailed,her2_status,progesterone_receptors_status,tumor_size_mm,CT_responde
0,Mexico,84.633333,43.19,0,High,1,0,LumA,Living,Breast Invasive Ductal Carcinoma,0,1,10.0,0
1,USA,163.7,48.87,1,High,1,0,LumB,Died of Disease,Breast Invasive Ductal Carcinoma,0,1,15.0,0
2,Canada,164.933333,47.68,3,Moderate,1,0,LumB,Living,Breast Mixed Ductal and Lobular Carcinoma,0,1,25.0,0
3,Mexico,41.366667,76.97,8,High,1,1,LumB,Died of Disease,Breast Mixed Ductal and Lobular Carcinoma,0,1,40.0,0
4,USA,7.8,78.77,0,Moderate,1,1,LumB,Died of Disease,Breast Invasive Ductal Carcinoma,0,1,31.0,0


La sintaxis es muy simple, tomamos la función "replace" y damos los argumentos con el antes y el después de lo que queremos reemplazar separado por dos puntos. Entonces "Positive" se convierte en 1 y "Negative" en 0, "Pre" en 0 y "Post" en 1. 

Ahora, vamos a hacer un función muy poderosa y útil, que es la de "get_dummies". Esta función nos permite convertir variables categóricas en variables dummy, es decir, variables binarias. Lo que hacemos es convertir toda la base de datos con variables de tipo caracter a variables binarias, y creará una nueva columna para cada una de ella. Por lo que hay que tener algo de cuidado, ya que si una columna tiene, digamos, 20 variables, se crearán 20 columnas nuevas...

In [15]:
bd_5 = pd.get_dummies(bd_4, 
                      columns=[bd_4.columns[0], 
                               bd_4.columns[4],
                               bd_4.columns[7], 
                               bd_4.columns[8],
                               bd_4.columns[9]],
                      dtype=int)
for i, col in enumerate(bd_5.columns):
    print(f" {i} - {col}: {bd_5[col].unique()}")


 0 - overall_survival_time_months: [ 84.63333333 163.7        164.9333333  ... 175.9666667   86.23333333
 201.9       ]
 1 - age_at_diagnosis_years: [43.19 48.87 47.68 ... 43.1  42.88 60.02]
 2 - lymph_nodes_examined_positive: [ 0  1  3  8 24  4 16  5 14  6  2  9 22  7 21 13 12 25 10 41 15 11 19 17
 18 23 26 20 31 33 45]
 3 - estrogen_receptors_ihc: [1 0]
 4 - menopausal_state: [0 1]
 5 - her2_status: [0 1]
 6 - progesterone_receptors_status: [1 0]
 7 - tumor_size_mm: [ 10.    15.    25.    40.    31.    29.    16.    28.    22.    21.
  19.    36.    33.    23.    17.    18.    12.    24.    13.    14.
  55.    30.    39.    34.    70.    45.    27.   150.    60.    26.
  20.    50.     9.    35.    80.    38.    52.    44.    48.     3.
  46.    11.    53.    47.    32.    67.    43.    42.   180.    57.
 100.    65.    37.    90.     5.     8.   160.    84.   130.     5.5
  62.     1.    49.    99.    68.     7.    41.     6.     2.    75.
  51.   120.    61.    79.    71.    22.5  

La sintaxis es la siguiente es relativamente simple, entre corchetes se encuentra el número de la variable que queremos convertir, recordemos que empieza en 0. Hacemos un bucle, pero ahora agregamos la función "enumarate" para obtener el índice de la variable y el nombre de la variable. Finalmente imprimimos.

Ahora, tendremos que hacer una pequeña limpieza, que puede llevar incluso meses de tiempo según las necesidades del estudio y objetivo del modelo, que consiste en ver variables que no aportan información, o que es repetitivo...

Veamos un solo método de prepocesado de datos en este aspecto, que consiste en una matriz de correlación.

Nota: una matriz de correlación no es la única ni la mejor manera de evaluar si una variable tiene relación con otra, existen otros métodos que deben evaluarse por cada variable y por cada estudio. 

In [18]:
pd.set_option('display.max_columns', None)
matriz_correlacion = bd_5.corr()
sorted_correlacion = matriz_correlacion.unstack().sort_values(ascending=False)
print(sorted_correlacion)

overall_survival_time_months                                    overall_survival_time_months                                      1.000000
claudin_subtype_Her2                                            claudin_subtype_Her2                                              1.000000
estrogen_receptors_ihc                                          estrogen_receptors_ihc                                            1.000000
menopausal_state                                                menopausal_state                                                  1.000000
her2_status                                                     her2_status                                                       1.000000
progesterone_receptors_status                                   progesterone_receptors_status                                     1.000000
tumor_size_mm                                                   tumor_size_mm                                                     1.000000
CT_responde                

La sintaxis es la siguiente:
- **pd.set_option('display.max_columns', None)**: Permite mostrar todas las columnas de la matriz de correlación. Si no usamos esto, solo veremos unas cuantas comparaciones y no todo.
- **matriz_correlacion = bd_5.corr()**: No hace explicar, o sí?... Bueno, calcula la matriz de correlación de la base de datos "bd_5".
- **sorted_correlacion = matriz_correlacion.unstack().sort_values(ascending=False)**: Adivina... si, ordena la matriz de correlación de forma descendente, es decir, del 1 al -1.

Con lo anterior, obtuvimos muchas comparaciones, las que son perfectamente correlacionadas es porque fueron comparadas consigo mismas, o con algunas variable que puede decirse que es exactamente lo mismo. Con esto, tenemos la difícil tarea de decidir qué variables eliminar, o si es necesario hacerlo, ya que puede haber correlaciones muy altas, pero son variables diferentes... es por eso que este proceso puede llevar meses en valorar.

Ahora, podemos detectar que, "claundin_subtype_her2" y "her2_status" tienen una correlación de 0.78, lo que significa que son muy similares, por lo que podemos eliminar una de ellas, la que nos aporte menos información. Naturalmente, es un tema de qué hablar con el equipo de trabajo, ya que puede haber información valiosa en dicha variable.

Vamos a dar otro vistazo a nuestra base de datos, y ver que todo está en orden.

In [20]:
bd_6 = bd_5.drop(columns=['her2_status'])
bd_6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1830 entries, 0 to 1829
Data columns (total 31 columns):
 #   Column                                                          Non-Null Count  Dtype  
---  ------                                                          --------------  -----  
 0   overall_survival_time_months                                    1830 non-null   float64
 1   age_at_diagnosis_years                                          1830 non-null   float64
 2   lymph_nodes_examined_positive                                   1830 non-null   int64  
 3   estrogen_receptors_ihc                                          1830 non-null   int64  
 4   menopausal_state                                                1830 non-null   int64  
 5   progesterone_receptors_status                                   1830 non-null   int64  
 6   tumor_size_mm                                                   1830 non-null   float64
 7   CT_responde                                        

Muy bien, nuestra base de datos tiene unos pequeños ajustes, vamos a hacer un pequeño modelo de ML. Para esto, es una buena práctica mover nuestra variable predictora al final de la base de datos. Eso lo haremos con el siguiente código.

In [21]:
col_to_move = bd_6.columns[7]
cols = list(bd_6.columns)
cols.insert(30, cols.pop(cols.index(col_to_move)))
bd_6 = bd_6[cols]

De manera general, lo que hicimos fue crear un objeto con la columna a mover, que es "CT_responde", y luego la eliminamos de la base de datos. Posteriormente, la agregamos al final de la base de datos.

Nuevamente, un resumen para ver que está bien.

In [22]:
bd_6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1830 entries, 0 to 1829
Data columns (total 31 columns):
 #   Column                                                          Non-Null Count  Dtype  
---  ------                                                          --------------  -----  
 0   overall_survival_time_months                                    1830 non-null   float64
 1   age_at_diagnosis_years                                          1830 non-null   float64
 2   lymph_nodes_examined_positive                                   1830 non-null   int64  
 3   estrogen_receptors_ihc                                          1830 non-null   int64  
 4   menopausal_state                                                1830 non-null   int64  
 5   progesterone_receptors_status                                   1830 non-null   int64  
 6   tumor_size_mm                                                   1830 non-null   float64
 7   country_Canada                                     

Perfecto, ya tenemos nuestra base de datos lista para hacer un modelo de ML. En este caso, vamos a hacer un modelo de máquinas de soporte vectorial, que es un modelo de clasificación.

Respecto a la sintaxis, no me detendré a explicarla, solo se mencionará que existen muchos argumentos para hacer ajustes, y cada uno de ellos puede modificar el modelo de forma significativa. Por lo que es importante leer la documentación de la librería para saber qué hace cada argumento.

Otro punto, es por cuestiones de autorìa... jajaja, sin embargo, dentro del código, se encuentra una pequeña explicación de lo que hace de forma general cada argumento.

In [25]:
from sklearn import model_selection, svm

target = bd_6['CT_responde']
data = bd_6.iloc[:, 0:29]

# Definir una lista de diferentes valores de test_size
sizes = np.arange(0.1, 0.3, 0.05)

# Lista para almacenar los resultados
resultados = []

# Parámetros a ajustar
parametros = {
    'C': [0.1, 1.0, 10.0],
    'kernel': ['linear', 'rbf', 'poly'],
    'gamma': ['scale', 'auto'],
    'max_iter': [100]
}

# Iterar sobre los diferentes valores de test_size
for test_size in sizes:
    # División de datos en entrenamiento y prueba
    x_train, x_test, y_train, y_test = model_selection.train_test_split(data, target, test_size=test_size, random_state=1, stratify=target)

    # Ajuste del modelo Support Vector Machine (SVM)
    for C in parametros['C']:
        for kernel in parametros['kernel']:
            for gamma in parametros['gamma']:
                for max_iter in parametros['max_iter']:
                    classifier = svm.SVC(C=C, kernel=kernel, gamma=gamma, max_iter=max_iter)
                    model = classifier.fit(x_train, y_train)

                    # Puntuación en el conjunto de prueba
                    score = model.score(x_test, y_test)

                    # Agregar resultados a la lista
                    resultados.append({
                        "Test Size": test_size,
                        "C": C,
                        "Kernel": kernel,
                        "Gamma": gamma,
                        "Max Iter": max_iter,
                        "Model Score": score,                        
                    })

# Ordenar la lista de resultados por el puntaje del modelo (descendente)
resultados_ordenados = sorted(resultados, key=lambda x: x["Model Score"], reverse=True)

# Imprimir los resultados ordenados
for resultado in resultados_ordenados[:5]:
    print(resultado)



{'Test Size': 0.1, 'C': 0.1, 'Kernel': 'rbf', 'Gamma': 'auto', 'Max Iter': 100, 'Model Score': 0.5956284153005464}
{'Test Size': 0.1, 'C': 0.1, 'Kernel': 'poly', 'Gamma': 'scale', 'Max Iter': 100, 'Model Score': 0.5846994535519126}
{'Test Size': 0.1, 'C': 10.0, 'Kernel': 'poly', 'Gamma': 'scale', 'Max Iter': 100, 'Model Score': 0.5846994535519126}
{'Test Size': 0.15000000000000002, 'C': 0.1, 'Kernel': 'poly', 'Gamma': 'scale', 'Max Iter': 100, 'Model Score': 0.5781818181818181}
{'Test Size': 0.15000000000000002, 'C': 10.0, 'Kernel': 'poly', 'Gamma': 'scale', 'Max Iter': 100, 'Model Score': 0.5781818181818181}
{'Test Size': 0.1, 'C': 1.0, 'Kernel': 'poly', 'Gamma': 'scale', 'Max Iter': 100, 'Model Score': 0.5737704918032787}
{'Test Size': 0.20000000000000004, 'C': 10.0, 'Kernel': 'poly', 'Gamma': 'scale', 'Max Iter': 100, 'Model Score': 0.5722070844686649}
{'Test Size': 0.25000000000000006, 'C': 0.1, 'Kernel': 'rbf', 'Gamma': 'auto', 'Max Iter': 100, 'Model Score': 0.5720524017467249}
{

A modo de resumen, pusimos los datos importantes. Con esto, podemos saber cuáles fueron las características más útiles para el modelo y el dato más relevante (por ahora y para el taller), que es el puntaje del modelo. Este valor nos dice qué tan bueno es nuestro modelo, y mientras más cercano a 1, mejor es. El primer resultado nos dice que nuestro modelo tiene una certeza del 59% para predecir correctamente cuáles pacientes van a responder al tratamiento de quimioterapia basado en la base de datos que utilizamos.

Sin embargo, no es tan bueno, es casi como echarse un volado. Por esto, vamos a probar otro modelito, que es el de "random forest".

In [47]:
import numpy as np
from sklearn import model_selection
from sklearn.ensemble import RandomForestClassifier
import pandas as pd

target = bd_6['CT_responde']
data = bd_6.iloc[:, 0:29]

# Definir una lista de diferentes valores de test_size
sizes = np.arange(0.1, 0.3, 0.05)

# Lista para almacenar los resultados
resultados = []

# Parámetros a ajustar
parametros = {
    'n_estimators': [50],
    'max_depth': [None, 10],
    'min_samples_split': [5, 15],
    'min_samples_leaf': [2, 8]
}

# Iterar sobre los diferentes valores de test_size
for test_size in sizes:
    # División de datos en entrenamiento y prueba
    x_train, x_test, y_train, y_test = model_selection.train_test_split(data, target, test_size=test_size, random_state=1, stratify=target)

    # Ajuste del modelo Random Forest
    for n_estimators in parametros['n_estimators']:
        for max_depth in parametros['max_depth']:
            for min_samples_split in parametros['min_samples_split']:
                for min_samples_leaf in parametros['min_samples_leaf']:
                    classifier = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth,
                                                        min_samples_split=min_samples_split,
                                                        min_samples_leaf=min_samples_leaf)
                    model = classifier.fit(x_train, y_train)

                    # Puntuación en el conjunto de prueba
                    score = model.score(x_test, y_test)

                    # Agregar resultados a la lista
                    resultados.append({
                        "Test Size": test_size,
                        "n_estimators": n_estimators,
                        "max_depth": max_depth,
                        "min_samples_split": min_samples_split,
                        "min_samples_leaf": min_samples_leaf,
                        "Model Score": score,
                    })

# Ordenar la lista de resultados por el puntaje del modelo (descendente)
resultados_ordenados = sorted(resultados, key=lambda x: x["Model Score"], reverse=True)

# Imprimir los resultados ordenados
for resultado in resultados_ordenados[:5]:
    print(resultado)

{'Test Size': 0.15000000000000002, 'n_estimators': 50, 'max_depth': None, 'min_samples_split': 5, 'min_samples_leaf': 8, 'Model Score': 0.6363636363636364}
{'Test Size': 0.20000000000000004, 'n_estimators': 50, 'max_depth': 10, 'min_samples_split': 5, 'min_samples_leaf': 8, 'Model Score': 0.6348773841961853}
{'Test Size': 0.25000000000000006, 'n_estimators': 50, 'max_depth': 10, 'min_samples_split': 15, 'min_samples_leaf': 2, 'Model Score': 0.6244541484716157}
{'Test Size': 0.20000000000000004, 'n_estimators': 50, 'max_depth': None, 'min_samples_split': 15, 'min_samples_leaf': 8, 'Model Score': 0.6185286103542235}
{'Test Size': 0.15000000000000002, 'n_estimators': 50, 'max_depth': None, 'min_samples_split': 5, 'min_samples_leaf': 2, 'Model Score': 0.6145454545454545}
{'Test Size': 0.15000000000000002, 'n_estimators': 50, 'max_depth': 10, 'min_samples_split': 5, 'min_samples_leaf': 2, 'Model Score': 0.6145454545454545}
{'Test Size': 0.15000000000000002, 'n_estimators': 50, 'max_depth': 

Listo!!! Ya tenemos nuestro modelo de random forest, y nos arrojó un resultado de 0.63, lo que significa que es un poco mejor que el modelo de máquinas de soporte vectorial. Podríamos evaluar las variables, dar una mejor limpieza, ampliar la base de datos, buscar más variables, usar diferentes modelos, darles mejores parámetros, etc. Pero por ahora, es resultado aceptable.