# **Explorando el Tiempo hasta el Evento con Análisis de Supervivencia**
Introducción al Análisis de Supervivencia y su aplicación en Python

El análisis de supervivencia es una rama de la estadística que se centra en el **análisis de la duración prevista hasta que se produce un suceso**. Se ha utilizado sobre todo en el sector salud, principalmente para conocer la probabilidad de supervivencia en ensayos médicos.
Este enfoque también puede aplicarse a otros ámbitos y casos de uso con el objetivo de estudiar la probabilidad de que se produzca un determinado evento en un momento dado. En este artículo analizaremos los conceptos, técnicas y aplicaciones del Análisis de Supervivencia en Python.

**Conceptos de Análisis de Supervivencia**

Al trabajar con el Análisis de Supervivencia, es necesario definir un "suceso" y la "línea de vida" o duración de la supervivencia relacionada con el suceso.

* **Acontecimiento**: Algo que le ocurre al objeto de estudio. Debe ser inequívoco y binario, como la muerte de un objeto biológico. En ámbitos más ambiguos, como el fallo de una maquinaria, se necesita una definición clara para identificar el suceso (es decir, fallo total o productividad < X%).

* **Tiempo de vida / Duración de la supervivencia**: Tiempo que transcurre hasta que se produce el suceso de interés mencionado (o el final de las observaciones).

Con la definición anterior, podemos aplicar las técnicas del Análisis de Supervivencia a problemas sobre la **probabilidad de que se produzca un suceso en un momento determinado**. Esto incluye la proporción de la población que podría experimentar el suceso, el tiempo estimado hasta que se produzca el suceso y los factores que contribuyen a la duración y la probabilidad del suceso.

Algunos ejemplos de problemas son:

* Modelización de la conversión del usuario en miembro/compra

* Predicción del tiempo hasta el fallo de la máquina

* Probabilidad de reaparición de un cáncer en un momento dado

* Predicción del tiempo hasta la rotación de empleados



**Función de supervivencia y función de riesgo (Hazard)**

La predicción del suceso y de la duración de la supervivencia se realiza modelizando la función de supervivencia del suceso.

![Imagen 1](Images/image_1.webp)

La función de supervivencia S(t) muestra la **probabilidad de que un objeto sobreviva (no experimente el suceso) al cabo de un determinado tiempo (t)**. Se trata de una función no creciente, lo que significa que el valor disminuirá a medida que pase el tiempo.

Otra ecuación clave en el Análisis de Supervivencia es la **función de Peligro (Hazard**), que muestra la **probabilidad de que ocurra un suceso en un momento dado, dada la supervivencia (suceso que aún no ha ocurrido) hasta ese momento**. La función de peligro h(t) muestra la probabilidad de que el suceso ocurra en el instante siguiente, dado que se ha sobrevivido hasta el tiempo t.

![Imagen 2](Images/image_2.webp)

La función de peligro h(t) y la función de supervivencia S(t) **pueden derivarse una de otra**.

**Conjunto de datos para el Análisis de Supervivencia**

Dado que el Análisis de Supervivencia se centra en el "suceso" y su "línea de vida" o duración de la supervivencia, el conjunto de datos debe ser la **observación de objetos individuales**, que contenga la **ocurrencia del suceso** (binario de sí/no) y la **duración de la observación**.

Los datos también deben tener en cuenta la **censura**. La censura se produce cuando la duración de la supervivencia, o **el tiempo transcurrido hasta el suceso, sólo se conoce parcialmente** (es decir, se desconoce la fecha de inicio o la fecha final, o ambas). El tipo más común es la **censura derecha**, que se produce cuando **el suceso no se ha producido al final del tiempo de observación/análisis (el tiempo de supervivencia es mayor que la duración observada**)**. Podemos trabajar con el Análisis de Supervivencia siempre que (1) los datos censurados estén dentro de una proporción aceptable (< 50%) y (2) la censura sea no informativa y aleatoria (no tenga impacto en la supervivencia).

**Técnicas de Análisis de Supervivencia**

Existen algunas técnicas que pueden utilizarse para el Análisis de Supervivencia, dependiendo del objetivo del análisis.

* **Identificar los tiempos de supervivencia de los miembros de un grupo**: Estimador de Kaplan-Meier, modelo de Weibull, modelo de tiempo de fallo acelerado

* **Comparar los tiempos de supervivencia de dos o más grupos**: La prueba de log-rank

* **Describir el efecto de las variables en la supervivencia**: modelo de riesgos proporcionales de Cox

**Conjunto de datos de ejemplo**

Antes de continuar, revisemos el conjunto de datos con el que estaremos trabajando

![Imagen 4](Images/variables.jpg)

El conjunto de datos consta de 10.000 puntos de datos almacenados como filas con 14 características en columnas
* UID: identificador único que va de 1 a 10000 
* Product ID: consiste en una letra L, M o H para bajo -L- (50% de todos los productos), medio -M-(30%) y alto -H- (20%) como variantes de calidad del producto y un número de serie específico
* air temperature [K]: generada mediante un proceso de paseo aleatorio normalizado posteriormente a una desviación estándar de 2 K alrededor de 300 K 
* process temperature [K]: generada mediante un proceso de paseo aleatorio normalizado a una desviación estándar de 1 K, añadida a la temperatura del aire más 10 K. 
* rotational speed[rpm]: calculada a partir de una potencia de 2860 W, superpuesta con un ruido de distribución normal
* torque [Nm]: los valores de torque se distribuyen normalmente en torno a 40 Nm con un Ïƒ = 10 Nm y sin valores negativos. 
* tool wear [min]: Las variantes de calidad H/M/L añaden 5/3/2 minutos de desgaste de herramienta a la herramienta utilizada en el proceso. y una etiqueta de 'fallo de máquina' que indica, si la máquina ha fallado en este punto de datos en particular para cualquiera de los siguientes modos de fallo son verdaderos.

El fallo de la máquina consta de cinco modos de fallo independientes
* tool wear failure (TWF): la herramienta se sustituye o falla en un momento de desgaste de la herramienta seleccionado aleatoriamente entre 200 y 240 minutos (120 veces en nuestro conjunto de datos). En este momento, la herramienta se sustituye 69 veces y falla 51 veces (asignadas aleatoriamente).
* heat dissipation failure (HDF): la disipación de calor provoca un fallo del proceso, si la diferencia entre la temperatura del aire y la del proceso es inferior a 8,6 K y la velocidad de rotación de la herramienta es inferior a 1380 rpm. Este es el caso para 115 puntos de datos.
* power failure (PWF): el producto del par y la velocidad de giro (en rad/s) es igual a la potencia necesaria para el proceso. Si esta potencia es inferior a 3500 W o superior a 9000 W, el proceso falla, lo que ocurre 95 veces en nuestro conjunto de datos.
* overstrain failure (OSF): si el producto del desgaste de la herramienta y el par supera los 11.000 minNm para la variante de producto L (12.000 M, 13.000 H), el proceso falla por sobreesfuerzo. Esto es válido para 98 puntos de datos.
* random failures (RNF): cada proceso tiene una probabilidad del 0,1 % de fallar independientemente de sus parámetros de proceso. Este es el caso de sólo 5 puntos de datos, menos de lo que cabría esperar para 10.000 puntos de datos de nuestro conjunto de datos.

Si se cumple al menos uno de los modos de fallo anteriores, el proceso falla y la etiqueta "machine failure" -fallo de la máquina- se establece en 1. Por lo tanto, el método de aprendizaje automático no puede saber cuál de los modos de fallo ha provocado el fallo del proceso.

## Libraries

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches

## Dataset

In [13]:
df = pd.read_csv('Data/ai4i2020.csv', index_col=None, header=0)
df

Unnamed: 0,UDI,Product ID,Type,Air temperature [K],Process temperature [K],Rotational speed [rpm],Torque [Nm],Tool wear [min],Machine failure,TWF,HDF,PWF,OSF,RNF
0,1,M14860,M,298.1,308.6,1551,42.8,0,0,0,0,0,0,0
1,2,L47181,L,298.2,308.7,1408,46.3,3,0,0,0,0,0,0
2,3,L47182,L,298.1,308.5,1498,49.4,5,0,0,0,0,0,0
3,4,L47183,L,298.2,308.6,1433,39.5,7,0,0,0,0,0,0
4,5,L47184,L,298.2,308.7,1408,40.0,9,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,M24855,M,298.8,308.4,1604,29.5,14,0,0,0,0,0,0
9996,9997,H39410,H,298.9,308.4,1632,31.8,17,0,0,0,0,0,0
9997,9998,M24857,M,299.0,308.6,1645,33.4,22,0,0,0,0,0,0
9998,9999,H39412,H,299.0,308.7,1408,48.5,25,0,0,0,0,0,0


**Estimador de Kaplan-Meier**

El estimador de Kaplan-Meier es un estadístico no paramétrico que se utiliza para **estimar la función de supervivencia de datos de tiempo hasta el suceso**. Al ser no paramétrico, no se basa en la suposición de una distribución subyacente específica ni en ninguna otra suposición específica sobre los parámetros de la población. Esto resulta útil cuando no se puede suponer que nuestros datos proceden de una distribución normal y, por tanto, no se puede utilizar la regresión normal en la predicción.

En este modelo, la función de supervivencia S(t) se estima con la fórmula siguiente.

![imagen3](Images/image_3.webp)

La tasa de supervivencia en el momento t es igual al producto del porcentaje de probabilidad de sobrevivir en el momento t y en cada momento anterior.

En Python, esto puede hacerse utilizando el paquete **[lifeline](https://lifelines.readthedocs.io/en/latest/)**. Con este paquete, podemos trazar la función de supervivencia de las observaciones introducidas y hacer predicciones para comprobar la probabilidad de supervivencia en cualquier punto específico de la duración.