![Portada_D_Weibull.jpg](attachment:Portada_D_Weibull.jpg)

# Distribución Weibull

Es una distribución contínua de probabilidad desarrollada por Waloddi Weibull en 1951. Su versatilidad permite modelar datos con diferentes formas de distribucion, haciendola útil en ciencia de datos para predecir tiempos de vida útil y optimizar recursos. Entre las aplicaciones más comunes en ciencia de datos tenemos:

- Mantenimiento predictivo de maquinarias mecanicas.
- Modelado de tiempos entre eventos.
- Evaluación de riesgos.
- Detección de fraudes.



# Deducción de la Distribucion Weibull

La D. Weibull se deriva como una generalización de la D. Exponencial para permitir que la tasa de fallo (o la probabilidad de ocurrencia de un evento) sea variable en lugar de constante.

Se inicia con la función de supervivencia $S(x)$ que representa la probabilidad de que un evento no haya ocurrido hasta un tiempo $x$:

$$S(x) = P(X > x)$$

En términos de la función de distribución acumulada $F(x)$ se tiene:

$$S(x) = 1 - F(x)$$

Para Weibull se postula que la función de supervivencia tiene la forma exponencial generalizada:

$$S(x) = e^{-(\frac{x}{\lambda })^{k}}$$

Donde:

- $x \geq 0$
- $\lambda > 0$ es el parámetro de escala que ajusta el rango de valores de $x$.
- $k > 0$ es el parámetro de forma que controla la forma de la distribución.

La elección de esta forma de $S(x)$ se basa en su capacidad para modelar tasas de fallo crecientes o decrecientes según el valor de $k$. Obtenemos la función de distribución acumulada $F(x)$ de la ecuación anterior:

$$F(x) = 1 - S(x)$$

$$F(x) = 1 - e^{-(\frac{x}{\lambda })^{k}}$$

Esta función representa la probabilidad acumulada __CDF__ de que el evento ocurra antes de un tiempo $x$.

La función de distribución de probabilidad __PDF__ se obtiene derivando la CDF con respecto a _x_:

$$f(x) = \frac{dF(x)}{dx}$$

Sustityendo $F(x) = 1 - e^{-(\frac{x}{\lambda })^{k}}$ en la ecuación anterior obtenemos:

$$f(x) = \frac{\mathrm{d} }{\mathrm{d} x}\left [ 1 - e^{-(\frac{x}{\lambda})^k} \right ]$$

Derivando el término exponencial:
$$f(x) = \frac{\mathrm{d} }{\mathrm{d} x}\left [ - e^{-(\frac{x}{\lambda})^k} \right ]$$

Usando la regla de la cadena:
$$f(x)=e^{-(\frac{x}{\lambda})^{k} } \cdot \frac{\mathrm{d} }{\mathrm{d} x}\left [ - (\frac{x}{\lambda})^{k} \right ]$$

La derivada del exponente es:
$$f(x)=e^{-(\frac{x}{\lambda})^{k} } \cdot \frac{k}{\lambda} \cdot \left ( \frac{x}{\lambda} \right )^{k-1} $$

Simplificando obtenemos:
$$f(x)= \frac{k}{\lambda} \cdot \left ( \frac{x}{\lambda} \right )^{k-1} e^{-(\frac{x}{\lambda})^k}$$

para $x \geq 0$. Esta función corresponde a la función de densidad de la D. Weibull.

# Función de Densidad de Probabilidad

La función de densidad de probabilidad para la D. Weibull viene dada por:

$$ f(x,k,\lambda) = \begin{cases}
 \frac{k}{\lambda} \cdot \left ( \frac{x}{\lambda} \right )^{k-1} e^{-(\frac{x}{\lambda})^k},&  x\geq 0 \\
0, &  x<0 
\end{cases}$$

donde,
- $x$ es la variable aleatoria (el tiempo o la magnitud del evento)
- $k>0$ es el parámetro de forma que determina la forma de la curva.
- $\lambda>0$ es el parámetro de escala que estira o comprime la distribución.

Los parámetros de la D. Weibull se interpretan como sigue:

- $k < 1$: la tasa de fallo disminuye con el tiempo. (producto con desgate temprano)
- $k = 1$: la tasa de fallo es contante lo que lleva a la D. exponencial.
- $k > 1$: la taa de fallo aumenta con el tiempo. (productos que se degastan con el uso)
- $\lambda$: escala el tiempo o magnitud del evento. Valores altos indican que el evento tarda más en ocurrir. 

La gráfica de la D. Weibull con valores de $k=6$ y $\lambda=3$ viene dada por:

![image.png](attachment:image.png)

# Propiedades de la D. Weibull

- __La Función de supervivencia $S(x)$__ mide la probabilidad de que un evento no haya ocurrido hasta $x$ y para la D. Weibull se define como:

$$S(x) = P(X>x) = e^{-(\frac{x}{\lambda})^k}$$

- __Función de Distribución Acumulada (CDF)__ F(x) mide la probabilidad acumulada hasta $x$. Para la D. Weibull se define como:

$$F(x)=P(X\leq x)=1-e^{-(\frac{x}{\lambda})^k}$$

- __Función de tasa de Fallo (Hazard Function)__ describe la probabilidad instantánea de fallo, dado que el evento no ha ocurrido hasta $x$:

$$h(x)=\frac{F(x)}{S(x)}=\frac{k}{\lambda}\left ( \frac{x}{\lambda} \right )^{k-1}$$

    - Si $k=1$, la tasa de fallo es constante, lo que corresponde a la D. Exponencial.
    - Si $k>1$, la tasa de fallo aumenta con x lo que es útil para modelar tiempos de vida que empeoran con el tiempo.
    - Si $k<1$, la tasa de fallo disminuye con x lo que es útil para modelar tiempos iniciales en el tiempo de vida.
    
- __La Media o esperanza $\mu_{E}$__ de la D. Weibull es:

$$\mu_{E} = \lambda \cdot\Gamma \left ( 1 +\frac{1}{k} \right )$$

Donde $\Gamma(z)$ es la función Gamma

- __La Varianza $\sigma^{2}$__ mide la dispersión de la distribución y se calcula como:

$$\sigma^{2} = \lambda^{2} \left [ \Gamma (1 +\frac{2}{k}) - \Gamma^{2} (1+\frac{1}{k}) \right ]$$

- __La Moda $x_{moda}$__ es el valor de x donde la densidad $f(x)$ alcanza su máximo:

$$X_{moda} = \lambda \cdot\left ( \frac{k-1}{k} \right )^{\frac{1}{k}}$$

Para $k>1$. Si $k \leq 1$ la distribución no tiene un máximo definido.

## Ejemplo 1: Suponga que la duración  (en años) de una bateria es una variable aleatoria que tiene una distribución Weibull con $k=1.5$ y $\lambda=2$. Una bateria se considera especial si está entre el 10% de mayor duración.

### a.- Cuánto tiempo se espera que dure una bateria elegida al azar?

Para este caso, la variable $X$ representa la duración de la bateria en años. Como nos indican, la variable sigue un proceso de Weibull y como nos piden calcular la esperanza $\mu_{E}$, podemos asumir que dicha variable sigue una D. Weibull.

$$X \sim We(\lambda=2, k=1.5)$$

La fórmula de la esperanza $\mu_{E}$ viene dada por:

$$\mu_{E} = \lambda \cdot\Gamma \left ( 1 +\frac{1}{k} \right )$$

Ya que conocemos los valores de los parámetros, procedemos a resolverlo

In [2]:
# importamos el metodo gamma de la libreria scipy
from scipy.special import gamma

# asignamos los valores de k y lambda a variables
k = 1.5
lamb = 2

# resolvemos lo que esta entre parentesis
param = 1 + (1/k)

# mostramos el resultado
print(param)

1.6666666666666665


In [3]:
# hallamos el valor de Gamma(1.66)
Gamma = gamma(param)

# multiplicamos Gamma por lambda
result = lamb*Gamma

# mostramos el resultado
print(result)

1.805490585901867


> El tiempo esperado que dure una bateria elegida al azar es de 1.81 años.

### b.- Cuál es la probabilidad de que dicha bateria siga funcionando después de dos años?

No piden hallar la probabilidad de que la bateria funcione después de 2 años, es decir

$$P(x>2) = 1 - P(x \leq 2)$$

Entonces, debemos hallar $P(x \leq 2)$ con la Función de distribucion acumulativa __CDF__.  Gráficamente, nos piden hallar la probabilidad que está repesentada por el area sombreada en el siguiente gráfico

![image.png](attachment:image.png)



In [4]:
# importamos la D. Weibull
from scipy.stats import weibull_min

# representamos los parametros de la D.
k = 1.5
lamb = 2

# calculamos la probabilidad hasta x=2
cdf = weibull_min.cdf(2, k, scale=lamb)

# mostramos el resultado
print(cdf)

0.6321205588285577


Ahora lo que hacemos es sustituir el valor obtenido en la ecuación $P(x > 2)$

In [5]:
P_2 = 1 - cdf
print(P_2)

0.36787944117144233


> La probabilidad que la bateria funcione después de dos años es de 36.78% 

### c.- Cuál es el tiempo mínimo de duración de una bateria para estar considerada como especial?

Para determinar el tiempo mínimo de duración de una bateria para ser considerada especial, debemos entender que es considerada especial si está entre el 10% de mayor duración, lo que indica que debemos encontrar el percentil 90 de la D. Weibull. Esto se calcula con la función _weibull_min.ppf()_

In [6]:
# umbral para el 10% de mayor duracion (percentil 90)
percentil_90 = weibull_min.ppf(0.9, c=k, scale=lamb)
print(percentil_90)

3.4874430271928234


> Una bateria debe durar como mínimo 3.48 años para estar dentro del 10% de mayor duración y ser considerada 'especial'.

## Ejemplo 2: Una empresa de almacenamiento en la nube desea modelar el tiempo de vida útil de sus discos duros para predecir fallos y optimizar su mantenimiento. Se ha observado que los tiempos de falla de los discos siguen una Distribución Weibull con los siguientes parámetros estimados: $k=1.5$ y $\lambda = 5000$ en horas

### a.-  ¿Cuál es la probabilidad de que un disco duro falle antes de alcanzar las 4000 horas de operación?

La variable $X$ representa el tiempo de falla de los discos duros. Como indican en el enunciado, la variable sigue una D. Weibull con $k=1.5$ y $\lambda=5000$ en horas. 

Nos piden hallar la probabilidad de que el disco duro falle antes de alcanzar las 4000 horas, $P(x < 4000)$. En la siguiente gráfica se muestra la probabilidad que nos piden calcular como el area sombreada.

![image-2.png](attachment:image-2.png)

Para calularlo, utilizamos la función __cdf__ de la D. de weibull contenida en la librería _stats_ de _Scipy_ .

In [7]:
# importamos las librerias
import numpy as np
import scipy.stats as stats

# Definimos parametros de la D.
k = 1.5 # parametro de forma
lamb = 5000 #parametro de escala

In [8]:
# calculamos la probabilidad de que falle antes de 4000
prob = stats.weibull_min.cdf(4000, c=k, scale=lamb)
prob

0.5110728376249136

> La probabilidad que el disco duro falle antes de las 4000 horas es de 51.11%.

### b.- ¿Cuál es la vida útil esperada de los discos duros en horas?

Para calcular la vida útil esperada, utilizamos la esperanza de Weibull que viene dada por la siguiente fórmula:

$$\mu_{E} = \lambda \cdot\Gamma \left ( 1 +\frac{1}{k} \right )$$

In [9]:
vida_media = lamb*np.math.gamma(1 + 1/k)
vida_media

4513.726464754668

> La cantidad promedio de horas que un disco duro operará antes de fallar es de 4514 horas.

### c.- ¿Cuántas horas deben transcurrir para que el 25% de los discos duros fallen?

Como nos piden las horas que deben transcurrir para que el 25% de los disco duros fallen, vamos a  utilizar la función __PPF__ de la D. Weibull.

In [10]:
quantil_25 = stats.weibull_min.ppf(0.25, c=k, scale=lamb)
quantil_25

2178.939658515119

> Deben pasar 2179 horas para que el 25% de los discos duros fallen

## Ejemplo 3: Una empresa de tecnología administra un conjunto de 100 servidores en la nube y quiere analizar el tiempo hasta la falla de cada uno para predecir el mantenimiento preventivo y reducir el tiempo de inactividad. A partir de datos históricos, se ha determinado que los tiempos hasta la falla (en meses) siguen una distribución Weibull con los siguientes parámetros estimados: $k = 1.5$ y $\lambda = 12$ en meses

### a.- ¿Cuál es la probabilidad de que un servidor falle antes de 6 meses?

La variable $X$ viene representada por el tiempo hasta la falla de los servidores. Como la variable presenta un comportamiento dado por la D. Weibull, la gráfica de la distribución con los parámetros dados es la siguiente:

![image.png](attachment:image.png)

Donde el área sombreada representa la probabilidad que se requiere calcular. En este caso, utilizamos la función de distribucion acumulada de weibull __CDF__ la cual nos da la probabilidad acumulada hasta cierto punto $X$ que en este caso es 6. Vamos a usar la función __CDF__ de la D. Weibull contenida el la liberia _stats_.

In [11]:
# importamos las librerias
import numpy as np
import scipy.stats as stats

# Definimos parametros de la D.
k = 1.5 # parametro de forma
lamb = 12 #parametro de escala

In [12]:
# calculamos la probabilidad de que falle antes de 6
prob = stats.weibull_min.cdf(6, c=k, scale=lamb)
prob

0.29781149867344037

> Hay un 29.79% de probabilidad de que un servidor falle antes de 6 meses

### b.-  ¿Cuál es la probabilidad de que un servidor supere los 24 meses sin fallar?

En este caso, nos piden hallar la probabilidad de que un servidor supere los 24 meses, es decir

$$P(X \geq 24) = 1 - P(X < 24)$$

Debemos hallar $P(X < 24)$ que gráficamente consiste en hallar el área sombreada de la siguiente gráfica

![image.png](attachment:image.png)

Calculamos $P(X < 24)$ como en el caso anterior

In [13]:
# calculamos la probabilidad de que falle antes de 24
prob = stats.weibull_min.cdf(24, c=k, scale=lamb)
prob

0.9408942534380438

Ahora, introducimos el resultado en la ecuación $P(X \geq 24)$

In [14]:
result = 1 - prob
result

0.05910574656195622

> Sólo un 5.91% de los servidores superará los 24 meses sin fallar.

## Ejemplo 4: Un centro de datos está analizando la confiabilidad de sus servidores y quiere modelar los tiempos hasta el fallo para anticipar reemplazos y mejorar la gestión del mantenimiento. Se han recopilado los siguientes tiempos de vida (en meses) de 15 servidores hasta su primer fallo:

### 2.5, 3.0, 3.7, 4.2, 4.8, 5.1, 5.5, 6.3, 6.7, 7.0, 7.5, 8.0, 8.3, 8.9, 9.5 2.5, 3.0, 3.7, 4.2, 4.8, 5.1, 5.5, 6.3, 6.7, 7.0, 7.5, 8.0, 8.3, 8.9, 9.5

## El equipo de análisis de datos sospecha que estos tiempos de vida siguen una distribución Weibull y desea estimar los parámetros de la distribución (k, λ) para luego responder las siguientes preguntas:.

### a.- Estimar los parámetros de la distribución 

Para estimar los parámetros, utilizamos el Metodo de Maxima Verosimilitud __(MLE)__. Vamos a usar la función de ajuste de la distribución Weibull aportada por la librería _scipy_ para encontrar los parámetros.

In [18]:
# importamos librerias
import numpy as np
import scipy.stats as stats

In [20]:
# datos de los tiempos de fallo de los servidores
data = np.array([2.5, 3.0, 3.7, 4.2, 4.8, 5.1, 5.5, 6.3, 6.7, 7.0, 7.5, 8.0, 8.3, 8.9, 9.5, 2.5, 3.0, 3.7, 4.2, 4.8, 5.1, 5.5, 6.3, 6.7, 7.0, 7.5, 8.0, 8.3, 8.9, 9.5])
data

array([2.5, 3. , 3.7, 4.2, 4.8, 5.1, 5.5, 6.3, 6.7, 7. , 7.5, 8. , 8.3,
       8.9, 9.5, 2.5, 3. , 3.7, 4.2, 4.8, 5.1, 5.5, 6.3, 6.7, 7. , 7.5,
       8. , 8.3, 8.9, 9.5])

In [21]:
# etimacion de los arametros usando MLE
shape, loc, scale = stats.weibull_min.fit(data, floc=0)
print(f'Parametro k: {shape:.4f}')
print(f'Parametro lambda: {scale:.4f}')

Parametro k: 3.2818
Parametro lambda: 6.7870


> $k = 3.28$ indica que la tasa de fallos aumenta con el tiempo

> $\lambda = 6.78$ indica que el tiempo tipico de fallo es alrededor de 6.7 meses.

La gráfica de la distribución con los parámetros antes calculados es la siguiente:

![image.png](attachment:image.png)

### b.- ¿Cuál es la vida media esperada de un servidor?

La vida media esperada nos da una idea de cuánto tiempo, en promedio, funciona un servidor antes de fallar. Se calcula mediante la siguiente ecuación:

$$\mu_{E} = \lambda \cdot\Gamma \left ( 1 +\frac{1}{k} \right )$$

Vamos a calcular $\mu_{E}$ en Python

In [22]:
# definimos los parametros
k = 3.28
lamb = 6.78

# calculo de la vida media
vida_media = lamb*np.math.gamma(1 + 1/k)
vida_media

6.079913341847776

> En promedio, un servidor funciona 6 meses antes de fallar.

### c.- ¿Cuál es la probabilidad de que un servidor falle antes de 6 meses?

Nos piden hallar $P(x \leq 6)$. Para ello, utilizamos la función de distribución acumulada __CDF__ de Weibull. Gráficamente nos piden encontrar el área sombreada de la siguiente distribución

![image.png](attachment:image.png)

In [23]:
# probabilidad que falle antes de 6 meses
prob = stats.weibull_min.cdf(6, k, scale=lamb)
prob

0.4881555724430695

> El 48.8% de los servidores se espera que fallen antes de los 6 meses.

### d.- ¿Cuál es la mediana de la distribución?

La mediana indica el punto donde el 50% de los servidores han fallado y es el valor de probabilidad que cumple:

$$F(x) = 0.5$$

Sabemos que $F(x)$ viene dada por:

$$F(x) = 1 - e^{-(\frac{x}{\lambda })^{k}}$$

Sustituyendo los términos y resolviendo para x obtenemos:

$$x_{mediana} = \lambda \cdot (ln 2)^{1/k}$$

Y resolviendo en python obtenemos el resultado

In [24]:
mediana = lamb*(np.log(2))**(1/k)
mediana

6.063185717281252

> En 6.06 meses el 50% de los servidores han fallado.

## Ejemplo 5: Un fabricante de chips electrónicos ha determinado que la vida útil (en años) de sus componentes sigue una distribución Weibull con un parámetro de forma 𝑘=1.5 y un parámetro de escala 𝜆=5.

### a.- ¿Cuál es la probabilidad de que un chip falle antes de los 3 años?

La variable $X$ viene representada por la vida útil de los chips, sigue una D. Weibull como nos dice el enunciado. Nos piden calcular $P(x \leq 3)$. Gráficamente consiste en hallar el área sombreada de la siguiente distribución

![image.png](attachment:image.png)

Usamos la función de distribución acumulada __CDF__ de la D. Weibull para obtener dicha probabilidad

In [25]:
# importamos las librerias
import numpy as np
import scipy.stats as stats

# definimos los parametros de la D.
k = 1.5
lamb = 5

In [26]:
# calculo de la probabilidad para antes de 3 años
prob = stats.weibull_min.cdf(3, k, scale=lamb)
prob

0.37171286869100184

> La probabilidad de que un chip falle antes de los 3 años es de 37.17%

### b.-  ¿Cuál es la vida útil en la que el 50% de los chips ya han fallado?

El tiempo que debe pasar para que el 50% de los chips fallen se calcula mediante la función cuantil __PPF__ de la D. Weibull. Se utiliza una probabilidad de 0.5 y se busca el tiempo que corresponde a dicha probabilidad.

In [27]:
# calculo del tiempo
time = stats.weibull_min.ppf(0.5, k, scale=lamb)
time

3.916098843873257

> El tiempo para que el 50% de los chips fallen es de 3.9 años.

## Ejemplo 6: En una empresa de tecnología, los tiempos de duración de los contratos de los empleados siguen una distribución Weibull con 𝑘 = 2.2 y 𝜆=6 (años).

### a.- ¿Cuál es la probabilidad de que un empleado deje la empresa después de los 4 años?

La variable _X_ viene representada, en este caso, por el tiempo de duración de los contratos de lo empleados que sigue una D. Weibull. Nos piden hallar $P(x \geq 4)$ y para ello podemos calcularla a través del complemento:

$$P(x \geq 4) = 1 - P(x < 4)$$

Graficamente, consiste en hallar el área sombreada de la siguiente distribución

![image.png](attachment:image.png)

Vamos a utilizar la función __CDF__ de la D. Weibull para calcular $P(x < 4)$

In [28]:
# importar librerias
import numpy as np
import scipy.stats as stats

# definimos los parametros de la D.
k = 2.2
lamb = 6

In [29]:
# calculo de la probabilidad antes de 4 años
prob = stats.weibull_min.cdf(4, k, scale=lamb)
prob

0.33623409105620783

Ahora, agregamos el resultado a la ecuación del complemento para obtener la probabilidad solicitada

In [30]:
resul = 1 - prob
resul

0.6637659089437922

> La probabilidad de que un empleado deje la empresa después de 4 años es de 66.37%

### b.- ¿Cuál es el tiempo esperado en el que el 80% de los empleados habrán salido?

Tenemos que calcular el percentil 80, el cual indica el tiempo en que el 80% de los empleados habrán salido. Para ello, se utiliza la función __PPF__ de la D. Weibull.

In [31]:
# calculo del percentil 80
tiempo = stats.weibull_min.ppf(0.8, k, scale=lamb)
tiempo

7.4489332240832375

> En 7.4 años el 80% de los empleados habrán salido.

## Ejemplo 7: Un analista de datos ha observado que los tiempos entre compras de clientes en una tienda online siguen una distribución Weibull con 𝑘=1.8 y 𝜆=10 (días).

### a.- ¿Cuál es la probabilidad de que un cliente realice su siguiente compra en menos de 7 días?

La variable _X_ viene representada por los tiempos entre compras y sigue una D. Weibull. Nos piden hallar P(x < 7).

Graficamente, consiste en encontrar el área sombreada de la siguiente distribución

![image.png](attachment:image.png)

Utilizamos la función __CDF__ de la D. Weibull para obtener dicha probabilidad


In [32]:
# importar librerias
import numpy as np
import scipy.stats as stats

# definimos los parametros de la D.
k = 1.8
lamb = 10

In [33]:
# Calculo de la probailidad en menos de 7 dias
prob = stats.weibull_min.cdf(7, k, scale=lamb)
prob

0.40917242337066073

> La probabilidad de que un cliente realice su siguiente compra en menos de 7 dias es de 40.91%

### b.- ¿Cuántos días deben pasar para que haya una probabilidad del 90% de que un cliente haya realizado su compra?

Nos piden hallar el tiempo esperado para que el 90% de los clientes hayan comprado nuevamente. Utilizamos la función __PPF__ de la D. Weibull y calculamos el percentil 90.

In [34]:
tiempo = stats.weibull_min.ppf(0.9, k, scale=lamb)
tiempo

15.89391690554513

> Deben pasar al meno 16 dias para que el 90% de los cliente hayan comprado nuevamente

## Relación entre la D. Weibull y otras distribuciones

La D. Exponencial supone una tasa de eventos constante en el tiempo, lo que indica la ausencia de memoria del sistema (el tiempo que pasa desde el último evento no afecta la probabilidad de que ocurra el próximo). Sin embargo, en casos como los componentes mecánicos que tienen una mayor probabilidad de fallar a medida que envejece debido al desgaste, esta distribución ya no se aplica. En tales caso, la D. de Weibull es adecuada porque permite modelar tasas de fallo que aumentan o disminuyen en el tiempo.

La D. de Poisson modela conteos discretos de eventos en un intervalo de tiempo o espacio bajo la suposición de independencia de los eventos y una tasa de ocurrencia constante. En casos donde, por ejemplo, el número de llamadas a un centro de soporte técnico varía según la hora del día, la D. de Poisson deja de ser válida. Es allí donde la D. de Weibull es relevante ya que puede modelar esta variabilidad introduciendo una tasa de eventos dependiente del tiempo.

En resumen, la D. de Weibull es más relevante que la Exponencial o Poisson cuando hay una tasa de ocurrencia variable, se requiere flexibilidad en la forma de la distribución o se analiza la duración de eventos.