In [None]:
import pandas as pd
import numpy as np
import math

In [None]:
# https://www.kaggle.com/datasets/thedevastator/exploring-risk-factors-for-cardiovascular-diseas
# En este dataset nos interesa saber el estilo de vida de una persona para predecir la presencia o ausencia de una enfermedad cardiovascular
# Variables a utilizar: Presion sistolica, presencia o ausencia de una enfermedad cardiovascular
data = pd.read_csv('./heart_data.csv').head(1000)
data[['ap_hi','cardio']]

Unnamed: 0,ap_hi,cardio
0,110,0
1,140,1
2,130,1
3,150,1
4,100,0
...,...,...
995,110,0
996,120,1
997,140,1
998,150,1


In [None]:
# ALGORITMO DE REGRESION LINEAL
def getB(data, xm, ym):
  p1 = np.sum((data['ap_hi'] - xm) * (data['cardio'] - ym))
  p2 = np.sum((data['ap_hi'] - xm)**2)
  return p1/p2

def algoritmoLineal(a, b, x):
  y = a + b * x
  return y

In [None]:
# ALGORTITMO DE REGRESION LOGISTICA

def algoritmoLogistica(data, x):
  xm = np.sum(data['ap_hi'].to_numpy())/data.shape[0]
  ym = np.sum(data['cardio'].to_numpy())/data.shape[0]
  b = getB(data, xm, ym)
  a = ym - (b * xm)
  res = algoritmoLineal(a,b,x)
  return 1 / (1 + math.e ** -res) 

# Se imprime la probabilidad (entre 0 y 1) de tener una enfermedad cardiovascular dada el set de datos y la presion sistolica
print(algoritmoLogistica(data,80))

0.4757264817266882


Incluya paso a paso la derivada parcial de la función de activación del algoritmo, es decir, la derivada parcial de la función logística de acuerdo con sus respectivas variables.

La función logística se define como:

$f(x) = \frac{1}{1 + e^{-x}}$

La derivada parcial de $f(x)$ con respecto a $x$ se puede calcular como:

$\frac{d f}{d x} = \frac{d}{d x} \frac{1}{1 + e^{-x}}$

Para calcular esta derivada parcial, primero debemos usar la regla de la cadena de la derivada:

$\frac{d}{d x} \frac{1}{1 + e^{-x}} = \frac{d}{d u} \frac{1}{u} \cdot \frac{d}{d x} (1 + e^{-x})$

donde $u = 1 + e^{-x}$. La derivada parcial de $\frac{1}{u}$ con respecto a $u$ es $-\frac{1}{u^2}$, y la derivada parcial de $(1 + e^{-x})$ con respecto a $x$ es $-e^{-x}$. Entonces, sustituyendo y simplificando, obtenemos:

$\frac{d f}{d x} = -\frac{1}{(1 + e^{-x})^2} \cdot (-e^{-x})$

Finalmente, simplificando un poco más, obtenemos:

$\frac{d f}{d x} = \frac{e^{-x}}{(1 + e^{-x})^2}$

Por lo tanto, la derivada parcial de $f(x)$ con respecto a $x$ es $\frac{e^{-x}}{(1 + e^{-x})^2}$.

Conclusiones

En este lab pudimos notar más claramente las capacidades del algoritmo de regresión logística para predecir. 

1. Resultó bastante útil para predecir la probabilidad de tener una enfermedad cardiovascular para el set de datos tomando en cuenta una presión sistólica de 80, dándonos una probabilidad de 47,57%, una probabilidad baja y que si probamos con otros valores la probabilidad de riesgo se volvería más grave en presiones de 90 o más.

2. Es un algoritmo que puede generar predicciones más exactas entre más datos analice y es muy útil para predecir factores de riesgo para saber si es probable que las situaciones sucedan o no. Una de las grandes razones por la cuales es muy útil en el campo de la medicina.

3. Un algoritmo simple, pero verdaderamente eficiente además de que no necesita muchos recursos. Nos ayudó un poco más a entender porque es un algoritmo bastante usado.

4. Depende mucho de que tenga las variables necesarias para predecir el resultado por lo que si no cuenta con todas las variables podría retornar predicciones sin valor.

5. Al ser un algoritmo lineal, sería buena idea antes de usar este algoritmo, verificar con alguna función el coeficiente de correlación de los datos para saber si tienen un comportamiento lineal, de lo contrario podríamos buscar otras alternativas porque los datos podrían no ser tan acertados. 

6. La derivada parcial de la función logística es importante en el algoritmo de regresión logística ya que se utiliza en la actualización de los parámetros del modelo mediante la técnica de descenso del gradiente.

7. La derivada parcial de la función logística también es importante para interpretar el comportamiento del modelo. En particular, se puede observar que esta derivada es positiva cuando $x < 0$ y negativa cuando $x > 0$, lo que significa que la pendiente de la función logística es más empinada en los extremos de su rango. Esto implica que el modelo será más sensible a los cambios en la variable de entrada cuando ésta se encuentre cerca de los extremos del rango de valores.