# Task 1, Task 2 y Task 3

In [1]:
import numpy as np
from sklearn.model_selection import KFold
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [2]:
# Leer archivo CSV
data = np.genfromtxt('framingham.csv', delimiter=',', skip_header=1)

# Seleccionar columnas 0 y 3
X = data[:, 3]  # Fumador
y = data[:, 0]  # Sufre o no sufre un paro cardíaco

# Función sigmoide
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Función de regresión logística por descenso de gradiente
def logistic_regression(X, y, alpha, num_iters):
    # Añadir columna de unos a X
    X = np.vstack([np.ones(len(X)), X]).T
    
    # Inicializar parámetros
    theta = np.zeros(2)
    
    # Descenso de gradiente
    for i in range(num_iters):
        # Calcular hipótesis
        z = np.dot(X, theta)
        h = sigmoid(z)
        
        # Calcular gradiente y actualizar parámetros
        grad = np.dot(X.T, (h - y)) / len(y)
        theta -= alpha * grad
        
    return theta

# Ajustar modelo
theta = logistic_regression(X, y, 0.01, 1000)

# Mostrar parámetros
print('theta:', theta)

theta: [-0.33706938  0.24909504]


# Task 4

In [3]:
# Dividir los datos en conjuntos de entrenamiento y prueba
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Definir los grados del polinomio a probar
degrees = range(1, 10)

# Inicializar la precisión promedio para cada grado del polinomio
mean_accs = []

# Realizar validación cruzada para cada grado del polinomio
for degree in degrees:
    accs = []
    for train_index, test_index in kf.split(X):
        # Dividir los datos en conjuntos de entrenamiento y prueba
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]

        # Transformar las variables de entrada con el grado del polinomio actual
        poly = PolynomialFeatures(degree=degree)
        X_train_poly = poly.fit_transform(X_train.reshape(-1, 1))
        X_test_poly = poly.fit_transform(X_test.reshape(-1, 1))

        # Ajustar modelo de regresión logística
        lr = LogisticRegression()
        lr.fit(X_train_poly, y_train)

        # Predecir valores y calcular precisión
        y_pred = lr.predict(X_test_poly)
        acc = accuracy_score(y_test, y_pred)
        accs.append(acc)

    mean_acc = np.mean(accs)
    mean_accs.append(mean_acc)

# Encontrar el grado del polinomio que maximiza la precisión promedio
best_degree = degrees[np.argmax(mean_accs)]
print('El mejor grado del polinomio es:', best_degree)

El mejor grado del polinomio es: 1


# Task 5

1. Después de analizar los datos y ajustar un modelo de regresión logística polinomial utilizando validación cruzada para determinar el grado óptimo del polinomio, encontramos que el grado óptimo del polinomio fue de 1. Esto significa que una relación lineal entre la variable independiente (fumador) y la variable dependiente (sufre o no un paro cardíaco) puede ser suficiente para describir la relación entre las variables.
2. Es importante destacar que esto no significa necesariamente que una relación no lineal no exista entre las variables. Es posible que no se hayan medido todas las variables relevantes en el conjunto de datos, lo que podría haber afectado la forma de la relación.
3. También es importante tener en cuenta que aunque la relación entre las variables parece ser lineal, esto no implica causalidad. Es posible que otras variables, no incluidas en el conjunto de datos, estén influyendo en la relación observada.