In [40]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.preprocessing import PolynomialFeatures



In [41]:
# Cargar los datos del Titanic
titanic_data = pd.read_csv('Titanic.csv')

In [42]:
# Preprocesar los datos
titanic_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
titanic_data['Age'].fillna(titanic_data['Age'].median(), inplace=True)
titanic_data['Embarked'].fillna(titanic_data['Embarked'].mode()[0], inplace=True)
titanic_data = pd.get_dummies(titanic_data, columns=['Sex', 'Embarked'])


In [43]:
# Separar los datos en características y etiquetas
X = titanic_data.drop('Survived', axis=1)
y = titanic_data['Survived']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [44]:
# Definir la función de predicción
def predict(X, function):
    return function.predict(X)

In [45]:
# Definir una función para ajustar y evaluar el modelo con diferentes grados de polinomios
def evaluate_model(X_train, y_train, X_test, y_test, max_degree):
    train_accuracy = []
    test_accuracy = []
    confusion_matrices = []

    for degree in range(1, max_degree+1):
        # Crear nuevas características de polinomios
        poly = PolynomialFeatures(degree=degree)
        X_train_poly = poly.fit_transform(X_train)
        X_test_poly = poly.transform(X_test)

        # Ajustar el modelo de regresión logística a los datos de entrenamiento
        logreg = LogisticRegression(random_state=42)
        logreg.fit(X_train_poly, y_train)

        # Predecir las etiquetas de entrenamiento y prueba
        y_train_pred = logreg.predict(X_train_poly)
        y_test_pred = logreg.predict(X_test_poly)

        # Calcular la precisión del modelo en los conjuntos de entrenamiento y prueba
        train_accuracy.append(accuracy_score(y_train, y_train_pred))
        test_accuracy.append(accuracy_score(y_test, y_test_pred))

        # Calcular la matriz de confusión del modelo en el conjunto de prueba
        confusion_matrices.append(confusion_matrix(y_test, y_test_pred))

    return train_accuracy, test_accuracy, confusion_matrices


In [46]:
# Evaluar el modelo con diferentes grados de polinomios
train_accuracy, test_accuracy, confusion_matrices = evaluate_model(X_train, y_train, X_test, y_test, 10)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

In [47]:
# Imprimir las precisión del modelo en los conjuntos de entrenamiento y prueba
for degree, acc_train, acc_test in zip(range(1, 11), train_accuracy, test_accuracy):
    print(f'Grado {degree}: precisión en entrenamiento = {acc_train:.2f}, precisión en prueba = {acc_test:.2f}')


Grado 1: precisión en entrenamiento = 0.81, precisión en prueba = 0.78
Grado 2: precisión en entrenamiento = 0.81, precisión en prueba = 0.75
Grado 3: precisión en entrenamiento = 0.77, precisión en prueba = 0.72
Grado 4: precisión en entrenamiento = 0.73, precisión en prueba = 0.66
Grado 5: precisión en entrenamiento = 0.61, precisión en prueba = 0.56
Grado 6: precisión en entrenamiento = 0.61, precisión en prueba = 0.56
Grado 7: precisión en entrenamiento = 0.61, precisión en prueba = 0.56
Grado 8: precisión en entrenamiento = 0.61, precisión en prueba = 0.56
Grado 9: precisión en entrenamiento = 0.61, precisión en prueba = 0.56
Grado 10: precisión en entrenamiento = 0.61, precisión en prueba = 0.56


In [49]:
# Imprimir la matriz de confusión para el modelo con el grado de polinomio óptimo
optimal_degree = np.argmax(test_accuracy) + 1
print(f'\nMatriz de confusión para el modelo con grado {optimal_degree}:')
print(confusion_matrices[optimal_degree-1])


Matriz de confusión para el modelo con grado 1:
[[73  7]
 [25 38]]
