## 1 Preprocesamiento de datos:
Tratar los valores faltantes: En este caso, las columnas "Age", "Fare", "Cabin" y "Embarked" tienen valores faltantes en uno o ambos conjuntos de datos. 

Podemos decidir cómo tratar estos valores faltantes, ya sea eliminando las filas correspondientes, imputando valores utilizando la media o la mediana, o utilizando técnicas más avanzadas como la imputación por regresión.


Codificación de variables categóricas: Las variables categóricas como "Sex" y "Embarked" deben ser codificadas numéricamente antes de alimentarlas al modelo. Esto se puede lograr mediante técnicas como la codificación one-hot (o dummy encoding)

.
Eliminación de columnas no relevantes: Columnas como "PassengerId", "Name" y "Ticket" pueden no ser relevantes para el modelo y se pueden eliminar del conjunto de datos.


In [1]:
import pandas as pd

# Cargar los datos del archivo CSV
df_train = pd.read_csv('titanic_train.csv')
df_test = pd.read_csv('titanic_test.csv')

# Eliminar columnas no relevantes para el modelo
cols_to_drop = ['PassengerId', 'Name', 'Ticket']
df_train = df_train.drop(cols_to_drop, axis=1)
df_test = df_test.drop(cols_to_drop, axis=1)

# Tratar valores faltantes
# 1. Tratar 'Age': Llenar los valores faltantes con la mediana de 'Age'
age_median = df_train['Age'].median()
df_train['Age'].fillna(age_median, inplace=True)
df_test['Age'].fillna(age_median, inplace=True)

# 2. Tratar 'Fare': Llenar el valor faltante con la mediana de 'Fare'
fare_median = df_test['Fare'].median()
df_test['Fare'].fillna(fare_median, inplace=True)

# 3. Tratar 'Cabin': Crear una nueva columna indicando si la cabina está presente o no
df_train['Cabin'] = df_train['Cabin'].notnull().astype('int')
df_test['Cabin'] = df_test['Cabin'].notnull().astype('int')

# 4. Tratar 'Embarked': Llenar los valores faltantes con el valor más común
embarked_mode = df_train['Embarked'].mode()[0]
df_train['Embarked'].fillna(embarked_mode, inplace=True)

# Codificar variables categóricas
df_train = pd.get_dummies(df_train, columns=['Sex', 'Embarked'], drop_first=True)
df_test = pd.get_dummies(df_test, columns=['Sex', 'Embarked'], drop_first=True)

# Verificar los datos después del preprocesamiento
print("Información del conjunto de entrenamiento:")
print(df_train.info())

print("\nInformación del conjunto de prueba:")
print(df_test.info())


Información del conjunto de entrenamiento:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Survived    891 non-null    int64  
 1   Pclass      891 non-null    int64  
 2   Age         891 non-null    float64
 3   SibSp       891 non-null    int64  
 4   Parch       891 non-null    int64  
 5   Fare        891 non-null    float64
 6   Cabin       891 non-null    int64  
 7   Sex_male    891 non-null    bool   
 8   Embarked_Q  891 non-null    bool   
 9   Embarked_S  891 non-null    bool   
dtypes: bool(3), float64(2), int64(5)
memory usage: 51.5 KB
None

Información del conjunto de prueba:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Pclass      418 non-null    int64  
 1   Age         418 non-null  

## 2 División de datos:
Dividir el conjunto de entrenamiento en datos de entrenamiento y datos de validación. Esto nos permitirá evaluar el rendimiento del modelo antes de probarlo en el conjunto de prueba.

In [2]:
from sklearn.model_selection import train_test_split

# Definir las características (X) y la variable objetivo (y)
X = df_train.drop('Survived', axis=1)
y = df_train['Survived']

# Dividir los datos en conjuntos de entrenamiento y validación
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=2024)

print("Tamaño del conjunto de entrenamiento:", len(X_train))
print("Tamaño del conjunto de validación:", len(X_val))


Tamaño del conjunto de entrenamiento: 712
Tamaño del conjunto de validación: 179


## 3 Entrenamiento del modelo
Utilizar el conjunto de entrenamiento preprocesado para entrenar un modelo de árbol de decisión. Podemos ajustar los hiperparámetros del modelo, como la profundidad máxima del árbol, el criterio de división, etc., utilizando la validación cruzada o técnicas de búsqueda en cuadrícula para encontrar la mejor configuración.

Importar la clase DecisionTreeClassifier de sklearn.tree.
Opcionalmente, importar GridSearchCV de sklearn.model_selection si queremos realizar una búsqueda en cuadrícula para ajustar los hiperparámetros.
Instanciar un objeto de la clase DecisionTreeClassifier.
Opcionalmente, definir un diccionario de hiperparámetros que queremos ajustar.
Opcionalmente, definir un objeto GridSearchCV para buscar en la cuadrícula los mejores hiperparámetros.
Llamar al método fit del objeto DecisionTreeClassifier (o del objeto GridSearchCV si lo estamos utilizando) con los datos de entrenamiento (X_train y y_train).

En este ejemplo, se utiliza GridSearchCV para buscar en la cuadrícula los mejores hiperparámetros. Si no deseas ajustar los hiperparámetros y prefieres utilizar los valores predeterminados, puedes omitir la parte relacionada con param_grid y GridSearchCV, y simplemente entrenar un modelo directamente con DecisionTreeClassifier() y luego llamar al método fit.





In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# Crear un objeto de árbol de decisión
best_tree_model = DecisionTreeClassifier()

# Definir el diccionario de hiperparámetros a ajustar (opcional)
param_grid = {
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'criterion': ['gini', 'entropy']
}

# Crear un objeto GridSearchCV para buscar en la cuadrícula los mejores hiperparámetros (opcional)
grid_search = GridSearchCV(best_tree_model, param_grid, cv=5)

# Entrenar el modelo
grid_search.fit(X_train, y_train)

# Obtener los mejores hiperparámetros encontrados (opcional)
best_params = grid_search.best_params_
print("Mejores hiperparámetros:", best_params)

# Utilizar los mejores hiperparámetros para entrenar un nuevo modelo
best_tree_model = DecisionTreeClassifier(**best_params)
best_tree_model.fit(X_train, y_train)


Mejores hiperparámetros: {'criterion': 'entropy', 'max_depth': 5, 'min_samples_split': 2}


## 4 Evaluación del modelo:
Evaluar el rendimiento del modelo utilizando métricas como la precisión, el recall, el F1-score, y la matriz de confusión en el conjunto de validación. Esto nos permitirá tener una idea de cómo se desempeña el modelo antes de probarlo en el conjunto de prueba.



In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# Cargar los datos del archivo CSV
df_train = pd.read_csv('titanic_train.csv')
df_test = pd.read_csv('titanic_test.csv')

# Eliminar columnas no relevantes para el modelo
cols_to_drop = ['PassengerId', 'Name', 'Ticket']
df_train = df_train.drop(cols_to_drop, axis=1)
df_test = df_test.drop(cols_to_drop, axis=1)

# Tratar valores faltantes
# 1. Tratar 'Age': Llenar los valores faltantes con la mediana de 'Age'
age_median = df_train['Age'].median()
df_train['Age'].fillna(age_median, inplace=True)
df_test['Age'].fillna(age_median, inplace=True)

# 2. Tratar 'Fare': Llenar el valor faltante con la mediana de 'Fare'
fare_median = df_test['Fare'].median()
df_test['Fare'].fillna(fare_median, inplace=True)

# 3. Tratar 'Cabin': Crear una nueva columna indicando si la cabina está presente o no
df_train['Cabin'] = df_train['Cabin'].notnull().astype('int')
df_test['Cabin'] = df_test['Cabin'].notnull().astype('int')

# 4. Tratar 'Embarked': Llenar los valores faltantes con el valor más común
embarked_mode = df_train['Embarked'].mode()[0]
df_train['Embarked'].fillna(embarked_mode, inplace=True)

# Codificar variables categóricas
df_train = pd.get_dummies(df_train, columns=['Sex', 'Embarked'], drop_first=True)
df_test = pd.get_dummies(df_test, columns=['Sex', 'Embarked'], drop_first=True)

# Verificar los datos después del preprocesamiento
print("Información del conjunto de entrenamiento:")
print(df_train.info())

print("\nInformación del conjunto de prueba:")
print(df_test.info())

# Dividir los datos en conjuntos de entrenamiento y validación
X = df_train.drop('Survived', axis=1)
y = df_train['Survived']
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=2024)
print("Tamaño del conjunto de entrenamiento:", len(X_train))
print("Tamaño del conjunto de validación:", len(X_val))

# Crear un objeto de árbol de decisión
tree_model = DecisionTreeClassifier()

# Definir el diccionario de hiperparámetros a ajustar
param_grid = {
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'criterion': ['gini', 'entropy']
}

# Crear un objeto GridSearchCV para buscar en la cuadrícula los mejores hiperparámetros
grid_search = GridSearchCV(tree_model, param_grid, cv=5)

# Entrenar el modelo
grid_search.fit(X_train, y_train)

# Obtener los mejores hiperparámetros encontrados
best_params = grid_search.best_params_
print("Mejores hiperparámetros:", best_params)

# Utilizar los mejores hiperparámetros para entrenar un nuevo modelo
best_tree_model = DecisionTreeClassifier(**best_params)
best_tree_model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de validación
predictions_val = best_tree_model.predict(X_val)

# Calcular las métricas de evaluación
precision = precision_score(y_val, predictions_val)
recall = recall_score(y_val, predictions_val)
f1 = f1_score(y_val, predictions_val)
accuracy = accuracy_score(y_val, predictions_val)
cm = confusion_matrix(y_val, predictions_val)

# Imprimir métricas con explicaciones y conclusiones
print("Precision (Precisión):", precision)
print("Recall (Recuperación):", recall)
print("F1-score (Puntuación F1):", f1)
print("Accuracy (Precisión global):", accuracy)
print("Confusion Matrix (Matriz de confusión):")
print(cm)

# Conclusiones
print("\nConclusiones:")
if accuracy >= 0.8:
    print("El modelo tiene una precisión global satisfactoria.")
else:
    print("El modelo necesita mejoras en su rendimiento.")

if precision >= 0.8 and recall >= 0.8:
    print("El modelo tiene un buen equilibrio entre precisión y recall.")
else:
    print("El equilibrio entre precisión y recall del modelo necesita ser mejorado.")

if f1 >= 0.8:
    print("El modelo tiene una puntuación F1 satisfactoria.")
else:
    print("La puntuación F1 del modelo necesita ser mejorada.")

if cm[0, 1] > cm[1, 0]:
    print("El modelo tiende a cometer más falsos positivos que falsos negativos.")
elif cm[0, 1] < cm[1, 0]:
    print("El modelo tiende a cometer más falsos negativos que falsos positivos.")
else:
    print("El modelo comete errores de manera equilibrada entre las clases.")


Información del conjunto de entrenamiento:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Survived    891 non-null    int64  
 1   Pclass      891 non-null    int64  
 2   Age         891 non-null    float64
 3   SibSp       891 non-null    int64  
 4   Parch       891 non-null    int64  
 5   Fare        891 non-null    float64
 6   Cabin       891 non-null    int64  
 7   Sex_male    891 non-null    bool   
 8   Embarked_Q  891 non-null    bool   
 9   Embarked_S  891 non-null    bool   
dtypes: bool(3), float64(2), int64(5)
memory usage: 51.5 KB
None

Información del conjunto de prueba:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Pclass      418 non-null    int64  
 1   Age         418 non-null  

In [6]:
from sklearn.metrics import classification_report, confusion_matrix

# Obtener el reporte de clasificación
classification_rep = classification_report(y_val, predictions_val)

# Obtener la matriz de confusión
confusion_mat = confusion_matrix(y_val, predictions_val)

# Imprimir el reporte de clasificación
print("Classification Report:")
print(classification_rep)
print()

# Imprimir la matriz de confusión
print("Confusion Matrix:")
print(confusion_mat)
print()

# Razonamientos Interpretativos:
print("Razonamientos Interpretativos:\n")
print("Razonamientos:")
# Calcular y mostrar los razonamientos basados en la matriz de confusión
tn, fp, fn, tp = confusion_mat.ravel()

# Precisión global (Accuracy)
accuracy = (tp + tn) / (tp + tn + fp + fn)
print("- El modelo tiene una precisión global del {:.2f}%, indicando que el {:.2f}% de las predicciones en el conjunto de prueba son correctas.".format(accuracy * 100, accuracy * 100))

# Precisión y recall
precision_0 = tp / (tp + fp)
precision_1 = tn / (tn + fn)
recall_0 = tp / (tp + fn)
recall_1 = tn / (tn + fp)
print("- La precisión y recall son equilibrados, especialmente para la clase 0 (No sobrevivieron).")
print("- La clase 0 (No sobrevivieron) tiene una precisión de {:.2f} y un recall de {:.2f}.".format(precision_0, recall_0))
print("- La clase 1 (Sobrevivió) tiene una precisión de {:.2f} y un recall de {:.2f}.".format(precision_1, recall_1))

# F1-score
f1_0 = 2 * (precision_0 * recall_0) / (precision_0 + recall_0)
f1_1 = 2 * (precision_1 * recall_1) / (precision_1 + recall_1)
print("- F1-score proporciona un equilibrio entre precisión y recall, siendo {:.2f} para la clase 0 y {:.2f} para la clase 1.".format(f1_0, f1_1))

# Imprimir razonamientos adicionales
print("- En la matriz de confusión, los True Positives (TP) y True Negatives (TN) son ({}, {}), indicando una buena capacidad del modelo para clasificar ambas clases.".format(tp, tn))
print("- Los False Positives (FP) y False Negatives (FN) son ({}, {}), indicando que el modelo cometió {} falsos positivos y {} falsos negativos.".format(fp, fn, fp, fn))
print("- Los valores de los razonamientos pueden variar dependiendo de la orientación del problema y los objetivos específicos del negocio.")


Classification Report:
              precision    recall  f1-score   support

           0       0.79      0.95      0.86       110
           1       0.89      0.59      0.71        69

    accuracy                           0.82       179
   macro avg       0.84      0.77      0.79       179
weighted avg       0.83      0.82      0.81       179


Confusion Matrix:
[[105   5]
 [ 28  41]]

Razonamientos Interpretativos:

Razonamientos:
- El modelo tiene una precisión global del 81.56%, indicando que el 81.56% de las predicciones en el conjunto de prueba son correctas.
- La precisión y recall son equilibrados, especialmente para la clase 0 (No sobrevivieron).
- La clase 0 (No sobrevivieron) tiene una precisión de 0.89 y un recall de 0.59.
- La clase 1 (Sobrevivió) tiene una precisión de 0.79 y un recall de 0.95.
- F1-score proporciona un equilibrio entre precisión y recall, siendo 0.71 para la clase 0 y 0.86 para la clase 1.
- En la matriz de confusión, los True Positives (TP) y True Ne

## 5 Pruebas adicionales y ajustes:Realizar pruebas adicionales y ajustes en el modelo según sea necesario para mejorar su rendimiento.



In [7]:
import pandas as pd
import graphviz
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

# Cargar los datos del archivo CSV
df_train = pd.read_csv('titanic_train.csv')
df_test = pd.read_csv('titanic_test.csv')

# Eliminar columnas no relevantes para el modelo
cols_to_drop = ['PassengerId', 'Name', 'Ticket']
df_train = df_train.drop(cols_to_drop, axis=1)
df_test = df_test.drop(cols_to_drop, axis=1)

# Tratar valores faltantes
# 1. Tratar 'Age': Llenar los valores faltantes con la mediana de 'Age'
age_median = df_train['Age'].median()
df_train['Age'].fillna(age_median, inplace=True)
df_test['Age'].fillna(age_median, inplace=True)

# 2. Tratar 'Fare': Llenar el valor faltante con la mediana de 'Fare'
fare_median = df_test['Fare'].median()
df_test['Fare'].fillna(fare_median, inplace=True)

# 3. Tratar 'Cabin': Crear una nueva columna indicando si la cabina está presente o no
df_train['Cabin'] = df_train['Cabin'].notnull().astype('int')
df_test['Cabin'] = df_test['Cabin'].notnull().astype('int')

# 4. Tratar 'Embarked': Llenar los valores faltantes con el valor más común
embarked_mode = df_train['Embarked'].mode()[0]
df_train['Embarked'].fillna(embarked_mode, inplace=True)

# Codificar variables categóricas
df_train = pd.get_dummies(df_train, columns=['Sex', 'Embarked'], drop_first=True)
df_test = pd.get_dummies(df_test, columns=['Sex', 'Embarked'], drop_first=True)

# Definir las características (X) y la variable objetivo (y)
X = df_train.drop('Survived', axis=1)
y = df_train['Survived']

# Dividir los datos en conjuntos de entrenamiento y validación
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=2024)

# Crear un objeto de árbol de decisión y entrenarlo
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train, y_train)

# Exportar el árbol como un archivo .dot
dot_data = export_graphviz(tree_model, out_file=None, 
                           feature_names=X_train.columns,  
                           class_names=['No Sobrevivió', 'Sobrevivió'],
                           filled=True, rounded=True, special_characters=True)

# Convertir el archivo .dot a un gráfico
graph = graphviz.Source(dot_data)

# Visualizar el árbol
graph.render('titanic_decision_tree', format='png', cleanup=True)
graph.view()

# Hacer predicciones en el conjunto de validación
predictions_val = tree_model.predict(X_val)

# Obtener el reporte de clasificación
classification_rep = classification_report(y_val, predictions_val)

# Obtener la matriz de confusión
confusion_mat = confusion_matrix(y_val, predictions_val)

# Imprimir el reporte de clasificación
print("Classification Report:")
print(classification_rep)
print()

# Imprimir la matriz de confusión
print("Confusion Matrix:")
print(confusion_mat)
print()

# Razonamientos Interpretativos:
print("Razonamientos Interpretativos:\n")
print("Razonamientos:")
# Calcular y mostrar los razonamientos basados en la matriz de confusión
tn, fp, fn, tp = confusion_mat.ravel()

# Precisión global (Accuracy)
accuracy = (tp + tn) / (tp + tn + fp + fn)
print("- El modelo tiene una precisión global del {:.2f}%, indicando que el {:.2f}% de las predicciones en el conjunto de prueba son correctas.".format(accuracy * 100, accuracy * 100))

# Precisión y recall
precision_0 = tp / (tp + fp)
precision_1 = tn / (tn + fn)
recall_0 = tp / (tp + fn)
recall_1 = tn / (tn + fp)
print("- La precisión y recall son equilibrados, especialmente para la clase 0 (No sobrevivieron).")
print("- La clase 0 (No sobrevivieron) tiene una precisión de {:.2f} y un recall de {:.2f}.".format(precision_0, recall_0))
print("- La clase 1 (Sobrevivió) tiene una precisión de {:.2f} y un recall de {:.2f}.".format(precision_1, recall_1))

# F1-score
f1_0 = 2 * (precision_0 * recall_0) / (precision_0 + recall_0)
f1_1 = 2 * (precision_1 * recall_1) / (precision_1 + recall_1)
print("- F1-score proporciona un equilibrio entre precisión y recall, siendo {:.2f} para la clase 0 y {:.2f} para la clase 1.".format(f1_0, f1_1))

# Imprimir razonamientos adicionales
print("- En la matriz de confusión, los True Positives (TP) y True Negatives (TN) son ({}, {}), indicando una buena capacidad del modelo para clasificar ambas clases.".format(tp, tn))
print("- Los False Positives (FP) y False Negatives (FN) son ({}, {}), indicando que el modelo cometió {} falsos positivos y {} falsos negativos.".format(fp, fn, fp, fn))
print("- Los valores de los razonamientos pueden variar dependiendo de la orientación del problema y los objetivos específicos del negocio.")


ExecutableNotFound: failed to execute PosixPath('dot'), make sure the Graphviz executables are on your systems' PATH

## 6 Predicción en el conjunto de prueba

##  7 Evaluación final del modelo

## 8 Iteración y refinamiento 
Si es necesario, podemos iterar en los pasos anteriores, refinando el preprocesamiento de datos, ajustando el modelo y evaluando su rendimiento hasta que estemos satisfechos con los resultados obtenidos.