# Arboles de Decisión

**Dataset Utilizado:** Titanic Dataset (predicción de supervivencia).

**Carga y Preprocesamiento de Datos:**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Cargar el dataset
df = pd.read_csv('titanic.csv')

# Seleccionar características relevantes
features = ['Pclass', 'Sex', 'Age', 'Fare', 'Embarked']
df = df[features + ['Survived']]

# Manejar valores faltantes
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

# Codificar variables categóricas
label_encoders = {}
for column in ['Sex', 'Embarked']:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column])
    label_encoders[column] = le

# Separar características y variable objetivo
X = df[features]
y = df['Survived']

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)


**Entrenamiento del Modelo:**

In [None]:
# Crear y entrenar el árbol de decisión
tree = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)
tree.fit(X_train, y_train)


**Visualización del Árbol:**

In [None]:
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(20,10))
plot_tree(tree, feature_names=features, class_names=['No Survived', 'Survived'], filled=True)
plt.show()


**Evaluación del Modelo:**

In [None]:
y_pred_tree = tree.predict(X_test)
print("Matriz de Confusión - Árbol de Decisión:")
print(confusion_matrix(y_test, y_pred_tree))
print("\nInforme de Clasificación:")
print(classification_report(y_test, y_pred_tree))
