In [None]:
import pandas as pd
import numpy as np

# Cargar el conjunto de datos
df = pd.read_csv('car dataset.csv')

# Mostrar las primeras filas del conjunto de datos
df.head()

In [None]:
# Información general del conjunto de datos
df.info()

# Estadísticas descriptivas
df.describe()

# Verificar valores faltantes
df.isnull().sum()

# Verificar valores únicos por columna
df.nunique()

In [None]:
# Convertir columnas numéricas con valores no numéricos a NaN
df['ca'] = pd.to_numeric(df['ca'], errors='coerce')
df['thal'] = pd.to_numeric(df['thal'], errors='coerce')

# Imputar valores faltantes con la mediana
df['ca'].fillna(df['ca'].median(), inplace=True)
df['thal'].fillna(df['thal'].median(), inplace=True)

# Codificar variables categóricas
df['sex'] = df['sex'].astype('category')
df['cp'] = df['cp'].astype('category')
df['fbs'] = df['fbs'].astype('category')
df['restecg'] = df['restecg'].astype('category')
df['exang'] = df['exang'].astype('category')
df['slope'] = df['slope'].astype('category')
df['ca'] = df['ca'].astype('category')
df['thal'] = df['thal'].astype('category')

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Matriz de correlación
corr_matrix = df.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de Correlación')
plt.show()

# Distribución de la variable objetivo
sns.countplot(x='condition', data=df)
plt.title('Distribución de la variable objetivo')
plt.show()

In [None]:
# Seleccionar características con alta correlación con la variable objetivo
target_corr = corr_matrix['condition'].sort_values(ascending=False)
print(target_corr)

In [None]:
from sklearn.model_selection import train_test_split

# Definir variables independientes y dependientes
X = df.drop(columns=['condition'])
y = df['condition']

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LinearRegression

# Inicializar modelos
logreg = LogisticRegression(max_iter=1000)
dt = DecisionTreeClassifier(random_state=42)
linreg = LinearRegression()

# Entrenar modelos
logreg.fit(X_train, y_train)
dt.fit(X_train, y_train)
linreg.fit(X_train, y_train)


In [None]:
from sklearn.metrics import classification_report, accuracy_score

# Predicciones
y_pred_logreg = logreg.predict(X_test)
y_pred_dt = dt.predict(X_test)

# Evaluación de Regresión Logística
print("Regresión Logística:")
print(classification_report(y_test, y_pred_logreg))

# Evaluación de Árbol de Decisión
print("Árbol de Decisión:")
print(classification_report(y_test, y_pred_dt))

# Evaluación de Regresión Lineal
print("Regresión Lineal:")
y_pred_linreg = linreg.predict(X_test)
y_pred_linreg = np.round(y_pred_linreg).astype(int)
print(classification_report(y_test, y_pred_linreg))

In [None]:
from sklearn.metrics import confusion_matrix

# Matriz de confusión para Regresión Logística
cm_logreg = confusion_matrix(y_test, y_pred_logreg)
sns.heatmap(cm_logreg, annot=True, fmt='d', cmap='Blues', xticklabels=['No Enfermedad', 'Enfermedad'], yticklabels=['No Enfermedad', 'Enfermedad'])
plt.title('Matriz de Confusión - Regresión Logística')
plt.xlabel('Predicción')
plt.ylabel('Realidad')
plt.show()

# Matriz de confusión para Árbol de Decisión
cm_dt = confusion_matrix(y_test, y_pred_dt)
sns.heatmap(cm_dt, annot=True, fmt='d', cmap='Blues', xticklabels=['No Enfermedad', 'Enfermedad'], yticklabels=['No Enfermedad', 'Enfermedad'])
plt.title('Matriz de Confusión - Árbol de Decisión')
plt.xlabel('Predicción')
plt.ylabel('Realidad')
plt.show()