# Clasificación con K-NN y Regresión Logística en Python
Este notebook replica el análisis y modelos del script en R utilizando Python.

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
# 1. Lectura del dataset
# Cargar los datos
data = pd.read_csv('Alzheimer_dataset.csv', sep=';')

# Eliminar la columna 'Categoria'
data = data.drop(columns=['Categoria'])

# Exploración inicial
print(data.info())  # Estructura del dataset
print(data.describe())  # Resumen estadístico

In [None]:
# 2. Análisis exploratorio (EDA)
# Comprobar distribución de la variable objetivo (Target)
print(data['Target'].value_counts())  # Frecuencia de cada clase

# Distribución de la variable objetivo
plt.bar(data['Target'].value_counts().index, data['Target'].value_counts().values, color=['skyblue', 'orange'])
plt.title('Distribución de la Variable Target')
plt.xlabel('Clase')
plt.ylabel('Frecuencia')
plt.show()

# Visualización de correlaciones entre variables numéricas
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

In [None]:
# Distribución de Edad por clases de Target
sns.histplot(data=data, x='Edad', hue='Target', kde=True, multiple='stack', palette=['lightblue', 'pink'])
plt.title('Distribución de Edad por Clase')
plt.show()

# Boxplot de Edad por Clase
sns.boxplot(data=data, x='Target', y='Edad', palette=['lightblue', 'pink'])
plt.title('Boxplot de Edad por Clase')
plt.show()

In [None]:
# 3. Preparación de los datos
# Convertir la variable Target a numérica (si no lo es)
data['Target'] = LabelEncoder().fit_transform(data['Target'])

# Dividir los datos en conjunto de entrenamiento (70%) y prueba (30%)
X = data.drop(columns=['Target'])
y = data['Target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

# Escalar las variables numéricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# 4. Modelo de K-NN
# Entrenar un modelo K-NN con k=5
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

# Predicciones y evaluación
y_pred_knn = knn.predict(X_test_scaled)
conf_matrix_knn = confusion_matrix(y_test, y_pred_knn)
print('Matriz de Confusión K-NN:\n', conf_matrix_knn)
print('Reporte de Clasificación K-NN:\n', classification_report(y_test, y_pred_knn))

In [None]:
# 5. Modelo de Regresión Logística
# Entrenar el modelo de regresión logística
log_reg = LogisticRegression()
log_reg.fit(X_train_scaled, y_train)

# Predicciones y evaluación
y_pred_log = log_reg.predict(X_test_scaled)
conf_matrix_log = confusion_matrix(y_test, y_pred_log)
print('Matriz de Confusión Regresión Logística:\n', conf_matrix_log)
print('Reporte de Clasificación Regresión Logística:\n', classification_report(y_test, y_pred_log))

In [None]:
# 6. Conclusión
print('Resumen de Precisión:')
print('K-NN - Precisión:', knn.score(X_test_scaled, y_test))
print('Regresión Logística - Precisión:', log_reg.score(X_test_scaled, y_test))