In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier


import seaborn as sns
import matplotlib.pyplot as plt
# Cargar el dataset
df = pd.read_csv('dementia_dataset.csv')

# Mostrar las primeras filas del dataset para tener una idea general
print(df.head())


  Subject ID         MRI ID        Group  Visit  MR Delay M/F Hand  Age  EDUC  \
0  OAS2_0001  OAS2_0001_MR1  Nondemented      1         0   M    R   87    14   
1  OAS2_0001  OAS2_0001_MR2  Nondemented      2       457   M    R   88    14   
2  OAS2_0002  OAS2_0002_MR1     Demented      1         0   M    R   75    12   
3  OAS2_0002  OAS2_0002_MR2     Demented      2       560   M    R   76    12   
4  OAS2_0002  OAS2_0002_MR3     Demented      3      1895   M    R   80    12   

   SES  MMSE  CDR  eTIV   nWBV    ASF  
0  2.0  27.0  0.0  1987  0.696  0.883  
1  2.0  30.0  0.0  2004  0.681  0.876  
2  NaN  23.0  0.5  1678  0.736  1.046  
3  NaN  28.0  0.5  1738  0.713  1.010  
4  NaN  22.0  0.5  1698  0.701  1.034  


In [None]:
#ELIMINO LAS COLUMNAS QUE NO APORTAN INFORMACION RELEVANTE
df = df.drop(columns=['Subject ID', 'MRI ID', 'Visit'])
print(df.head())


         Group  MR Delay M/F Hand  Age  EDUC  SES  MMSE  CDR  eTIV   nWBV  \
0  Nondemented         0   M    R   87    14  2.0  27.0  0.0  1987  0.696   
1  Nondemented       457   M    R   88    14  2.0  30.0  0.0  2004  0.681   
2     Demented         0   M    R   75    12  NaN  23.0  0.5  1678  0.736   
3     Demented       560   M    R   76    12  NaN  28.0  0.5  1738  0.713   
4     Demented      1895   M    R   80    12  NaN  22.0  0.5  1698  0.701   

     ASF  
0  0.883  
1  0.876  
2  1.046  
3  1.010  
4  1.034  


In [None]:
# Revisar valores faltantes
print(df.isnull().sum())

Group        0
MR Delay     0
M/F          0
Hand         0
Age          0
EDUC         0
SES         19
MMSE         2
CDR          0
eTIV         0
nWBV         0
ASF          0
dtype: int64


In [None]:
df.shape #devuelve una tupla (n_filas, n_columnas).
num_filas=df.shape[0] #extrae el primer elemento de la tupla, que es el número de filas.
print(f"El número de filas del dataset es: {num_filas}")

El número de filas del dataset es: 373


In [None]:
#El numero de filas es 373 y en la celda anterior podemos observar que faltan 19 SES y 2 MMSE por lo que como maximo elimiando esas filas
#tendriamos 21 menos que siendo 373 tampoco afectaria en mucho.
df = df.dropna(subset=['SES', 'MMSE'])
print(df.isnull().sum())

Group       0
MR Delay    0
M/F         0
Hand        0
Age         0
EDUC        0
SES         0
MMSE        0
CDR         0
eTIV        0
nWBV        0
ASF         0
dtype: int64


In [None]:
# Revisar valores inconsistentes en columnas categóricas
print(df['M/F'].value_counts())
print(df['Group'].value_counts())

M/F
F    204
M    150
Name: count, dtype: int64
Group
Nondemented    190
Demented       127
Converted       37
Name: count, dtype: int64


In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()


df[['SES', 'MMSE', 'CDR', 'eTIV', 'nWBV', 'ASF', 'Age','EDUC', 'MR Delay']] = scaler.fit_transform(df[['SES', 'MMSE', 'CDR', 'eTIV', 'nWBV', 'ASF', 'Age','EDUC', 'MR Delay']])



In [None]:
print(df.head())


         Group  MR Delay M/F Hand       Age      EDUC       SES      MMSE  \
0  Nondemented -0.940069   M    R  1.277580 -0.243255 -0.406615 -0.110484   
1  Nondemented -0.225661   M    R  1.405772 -0.243255 -0.406615  0.698714   
5  Nondemented -0.940069   F    R  1.405772  1.140076  0.476463  0.159249   
6  Nondemented -0.099037   F    R  1.662157  1.140076  0.476463 -0.110484   
7  Nondemented -0.940069   M    R  0.380232 -0.934921  1.359542  0.159249   

       CDR      eTIV      nWBV       ASF  
0 -0.73291  2.831634 -0.896523 -2.274647  
1 -0.73291  2.928489 -1.293466 -2.325881  
5 -0.73291 -1.566725 -0.526043  1.831403  
6 -0.73291 -1.652185 -0.314340  1.963148  
7 -0.73291  1.133822 -0.473117 -1.132857  


In [None]:
# Primero, convierte la columna 'M/F' en tipo str si no lo es
#df['M/F'] = df['M/F'].astype(str)

# Luego, utiliza get_dummies() para obtener las variables one-hot
#one_hot = pd.get_dummies(df['M/F'], prefix='M/F')

# Ahora puedes concatenar las variables one-hot con tu DataFrame original
#df = pd.concat([df, one_hot], axis=1)

# Por último, puedes eliminar la columna original 'M/F' si ya no la necesitas
#df.drop('M/F', axis=1, inplace=True)
#display(df)

In [None]:
# Codificación one-hot para la columna 'Group'
#df = pd.get_dummies(df, columns=['Group'], prefix=['Group'])

# Convertir 'M/F' a valores numéricos (0 para F, 1 para M)
df['M/F'] = df['M/F'].map({'F': 0, 'M': 1})
mapeo = {'L':0, 'R':1}
df['Hand'] = df['Hand'].map(mapeo)
# Convertir columnas categóricas a valores numéricos
#X = pd.get_dummies(X, columns=['M/F'])

#Si M/F tiene más de dos categorías o si se espera que haya más categorías en el futuro,
#pd.get_dummies() es más flexible y puede ser preferible.

In [None]:
print(df.head())


         Group  MR Delay  M/F  Hand       Age      EDUC       SES      MMSE  \
0  Nondemented -0.940069    1     1  1.277580 -0.243255 -0.406615 -0.110484   
1  Nondemented -0.225661    1     1  1.405772 -0.243255 -0.406615  0.698714   
5  Nondemented -0.940069    0     1  1.405772  1.140076  0.476463  0.159249   
6  Nondemented -0.099037    0     1  1.662157  1.140076  0.476463 -0.110484   
7  Nondemented -0.940069    1     1  0.380232 -0.934921  1.359542  0.159249   

       CDR      eTIV      nWBV       ASF  
0 -0.73291  2.831634 -0.896523 -2.274647  
1 -0.73291  2.928489 -1.293466 -2.325881  
5 -0.73291 -1.566725 -0.526043  1.831403  
6 -0.73291 -1.652185 -0.314340  1.963148  
7 -0.73291  1.133822 -0.473117 -1.132857  


In [None]:
# Separar características (X) y variable objetivo (y)
X = df.drop(columns=['Group'])  # Quitamos 'Group' de las características
y = df['Group']


# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:


# Estandarizar características
#scaler = StandardScaler()
#X_train_scaled = scaler.fit_transform(X_train)
#X_test_scaled = scaler.transform(X_test)



# Inicializar y entrenar el MLP
mlp = MLPClassifier(hidden_layer_sizes=(300, 50), max_iter=500, random_state=42)
mlp.fit(X_train, y_train)



# Predecir con el conjunto de prueba
y_pred = mlp.predict(X_test)
accuracy = mlp.score(X_test, y_test)
print("Precisión del MLP:", accuracy)
# Calcular precisión
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del MLP:", accuracy)

nombres_clases = ['Nondemented', 'Demented', 'Converted']

cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusion", cm)
#las filas son los valores reales y las columnas los predichos

Precisión del MLP: 0.9014084507042254
Precisión del MLP: 0.9014084507042254
Matriz de confusion [[ 5  1  2]
 [ 1 25  0]
 [ 2  1 34]]


In [None]:
tree_clf = DecisionTreeClassifier(max_depth = 5, random_state=42)
tree_clf.fit(X_train, y_train)

# Predecir con el conjunto de prueba
y_pred_tree = tree_clf.predict(X_test)

# Calcular precisión del modelo
accuracy_tree = accuracy_score(y_test, y_pred_tree)
print("Precisión del árbol de decisión:", accuracy_tree)


nombres_clases = ['Nondemented', 'Demented', 'Converted']

cm = confusion_matrix(y_test, y_pred_tree)
print("Matriz de confusion", cm)
#las filas son los valores reales y las columnas los predichos

Precisión del árbol de decisión: 0.8591549295774648
Matriz de confusion [[ 3  1  4]
 [ 3 23  0]
 [ 1  1 35]]


In [None]:

knn = KNeighborsClassifier(n_neighbors=4)
knn.fit(X_train, y_train)
# Predecir con el conjunto de prueba
y_pred_knn = knn.predict(X_test)

# Calcular precisión del modelo
accuracy_knn = accuracy_score(y_test, y_pred_knn)
print("Precisión del knn:", accuracy_knn)
cm = confusion_matrix(y_test, y_pred_tree)
print("Matriz de confusion", cm)

Precisión del knn: 0.8450704225352113
Matriz de confusion [[ 3  1  4]
 [ 3 23  0]
 [ 1  1 35]]


In [None]:
random = RandomForestClassifier(
            n_estimators = 10,
            random_state = 43
         )

# Entrenamiento del modelo
# ==============================================================================
random.fit(X_train, y_train)
# Predecir con el conjunto de prueba
y_pred_random = random.predict(X_test)

# Calcular precisión del modelo
accuracy_random = accuracy_score(y_test, y_pred_random)
print("Precisión del random:", accuracy_random)
cm = confusion_matrix(y_test, y_pred_random)
print("Matriz de confusion", cm)

Precisión del random: 0.8873239436619719
Matriz de confusion [[ 4  1  3]
 [ 2 24  0]
 [ 2  0 35]]
