In [50]:
# Lo primero que hay que hacer es leer los datos del csv y guardarlos en una variable para trabajar con ellos.
# Despues hay que seleccionar que valores queremos utilizar como target y cuales como data.
# Una vez que los datos esten preparados 

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis,QuadraticDiscriminantAnalysis
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report


In [51]:
#Importamos y mostramos el csv
data = pd.read_csv('historial_clinico.csv',sep=',')
print(data.keys())

Index(['edad', 'creatinina_fosfocinasa', 'diabetes', 'sangre_contraccion',
       'plaquetas', 'creatinina', 'sodio', 'seguimiento', 'fallecimiento',
       'anemia', 'tension', 'sexo', 'fumador'],
      dtype='object')


In [52]:
X = data[['edad','creatinina_fosfocinasa','diabetes','sangre_contraccion','plaquetas','creatinina','sodio','seguimiento','anemia','tension','sexo','fumador']].dropna()
y = data['fallecimiento'].dropna()

y = y.iloc[:-1]
X = X.reset_index(drop=True)
y = y.reset_index(drop=True)

print(X.corr())
# Comprobamos si existe correlacion entre algunos datos para eliminarlos de ser asi.
#Al no haber correlacion mantenemos los datos como estan

                            edad  creatinina_fosfocinasa  diabetes  \
edad                    1.000000               -0.082369 -0.101062   
creatinina_fosfocinasa -0.082369                1.000000 -0.006182   
diabetes               -0.101062               -0.006182  1.000000   
sangre_contraccion      0.059874               -0.046627 -0.003191   
plaquetas              -0.051613                0.032759  0.087311   
creatinina              0.159779               -0.013695 -0.048982   
sodio                  -0.045967                0.059351 -0.089418   
seguimiento            -0.224914               -0.012341  0.035846   
anemia                  0.087067               -0.196382 -0.009496   
tension                 0.196697               -0.026612 -0.008618   
sexo                   -0.065157               -0.077034  0.155967   
fumador                 0.162492               -0.014739 -0.057832   

                        sangre_contraccion  plaquetas  creatinina     sodio  \
edad      

In [53]:
# Creamos el modelo de clasificacion, en este caso usaremos el de LogisticRegression
clf1 = LogisticRegression(C=1,class_weight=None,max_iter=100000)

# Crear dos lista numpy vacias
scoreTrain=np.array([])
scoreTest=np.array([])

# Creamos un bucle de 100 iteraciones
for i in range(0,100):

    # En cada iteracion hacemos una division de los datos y entrenamos el modelos con esos valores
    # Stratify es muy importante porque hace que se cojan los datos en la proporcion que le pasemos en el train size
    XTrain, XTest, yTrain, yTest = train_test_split(X,y,train_size=0.5,stratify=y)
    clf1.fit(XTrain,yTrain)

    # Agregamos el score del train y test a sus respectivas listas
    scoreTest = np.append(scoreTrain,clf1.score(XTrain,yTrain))
    scoreTrain = np.append(scoreTest,clf1.score(XTest,yTest))

# Mostramos las medias de los scores obtenidos en las 100 iteraciones tanto para el test como para el train
print('Resultados del modelo de LogisticRegression')
print('Score train:',scoreTrain.mean())
print('Score test:',scoreTest.mean())

labels=['Fallecerá','No fallecerá']
cr = classification_report(yTest,clf1.predict(XTest),target_names=labels)
print('\n',cr)

Resultados del modelo de LogisticRegression
Score train: 0.8399664429530201
Score test: 0.8399716704327005

               precision    recall  f1-score   support

   Fallecerá       0.85      0.92      0.89       101
No fallecerá       0.80      0.67      0.73        48

    accuracy                           0.84       149
   macro avg       0.83      0.79      0.81       149
weighted avg       0.84      0.84      0.83       149



In [54]:
# Creamos el modelo de clasificacion, en este caso usaremos el de LinearDiscriminantAnalysis
clf2 =  LinearDiscriminantAnalysis()

# Crear dos lista numpy vacias
scoreTrain=np.array([])
scoreTest=np.array([])

# Creamos un bucle de 100 iteraciones
for i in range(0,100):

    # En cada iteracion hacemos una division de los datos y entrenamos el modelos con esos valores
    # Stratify es muy importante porque hace que se cojan los datos en la proporcion que le pasemos en el train size
    XTrain, XTest, yTrain, yTest = train_test_split(X,y,train_size=0.5,stratify=y)
    clf2.fit(XTrain,yTrain)

    # Agregamos el score del train y test a sus respectivas listas
    scoreTest = np.append(scoreTrain,clf2.score(XTrain,yTrain))
    scoreTrain = np.append(scoreTest,clf2.score(XTest,yTest))

# Mostramos las medias de los scores obtenidos en las 100 iteraciones tanto para el test como para el train
print('Resultados del modelo de LinearDiscriminantAnalysis')
print('Score train:',scoreTrain.mean())
print('Score test:',scoreTest.mean())

labels=['Fallecerá','No fallecerá']
cr = classification_report(yTest,clf2.predict(XTest),target_names=labels)
print('\n',cr)

Resultados del modelo de LinearDiscriminantAnalysis
Score train: 0.8640939597315438
Score test: 0.8641529796634178

               precision    recall  f1-score   support

   Fallecerá       0.85      0.95      0.90       101
No fallecerá       0.86      0.65      0.74        48

    accuracy                           0.85       149
   macro avg       0.86      0.80      0.82       149
weighted avg       0.85      0.85      0.85       149



In [55]:
# Creamos el modelo de clasificacion, en este caso usaremos el de QuadraticDiscriminantAnalysis
clf3 = QuadraticDiscriminantAnalysis()

# Crear dos lista numpy vacias
scoreTrain=np.array([])
scoreTest=np.array([])

# Creamos un bucle de 100 iteraciones
for i in range(0,100):

    # En cada iteracion hacemos una division de los datos y entrenamos el modelos con esos valores
    # Stratify es muy importante porque hace que se cojan los datos en la proporcion que le pasemos en el train size
    XTrain, XTest, yTrain, yTest = train_test_split(X,y,train_size=0.5,stratify=y)
    clf3.fit(XTrain,yTrain)

    # Agregamos el score del train y test a sus respectivas listas
    scoreTest = np.append(scoreTrain,clf3.score(XTrain,yTrain))
    scoreTrain = np.append(scoreTest,clf3.score(XTest,yTest))

# Mostramos las medias de los scores obtenidos en las 100 iteraciones tanto para el test como para el train
print('Resultados del modelo de QuadraticDiscriminantAnalysis')
print('Score train:',scoreTrain.mean())
print('Score test:',scoreTest.mean())

labels=['Fallecerá','No fallecerá']
cr = classification_report(yTest,clf3.predict(XTest),target_names=labels)
print('\n',cr)

Resultados del modelo de QuadraticDiscriminantAnalysis
Score train: 0.8408389261744966
Score test: 0.8410171663687566

               precision    recall  f1-score   support

   Fallecerá       0.80      0.96      0.87       101
No fallecerá       0.85      0.48      0.61        48

    accuracy                           0.81       149
   macro avg       0.82      0.72      0.74       149
weighted avg       0.81      0.81      0.79       149



In [56]:
#Elegimos los parametros que queremos optimizar y sus posibles valores
hiper={
    'gamma':np.arange(1,11),
    'C':np.arange(1,11),
    'degree':[2,3,4,5]
}

#Elegimos que tipo de modelo vamos a entrenar
clf3 = SVC()

#Le pasamos al GridSearchCV el modelo, los hiperparametros y el cross validate
gscv = GridSearchCV(clf3, hiper,cv=3)

#Entrenamos el modelo
gscv.fit(X,y)

# Obtenemos los mejores parametros
gscv.best_params_

{'C': 1, 'degree': 2, 'gamma': 1}

In [57]:
# En este caso no lo he hecho con un bucle porque puede tardar bastante

#Creamos el modelo de clasificacion SVC con los hiperparametros optimos calculados por el GridSearchCV
clf4 = SVC(C=gscv.best_params_['C'],degree=gscv.best_params_['degree'], kernel='linear', gamma=gscv.best_params_['gamma'])

XTrain, XTest, yTrain, yTest = train_test_split(X,y,test_size=0.3)
clf4.fit(XTrain,yTrain)

# Mostramos las medias de los scores obtenidos tanto para el test como para el train
print('Resultados del modelo de SVC con los hiperparametros optimos calculados por el GridSearchCV')
print('Score train:',clf4.score(XTrain,yTrain))
print('Score test:',clf4.score(XTest,yTest))

labels=['Fallecerá','No fallecerá']
cr = classification_report(yTest,clf4.predict(XTest),target_names=labels)
print('\n',cr)

Resultados del modelo de SVC con los hiperparametros optimos calculados por el GridSearchCV
Score train: 0.8365384615384616
Score test: 0.8222222222222222

               precision    recall  f1-score   support

   Fallecerá       0.80      0.97      0.88        59
No fallecerá       0.89      0.55      0.68        31

    accuracy                           0.82        90
   macro avg       0.85      0.76      0.78        90
weighted avg       0.83      0.82      0.81        90



In [58]:
#Elegimos los parametros que queremos optimizar y sus posibles valores
hiper={
    'criterion':['gini','entropy','log_loss'],
    'max_depth':[None,2,5,10],
    'min_samples_split':[2,5,8,10],
    'min_samples_leaf':[1,2,5,8,10]
}

#Elegimos que tipo de modelo vamos a entrenar
clf5 = DecisionTreeClassifier()

#Le pasamos al GridSearchCV el modelo, los hiperparametros y el cross validate
gscv = GridSearchCV(clf5, hiper,cv=3)

#Entrenamos el modelo
gscv.fit(X,y)

# Obtenemos los mejores parametros
gscv.best_params_

{'criterion': 'gini',
 'max_depth': None,
 'min_samples_leaf': 8,
 'min_samples_split': 2}

In [59]:
#Creamos el modelo de clasificacion DecisionTreeClassifier con los hiperparametros optimos calculados por el GridSearchCV
clf5 = DecisionTreeClassifier(criterion=gscv.best_params_['criterion'],max_depth=gscv.best_params_['max_depth'],min_samples_split=gscv.best_params_['min_samples_split'],min_samples_leaf=gscv.best_params_['min_samples_leaf'],class_weight=None)

# Crear dos lista numpy vacias
scoreTrain=np.array([])
scoreTest=np.array([])

# Creamos un bucle de 100 iteraciones
for i in range(0,100):

    # En cada iteracion hacemos una division de los datos y entrenamos el modelos con esos valores
    XTrain, XTest, yTrain, yTest = train_test_split(X,y,test_size=0.3)
    clf5.fit(XTrain,yTrain)

    # Agregamos el score del train y test a sus respectivas listas
    scoreTrain = np.append(scoreTrain,clf5.score(XTrain,yTrain))
    scoreTest = np.append(scoreTest,clf5.score(XTest,yTest))

print('Resultados del modelo de DecisionTreeClassifier con los hiperparametros optimos calculados por el GridSearchCV')
print('Score train:',scoreTrain.mean())
print('Score test:',scoreTest.mean())

labels=['Fallecerá','No fallecerá']
cr = classification_report(yTest,clf5.predict(XTest),target_names=labels)
print('\n',cr)

Resultados del modelo de DecisionTreeClassifier con los hiperparametros optimos calculados por el GridSearchCV
Score train: 0.913173076923077
Score test: 0.8562222222222223

               precision    recall  f1-score   support

   Fallecerá       0.86      0.88      0.87        68
No fallecerá       0.60      0.55      0.57        22

    accuracy                           0.80        90
   macro avg       0.73      0.71      0.72        90
weighted avg       0.79      0.80      0.80        90

