<a href="https://colab.research.google.com/github/facuhrodriguez/Inteligencia-Artificial/blob/master/Facundo_Rodriguez_TP_Clasificaci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Trabajo Práctico - Técnicas de Clasificación**
***Rodríguez, Facundo Hernán***

# Análisis del Dataset elegido - Arrhythmia

El dataset elegido (https://www.openml.org/d/5) corresponde a diversos electrocardiogramas realizados a un conjunto de pacientes con características diferentes. El dataset contiene 279 atributos, de los cuales 206 son valores lineales y los restantes 73 son nominales.

Los primeros 4 atributos del dataset pertenecen a datos del paciente (edad, sexo, altura y peso), mientras que los restantes son datos propios del electrocardiograma (intervalo Q-T, ritmo cardíaco, etc.). 


# Objetivo

El objetivo de aplicar Técnicas de Clasificación en este dataset es distinguir entre la presencia y ausencia de arritmia cardíaca y clasificarla en una de las 16 clases posibles. 

Clases posibles: 


1. *ECG Normal (Sin arritmia)*
2. *Cambios isquémicos (Enfermedad de la arteria coronaria)*
3. *Infarto de miocardio previo anterior.*
4. *Infarto de miocardio inferior previo.*
5. *Taquicardia Sinusal*
6. *Bradicardia Sinusal*
7. *Contracción prematura ventricular (PVC)*
8. *Contracción prematura supraventricular*
9. *Bloque de rama izquierda*
10. *Bloque de rama derecha*
11. *Bloque auriculoventricular de primer grado.*
12. *Bloqueo auriculoventricular de segundo grado.*
13. *Bloqueo auriculoventricular de tercer grado.*
14. *Hipertrofia del ventrículo izquierdo*
15. *Fibrilación o aleteo auricular*
16. *Otras.*




# Preprocesamiento de los datos


Como primer paso importamos el dataset seleccionado.

In [None]:
# soporte para cargar dataset de https://www.openml.org/
!pip install openml
import openml

Collecting openml
[?25l  Downloading https://files.pythonhosted.org/packages/68/5b/cd32bb85651eccebfb489cc6ef7f060ce0f62350a6239127e398313090cc/openml-0.10.2.tar.gz (158kB)
[K     |██                              | 10kB 17.6MB/s eta 0:00:01[K     |████▏                           | 20kB 1.7MB/s eta 0:00:01[K     |██████▏                         | 30kB 2.0MB/s eta 0:00:01[K     |████████▎                       | 40kB 2.3MB/s eta 0:00:01[K     |██████████▎                     | 51kB 1.9MB/s eta 0:00:01[K     |████████████▍                   | 61kB 2.2MB/s eta 0:00:01[K     |██████████████▍                 | 71kB 2.4MB/s eta 0:00:01[K     |████████████████▌               | 81kB 2.6MB/s eta 0:00:01[K     |██████████████████▌             | 92kB 2.8MB/s eta 0:00:01[K     |████████████████████▋           | 102kB 2.7MB/s eta 0:00:01[K     |██████████████████████▊         | 112kB 2.7MB/s eta 0:00:01[K     |████████████████████████▊       | 122kB 2.7MB/s eta 0:00:01[K  

Accedemos al dataset

In [None]:
import pandas as pd

# se debe indicar aquí cual es el dataset que han elegido de OPENML
dataset = openml.datasets.get_dataset(5)

# separamos las información almacenada en el dataset
X, y, categorical_indicator, attribute_names = dataset.get_data(
    dataset_format='dataframe',
    target=dataset.default_target_attribute
)

print("Dataset \n \n")
print(X.to_string())


print("\n \n Clases asociadas a cada una de las instancias \n \n")
print(y.to_string())

Dataset 
 

      age sex  height  weight  QRSduration  PRinterval  Q-Tinterval  Tinterval  Pinterval    QRS      T      P   QRST      J  heartrate  chDI_Qwave  chDI_Rwave  chDI_Swave  chDI_RPwave  chDI_SPwave  chDI_intrinsicReflecttions chDI_RRwaveExists chDI_DD_RRwaveExists chDI_RPwaveExists chDI_DD_RPwaveExists chDI_RTwaveExists chDI_DD_RTwaveExists  chDII_Qwave  chDII_Rwave  chDII_Swave  chDII_RPwave  chDII_SPwave  chDII_intrinsicReflecttions chDII_RRwaveExists chDII_DD_RRwaveExists chDII_RPwaveExists chDII_DD_RPwaveExists chDII_RTwaveExists chDII_DD_RTwaveExists  chDIII_Qwave  chDIII_Rwave  chDIII_Swave  chDIII_RPwave  chDIII_SPwave  chDIII_intrinsicReflecttions chDIII_RRwaveExists chDIII_DD_RRwaveExists chDIII_RPwaveExists chDIII_DD_RPwaveExists chDIII_RTwaveExists chDIII_DD_RTwaveExists  chAVR_Qwave  chAVR_Rwave  chAVR_Swave  chAVR_RPwave  chAVR_SPwave  chAVR_intrinsicReflecttions chAVR_RRwaveExists chAVR_DD_RRwaveExists chAVR_RPwaveExists chAVR_DD_RPwaveExists chAVR_RTwaveExist

Analizando el dataset elegido, se observan atributos que no tienen definidos valores (por ejemplo el atributo J), por lo que se debe completar la información faltante para poder aplicar las técnicas de clasificación correspondientes.


Para poder resolver dicho problema, utilizamos el módulo SimpleImputer que provee la librería ScikitLearn de python.

Como todos los valores de los atributos son numéricos, utilizamos la estrategia de la media. De esta manera, los valores faltantes se van a completar según la media total de todos los valores conocidos.


Por otro lado, como se describió en la sección "*Análisis del dataset elegido*", el dataset contiene 73 atributos nominales, por lo que tendremos que convertirlo a un formato *One Hot Encoder*. 

Para conocer cuáles son las columnas cuyos datos son categóricos utilizamos la función *dtypes* del dataset completo.



In [None]:
cont = 0
for i in X.dtypes:
  print(i, cont)
  cont=cont+1

float64 0
category 1
float64 2
float64 3
float64 4
float64 5
float64 6
float64 7
float64 8
float64 9
float64 10
float64 11
float64 12
float64 13
float64 14
float64 15
float64 16
float64 17
float64 18
float64 19
float64 20
category 21
category 22
category 23
category 24
category 25
category 26
float64 27
float64 28
float64 29
float64 30
float64 31
float64 32
category 33
category 34
category 35
category 36
category 37
category 38
float64 39
float64 40
float64 41
float64 42
float64 43
float64 44
category 45
category 46
category 47
category 48
category 49
category 50
float64 51
float64 52
float64 53
float64 54
float64 55
float64 56
category 57
category 58
category 59
category 60
category 61
category 62
float64 63
float64 64
float64 65
float64 66
float64 67
float64 68
category 69
category 70
category 71
category 72
category 73
category 74
float64 75
float64 76
float64 77
float64 78
float64 79
float64 80
category 81
category 82
category 83
category 84
category 85
category 86
float64 87
float

Como se puede obsrvar, los 73 datos categóricos son las siguientes columnas: 

1, [21 a 26], [33 a 38], [45 a 50], [57 a 62], [69 a 74], [81 a 86], [93 a 98], [105 a 110], [117 a 122], [129 a 134], [141 a 146] y [153 a 158].

El siguiente arreglo contiene las columnas recién mencionadas, a las cuáles se les aplicará un preprocesamiento particular.

In [None]:
columnas_categoricas = [1, 21, 22, 23, 24, 25, 26, 33, 34, 35, 36, 37, 38, 45, 46, 
                     47, 48, 49, 50, 57, 58, 59, 60, 61, 62, 69, 70, 71, 72, 73,
                     74, 81, 82, 83, 84, 85, 86, 93, 94, 95, 96, 97, 98, 105,
                     106, 107, 108, 109, 110, 117, 118, 119, 120, 121, 122, 
                     129, 130, 131, 132, 133, 134, 141, 142, 143, 144, 145, 146,
                     153, 154, 155, 156, 157, 158]

Para aplicar las dos transformaciones al dataset (SimpleImputer y OneHotEncoder), utilizamos la función *ColumnTransformer* del módulo *Compose* de la librería *sklearn*. 

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
import numpy as np

transformer = [ ('datos_categoricos', OneHotEncoder(), columnas_categoricas),
                ('datos_faltantes', SimpleImputer(missing_values=np.nan, strategy='mean'), slice(0, 278) )]

transformer = ColumnTransformer(transformers= transformer)
datos_preprocesados = transformer.fit_transform(X)
print(datos_preprocesados)


[[  1.    0.    1.  ...   0.9   2.9  23.3]
 [  0.    1.    1.  ...   0.2   2.1  20.4]
 [  1.    0.    1.  ...   0.3   3.4  12.3]
 ...
 [  1.    0.    1.  ...   1.5   1.  -44.2]
 [  0.    1.    1.  ...   0.5   2.4  25. ]
 [  0.    1.    1.  ...   0.5   1.6  21.3]]


# Técnicas de clasificación


Para el dataset seleccionado, se utilizarán las técnicas de Árbol de decisión y Clasificador Bayesiano.



## Configuración de los clasificadores

### Árbol de Decisión

Para construir el árbol de decisión, se consideraron distintas alternativas de parámetros que ofrece la clase *DecisionTreeClassifier* de la biblioteca *sklearn*. 

Se utiliza el criterio "*entropy*" para indicar que el criterio de selección de atributos para clasificar será mediante ***ganancia de información***. De esta manera, se particiona solamente mediante el atributo que posee mayor ganancia de información, es decir el atributo que posee el menor valor de entropía ponderada. 
Mediante esta configuración del clasificador, se logra minimizar el número esperado de tests que se necesitan para clasificar un objeto (ya que siempre particiona por los mejores atributos), y garantiza la construcción de un árbol simple. 


## Clasificador Bayesiano (Naïve Bayes)

Para el clasificador Bayesiano, se consideraron distintos métodos dentro de la técnica de Naive Bayes. 

Sklearn (https://scikit-learn.org/stable/modules/naive_bayes.html) nos ofrece cinco posibles alternativas de clasificación bayesiana. Estas son:



1. *Gaussian Naive Bayes*: Asume que la valores de los datos continuos, siguen una distribución Gaussiana (o normal). Es por ello, que lo convierte en el más adecuado para trabajar con datos continuos. 
2.  *Multinomial Naive Bayes*: Implementa el algoritmo de Naive Bayes para datos distribuidos multinomialmente, es decir para características discretas. Es conmúnmente usado para clasificación de texto.
3. *Complement Naive Bayes*: Esta técnica es una adaptación del *Multinomial Naive Bayes*. Es particularmente adecuado para datos desbalanceados.
4. *Bernoulli Naive Bayes*: Útil para datos que se distribuyen de acuerdo a distribuciones multivariadas de Bernoulli. Es decir puede haber múltiples características, pero cada una es asumida como un valor binario.
5. *Categorical Naive Bayes*: Técnica utilizada con datos dsitribuidos categóricamente, es decir características discretas.

Analizando las distintas técnicas, la que más útil será en este dominio del problema es *Gaussian Naive Bayes*, ya que contamos con datos continuos.







# Evaluación de los clasificadores


Para evaluar los clasificadores, se utilizará la técnica de *K-Fold Cross Validation*, dado que tiene la ventaja de que todos las instancias se usan en algún momento para entrenamiento y para prueba, en contrapartida con la técnica de *Hold-out* que utiliza un particionamiento estático, donde un porcentaje del conjunto de los datos de entrada son entrenados y el restante se utiliza para testing.





## Arbol de Decisión - DecisionTreeClassifier

Configuramos el clasificador según la sección Configuración del clasificador.

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier

tree_clf = DecisionTreeClassifier(criterion='entropy')


Para evaluar en profundidad el clasificador, utilizamos distintas métricas como *precision*, *recall* y *f-Measure*. Todas estas métricas se utilizan con un promedio *micro*, es decir basados en todos los positivos verdaderos, falsos negativos y falsos positivos.

1.   *precision* mide el total de predicciones positivas, cuántas fueron correctas
2.   *recall* indica el total de ejemplos positivos, es decir, cuantos fueron correctamente clasificados.
3.   *f-Measure o f1-score* combina precisión y recall en una sola métrica. Cuánto mayor sea el valor de ellas, mayor será el valor del *f1-score*.




In [None]:
from sklearn.model_selection import cross_validate
scoring = ['accuracy', 'precision_micro', 'recall_micro', 'f1_micro']
scores = cross_validate(tree_clf, datos_preprocesados, y, scoring = scoring, cv=10)
print(" \n Accuracy ")
print(scores['test_accuracy'])
print("\n Accurracy promedio %0.2f (+/- %0.2f)" % (scores['test_accuracy'].mean(), scores['test_accuracy'].std()))
print( " \n Precision Micro")
print(scores['test_precision_micro'])
print("\n Recall micro")
print(scores['test_recall_micro'])
print(" \n F1 Meassure micro")
print(scores['test_f1_micro'])



 
 Accuracy 
[0.60869565 0.73913043 0.62222222 0.68888889 0.64444444 0.57777778
 0.62222222 0.62222222 0.71111111 0.62222222]

 Accurracy promedio 0.65 (+/- 0.05)
 
 Precision Micro
[0.60869565 0.73913043 0.62222222 0.68888889 0.64444444 0.57777778
 0.62222222 0.62222222 0.71111111 0.62222222]

 Recall micro
[0.60869565 0.73913043 0.62222222 0.68888889 0.64444444 0.57777778
 0.62222222 0.62222222 0.71111111 0.62222222]
 
 F1 Meassure micro
[0.60869565 0.73913043 0.62222222 0.68888889 0.64444444 0.57777778
 0.62222222 0.62222222 0.71111111 0.62222222]


Para tener un reporte general y por clase, utilizamos *cross_validation*. En ella se puede ver las métricas de precision, recall y f1-score para cada una de las clases del conjunto **y**, así como también el accuracy general.

In [None]:
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report
clases_predichas = cross_val_predict(tree_clf, datos_preprocesados, y, cv=10)
print(classification_report(y , clases_predichas ))



              precision    recall  f1-score   support

           1       0.79      0.81      0.80       245
          10       0.54      0.60      0.57        50
          14       0.00      0.00      0.00         4
          15       0.00      0.00      0.00         5
          16       0.05      0.05      0.05        22
           2       0.46      0.39      0.42        44
           3       0.65      0.73      0.69        15
           4       0.44      0.53      0.48        15
           5       0.56      0.38      0.45        13
           6       0.70      0.64      0.67        25
           7       0.00      0.00      0.00         3
           8       0.00      0.00      0.00         2
           9       1.00      0.78      0.88         9

    accuracy                           0.65       452
   macro avg       0.40      0.38      0.38       452
weighted avg       0.64      0.65      0.64       452



## Naïve Bayes

Configuramos el clasificador según la sección *Configuración del clasificador*. 

In [None]:
from sklearn.naive_bayes import GaussianNB
naive_classifier = GaussianNB()


Para evaluar en profundidad el clasificador, utilizamos distintas métricas como *precision*, *recall* y *f-Measure*. Todas estas métricas se utilizan con un promedio *micro*, es decir basados en todos los positivos verdaderos, falsos negativos y falsos positivos.

1.   *precision* mide el total de predicciones positivas, cuántas fueron correctas
2.   *recall* indica el total de ejemplos positivos, es decir, cuantos fueron correctamente clasificados.
3.   *f-Measure o f1-score* combina precisión y recall en una sola métrica. Cuánto mayor sea el valor de ellas, mayor será el valor del *f1-score*.


In [None]:
from sklearn.model_selection import cross_validate
scoring = ['accuracy', 'precision_micro', 'recall_micro', 'f1_micro']
scores_nc = cross_validate(naive_classifier, datos_preprocesados, y, scoring = scoring, cv=10)
print(" \n Accuracy ")
print(scores_nc['test_accuracy'])
print("\n Accurracy promedio %0.2f (+/- %0.2f)" % (scores_nc['test_accuracy'].mean(), scores_nc['test_accuracy'].std()))
print( " \n Precision Micro")
print(scores_nc['test_precision_micro'])
print("\n Recall micro")
print(scores_nc['test_recall_micro'])
print(" \n F1 Meassure micro")
print(scores_nc['test_f1_micro'])

 
 Accuracy 
[0.10869565 0.10869565 0.13333333 0.26666667 0.13333333 0.11111111
 0.22222222 0.11111111 0.13333333 0.08888889]

 Accurracy promedio 0.14 (+/- 0.05)
 
 Precision Micro
[0.10869565 0.10869565 0.13333333 0.26666667 0.13333333 0.11111111
 0.22222222 0.11111111 0.13333333 0.08888889]

 Recall micro
[0.10869565 0.10869565 0.13333333 0.26666667 0.13333333 0.11111111
 0.22222222 0.11111111 0.13333333 0.08888889]
 
 F1 Meassure micro
[0.10869565 0.10869565 0.13333333 0.26666667 0.13333333 0.11111111
 0.22222222 0.11111111 0.13333333 0.08888889]




Para tener un reporte general y por clase, utilizamos cross_validation. En ella se puede ver las métricas de precision, recall y f1-score para cada una de las clases del conjunto y, así como también el accuracy general.

In [None]:
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report
clases_predichas = cross_val_predict(naive_classifier, datos_preprocesados, y, cv=10)
print(classification_report(y , clases_predichas ))

              precision    recall  f1-score   support

           1       0.35      0.05      0.09       245
          10       0.34      0.22      0.27        50
          14       0.00      0.00      0.00         4
          15       0.00      0.00      0.00         5
          16       0.07      0.23      0.10        22
           2       0.12      0.07      0.09        44
           3       0.75      0.60      0.67        15
           4       0.11      0.53      0.19        15
           5       0.07      0.08      0.07        13
           6       0.07      0.44      0.12        25
           7       0.00      0.00      0.00         3
           8       0.00      0.00      0.00         2
           9       0.80      0.44      0.57         9

    accuracy                           0.14       452
   macro avg       0.21      0.20      0.17       452
weighted avg       0.29      0.14      0.14       452



  _warn_prf(average, modifier, msg_start, len(result))


## Conclusión 

Se observa claramente que el método de Árbol de Decisión es más eficiente que el clasificador bayesiano. 
Esto se visualiza en las distintas métricas analizadas, ya sea el accuracy general, el recall o el f1 score. En todas ellas, el clasificador de Árbol de Decisión supera ampliamente al clasificador Bayesiano. 

Esto puede ocurrir porque el clasificador de Naïve Bayes supone el principio de independencia entre las características. Es decir, asume que la presencia o ausencia de una característica particular no está relacionada con la presencia o ausencia de cualquier otra característica.

Por lo mencionado anteriormente, para este contexto particular, recomendaría la utilización de Arbol de Decisión.

# Uso futuro

El clasificador podrá usarse para poder predecir nuevos datos de un electrocardiograma y clasificarlos según los distintos tipos de arritmias existentes en el dataset original. 

Es decir, una vez entrenado el modelo de Árbol de Decisión, se podrá predecir cualquier conjunto de datos de entrada en algunas de los 16 tipos de arritmias existentes.

Por ejemplo:

In [None]:
tree_clf.fit(datos_preprocesados, y)
nuevo_ecg = [[25.0, 0.0, 161.0, 64.0, 103.0, 145.0, 371.0, 132.0, 102.0, 67.0,
             12.0, 58.0, 59.0, -109.0, 73.0, 2.0, 48.0, 52.0, 3.1, 4.0, 28.0,
             3.1, 1.4, 0.1, 1.3, 0.1, 4.1, 24.0, 68.0, 0.0, 1.0, 0.3, 48.0,
             1.2, 1.3, 0.2, 2.1, 0.4, 1.2, 0.0, 36.0, 60.0, 2.0, 0.2, 1.0,
             56.0, 1.1, 0.1, 2.3, 0.1, 0.2, 0.0, 0.0, 16.0, 68.0, 0.0, 0.0,
             8.0,  0.1, 0.2, 0.8, 0.9, 0.1, 0.9, 0.0, 44.0, 56.0, 1.0, 2.1,
             32.0, 1.3, 0.9, 0.8, 1.2, 0.6, 0.1, 28.0, 64.0, 0.0, 1.0, 3.0,
             52.0, 0.3, 0.4, 0.8, 0.9, 0.1, 0.3, 0.0, 32.0, 60.0, 0.0, 0.0,
             20.0, 0.1, 0.3, 0.5, 0.5, 0.2, 1.0, 0.1, 48.0, 52.0, 0.0, 0.0,
             28.0, 0.0, 0.1, 0.3, 0.4, 0.1, 0.4, 0.2, 52.0, 56.0, 0.1, 0.0,
             40.0, 0.1, 0.3, 0.4, 0.5, 0.3, 0.6, 12.0, 48.0, 44.0, 0.0, 0.0,
             40.0, 0.6, 0.7, 0.8, 0.9, 1.0, 1.1, 24.0, 56.0, 0.0, 1.3,  1.4,
             44.0, 1.5, 1.6, 1.7, 1.8, 1.9, 1.0, 24.0, 60.0, 0.0, 0.0, 0.0,
             48.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, -0.3, 0.0, 10.7, -1.2, 0.0,
             0.0, 0.5, 1.6, 22.5, 33.0, -1.0, -1.2, 16.9, 0.0, 0.0, 0.0, 0.5,
             1.6, 56.0, 63.3, -0.7, -1.6, 13.2, 0.0, 0.0, 0.0, 0.2, -1.3, 36.8,
             31.1, 0.6, 0.0, 0.5, -12.8, 0.0, 0.0, -0.6, -1.6, -43.1, -52.0,
             0.1, 0.0, 4.5, -6.5, 0.0, 0.0, -0.2, 1.1, -8.3, -0.6, -0.9, -1.2,
             14.3, 0.0, 0.0, 0.0, 0.7, 0.8, 44.1, 49.7, 1.3, 0.0, 3.2, -12.3, 
             0.0, 0.0, -0.3, -0.5, -31.8, -36.9, 1.3, 0.0, 8.5, -17.8, 0.0, 0.0,
             0.1, 4.1, -25.8, 16.0, 0.1, 0.0, 17.4, -13.1, 0.0, 0.0, 0.4, 3.4,
             8.6, 43.2, -0.7, -0.4, 18.2, -3.5, 0.0, 0.0, 0.3, 1.7, 35.7, 44.2,
             -1.1, -1.1, 15.8, 0.0, 0.0, 0.0, 0.3, 1.5, 42.9, 50.1, -0.9, -1.2,
             13.4, 0.0, 0.0, 0.0, 0.3, 1.4, 38.8, 45.5, 40.0, 0.6, 0.7, 0.8, 0.9, 
             1.0, 1.1, 24.0, 56.0, 0.0, 1.3,  1.4, 44.0, 1.5, 1.6, 1.7, 1.8, 1.9, 
             1.0, 24.0, 60.0, 0.0, 0.0, 0.0, 48.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 
             -0.3, 0.0, 10.7, -1.2, 0.0, 0.0, 0.5, 1.6, 22.5, 33.0, -1.0, -1.2, 
             16.9, 0.0, 0.0, 0.0, 0.5, 1.6, 56.0, 63.3, -0.7, -1.6, 13.2, 0.0, 
             0.0, 0.0, 0.2, -1.3, 36.8, 31.1, 0.6, 0.0, 0.5, -12.8, 0.0, 0.0, 
             -0.6, -1.6, -43.1, -52.0, 0.1, 0.0, 4.5, -6.5, 0.0, 0.0, -0.2, 1.1, 
             -8.3, -0.6, -0.9, -1.2, 14.3, 0.0, 0.0, 0.0, 0.7, 0.8, 44.1, 49.7, 
             1.3, 0.0, 3.2, -12.3, 0.0, 0.0, -0.3, -0.5, -31.8, -36.9, 1.3, 0.0, 
             8.5, -17.8, 0.0, 0.0, 0.1, 4.1, -25.8, 16.0, 0.1, 0.0, 17.4, -13.1, 
             0.0, 0.0, 0.4, 3.4, 8.6, 43.2, -0.7, -0.4, 18.2, -3.5, 0.0, 0.0, 
             0.3, 1.7, 35.7, 44.2, -1.1, -1.1, 15.8, 0.0]]

print("Clase predicha: ", tree_clf.predict(nuevo_ecg))

Clase predicha:  ['6']


Según los datos del nuevo electrocardiograma el clasificador predice que el paciente tiene una arritmia del tipo 6: *Bradicardia Sinusal*.

El clasificador permite entonces, automatizar el análisis de los ECG realizados a los pacientes a partir de un conjunto de datos de entrenamiento.

Esta automatización facilita ampliamente la clasificación, reduciendo posibles errores humanos, sobre todo en un conjunto grande de ECGs, donde el análisis visual es engorroso y prolongado.