### Evidencia 2 - Punto 2

In [1]:
import numpy as np
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn import metrics

In [2]:
def EvaluacionModelo(y_test, y_pred):
    pre_s = metrics.precision_score(y_test, y_pred, average='micro')
    rec_s = metrics.recall_score(y_test, y_pred, average='micro')
    f1_s = metrics.f1_score(y_test, y_pred, average='micro')
    accu_s = metrics.accuracy_score(y_test, y_pred)
    return (pre_s, rec_s, f1_s, accu_s)

In [3]:
# crea dataset sintetico, 500,000 rows y 3 clases
x, y = datasets.make_blobs(n_samples=500000, centers=3, n_features=3, random_state=0)
x.shape

(500000, 3)

In [4]:
# division del dataset
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

#### Clasificacion usando un arbol de decision

In [5]:
# instancia del modelo de Arbol de Clasificacion
arbol_decision = DecisionTreeClassifier(criterion='entropy', random_state=0)

In [6]:
# entrenamiento del modelo
modelo_entrenado = arbol_decision.fit(x_train, y_train)

In [7]:
# prediccion del tipo de nivel de glucosa usando los datos de prueba
y_pred = modelo_entrenado.predict(x_test)

#### Evaluacion del Modelo

In [8]:
# uso de la matriz de confusion para evaluacion del modelo
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[33355,    88,     0],
       [   81, 33201,     0],
       [    4,     0, 33271]], dtype=int64)

In [9]:
precision, recall, f1, accuracy = EvaluacionModelo(y_test, y_pred)
print(f"Precision: {precision}, Recall: {recall}, F1: {f1}, Accuracy: {accuracy}")

Precision: 0.99827, Recall: 0.99827, F1: 0.99827, Accuracy: 0.99827


#### Clasificacion usando SVM

In [10]:
# instancia del modelo svc
svm_classifier = SVC(kernel="rbf", random_state = 0)

In [11]:
# entrenamiento del modelo
svm_classifier.fit(x_train, y_train)

SVC(random_state=0)

In [12]:
# prediccion
y_pred = svm_classifier.predict(x_test)

#### Evaluacion del Modelo

In [13]:
# uso de la matriz de confusion para evaluacion del modelo
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[33389,    54,     0],
       [   53, 33229,     0],
       [    2,     0, 33273]], dtype=int64)

In [14]:
precision, recall, f1, accuracy = EvaluacionModelo(y_test, y_pred)
print(f"Precision: {precision}, Recall: {recall}, F1: {f1}, Accuracy: {accuracy}")

Precision: 0.99891, Recall: 0.99891, F1: 0.99891, Accuracy: 0.99891


#### Conclusion 
Ambos algoritmos dieron muy buenos resultados. El modelo de SVM se ha equivocado menos al momento de hacer predicciones que el modelo de árbol de decisión, pero se puede notar que al correr el algoritmo SVM tarda significativamente más tiempo en entrenar y hacer predicciones que el algoritmo de árbol de decisión.
El modelo de árbol de decisión aplicado a un dataset con menos datos resulto en un accuracy 1.0 lo cual puede indicar que el modelo esta sobre ajustado, pero al momento de aplicarlo a un dataset con un aumento de la cantidad de datos, el modelo se comporta muy de manera aceptable y dando muy buenos resultados. 
