## Ejercicio final del curso Aprendizaje de Máquina Supervisado

### Instrucciones
Dataset: Wine dataset

Enunciado: Crear un modelo supervisado para pronosticar a qué clase pertenece un vino

Se solicita:

1. La implementación del modelo predictivo (ud. lo selecciona) en Python
2. Una métrica de evaluación del modelo como por ejemplo validación cruzada

### Pre-procesado de la data

In [1]:
# importar dataset
from sklearn.datasets import load_wine
# importar librerias de uso comun
import pandas as pd
import numpy as np

In [2]:
# cargar array de datos del dataset y guardarlos en una variable
datos_vinos = load_wine()
# descripcion del dataset y principales caracteristicas
print(datos_vinos['DESCR'])

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [3]:
# creacion de un pandas dataframe 
df_wine = pd.DataFrame(datos_vinos.data)
df_wine.columns = ['alcohol', 
                   'malic_acid', 
                   'ash', 
                   'ashalcalinity', 
                   'magnesium', 
                   'total_phenols', 
                   'flavanoids', 
                   'non_flavanoid_phenols', 
                   'proanthocyanins', 
                   'color_intensity', 
                   'hue', 
                   'od280_od315', 
                   'proline']
df_wine['objetivo'] = datos_vinos.target
df_wine.head()

Unnamed: 0,alcohol,malic_acid,ash,ashalcalinity,magnesium,total_phenols,flavanoids,non_flavanoid_phenols,proanthocyanins,color_intensity,hue,od280_od315,proline,objetivo
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


### Definición de variables dependientes, independiente y división de conjuntos de entrenamiento y prueba

In [4]:
# variable dependiente
y = df_wine['objetivo']
y.shape

(178,)

In [5]:
# variable independiente
X = df_wine.drop('objetivo', axis=1)
X.shape

(178, 13)

In [6]:
# particion en conjuntos de entrenamiento y de prueba
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print(X_train.shape)
print(X_test.shape)

(124, 13)
(54, 13)


### Importación de librerías de los modelos de clasificación

In [7]:
# importar libreria para validacion cruzada
from sklearn.model_selection import cross_val_score

# importar librerias de los distintos modelos de clasificacion
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier

modelos = []

# establecer parametros necesarios para correr cada modelo
modelos.append(("Logistic Regression:",LogisticRegression()))
modelos.append(("Naive Bayes:",GaussianNB()))
modelos.append(("K-Nearest Neighbour:",KNeighborsClassifier(n_neighbors=3)))
modelos.append(("Decision Tree:",DecisionTreeClassifier()))
modelos.append(("Support Vector Machine-linear:",SVC(kernel="linear")))
modelos.append(("Support Vector Machine-rbf:",SVC(kernel="rbf")))
modelos.append(("Random Forest:",RandomForestClassifier(n_estimators=7)))
modelos.append(("eXtreme Gradient Boost:",XGBClassifier(verbosity = 0)))
modelos.append(("AdaBoostClassifier:",AdaBoostClassifier()))
modelos.append(("GradientBoostingClassifier:",GradientBoostingClassifier()))


In [8]:
# importar libreria para ignorar advertencias de codigos 'deprecated'
import warnings
warnings.filterwarnings('ignore')

### Evaluación a priori de cada modelo de clasificación

In [9]:
# implementacion de una validacion cruzada para todos los metodos de clasificacion
# el 'scoring' elegido es la medida de 'accuracy' o exactitud. 
# no se usa el f1 score, ya que segun documentacion, este aplica para variables objetivo binarias
# para mas info ver https://scikit-learn.org/stable/modules/model_evaluation.html
resultados = []
nombres = []
for nombre, modelo in modelos:
    cv_resultado = cross_val_score(modelo, 
                                X_train, 
                                y_train, 
                                cv = 10, 
                                scoring = "accuracy")
    nombres.append(nombre)
    resultados.append(cv_resultado)
for i in range(len(nombres)):
    print(nombres[i],round(resultados[i].mean()*100,2))

Logistic Regression: 92.82
Naive Bayes: 95.96
K-Nearest Neighbour: 67.05
Decision Tree: 93.72
Support Vector Machine-linear: 93.46
Support Vector Machine-rbf: 64.74
Random Forest: 95.9
eXtreme Gradient Boost: 94.36
AdaBoostClassifier: 89.62
GradientBoostingClassifier: 92.05


## Evaluación de modelos de clasificación

Seleccionamos los cuatro modelos con mejor performance a priori en el `accuracy scoring`:
- Naive Bayes
- Support Vector Machine (Lineal)
- Random Forest
- Extreme Gradient Boost

In [10]:
# importamos librerias para cuantificacion de metricas
from sklearn.metrics import confusion_matrix, accuracy_score

### Evaluación modelo Naive Bayes

In [11]:
# Gaussian Naive Bayes
nb = GaussianNB()
nb.fit(X_train, y_train)
nb_pred = nb.predict(X_test)

In [12]:
# Matriz de confusin y 'accuracy score'
nb_conf_matrix = confusion_matrix(y_test, nb_pred)
nb_accuracy = accuracy_score(y_test, nb_pred)
print(nb_conf_matrix)
print(nb_accuracy*100)

# Segun los resultados obtenidos, hay un 100% de acierto en las predicciones.

[[19  0  0]
 [ 0 21  0]
 [ 0  0 14]]
100.0


### Evaluación modelo  Support Vector Machine (Lineal)

In [13]:
# Support Vector Machine (Lineal)
lin_svc = SVC(kernel='linear')
lin_svc.fit(X_train, y_train)
lin_svc_pred = lin_svc.predict(X_test)

In [14]:
# Matriz de confusin y 'accuracy score'
lin_svc_conf_matrix = confusion_matrix(y_test, lin_svc_pred)
lin_svc_accuracy = accuracy_score(y_test, lin_svc_pred)
print(lin_svc_conf_matrix)
print(lin_svc_accuracy*100)

[[19  0  0]
 [ 0 20  1]
 [ 0  0 14]]
98.14814814814815


### Evaluación modelo Random Forest

In [15]:
# Random Forest
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)

In [16]:
# Matriz de confusin y 'accuracy score'
rf_conf_matrix = confusion_matrix(y_test, rf_pred)
rf_accuracy = accuracy_score(y_test, rf_pred)
print(rf_conf_matrix)
print(rf_accuracy*100)

[[19  0  0]
 [ 0 21  0]
 [ 0  0 14]]
100.0


### Evaluación modelo Extreme Gradient Boost

In [17]:
# Extreme Gradient Boost
xgb = XGBClassifier(learning_rate = 0.1, n_estimators = 100)
xgb.fit(X_train, y_train)
xgb_pred = xgb.predict(X_test)

In [18]:
# Matriz de confusin y 'accuracy score' 
xgb_conf_matrix = confusion_matrix(y_test, xgb_pred)
xgb_accuracy = accuracy_score(y_test, xgb_pred)
print(rf_conf_matrix)
print(rf_accuracy*100)

[[19  0  0]
 [ 0 21  0]
 [ 0  0 14]]
100.0


## Conclusiones

### Principales hallazgos
- Los modelos evaluados en el punto 2 con el mejor desempeño fueron: Gaussian Naive Bayes, Random Forest y Extreme Gradient Boost, con una exactitud de un 100% en las predicciones.
- Dentro de mi poca experiencia, encuentro extraño tener un 100% de éxitos al evaluar un modelo, porque en la realidad esto nunca suele pasar. Puede que haya omitido algún dato importante, pero hasta el momento no me he percatado de ello (en caso de haber un error, agradecería se me indicara en qué he fallado).
- Hubo dos modelos que no alcanzamos a ver ejemplos (Random Forest y Extreme Gradient Boost), así que tuve que evaluarlos en funcion de datasets encontrados en Kaggle.

### Bibliografía
- [Implementación de algoritmo de evaluacion a priori de modelos con 'cross validation'](https://www.kaggle.com/abhikaggle8/wine-classification)
- [Elección de método de 'scoring' para 'cross validation'](https://scikit-learn.org/stable/modules/model_evaluation.html)
- [Implementación matriz de confusión](https://www.kaggle.com/vishalyo990/prediction-of-quality-of-wine)
- [Implementación Naive Bayes, Random Forest, Support Vector Machine](https://www.kaggle.com/madhurisivalenka/basic-machine-learning-with-red-wine-quality-data)
- [Implementación XGBClassifier](https://www.kaggle.com/niteshyadav3103/red-wine-quality-classification)