# Actividad

En esta actividad vas a tener que usar SVM para poder hacer clasificación. En este problema vamos a usar el _dataset_ **Red Wine Quality**. Lo vamos a importar a continuación.

In [1]:
import pandas as pd

df = pd.read_csv('winequality-red.csv')
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [2]:
df.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0
mean,8.319637,0.527821,0.270976,2.538806,0.087467,15.874922,46.467792,0.996747,3.311113,0.658149,10.422983,5.636023
std,1.741096,0.17906,0.194801,1.409928,0.047065,10.460157,32.895324,0.001887,0.154386,0.169507,1.065668,0.807569
min,4.6,0.12,0.0,0.9,0.012,1.0,6.0,0.99007,2.74,0.33,8.4,3.0
25%,7.1,0.39,0.09,1.9,0.07,7.0,22.0,0.9956,3.21,0.55,9.5,5.0
50%,7.9,0.52,0.26,2.2,0.079,14.0,38.0,0.99675,3.31,0.62,10.2,6.0
75%,9.2,0.64,0.42,2.6,0.09,21.0,62.0,0.997835,3.4,0.73,11.1,6.0
max,15.9,1.58,1.0,15.5,0.611,72.0,289.0,1.00369,4.01,2.0,14.9,8.0


Como vemos, son 1600 registros de distintas muestras de vino, cada una con ciertas propiedades. La última columna del _dataset_ es la calidad del vino, que vemos que está entre 3 y 8. Lo que se pide en esta actividad es que utilizando la implementación de SVM de Scikit Learn hagas un modelo que prediga la calidad del vino. Ojo que esta es una tarea de clasificación, es decir, no se espera que la calidad de un número decimal, sino que tiene que caer dentro de las notas presentes en el _dataset_. Para esta tarea tienes que considerar que la distribución de las calificaciones **no es uniforme**, por lo mismo, tienes que prestar atención a que tu modelo sepa manejar las clases "más raras". Lo que se te pide en esta actividad en concreto es:

1. Tienes que separar el _dataset_ en set de entrenamiento (70%) y prueba (30%). Para esto las muestras deben ser _stratified_, esto es, la proporción una calidad dada en ambos _dataset_ tiene que ser similar (ojo, la función [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) de Scikit Learn hace esto por ti).
2. Tienes que escoger con qué _features_ vas a entrenar tu modelo. Puedes las _features_ que tú estimes conveniente, pero **tienes que justificar la elección de las features**.
3. Tienes que entrenar dos modelos SVM de Scikit Learn con los atributos que escogiste; un modelo debe usar el **kernel** `'poly'` mientras que el otro debe usar el **kernel** `'rbf'`. Tienes que justificar la elección de los hiperparámetros. Se espera que uses _Grid Search_ o algún método similar que averigües por tu cuenta.
4. Una vez entrenado ambos modelos, debes evaluarlos sobre el _dataset_ de prueba. Luego tienes que discutir los resultados. ¿Crees que se puede hacer algo mejor?

En esta actividad vamos a evaluar el resultado como un todo, es decir, no vamos a asignar puntos a partes en particular, sino que esperamos un trabajo lo más profesional posible, que justifique bien cada una de las decisiones tomadas. **Los trabajos que consideremos sobresalientes, los vamos a evaluar con nota 8**.

## Detalles Académicos

Esta actividad pueden realizarla en grupos de hasta dos personas. La entrega de esta actividad debe ser un archivo comprimido donde se encuentre un Jupyter Notebook, junto a cualquier archivo que estés llamando desde tu código. La fecha de entrega es hasta el viernes 6 de noviembre, hasta las 20:00 pm, cualquier entrega después de este plazo será calificada con la nota mínima. El archivo comprimido se entrega en un cuestionario de Webcursos.

In [53]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler

tomaremos las features que tienen mayor variabilidad (mayor qque cero) según el dataframe describe:
* fixed acidity
* residual sugar
* free sulfur dioxide
* total sulfur dioxide
* alcohol

In [66]:
#$eleccion de features y target
X = df[['fixed acidity', 'residual sugar', 'free sulfur dioxide', 'total sulfur dioxide', 'alcohol']]
y = df['quality']

In [67]:
X = StandardScaler().fit_transform(X)

In [68]:
#separar en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3, random_state=42)

In [69]:
from time import time

param_grid = {'C': [1e-3, 1e-2,1, 1e2, 1e3],
              'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1], }
clf_rbf = GridSearchCV(
    SVC(kernel='rbf', decision_function_shape='ovo'), param_grid
)
clf_poly = GridSearchCV(
    SVC(kernel='poly', decision_function_shape='ovo'), param_grid
)
t0=time()
rbf = clf_rbf.fit(X_train, y_train)
print("rbf hecho en %0.3fs" % (time() - t0))
t0=time()
poly = clf_poly.fit(X_train, y_train)
print("poly hecho en %0.3fs" % (time() - t0))
print(rbf.best_estimator_)
print(poly.best_estimator_)

rbf hecho en 17.836s
poly hecho en 15.139s
SVC(C=100.0, decision_function_shape='ovo', gamma=0.1)
SVC(C=100.0, decision_function_shape='ovo', gamma=0.1, kernel='poly')


In [61]:
from sklearn.metrics import accuracy_score, precision_score
y_pred_rbf = clf_rbf.predict(X_test)
y_pred_poly = clf_poly.predict(X_test)
print(accuracy_score(y_test, y_pred_rbf))
print(accuracy_score(y_test, y_pred_poly))

0.5229166666666667
0.55


In [65]:
precision_score(y_test, y_pred_poly, average='macro')

0.2457287118176178

Según los resultados anteriores el accuracy es deficiente. Esto se puede deber a que las features seleccionadas no sean las correctas, se pueda mejorar el modelo con otros parámetros o support vector machine no es el modelo más adecuado para clasificación multiclase. 