## Datasets para el reto: Asistente de concesionario


Queremos que el asistente nos ayude a decidir si el coche es aceptable o no para comprar.

Distribución de las clases (número de ejemplos u observaciones por clase)

   
   + unacc          1210     (70.023 %) --> no aceptable 0
   + acc            518     (29.997 %) --> aceptable 1
  

In [22]:
import pandas as pd

df = pd.read_csv(r'C:\Users\Usuario\Documents\AI Deep Learning\Reto\Datasets\car.data', 
                 header=None, names=['buying', 'maint', 'doors', 'persons', 
                                     'lug_boot', 'safety','decision'])



In [23]:
df.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,decision
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


## Consejos

Cambiar todas las variables no numéricas (categóricas) a números: 

+ buying (buying price): vhigh (4), high (3), med (2), low (1)
+ main (maintenance price): vhigh (4), high (3), med (2), low (1)
+ doors (number of doors): 2, 3, 4, 5-more (5)
+ persons (number of passengers fit in a car): 2, 4, more (6)
+ lug_boot (size of luggage capacity): small (1), med (2), big (3)
+ safety: low (1), med (2), high (3)
+ values: unacc = unaccepted, acc = accepted
+ eliminar filas que tengan algún valor vacío o rellenarlas con el valor más común

In [24]:
df.replace(['low', 'med', 'high', 'vhigh', '5more', 'more', 'low', 'big', 'small'], 
                     [1, 2, 3, 4, 5, 6, 1, 3, 1], inplace=True)

print(df.head())

   buying  maint doors persons  lug_boot  safety decision
0       4      4     2       2         1       1    unacc
1       4      4     2       2         1       2    unacc
2       4      4     2       2         1       3    unacc
3       4      4     2       2         2       1    unacc
4       4      4     2       2         2       2    unacc


¿Qué modelo podemos usar? Tenemos muchas opciones, una de ellas es:

+ dividir el dataframe en training y test, podemos usar el método train_test_split de sklearn 

In [25]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split


#Dividimos entre training y test

y = df['decision']
df.drop('decision', axis=1, inplace=True)
X = df
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

+ entrenar el modelo según la documentación que podemos encontrar en sklearn (función fit)

In [28]:
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

# Vamos a probar el clasificador Support Vector Machine


pipeline_svc = Pipeline([('scl', StandardScaler()),
                     ('clf', SVC(random_state=1))])


#Entrenamos el pipeline con los datos

pipeline_svc.fit(X_train, y_train)

scores = cross_val_score(estimator=pipeline_svc,
                         X=X_train,
                         y=y_train,
                         cv=10,
                         n_jobs=1)

print('-->  Accuracy del entrenamiento: %.3f +/- %.3f' %(np.mean(scores), np.std(scores)))

-->  Accuracy del entrenamiento: 0.978 +/- 0.016


+ probar cómo de bueno es el modelo con nuestros datos de test (predict)

In [20]:
from sklearn.cluster import KMeans
import pickle

#Guradamos el modelo SVM
filename = 'svc_concessionaire_assistant_model.sav'
pickle.dump(pipeline_svc, open(filename, 'wb'))


+ guardar el modelo conla librería pickle 

+ crear una app basada en las demos que vimos para importar el modelo y predecir si el coche es aceptable o no