*Los ejercicios se basan en el conjunto de viviendas "housing.csv"*

### Ejercicio 1

Pruebe una máquina de soporte vectorial (Support Vector Machine) (sklearn.svm.SVR) con varios hiperparámetros, como kernel="linear" (con varios valores para el hiperparámetro C) o kernel="rbf" (con varios valores para los hiperparámetros C y gamma) . 

Tenga en cuenta que las máquinas de vectores de soporte **no se adaptan bien a grandes conjuntos de datos**, por lo que probablemente debería entrenar su modelo solo en las primeras **5000 instancias** del conjunto de entrenamiento y usar solo una **validación cruzada en 3 veces**, o de lo contrario llevará horas. 

No se preocupe por el significado de los hiperparámetros por ahora; los discutiremos en el Capítulo 5. ¿Cómo funciona el mejor predictor de RVS?

#### Paso 1: Preparando los datos

In [2]:
import requests
import tarfile

URL = "https://mymldatasets.s3.eu-de.cloud-object-storage.appdomain.cloud/housing.tgz"
PATH = "housing.tgz"

def getData(url=URL, path=PATH):
  r = requests.get(url)
  with open(path, 'wb') as f:
    f.write(r.content)
  housing_tgz = tarfile.open(path)
  housing_tgz.extractall()
  housing_tgz.close()

getData()

In [3]:
import pandas as pd

data = pd.read_csv('housing.csv')
data.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


In [5]:
from sklearn.model_selection import train_test_split

train, test = train_test_split(data, test_size=0.2) # 20% para test y 80% para entrenamiento

len(data), len(train), len(test)

(20640, 16512, 4128)

#### Paso 2: Tratar los valores inexistentes ("missing values")

In [6]:
train.to_csv('train.csv', index=False)
test.to_csv('test.csv', index=False)

In [7]:
train_data, y_train = train.drop(['median_house_value'], axis=1), train['median_house_value'].copy() # quitar columna de targets del dataset de entrenamiento
test_data, y_test = test.drop(['median_house_value'], axis=1), test['median_house_value'].copy() # agregar la columna de targets al set

# separar variables en numéricas y categóricas
train_num = train_data.drop(['ocean_proximity'], axis=1)
train_cat = train_data[['ocean_proximity']]

In [8]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy="median") # definir imputer
imputer.fit(train_num) # calcular mediana

# mediana de cada característica o columna (7)
imputer.statistics_ # valores calculados

array([-118.49   ,   34.25   ,   29.     , 2127.     ,  434.     ,
       1166.     ,  409.     ,    3.54825])

In [9]:
# llamamos a transform y le pasamos los valores que debe sustituir en cada característica

X_train_num = imputer.transform(train_num) # cambiar valores inexistentes por la media

X_train_num

array([[-117.95  ,   33.66  ,   26.    , ...,  639.    ,  224.    ,
           6.8226],
       [-122.08  ,   37.64  ,   36.    , ...,  662.    ,  226.    ,
           5.7309],
       [-120.46  ,   34.65  ,   14.    , ...,  533.    ,  224.    ,
           2.5966],
       ...,
       [-117.6   ,   33.65  ,    4.    , ..., 1599.    ,  485.    ,
           6.2464],
       [-122.3   ,   37.93  ,   34.    , ...,  715.    ,  306.    ,
           4.5   ],
       [-121.21  ,   37.79  ,   33.    , ...,  446.    ,  198.    ,
           1.6724]])

#### Paso 3: Preprocesado

In [10]:
## PREPROCESADO DE LAS VARIABLES NUMÉRICAS (escalado)

from sklearn.preprocessing import StandardScaler # también hay min-max

scaler = StandardScaler() # mean y std
scaler.fit(X_train_num)
X_train_num_scaled = scaler.transform(X_train_num)
X_train_num_scaled

array([[ 0.80789558, -0.92461665, -0.20584408, ..., -0.70707483,
        -0.7312619 ,  1.55186476],
       [-1.25554397,  0.94359792,  0.59028114, ..., -0.68628233,
        -0.72593584,  0.97615489],
       [-0.44615606, -0.45991001, -1.16119434, ..., -0.80290112,
        -0.7312619 , -0.6767236 ],
       ...,
       [ 0.98276334, -0.92931065, -1.95731956, ...,  0.16078593,
        -0.03621044,  1.2480047 ],
       [-1.36546084,  1.07972411,  0.4310561 , ..., -0.63836918,
        -0.51289324,  0.32703766],
       [-0.82087268,  1.01400802,  0.35144358, ..., -0.881551  ,
        -0.80050075, -1.16410206]])

In [11]:
## PREPROCESADO DE LAS VARIABLES CATEGÓRICAS (OneHotEncoding)

from sklearn.preprocessing import OneHotEncoder

cat_encoder = OneHotEncoder()
X_train_cat = cat_encoder.fit_transform(train_cat)
X_train_cat

<16512x5 sparse matrix of type '<class 'numpy.float64'>'
	with 16512 stored elements in Compressed Sparse Row format>

In [12]:
X_train_cat.toarray()

array([[1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0.]])

#### Paso 4: Pipelines

In [13]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

## >> CREACIÓN
# inicializamos el pipeline y le pasamos una lista con los pasos a ejecutar

num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy="median")), # 1- imputer (rellenar huecos)
        ('std_scaler', StandardScaler()), # 2- función para normalizar (escalado)
    ])

##  >> SEPARACIÓN 
# separo los atributos en numéricos y categóricos

num_attribs = list(train_num) # atributos numéricos
cat_attribs = ["ocean_proximity"] # atributos categóricos

##  >> APLICACIÓN
# tenemos la posibilidad de aplicar diferentes pipelines a diferentes columnas

full_pipeline = ColumnTransformer([
    ("num", num_pipeline, num_attribs), # aplico "num_pipeline" a las columnas numéricas
    ("cat", OneHotEncoder(), cat_attribs), # aplico OneHotEncoder a las columnas categóricas
])

In [14]:
X_train = full_pipeline.fit_transform(train_data)

X_train # contiene las variables numéricas y categóricas, sin missing values y todo escalado y codificado.

array([[ 0.80789558, -0.92461665, -0.20584408, ...,  0.        ,
         0.        ,  0.        ],
       [-1.25554397,  0.94359792,  0.59028114, ...,  0.        ,
         1.        ,  0.        ],
       [-0.44615606, -0.45991001, -1.16119434, ...,  0.        ,
         0.        ,  1.        ],
       ...,
       [ 0.98276334, -0.92931065, -1.95731956, ...,  0.        ,
         0.        ,  0.        ],
       [-1.36546084,  1.07972411,  0.4310561 , ...,  0.        ,
         1.        ,  0.        ],
       [-0.82087268,  1.01400802,  0.35144358, ...,  0.        ,
         0.        ,  0.        ]])

In [15]:
X_test = full_pipeline.transform(test_data) # ojo ! aquí no hacemos fit :) sólo transform

X_test

array([[ 0.96277845, -0.7415504 ,  0.27183105, ...,  0.        ,
         0.        ,  0.        ],
       [-1.30050996,  0.99523199,  0.66989367, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.60804671, -0.7462444 ,  1.62524393, ...,  0.        ,
         0.        ,  0.        ],
       ...,
       [ 0.71296737, -0.75563241,  0.90873123, ...,  0.        ,
         0.        ,  0.        ],
       [ 1.70721548, -0.69930434, -0.84274425, ...,  0.        ,
         0.        ,  0.        ],
       [-0.92579334,  0.57277141, -1.718482  , ...,  0.        ,
         0.        ,  0.        ]])

#### Paso 5: Entrenar el modelo (aquí viene el cambio)

Usamos **GridSearch** para que nos busque automáticamente el **mejor modelo y el mejor hiperperámetro**,  sin tener que ajustarlos manualmente.

Usamos **Cross-Validation** a la hora de entranar, lo que permite, para el set de entrenamiento, dejar siempre un subconjunto de datos (test) perteneciente el conjunto de entrenamiento en cada iteración e ir rotándolo cada vez.

Se usa para sacarle más provecho al set de datos cuando este es pequeño.

In [24]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVR

param_grid = [
        {'svr__kernel': ['linear'], 'svr__C': [10., 30., 100., 300., 1000., # hiperparámetro: linear
                                               3000., 10000., 30000.0]}, # hiperparámetro: rbf
        {'svr__kernel': ['rbf'], 'svr__C': [1.0, 3.0, 10., 30., 100., 300., # hiperparámetro: gamma
                                            1000.0],
         'svr__gamma': [0.01, 0.03, 0.1, 0.3, 1.0, 3.0]},
    ]

# Crear el pipeline
svr_pipeline = Pipeline([("num_pipeline", num_pipeline), ("svr", SVR())])

# Crear el clasificador GridSearchCV
grid_search = GridSearchCV(svr_pipeline, param_grid, cv=3, # 3 validaciones cruzadas
                           scoring='neg_root_mean_squared_error', n_jobs=4)

# Buscar el mejor modelo del pipeline
mejor_modelo = grid_search.fit(X_train[:5000], y_train[:5000]) # solo 5000 instancias

In [30]:
# Impresión del mejor estimador

#print(mejor_modelo.best_estimator_.get_params()["svr__kernel"])
print(mejor_modelo.best_estimator_)

# El que mejor se adapta es SVR con kernel linear, C=3000.

Pipeline(steps=[('num_pipeline',
                 Pipeline(steps=[('imputer', SimpleImputer(strategy='median')),
                                 ('std_scaler', StandardScaler())])),
                ('svr', SVR(C=30000.0, kernel='linear'))])


#### Paso 6: Obtener predicciones

In [37]:
# Predecir valores para todos los datos del test

y_test_pred = grid_search.predict(X_test)
#y_test_prob = grid_search.predict_proba(X_test)

y_test_pred

array([ 94511.08227591, 159087.18688698, 200621.40806194, ...,
       143073.93456936,  98346.65423403, 106322.63382468])

In [46]:
# OBTENER LAS MÉTRICAS

#auc = roc_auc_score(y_test, y_test_prob[:,1])
#print("- Precision: ", round(precision_score(y_test, y_test_pred), 2))
#print("- Recall: ", round(recall_score(y_test, y_test_pred), 2))
#print("- F-Score: ", round(f1_score(y_test, y_test_pred), 2))
#print("- AUC: ", round(auc, 2)) #área bajo la curva

In [50]:
# Obtener la puntuación del mejor modelo.

puntuacion_mejor_modelo = -grid_search.best_score_

In [51]:
puntuacion_mejor_modelo

69395.49142385386

In [53]:
# Obtener los < MEJORES HIPERPARÁMETROS >

grid_search.best_params_

{'svr__C': 30000.0, 'svr__kernel': 'linear'}

### Conclusiones

El kernel lineal parece mejor que el kernel RBF. 

Observe que el valor de C es el valor máximo probado. 

Cuando esto sucede, definitivamente desea iniciar la búsqueda de cuadrícula nuevamente con valores más altos para C (eliminando los valores más pequeños), porque es probable que los valores más altos de C sean mejores.