In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
#carga de datasets
from utils.DatasetStorage import Dataset
from utils.paths import *

#clasificadores
from utils.clasificacion import *

#adaptacion
from utils.adaptacion import msda_theano_pseudo_grid_search 

#otros
import os
import numpy as np
import pandas as pd
import timeit
from sklearn.externals import joblib

tipo = pruebas[1]
dataset_name = datasets[1]
dims = dimensions[dataset_name]

Using Theano backend.


## Pruebas con el dataset Amazon

In [3]:
print tipo
print dataset_name
print dims
print data_path

msda
twitter
1000
data


In [4]:
# cargando dataset Amazon
dataset_path = os.path.join(data_path, dataset_name+'.pkl')
dataset_object = Dataset().load(dataset_path)

dataset_object.split_dataset(test_size=0.2)

labeled = dataset_object.labeled
domains = dataset_object.domains

Dataset already splitted


In [5]:
# se obtienen todos los valores X disponibles para realizar adaptacion
X = dataset_object.get_all_X()
X = np.asarray(X)

print X.shape

print "Todos los datos disponibles obtenidos"

(5792, 1000)
Todos los datos disponibles obtenidos


# Adaptación


## Creación de modelos de adaptación.

Para cada dominio se entrenan distintos modelos según los parámetros enviados.

Cada modelo es guardado en la ruta: models/twitter/msda/me1\_[dominio\_objetivo]_[numero_de_modelo].pkl

Todas las rutas son guardadas en una lista, la cual es almacenada en: models/twitter/msda/me1_models_paths.pkl

```python
paths_list = [ruta1, ..., ruta_n]
```

In [6]:
models_paths = os.path.join(models_path, dataset_name, tipo, "me1_models_paths.pkl")
paths_list = []

# si existe el archivo con las rutas
# se carga la lista con las rutas
if os.path.exists(models_paths):
    print "Cargando rutas de modelos adaptados."
    paths_list = joblib.load(models_paths)
    print "Rutas cargadas en la variable 'paths_list'"
# si no
# se entrenan los modelos y se obtiene la lista con rutas
else:
    #se establecen los parametros para los modelos
    parametros = {
        'noises': [0.3, 0.5, 0.8],
        'layers': [1, 3, 5]
    }

    print "Creando modelos de adaptacion..."
    
    folder_path = os.path.join(models_path, dataset_name, tipo)
    prefix = "me1_"
        
    paths_list = msda_theano_pseudo_grid_search(X, parametros, folder_path, prefix)

    print "\nCreacion de modelos terminada\nGuardando rutas en %s" % models_paths
    joblib.dump(paths_list, models_paths)
    print "Rutas cargadas en la variable 'paths_list'"

Creando modelos de adaptacion...
	pr: 0.300 - l: 1
	Entrenando capa  1
	Entrenado en 0.15m

	Guardando modelo en models/twitter/msda/me1_0.pkl 
	pr: 0.300 - l: 3
	Entrenando capa  1
	Entrenando capa  2
	Entrenando capa  3
	Entrenado en 0.39m

	Guardando modelo en models/twitter/msda/me1_1.pkl 
	pr: 0.300 - l: 5
	Entrenando capa  1
	Entrenando capa  2
	Entrenando capa  3
	Entrenando capa  4
	Entrenando capa  5
	Entrenado en 0.82m

	Guardando modelo en models/twitter/msda/me1_2.pkl 
	pr: 0.500 - l: 1
	Entrenando capa  1
	Entrenado en 0.21m

	Guardando modelo en models/twitter/msda/me1_3.pkl 
	pr: 0.500 - l: 3
	Entrenando capa  1
	Entrenando capa  2
	Entrenando capa  3
	Entrenado en 0.57m

	Guardando modelo en models/twitter/msda/me1_4.pkl 
	pr: 0.500 - l: 5
	Entrenando capa  1
	Entrenando capa  2
	Entrenando capa  3
	Entrenando capa  4
	Entrenando capa  5
	Entrenado en 0.80m

	Guardando modelo en models/twitter/msda/me1_5.pkl 
	pr: 0.800 - l: 1
	Entrenando capa  1
	Entrenado en 0.15m

	G

In [7]:
print "Modelos almacenados en:"
for ruta in paths_list:
    print "\t", ruta

Modelos almacenados en:
	models/twitter/msda/me1_0.pkl 
	models/twitter/msda/me1_1.pkl 
	models/twitter/msda/me1_2.pkl 
	models/twitter/msda/me1_3.pkl 
	models/twitter/msda/me1_4.pkl 
	models/twitter/msda/me1_5.pkl 
	models/twitter/msda/me1_6.pkl 
	models/twitter/msda/me1_7.pkl 
	models/twitter/msda/me1_8.pkl 


## Busqueda del mejor modelo por dominio

Por cada dominio se busca el mejor modelo de adaptación.

Esto se obtiene adaptando los datos de entrenamiento de cada dominio por cada modelo creado y realizando Grid-Search y Cross-Validation con estos datos.

El modelo que logre un mejor valor de Cross-Validation es considerado el mejor modelo para adaptar y queda guardado en un diccionario de la forma:

```python
best_models = {
    [dominio_1] = ruta,
    .
    .
    .
    [dominio_n] = ruta,
}
```

Este diccionario queda almacenado en la ruta:
    models/amazon/msda/me1_best_models.pkl

In [8]:
best_models_paths = os.path.join(models_path, dataset_name, tipo, "me1_best_models.pkl")
best_models = {}

if os.path.exists(best_models_paths):
    print "Cargando rutas de los mejores modelos..."
    best_models = joblib.load(best_models_paths)
    print "Rutas cargadas"  
else:
    print "Obteniendo mejores modelos..."
    for domain in domains:
        print domain
        i = 1
        best_score = 0
        best_path = None
        best_model = None
        
        for msda_model_path in paths_list:
            
            msda_model = joblib.load(msda_model_path)
            theano_model = msda_model['model']
            pr = msda_model['pr']
            n_layers = msda_model['l']

            print "\t%d) l=%d, pr=%.3f " % (i, msda_model['l'], msda_model['pr']),

            # se obtienen los datos del dominio
            X_tr = np.asarray(labeled[domain]['X_tr'].todense())
            y_tr = np.asarray(labeled[domain]['y_tr'].todense()).argmax(axis=1)

            # se adaptan los datos
            X_deep = theano_model.predict(X_tr)

            # se obtiene el mejor score con GridSearch
            new_clf = get_best_score(X_deep, y_tr, classifier='SVC', n_jobs=4)
            new_score = new_clf.best_score_
            print "score: %.4f" % new_score
            # se guarda si es el mejor para el modelo
            if new_score > best_score:
                best_score = new_score
                best_path = msda_model_path
                best_model = msda_model
            i = i+1

        #se guarda el mejor modelo para este dominio
        print "Mejor modelo: l=%d, pr=%.3f" % (best_model['l'], best_model['pr'])
        best_models[domain] = best_path
        
    
    # se guarda el diccionario con las mejores rutas
    joblib.dump(best_models, best_models_paths)
    print "Rutas guardadas en ", best_models_paths

Obteniendo mejores modelos...
thevoice
	1) l=1, pr=0.300  score: 0.8934
	2) l=3, pr=0.300 



 score: 0.8465
	3) l=5, pr=0.300 



 score: 0.7825
	4) l=1, pr=0.500  score: 0.8874
	5) l=3, pr=0.500 



 score: 0.7930
	6) l=5, pr=0.500 



 score: 0.6928
	7) l=1, pr=0.800  score: 0.8745
	8) l=3, pr=0.800  score: 0.7199
	9) l=5, pr=0.800  score: 0.6903
Mejor modelo: l=1, pr=0.300
general
	1) l=1, pr=0.300 



 score: 0.7353
	2) l=3, pr=0.300 



 score: 0.7358
	3) l=5, pr=0.300  score: 0.7007
	4) l=1, pr=0.500  score: 0.7313
	5) l=3, pr=0.500  score: 0.7023
	6) l=5, pr=0.500  score: 0.6607
	7) l=1, pr=0.800  score: 0.7215
	8) l=3, pr=0.800  score: 0.6592
	9) l=5, pr=0.800  score: 0.6297
Mejor modelo: l=3, pr=0.300
rio2016
	1) l=1, pr=0.300  score: 0.8944
	2) l=3, pr=0.300  score: 0.8590
	3) l=5, pr=0.300  score: 0.7583
	4) l=1, pr=0.500  score: 0.8969
	5) l=3, pr=0.500  score: 0.7877
	6) l=5, pr=0.500  score: 0.6916
	7) l=1, pr=0.800  score: 0.8892
	8) l=3, pr=0.800  score: 0.6978
	9) l=5, pr=0.800  score: 0.6900
Mejor modelo: l=1, pr=0.500
Rutas guardadas en  models/twitter/msda/me1_best_models.pkl


In [9]:
for dominio, ruta in best_models.items():
    print "%s - %s" % (dominio, ruta)

thevoice - models/twitter/msda/me1_0.pkl 
rio2016 - models/twitter/msda/me1_3.pkl 
general - models/twitter/msda/me1_1.pkl 


In [10]:
#diccionario para mantener los dominios adaptados
adapted = {}

i = 0
for domain in domains:
    best_model_path = best_models[domain]
    
    if os.path.exists(best_model_path):
        print "Cargando mejor modelo para %s" % domain
        msda_model = joblib.load(best_model_path)
        theano_model = msda_model['model']
        
        print "\tAdaptando dominio"
        X_tr = np.asarray(labeled[domain]['X_tr'].todense())

        tr_reps = theano_model.predict(X_tr)

        adapted[domain] = {
            'X_tr': tr_reps
        }
        
        i = i+1
    else:
        print "\tGenerar mejor modelo para %s" % domain
        
print "%d/%d dominios adaptados" % (i, len(domains))

Cargando mejor modelo para thevoice
	Adaptando dominio
Cargando mejor modelo para general
	Adaptando dominio
Cargando mejor modelo para rio2016
	Adaptando dominio
3/3 dominios adaptados


## Pruebas de clasificación

In [11]:
df = pd.DataFrame(columns=dataframe_columns)

i=1
tareas = len(domains)*(len(domains)-1)

# por cada par posible para adaptar
for src in domains:
    #se carga el mejor modelo para el dominio fuente
    ruta = best_models[src]
    modelo = joblib.load(ruta)
    msda_adapter = modelo['model']
    
    for tgt in domains:
        if src is not tgt:
            print "Tarea %d de %d" % (i, tareas)
            
            #baseline in-domain error
            #e_b(T,T)
            #entrenado en dominio tgt y probado en dominio tgt
            X_tr = np.asarray(labeled[tgt]['X_tr'].todense())
            y_tr = np.asarray(labeled[tgt]['y_tr'].todense()).argmax(axis=1)
            
            X_ts = np.asarray(labeled[tgt]['X_ts'].todense())
            y_ts = np.asarray(labeled[tgt]['y_ts'].todense()).argmax(axis=1)
            
            # se crean las rutas para cargar o crear los modelos
            model_name = "%s.pkl" % (tgt)
            model_path = os.path.join(models_path, dataset_name, "indomain", model_name)
            
            
            #Se realiza una clasificacion, estimando los parametros mediante cv
            svc = load_best_score(model_path, X_tr, y_tr)
            b_error = 1-svc.score(X_ts, y_ts)
            
            
            #############
            #### mSDA ###
            #############
            print "Adaptando dominios..."
            
            #entrenado en dominio src y probado en dominio tgt adaptados
            X_tr_a = adapted[src]['X_tr']
            y_tr = np.asarray(labeled[src]['y_tr'].todense()).argmax(axis=1)
            
            X_ts_a = msda_adapter.predict(X_ts)
            y_ts = np.asarray(labeled[tgt]['y_ts'].todense()).argmax(axis=1)
            
            # se calcula el transfer error
            svc_a = get_best_score(X_tr_a, y_tr, classifier='SVC', n_jobs=4)
            t_error = 1-svc_a.score(X_ts_a, y_ts)
            
            # transfer loss t
            # t_error - b_error
            t_loss = t_error - b_error
            
            tarea = src[0]+'->'+tgt[0]
            df.loc[i] = ['mSDA',tarea,src,tgt,b_error*100,t_error*100, t_loss*100]
            
            i+=1
    
print "\nPruebas completadas"

Tarea 1 de 6
Cargando modelo existente.
Adaptando dominios...
Tarea 2 de 6
Cargando modelo existente.
Adaptando dominios...
Tarea 3 de 6
Cargando modelo existente.
Adaptando dominios...
Tarea 4 de 6
Cargando modelo existente.
Adaptando dominios...
Tarea 5 de 6
Cargando modelo existente.
Adaptando dominios...
Tarea 6 de 6
Cargando modelo existente.
Adaptando dominios...

Pruebas completadas


In [12]:
df

Unnamed: 0,Adaptacion,Tarea,Fuente,Objetivo,Baseline error,Transfer error,Transfer loss
1,mSDA,t->g,thevoice,general,34.582441,40.95828,6.375839
2,mSDA,t->r,thevoice,rio2016,18.75,14.6098,-4.1402
3,mSDA,g->t,general,thevoice,16.923077,24.828402,7.905325
4,mSDA,g->r,general,rio2016,18.75,22.504537,3.754537
5,mSDA,r->t,rio2016,thevoice,16.923077,15.171598,-1.751479
6,mSDA,r->g,rio2016,general,34.582441,41.65954,7.077099


In [13]:
new_scores_path = os.path.join(scores_path,dataset_name, tipo, "me1_%d.csv" % (dims))

print "Guardando en %s" % new_scores_path
df.to_csv(new_scores_path, columns=df.columns)
print "Resultados guardados."

Guardando en scores/twitter/msda/me1_1000.csv
Resultados guardados.
