# Estructura de la clase Dataset

El dataset puede poseer dos estructuras según el método "split_dataset" haya sido ejecutado.

* Cuando el método no ha sido ejecutado, la estructura es la siguiente:

``` python
Dataset = {
    domains = ['domain_1',...,'domain_m']
    
    labeled = {
        'domain_1': {'X': X, 'y': y},
        .
        .
        .
        'domain_m': {'X': X, 'y': y} 
    }
    unlabeled = {
        'domain_1': {'X': X},
        .
        .
        .
        'domain_m': {'X': X}
    }
}


```


* Cuando el método ha sido ejecutado, la estructura es:

``` python
Dataset = {
    domains = ['domain_1',...,'domain_m']
    
    labeled = {
        'domain_1': {'X_tr': X_tr, 'y_tr': y_tr, 'X_ts': X_ts, 'y_ts': y_ts},
        .
        .
        .
        'domain_m': {'X_tr': X_tr, 'y_tr': y_tr, 'X_ts': X_ts, 'y_ts': y_ts} 
    }
    unlabeled = {
        'domain_1': {'X_tr': X_tr, 'y_tr': y_tr, 'X_ts': X_ts, 'y_ts': y_ts},
        .
        .
        .
        'domain_m': {'X_tr': X_tr, 'y_tr': y_tr, 'X_ts': X_ts, 'y_ts': y_ts}
    }
}
```


In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
#carga de datasets
from utils.DatasetStorage import Dataset
from utils.paths import *
import numpy as np
import os
import pandas as pd

In [3]:
print datasets

['amazon', 'twitter']


# Dataset de Amazon

In [12]:
dimensions['amazon']

3000

In [13]:
# Crea el dataset de amazon con 5000 caracteristicas
%run ./preprocesamiento.py --dataset amazon --dims 3000

Leyendo directorio raw_data/multi-domain/processed_acl
Leyendo dominio: 
- electronics
- dvd
- kitchen
- books
Procesando datos.
Guardando datos en data/amazon.pkl
Operacion terminada.


In [14]:
# Se comprueba que el dataset haya sido creado correctamente
dataset_path = os.path.join(data_path, datasets[0]+'.pkl')
dataset_object = Dataset().load(dataset_path)

domains = dataset_object.domains

print domains

labeled = dataset_object.labeled
unlabeled = dataset_object.unlabeled

['electronics', 'dvd', 'kitchen', 'books']


In [15]:
instances = dataset_object.get_all_X()
print instances.shape

(27677, 3000)


In [16]:
dataset_object.split_dataset(test_size=0.2)
instances2 = dataset_object.get_all_X()
print instances2.shape

(27677, 3000)


In [17]:
dataset_object.save(dataset_path)

# Dataset de Twitter

In [4]:
%run ./preprocesamiento.py --dataset twitter --dims 2000

Leyendo directorio raw_data/twitter
Leyendo dominio: 
- rio2016
- thevoice
Procesando datos.
Guardando datos en data/twitter.pkl
Operacion terminada.


In [5]:
# Se comprueba que el dataset haya sido creado correctamente

dataset_path = os.path.join(data_path, datasets[1]+'.pkl')
dataset_object = Dataset().load(dataset_path)

domains = dataset_object.domains

print domains

labeled = dataset_object.labeled

['rio2016', 'thevoice']


In [6]:
instances = dataset_object.get_all_X()
print instances.shape

(1124, 2000)


In [7]:
dataset_object.split_dataset(test_size=0.2)
instances2 = dataset_object.get_all_X()
print instances2.shape

(1124, 2000)


In [8]:
df = pd.DataFrame(columns=['Dominio', 'Entrenamiento', 'Prueba', 'Total'])
labeled = dataset_object.labeled

i=0
for domain in labeled:
    tr = labeled[domain]['X_tr'].shape[0]
    ts = labeled[domain]['X_ts'].shape[0]
    df.loc[i] = [domain,tr,ts,tr+ts]
    i+=1
df    

Unnamed: 0,Dominio,Entrenamiento,Prueba,Total
0,thevoice,518,130,648
1,rio2016,380,96,476


In [9]:
dataset_object.save(dataset_path)