# Preparación de datos

In [2]:
from sklearn import datasets
import numpy as np

np.random.seed(1)

# Generación del dataset
X, Y = datasets.make_classification(n_samples=500, n_features=2, n_clusters_per_class=2, 
                                    class_sep=2, n_redundant=0, flip_y =0.01)

## Pueden existir errores en los datos observados.
* Valores no pertenecientes al dominio o rango del atributo.
* Valores no definidos. (No tiene porque ser un error)
### Posibles soluciones:
* Reparación/inicialización aleatoria
* Reparación/inicialización por Esperanza/Maximización.
* Eliminación de la tupla.

## El sistema de aprendizaje no es capaz de trabajar con el tipo de dato.
* Valores no definidos
    * Solución: Eliminación de la tupla, inicialización aleatoria o por EM.

In [5]:
# Valores no definidos
# Inicializar los valores no definidos por medio de la clase Imputer y la estrategia de tipo media
from sklearn.preprocessing import Imputer
X = [[np.nan, 2], [6, np.nan], [7, 6], [1, 2], [np.nan, 3], [7, 6]]
imp = Imputer(missing_values=np.nan, strategy='mean', axis=0) # TODO
imp.fit(X)
X_no_missing = imp.transform(X) # TODO
#Version 2
X_no_missing = imp.fit_transform(X)

print(X_no_missing)


## El sistema de aprendizaje no es capaz de trabajar con el tipo de dato.
* Valores continuos
    * Discretizar los valores mediante la creación de rangos representativos.

In [7]:
# Valores continuos
# Discretizar el data set X utilizando la función digitize de numpy con bins de tamañao 0.5
import numpy as np
np.random.seed(1)
X, Y = datasets.make_classification(n_samples=500, n_features=2, n_clusters_per_class=2, 
                                    class_sep=2, n_redundant=0, flip_y =0.01)

min = X.min()
max = X.max()
bins = np.arange(min, max,0.5)
X_discretized = np.digitize(X, bins)
print(X_discretized)

## Validación cruzada

In [9]:
from sklearn.cross_validation import train_test_split

# Crear data sets de entrenamiento y testeo
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3) # TODO


## Normalización: preserva la estabilidad numérica en el algoritmo de aprendizaje
* Media 0 varianza 1

In [11]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() # TODO
scaler.fit(X_train)
X_train = scaler.transform(X_train)# TODO
X_test = scaler.transform(X_test) # TODO

#print(X_test)

## Pueden existir atributos que no aporten información significativa introduciendo ruido al sistema.
* Análisis y eliminación de atributos no representativos.

In [13]:
# Añadimos algunos outliers
X_outlier = np.array([ [-2.5,-3.5], [-3,-4], [-2.5,-4.5]])
Y_outlier = np.array([1, 1, 1])
# Usamos np.hstack() y np.vstack() para concatenar los outliers al data set de entrenamiento. 
X_train=np.vstack([X_train, X_outlier])
Y_train=np.hstack([Y_train, Y_outlier])

In [14]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler() # TODO
scaler.fit(X_train)
X_train = scaler.transform(X_train) # TODO
X_test = scaler.transform(X_test) # TODO