# Extracción de Características

En *Machine Learning* una tarea muy importante es extraer características cuantitativas a partir de los datos. Esto se hace con el fin de poder ingresar los datos a los estimadores y así construir el modelo.

## Características Numéricas

Las características numéricas son aquellas que su valor es un número real. Como se vio en la sección *Train and Test*, el *dataset* IRIS tiene 150 muestras con 4 características y cada una de ellas es un valor numérico que representa el ancho y largo en centimétros de los pétalos y de los cépalos. Este tipo de valores reales es un claro ejemplo de las características numéricas.

## Características Categóricas

Las características categóricas son aquellas que se enmarcan dentro de un grupo específico. Por ejemplo, supongamos que el *dataset* IRIS cuenta con otra columna en donde se nombra el color de cada una de los flores (rojo, azul, púrpura). Como los estimadores esperan un valor numérico, podría pensarse en darle un valor numérico a cada uno de los colores (rojo=0, azul=1, púrpura=2). Pero los estimadores no solo trabajan con valores numéricos, sino que suponen que estos estan planteados en una escala continua, por lo cual, los valores 1 y 2 son muy parecidos por su cercanía, mientras que 1 y 3 no lo son, razonamiento que no siempre es verdadero, como en este ejemplo. 

Las variables categoricas pueden dividir en dos subgrupos: variables categóricas nominales y variables categóricas ordinales. El ejemplo de los colores para IRIS entra dentro de las variables nominales, las cuales no tienen asociado ningún tipo de orden. Por el contrario, las variables ordinales si lo implican. Un ejemplo de ello, son las tallas de una camiseta (XL > L > M > S).

### One-Hot Encoding

Uno de los métodos para transformar variables categóricas nominales a un formato en donde el estimador no asuma algún tipo de orden es la representación ***One-Hot Encoding***. Para el ejemplo de IRIS, cada uno de los colores se convierte en una categoría independiente (una nueva columna), con lo cual el *dataset* quedaría con las siguientes características:

- Longitud de sépalo [cm]
- Ancho de sépalo [cm]
- Longitud de pétalo [cm]
- Ancho de pétalo [cm]
- color=azul [1 | 0]
- color=rojo [1 | 0]
- color=púrpura [1 | 0]

Al representar esta característica (color) de esta forma, genera una matriz con una enorme cantidad de ceros y puede que para optimizar los procesos de la creación del modelo, lo mejor sea trabajar con matrices dispersas.

In [1]:
color = ['azul', 'rojo', 'purpura']

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

ohe = OneHotEncoder(sparse = False)
le= LabelEncoder()

ohe.fit_transform(le.fit_transform(color).reshape(-1, 1))

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

Usando matrices dispersas

In [72]:
color = ['azul', 'rojo', 'purpura']

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

ohe = OneHotEncoder()
le= LabelEncoder()

ohe.fit_transform(le.fit_transform(color).reshape(-1, 1))

<3x3 sparse matrix of type '<class 'numpy.float64'>'
	with 3 stored elements in Compressed Sparse Row format>

In [71]:
le.fit_transform(color).reshape(-1,1)

array([[0],
       [2],
       [1]], dtype=int64)

### DictVectorizer

En algunas ocasiones los datos de entrada se pueden presentar como un diccionario en donde los valores son tanto cadenas de carácteres como valores numéricos. La clase *DictVectorizer* permite realizar la expanción booleana usando sin modificar las características numéricas existentes. Por ejemplo, para :

In [3]:
measurements = [
    {'city': 'Dubai', 'temperature': 33.},
    {'city': 'London', 'temperature': 12.},
    {'city': 'San Francisco', 'temperature': 18.}
]

In [8]:
from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer()
vec.fit_transform(measurements).toarray()

array([[ 1.,  0.,  0., 33.],
       [ 0.,  1.,  0., 12.],
       [ 0.,  0.,  1., 18.]])

In [9]:
vec.get_feature_names()

['city=Dubai', 'city=London', 'city=San Francisco', 'temperature']

# Supervivencia en el RMS TITANIC

Como ejemplo de como trabajar un *dataset* con características numéricas y categóricas se creará un modelo en donde se predecirá la supervivencia de los pasajeros en el RMS TITANIC. El *dataset* a trabajar se descarga al ejecutar el *Notebook* número 1 (1.Data.ipynb).

Se iniciará con la carga del archivo titanic3.csv:

In [23]:
import pandas as pd

path_dataset = 'datasets/titanic3.csv'
titanic = pd.read_csv(path_dataset)
print(titanic.columns.values.tolist())

['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket', 'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest']


______
**Descripción de cada una de las columnas**
```
pclass          Passenger Class                   (1 = 1st; 2 = 2nd; 3 = 3rd)
survival        Survival                          (0 = No; 1 = Yes)
name            Name
sex             Sex
age             Age
sibsp           Number of Siblings/Spouses Aboard
parch           Number of Parents/Children Aboard
ticket          Ticket Number
fare            Passenger Fare
cabin           Cabin
embarked        Port of Embarkation               (C = Cherbourg; Q = Queenstown; S = Southampton)
boat            Lifeboat
body            Body Identification Number
home.dest       Home/Destination
```

______

Al analizar el *dataset* se observa que posiblemente las columnas *name, sex, cabin, embarked, boat, body y homedest* puedan ser características categóricas, mientras el resto de las columnas son valores numéricos. 

In [25]:
titanic.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


Las columnas *boat* y *body* estan directamente relacionadas con la sobrevivencia del pasajero y *name* no aporta información para caracterizar si una persona puede o no sobrevivir. 

Se tomarán las columnas *pclass, sex, age, sibsp, parch, fare y embarked"* como características:

In [27]:
labels = titanic.survived.values
features = titanic[['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']]

In [28]:
features.head()

Unnamed: 0,pclass,sex,age,sibsp,parch,fare,embarked
0,1,female,29.0,0,0,211.3375,S
1,1,male,0.9167,1,2,151.55,S
2,1,female,2.0,1,2,151.55,S
3,1,male,30.0,1,2,151.55,S
4,1,female,25.0,1,2,151.55,S


Las características ***sex*** y ***embarked*** son variables categóricas y no pueden ser ingresadas a los algoritmos de aprendizaje automático. Para poder trabajar con ellas se puede usar la función ***get_dummies*** de pandas:

In [29]:
pd.get_dummies(features).head()

Unnamed: 0,pclass,age,sibsp,parch,fare,sex_female,sex_male,embarked_C,embarked_Q,embarked_S
0,1,29.0,0,0,211.3375,1,0,0,0,1
1,1,0.9167,1,2,151.55,0,1,0,0,1
2,1,2.0,1,2,151.55,1,0,0,0,1
3,1,30.0,1,2,151.55,0,1,0,0,1
4,1,25.0,1,2,151.55,1,0,0,0,1


Al analizar más detalladamente la característica ***pclass*** se observa que esta es categórica (1 = primera clase, 2 = segunda clase, 3 =  tercera clase) a pesarde que sus valores son numéricos. La función *get_dummies* descarta esta columna por presentar un valor numérico y para poder incluirla se debe hacer especifícamente.

In [34]:
features_dummies = pd.get_dummies(features, columns=['pclass', 'sex', 'embarked'])
features_dummies.head()

Unnamed: 0,age,sibsp,parch,fare,pclass_1,pclass_2,pclass_3,sex_female,sex_male,embarked_C,embarked_Q,embarked_S
0,29.0,0,0,211.3375,1,0,0,1,0,0,0,1
1,0.9167,1,2,151.55,1,0,0,0,1,0,0,1
2,2.0,1,2,151.55,1,0,0,1,0,0,0,1
3,30.0,1,2,151.55,1,0,0,0,1,0,0,1
4,25.0,1,2,151.55,1,0,0,1,0,0,0,1


La clase **DictVectorizer** tambien puede realizar la tarea anterior:

In [45]:
from sklearn.feature_extraction import DictVectorizer

dictionary = features.to_dict('records')
vec = DictVectorizer()
features_dv = vec.fit_transform(dictionary)
features_dv = pd.DataFrame(features_dv.toarray())
features_dv.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,29.0,0.0,0.0,0.0,1.0,211.3375,0.0,1.0,1.0,0.0,0.0
1,0.9167,0.0,0.0,0.0,1.0,151.55,2.0,1.0,0.0,1.0,1.0
2,2.0,0.0,0.0,0.0,1.0,151.55,2.0,1.0,1.0,0.0,1.0
3,30.0,0.0,0.0,0.0,1.0,151.55,2.0,1.0,0.0,1.0,1.0
4,25.0,0.0,0.0,0.0,1.0,151.55,2.0,1.0,1.0,0.0,1.0


Se extraen los datos:

In [51]:
data = features_dummies.values

Es posible que algunos de los valores en *data* contenga valores NaN y si fuera el caso se debe realizar un ***[Imputer](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html)***. A continuación se buscan valores NaN dentro de *data*:

In [50]:
import numpy as np
data = features_dummies.values
np.isnan(data).any()

True

Realización de un ***Imputer***

In [54]:
from sklearn.preprocessing import Imputer

imp =  Imputer()
data_imp = imp.fit(data)
data_imp = imp.transform(data)

np.isnan(data_imp).any()

False

Creación del modelo de aprendizaje automático

In [58]:
from sklearn.model_selection import train_test_split

train_data, test_data, train_labels, test_labels = train_test_split(data_imp, labels, random_state=123)

In [63]:
from sklearn.neighbors import KNeighborsClassifier

KNN = KNeighborsClassifier()
KNN.fit(train_data, train_labels)
score = KNN.score(test_data, test_labels)

In [60]:
print("Casos correctamente clasificados (CCR) [Precisión] :", score)

Casos correctamente clasificados (CCR) [Precisión] : 0.7012195121951219


In [61]:
from sklearn.ensemble import RandomForestClassifier

RFC = RandomForestClassifier()
RFC.fit(train_data, train_labels)
score = RFC.score(test_data, test_labels)

In [62]:
print("Casos correctamente clasificados (CCR) [Precisión] :", score)

Casos correctamente clasificados (CCR) [Precisión] : 0.801829268292683
