<h2>Introducci√≥n</h2>

Lo ideal es que los datos num√©ricos vengan en un formato ordenado pero en el mundo real esto no suele ser as√≠. La ingenier√≠a de caracter√≠sticas juega un papel importante para convertir la informaci√≥n entrante en una matriz de caracter√≠sticas relevante para los modelos. En este Notebook, veremos algunos ejemplos comunes de tareas de ingenier√≠a de caracter√≠sticas.

<h2>Atributos categ√≥ricos</h2>

Un tipo com√∫n de datos no num√©ricos son los datos categ√≥ricos. Por ejemplo, imagine que est√° explorando algunos datos sobre el precio de la vivienda, y que junto con caracter√≠sticas num√©ricas como "precio" y "n√∫mero de habitaciones", tambi√©n tiene informaci√≥n sobre el "barrio":

In [3]:
datos = [
    {'precio': 675000, 'habitaciones': 4, 'barrio': 'Barrio A'},
    {'precio': 745000, 'habitaciones': 3, 'barrio': 'Barrio B'},
    {'precio': 375000, 'habitaciones': 3, 'barrio': 'Barrio C'},
    {'precio': 458000, 'habitaciones': 4, 'barrio': 'Barrio D'}
]

Se puede tener la tentaci√≥n de codificar estos datos con un mapeo num√©rico directo: Barrio A = 1, Barrio B = 2, Barrio C = 3, Barrio D = 4. 

Esto puede derivar en un problema si las caracter√≠sticas num√©ricas se entienden como cantidades algebraicas: Por ejemplo, Barrio C > Barrio A, y esto no tiene sentido.

En este caso, una t√©cnica utilizada es el One-hot encoding. Esta t√©cnica crea columnas adicionales que indican la presencia o ausencia de una categor√≠a con un valor de 1 o 0.

In [4]:
from sklearn.feature_extraction import DictVectorizer
vector = DictVectorizer(sparse=False, dtype=int)
vector.fit_transform(datos)

array([[     1,      0,      0,      0,      4, 675000],
       [     0,      1,      0,      0,      3, 745000],
       [     0,      0,      1,      0,      3, 375000],
       [     0,      0,      0,      1,      4, 458000]])

<h2>Atributos en texto</h2>

A veces hay que convertir el texto en un conjunto de valores num√©ricos representativos. Por ejemplo, la mayor parte de la miner√≠a autom√°tica de datos de RRSS se basa en alguna forma de codificar el texto como n√∫meros. Uno de los m√©todos m√°s sencillos de codificaci√≥n de datos es el recuento de palabras: se toma cada fragmento de texto, se cuentan las apariciones de cada palabra en √©l y se colocan los resultados en una tabla.

In [12]:
textos = ['Caliente es a fr√≠o como luz a la oscuridad',
          'Calzado es al pie como guante es a mano',
          'Capit√°n es a barco como alcalde es a ciudad']

Para una vectorizaci√≥n de estos datos basada en el recuento de palabras, se podr√≠a construir una columna que represente la palabra "Caliente", la palabra "Guante", la palabra "Alcalde", etc√©tera. Este tedioso trabajo se puede hacer con <em>CountVectorizer</em> de Scikit-Learn:

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

vector = CountVectorizer()
rtdo = vector.fit_transform(textos)
rtdo

<3x16 sparse matrix of type '<class 'numpy.int64'>'
	with 20 stored elements in Compressed Sparse Row format>

El resultado del siguiente c√≥digo es una matriz ue registra el n√∫mero de veces que aparece cada palabra:

In [14]:
import pandas as pd
pd.DataFrame(rtdo.toarray(), columns=vector.get_feature_names())

Unnamed: 0,al,alcalde,barco,caliente,calzado,capit√°n,ciudad,como,es,fr√≠o,guante,la,luz,mano,oscuridad,pie
0,0,0,0,1,0,0,0,1,1,1,0,1,1,0,1,0
1,1,0,0,0,1,0,0,1,2,0,1,0,0,1,0,1
2,0,1,1,0,0,1,1,1,2,0,0,0,0,0,0,0


<h2>¬°¬°¬°Salud e Inteligencia Artificial!!! üí™üí™üí™</h2>