# Preparación y pre-procesamiento de datos

Los datos son la columna vertebral del *machine learning*. No puede existir aprendizaje si no existen **suficientes datos**, puesto que los algoritmos de *machine learning* no son capaces de generalizar los resultados: sólo aprenden un determinado patrón de todos los existentes. Esto se debe a la propia naturaleza del aprendizaje. Imaginemos, por ejemplo, que un niño pequeño ha visto únicamente 5 vehículos a motor en toda su vida. Es altamente probable que el niño sea capaza de identificar qué es un vehículo a motor, pero, por el contrario, le resultaría imposible diferenciar entre los distintos tipos de vehículos a motor que existen (coche, camiones, autobuses, motocicletas, etc.). Disponer de la cantidad de datos adecuada es, por tanto, esencial para los científicos de datos.

En cualquier caso, existen situaciones en las que, teniendo una gran cantidad de datos, estos no son adecuados para el *machine learning*. Si los datos no son representativos o si los datos están **sesgados** (*biased*, en inglés) no es posible aprender correctamente a partir de los mismos. Ilustremos este problema con un par de ejemplos:

- No es posible predecir de forma precisa qué canción le interesará a una persona mayor en un servicio de música bajo demanda si todos los demás usuarios del servicio son personas jóvenes. En este caso, los datos están sesgados hacia las preferencias de las personas jóvenes. Sin embargo, para este caso particular, los algoritmos de *machine learning* serán capaces de realizar recomendaciones muy certeras a las personas jóvenes. 

- Si le proporcionamos a nuestro algoritmo suficientes imágenes de perros y gatos, conseguiremos ser capaces de distinguir entre estos dos animales, pero será imposible que ese mismo algoritmo diference un león de un elefante. Del mismo modo, si todas las imágenes de perros que le pasamos son de *pastores alemanes*, el algoritmo tendrá grandes dificultades para reconocer que un *caniche* o un *carlino* son perros. En todos estos casos, los datos están sesgados hacia un tipo concreto de animal, bien sea los perros y gatos frente a otros animales o los *pastores alemanes* frente a otras razas de perro.

Del mismo modo, aún teniendo suficientes datos y no estando estos sesgados, es posible encontrar datos que no tienen la **calidad** requerida para que los algoritmos de *machine learning* sean capaces de aprende. Algunos casos típicos de datos con poca calidad son:

- Datos incompletos: personas que no rellenan el campo edad, códigos postales incompletos en formularios, etc.

- Anomalías (*outlaiers*, en inglés): datos incorrectos provenientes de errores humanos, sensores averiados, fallos informáticos, etc.

- Inconsistencias o datos incorrectos: direcciones de correo electrónico sin el símbolo @, direcciones postales sin el número de la calle, etc.

Por último, es importante reseñar, que datos irrelevantes pueden arruinar el proceso del *machine learning*. Para lograr unos resultados relevantes, es fundamental disponer de unos datos **relevantes**. Es imposible predecir la venta de pañales basándonos en la climatología, al igual que es imposible predecir una cardiopatía empleando datos psicológicos.

Resumiendo, para lograr que un algoritmo de *machine learning* sea capaz de extraer conocimiento de un conjunto de datos es fundamental que los datos sean: suficientes, no-sesgados, de calidad y representativos. La ausencia de cualquiera de estas características desembocará en la imposibilidad de aprender patrones generalistas de los datos analizados. Con frecuencia, al *machine learning* se le conoce como *learning from data* (aprendizaje desde los datos) ya que no se posible extraer conocimiento si este no existe en los propios datos.

## Tipos de datos

Cuando se habla de tipos de datos en el ámbito del *machine learning* es habitual realizar una distinción entre **datos estructurados** y **datos no estructurados**. Los primeros, hacen referencia a aquellos datos en los que es sencillo determinar el significado intrínseco de un dato. Por ejemplo, cuando trabajamos con datos biométricos, si un sensor nos proporcional las pulsaciones por minuto de una persona, se sabe de forma univoca a qué hace referencia ese dato y que si está por encima de 120 o por debajo de 40 es un valor anómalo. Del mismo modo, si un usuario indica que le gusta un video de youtube podemos estar seguro de que al usuario le interesa dicho video. Por el contrario, en los datos no estructurados es extremadamente complejo conocer el significado del dato que se está tratando. En el ejemplo anterior, si el usuario en lugar de indicar que le ha gustado un video escribe una reseña positiva del mismo, para un algoritmo de *machine learning* es sumamente complicado conocer si la reseña es positiva o negativa debido a la naturaleza desestructurada del lenguaje natural. Además del texto, las imágenes, los vídeos o los sonidos son tipos de datos que suelen considerarse como no estructurados.

En los inicios del *machine learning*, la inmensa mayoría de los algoritmos eran capaces de trabajar únicamente con datos estructurados. Sin embargo, en los últimos años se han producido enormes progresos en el tratamiento de datos no estructurados, gracias, principalmente, al auge del *Deep Learning*.

La siguiente imagen muestra la identificación de objetos a partir de una fotografía de la calle:

![Reconocimiento de objetos](https://drive.google.com/uc?export=view&id=1FWA0TmH9yIQSgpdt7KGbN2_sCfIC4yKl)

El siguiente fragmento del texto es una reseña de una cerveza escrita por un algoritmo de *machine learning* (que nunca ha probado cerveza):

> *The smell is creamy, malty and woody, not much presence. The taste is dark fruits, and floral hops before its a strong destroy from the mouth as it warms up.*

El siguiente vídeo muestra una canción completamente generada por un ordenador:

[![Música generada por computador](https://img.youtube.com/vi/Ir_AFDKOc-I/0.jpg)](https://www.youtube.com/watch?v=Ir_AFDKOc-I)

Independientemente del tipo de datos que empleemos y del algoritmo que les sea aplicado, cuando trabajamos en *machine learning* es fundamente realizar un pre-procesamiento de los datos. Este pre-procesamiento permite preparar los datos para que puedan ser interpretados por los algoritmos de *machine learning*.

En este documento estudiaremos cómo trabajar con los siguientes tipos de datos: datos continuos, datos discretos, textos e imágenes.

Durante este documento se mostrarán ejemplos prácticos, en Python, de los conceptos enseñados. Para ello, haremos uso de dos librerías que nos van a facilitar enormemente esta tarea: NumPy ([https://numpy.org/](https://numpy.org/)), una librería fundamental de Python para la computación científica que incorpora, principalmente, un objeto para trabajar de forma sencilla con arrays N-dimensionales; y scikit-learn ([https://scikit-learn.org/](https://scikit-learn.org/stable/)), una librería de Python que incorpora herramientas simples y eficaces para el minado y análisis de datos.

Ambas librería pueden importarse al proyecto del siguiente modo:


In [0]:
import sklearn
import numpy as np

## Conceptos previos

Antes de comenzar a analizar cada tipo de datos, debemos entender qué espera recibir como entrada un algoritmo de *machine learning*. Generalmente, los algoritmos de *machine learning* reciben como entrada una matriz (array) de datos en el que las filas representan las muestras tomadas (*samples*, en ingles) y las columnas representan las diferentes características (*features*, en inglés) de cada muestra.

Veamos un ejemplo. La siguiente tabla muestra los datos de los salarios de jugadores de fútbol en función de la posición que ocupan y el club en el que jugan:

| Club | Posición | Salario |
| :------: | :------: | :------: |
| Real Madrid | delantero | 14.000.000 € / anuales |
| Barcelona | defensa | 9.000.000 € / anuales |
| Atlético de Madrid | centrocampista | 7.000.000 € / anuales |
| Valencia | portero | 3.000.000 € / anuales |

Cada una de las filas, a excepción de la cabecera, son las muestras de las que se dispone. Estas muestras son la cantidad de observaciones que tenemos y van a definir el número de datos del que diponemos, en este caso, 4. El club, la posición y el salario son las características de cada muestra.

Un problema típico de *machine learning* sería predecir el salario de un jugador en base a su posición y club. En ese caso, a las columnas de Club y Posición se las suele representar con $X$, siendo $X1$ el Club y $X2$ la Posición. Por el contrario, a la columna Salario, que es la que se quiere predecir, se la representa con $y$.

Utilizando *NumPy* podemos almacenar los datos del siguiente modo:

In [0]:
X = np.array([['Real Madrid',        'delantero'     ],
              ['Barcelona',          'defensa'       ],
              ['Atlético de Madrid', 'centrocampista'],
              ['Valencia',           'portero'       ]])
print(X)

[['Real Madrid' 'delantero']
 ['Barcelona' 'defensa']
 ['Atlético de Madrid' 'centrocampista']
 ['Valencia' 'portero']]


In [0]:
Y = np.array([14000000, 9000000, 7000000, 3000000])
print(Y)

[14000000  9000000  7000000  3000000]


## Datos continuos

Entendemos por datos continuos a aquellos datos numéricos que pueden tomar cualquier valor (real) en un rango preestablecido. Algunos ejemplos de datos contínuos son:

- La *altura de una persona* puede ser cualquier valor decimal comprendido entre 0 e $\infty$.
- La *distancia entre dos ciudades* puede ser cualquier valor decimal comprendido entre 0 e $\infty$.
- La *temperatura de una ciudad* puede ser cualqueir valor decimal comprendido entre $-\infty$ y $\infty$.

Los datos continuos son los más habituales dentro del ecosistema del *machine learning* por lo que el correcto tratamiento de estos es fundamental para alcanzar los resultados esperados. El principal problema de este tipo de datos es que no disponen de una escala homogénea, por lo que, cada dato, se mueve en un rango diferente al del resto, lo que dificulta enormemente el aprendizaje a partir de los mismos.

Generalmente, a los datos continuos se les realiza un proceso de estandarización o normalización con el fin de acotarlos a un rango de valores que permita compararlos entre si independientemente de su naturaleza.

La **estandarización** es el proceso a partir del cual un conjunto de datos que siguen una distribución normal, hecho que sucede con la mayoría de datos empleados en *machine learning*, son transformados a una distribución normal con media 0 y desviación típica 1. Para ello, se realiza la siguiente operación:

$x^\prime_i = \frac{x_i - \mu}{\sigma}$

Donde $x_i$ es el dato que queremos estandarizar, $\mu$ es el valor medio de todos los datos y $\sigma$ es la desviación típica de todos los datos.

Ilustremos esto con un ejemplo. Asumamos que tenemos la siguiente matriz de datos en la que las filas son las muestras y las columnas las características:


In [0]:
X = np.array([[ 1., -1.,  2.],
              [ 2.,  0.,  0.],
              [ 0.,  1., -1.]])

Podemos emplear la función [preprocessing.scale](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html#sklearn.preprocessing.scale) para estandarizar las características (i.e. las columnas):

In [0]:
from sklearn import preprocessing

In [0]:
X_scaled = sklearn.preprocessing.scale(X)
print(X_scaled)

[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]


Como vemos, los datos han sido transformados a unos nuevos estandarizados. Si analizamos la media y desviación típica de estos datos observamos lo siguiente:

In [0]:
X_scaled.mean(axis=0)

array([0., 0., 0.])

In [0]:
X_scaled.std(axis=0)

array([1., 1., 1.])

La media de cada característica ha sido centrada en el 0 y la desviación típica puesta en 1. Si comparamos esto con los datos sin estandarizar vemos la diferencia:

In [0]:
X.mean(axis=0)

array([1.        , 0.        , 0.33333333])

In [0]:
X.std(axis=0)

array([0.81649658, 0.81649658, 1.24721913])

Podemos observar cómo se han modificado los datos para que todos ellos sigan una distribución normal de media 0 y desviación típica 1.

Existe otra alternativa para la estandarización de las características que consiste en ajustarlas en un rango predefinido, generalmente en el rango $[0, 1]$. Usualmente se utiliza cuando se tienen datos con una desviación típica muy pequeña.

Para la realización de este escalado usaremos la función [preprocessing.MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler). Si queremos normalizar en la escala $[0, 1]$ usaremos:



In [0]:
min_max_scaler = sklearn.preprocessing.MinMaxScaler()
X_scaled = min_max_scaler.fit_transform(X)
print(X_scaled)

[[0.5        0.         1.        ]
 [1.         0.5        0.33333333]
 [0.         1.         0.        ]]


Si queremos emplear otro rango simplemente debemos indicar, mediante una dupla, la escala deseada en el constructor del objeto:

In [0]:
min_max_scaler = sklearn.preprocessing.MinMaxScaler((1,5)) # escala [1, 5]
X_scaled = min_max_scaler.fit_transform(X)
print(X_scaled)

[[3.         1.         5.        ]
 [5.         3.         2.33333333]
 [1.         5.         1.        ]]


Otra transformación habitual para este tipo de datos es la conocida como **normalización**. La normalización es el proceso de escalar cada muestra individual para que tengan la norma unitaria. Dicho de otro modo, si asumimos cada muestra como un vector *n*-dimensional (*n* es el número de características), mediante la normalización logramos que estos vectores tengan dimensión 1.

Para ello, existen tres normas:

- *L1*, se normaliza mediante la suma de los valores absolutos de sus componentes.
- *L2*, se normaliza mediante la raíz cuadrada de la suma de sus componentes al cuadrado.
- *max*, se normaliza mediante elemento mayor de sus componentes.

Por ejemplo, si tenemos el vector $X = [-3, 4]$ obtendríamos:

- *L1*: la norma se calcula como $|-3| + |4| = 7$ y el vector quedaría $X^\prime = [-0.43, 0.57]$.
- *L2*: la norma se calcula como $\sqrt{(-3)^2 + 4^2} = \sqrt{9+16} = \sqrt{25} = 5$ y el vector quedaría $X^\prime = [-0.12, 0.16]$.
- *max*: la norma sería $4$ y el vector quedaría $X^\prime = [-0.75, 1]$.

La más utilizada es la norma L2 y suele aplicarse cuando el algoritmo seleccionado utiliza una forma cuadrática como, por ejemplo, el producto escalar, para calcular la similaridad entre cada par de muestras.

Para la normalización utilizaremos [preprocessing.normalize](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html#sklearn.preprocessing.normalize):



In [0]:
X_normalized_l1 = sklearn.preprocessing.normalize(X, norm='l1')
print(X_normalized_l1)


[[ 0.25 -0.25  0.5 ]
 [ 1.    0.    0.  ]
 [ 0.    0.5  -0.5 ]]


In [0]:
X_normalized_l2 = sklearn.preprocessing.normalize(X, norm='l2')
print(X_normalized_l2)

[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]


In [0]:
X_normalized_max = sklearn.preprocessing.normalize(X, norm='max')
print(X_normalized_max)

[[ 0.5 -0.5  1. ]
 [ 1.   0.   0. ]
 [ 0.   1.  -1. ]]


## Datos discretos

Entendemos por datos discretos a aquellos tipos de datos que sólo pueden tomar un valor prefijado entre un conjunto finito o infinito de valores. Algunos ejemplos de datos discretos son:

- En el *método de pago de una compra online* hay que elegir entre pago contra-reembolso, pago con tarjeta, pago por trasferencia o pago con PayPal.
- La *edad de una persona* puede tomar valores 0, 1, 2, 3... hasta infinito. Aunque el conjunto de valores no esté acotado superiormente, estos datos son discreto, ya que la edad de una persona no se mide en número decimales.
- La *valoración de un usuario a un video de youtube* se mide en me gusta o no me gusta.

Este tipo de datos, especialmente cuando no son numéricos, suelen ser problemáticos para la gran mayoría de algoritmos de *machine learning*. Casi todos los algoritmos se fundamentan en expresiones matemáticas que requieren operar con las características de las muestras. Por lo tanto, cuando se quiere realizar el producto de un datos que representa a un "*hombre*"* con uno que representa a una "*mujer*" sencillamente es imposible, ya que existen operaciones matemáticas definidas para esos valores.

Para solventar este problema se utiliza una técnica denominada como *OneHotEncoding* que consisten en dividir una característica en tantas características como posibles valores pueda tomar la característica original y asignar el valor 0 ó 1 a cada una de estas nuevas características en función del valor de la original.

Veamos esto con un ejemplo. Supongamos que tenemos las siguientes muestras:

| Nombre | Sexo |
| :---: | :---: |
| Alice | mujer |
| Bob | hombre |
| Carl | hombre |
| Denna | mujer |

La características *Sexo* se divide en las características *Hombre*  y *Mujer* que tomarán los siguientes valores:

| Nombre | Hombre | Mujer |
| :---: | :---: | :---: |
| Alice | 0 | 1 |
| Bob | 1 | 0 |
| Carl | 1 | 0 |
| Denna | 0 | 1 |

Como vemos, las nuevas características toman el valor 1 en la columna que coincide con el valor de la característica original.

Esta codificación puede llevarse a cabo empleando el objeto [preprocessing.OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder).

Cargamos la característica anterior en un array de *NumPy*:

In [0]:
X = np.array([['mujer' ],
              ['hombre'],
              ['hombre'],
              ['mujer' ]])

Y aplicamos la transformación:

In [0]:
one_hot_encoder = sklearn.preprocessing.OneHotEncoder()
one_hot_encoder.fit(X)
X_transform = one_hot_encoder.transform(X).toarray()
print(X_transform)

[[0. 1.]
 [1. 0.]
 [1. 0.]
 [0. 1.]]


## Conjuntos de datos con tipos mixtos

Anteriormente hemos analizado cómo transformar datos continuos y datos discretos para poder ser utilizados por los algoritmos de *machine learning*. Cuando trabajamos en problema reales, normalmente encontramos conjuntos de datos (*datasets*, en inglés) que poseen características tanto discretas como continuas. En los ejemplos visto anteriormente, sólo podemos aplicar la transformación si todas las características del *dataset* son de idéntico tipo y si a todas las características del *datasets* queremos aplicarles el mismo pre-procesamiento.

Para poder aplicar una transformación a cada una de las características de nuestro *dataset* debemos utilizar el objeto [compose.ColumTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html). Veamos cómo.


Lo primero que debemos hacer es importar el modulo *compose* de *sklearn*:

In [0]:
import sklearn.compose

Supongamos ahora que tenemos el siguiente conjunto de datos:

| id | nombre | altura | peso | sexo |
| :-: | :-: | :-: | :-: | :-: |
| 1 | Alice | 160 | 59 | mujer |
| 2 | Bob | 200 | 98 | hombre |
| 3 | Carl | 175 | 63 | hombre |
| 4 | Denna | 150 | 47 | mujer |

Como observamos, tenemos columnas con datos discretos (*nombre* y *sexo*) y otras con datos continuos (*altura* y *peso*). Queremos aplicar la siguiente transformación:

- Descartar la columna *id*.
- Mantener inalterada la columna *nombre*.
- Aplicar estandarización a la columna *altura*.
- Re-escalar la columna *peso* a escala 0, 1.
- Aplicar *one-hot-encoding* a la columna *sexo*.

El parámetro *transformers* permite determinar el tipo de transformación aplicado a cada columna. Para ello, mediante un array de tuplas, indicaremos:

- El nombre de la transformación.
- La transformación que queremos realizar o *'drop'* si queremos descartar la columna o *'passthroug'* si no queremos alterar la columna.
- El índice de la columna o los índices de las columnas que se ven afectadas.

Definimos, por tanto, nuestro *dataset*:

In [0]:
X = np.array([[1, "Alice", 160, 59, 'mujer'],
              [2, "Bob",   200, 98, 'hombre'],
              [3, "Carl",  175, 63, 'hombre'],
              [4, "Denna", 150, 47, 'mujer']]);

Definimos la transformación:

In [0]:
column_transformer = sklearn.compose.ColumnTransformer(transformers=[
    ("drop", "drop", [0]),
    ("passthrough", "passthrough", [1]),
    ("scale", sklearn.preprocessing.StandardScaler(), [2]),
    ("min-max", sklearn.preprocessing.MinMaxScaler(), [3]),
    ("one-hot", sklearn.preprocessing.OneHotEncoder(), [4])
]);

Aplicamos la transformación:

In [0]:
X_transform = column_transformer.fit_transform(X)
print(X_transform)

[['Alice' '-0.5973509804399748' '0.23529411764705876' '0.0' '1.0']
 ['Bob' '1.5265636166799355' '1.0' '1.0' '0.0']
 ['Carl' '0.1991169934799916' '0.31372549019607854' '1.0' '0.0']
 ['Denna' '-1.1283296297199523' '0.0' '0.0' '1.0']]


## Textos

Cuando los datos de entrada de nuestro algoritmo de *machine learning* son textos, tenemos un problema similar al que sucedía cuando los datos de entrada eran variables discretas: los algoritmos de *machine learning* funcionan a partir de operaciones matemáticas que no pueden operar con textos. No existe denidida ninguna operación matemática que puede combinar las palabras *"hola"* y *"adiós"*. Por tanto, para poder emplear textos definidos en lenguaje natural, independientemente del idioma empleado, necesitamos transformar esos textos en vectores numéricos que los representen.

La técnica más conocida para hacer esta transformación se denomina ***bag of words***. Veamos cómo funciona con un ejemplo. Supongamos que tenemos el siguiente texto:

> "*El miedo es el camino hacia el lado oscuro, el miedo lleva a la ira, la ira lleva al odio, el odio lleva al sufrimiento, el sufrimiento al lado oscuro.*"

El primer paso que debemos realizar es el que conocemos como ***tokenizacion***, que consiste en trasformar el texto anterior en un array de palabras. Es decir, vamos a separar cada una de las palabras que conforman la frase anterior empleando como separador los espacios y signos de puntuación. Por tanto, obtendríamos la siguiente lista de *tokens*:


`['El', 'miedo', 'es', 'el', 'camino', 'hacia', 'el', 'lado', 'oscuro', 'el', 'miedo', 'lleva', 'a', 'la', 'ira', 'la', 'ira', 'lleva', 'al', 'odio', 'el', 'odio', 'lleva', 'al', 'sufrimiento', 'el', 'sufrimiento', 'al', 'lado', 'oscuro']`

Ahora vamos a homogeneizar nuestro texto transformando todas las palabras a minúsculas:

`['el', 'miedo', 'es', 'el', 'camino', 'hacia', 'el', 'lado', 'oscuro', 'el', 'miedo', 'lleva', 'a', 'la', 'ira', 'la', 'ira', 'lleva', 'al', 'odio', 'el', 'odio', 'lleva', 'al', 'sufrimiento', 'el', 'sufrimiento', 'al', 'lado', 'oscuro']`

A partir de la lista anterior podemos construir un diccionario que contiene todas las palabras que están definidas en nuestro vocabulario. Entendemos como "nuestro vocabulario" a las palabras que aparecen en los textos que estamos analizando. El algoritmo de *machine learning* no necesita conocer si esa palabra pertenece o no al Diccionario de la Real Academia de la Lengua Española (o su equivalente en otros idiomas). Así pues, analizando los *tokens* anteriores construiremos el siguiente diccionario:

`['el', 'miedo', 'es', 'camino', 'hacia', 'lado', 'oscuro', 'lleva', 'a', 'la', 'ira', 'odio', 'sufrimiento']`

Por último, transformar el texto original en un vector numérico de tal forma que las posiciones del vector representan las posiciones de las palabras del diccionario y los valores del vector representa el número de apariciones de la palabra del diccionario en el texto analizado. Nuestro texto quedaría, por tanto, definido por el siguiente vector:

`[6, 2, 1, 1, 1, 2, 2, 3, 1, 2, 2, 2, 2]`

Analizándolo vemos que la palabra *'el'* se repite 6 veces, la palabra *'miedo'* 2, la palabra *'es'* 1, y así sucesivamente.

*sklearn* nos da soporte para transformar textos en su presentanción mediante *bag of words*. Para ello emplearemos el objeto [feature_extraction.text.CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer) del siguiente modo.

Primero, importamos el módulo y definimos nuestro objeto:

In [0]:
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()

A continuación, aplicamos la transformación a nuestro texto de ejemplo. En este caso, *CountVectorizer* está esperando una secuencia de textos, a la que se denomina ***corpus***, por lo que debemos declarar nuestro texto dentro de un array de 1 elemento.

In [0]:
corpus = [
    "El miedo es el camino hacia el lado oscuro, el miedo lleva a la ira, la ira lleva al odio, el odio lleva al sufrimiento, el sufrimiento al lado oscuro."
]

X = count_vectorizer.fit_transform(corpus)

print(X.toarray())


[[3 1 6 1 1 2 2 2 3 2 2 2 2]]


Podemos analizar qué palabra corresponden a cada posición de este array:

In [0]:
print(count_vectorizer.get_feature_names())

['al', 'camino', 'el', 'es', 'hacia', 'ira', 'la', 'lado', 'lleva', 'miedo', 'odio', 'oscuro', 'sufrimiento']


Llegados a este punto es importante resaltar que *sklearn* almacena los vectores en una matriz dispersa que proporciona *NumPy*. Esto se debe a que, cuando trabajamos con textos, lo normal es que el *corpus* disponga de cientos o miles textos (llamados ***documentos***) sobre los cuales se construye el *diccionario*. Como es lógico, no todos los *documentos* contienen todas las plabras del *diccionario*, por lo que, habitualmente, los vectores de *bag of words* están repletos de valores 0. Esta es una información irrelevante que desperdicia gran cantidad de espacio en memoria, por lo que se alamcena utilizando otro tipo de estrucutras de datos que sólo guarda qué palabras pertenecen a cada documento.

Si analizamos con detalle el vector del texto de ejemplo vemos que las palabras con mayor número de repeticiones son *'el'*, con 6 repeticiones, *'al'*, con 3 repeticiones y *'lleva'* con 3 repeticiones. Esto es un gran problema, puesto que las 2 primeras no aportan ningún significado semántico al texto y provocará que nuestro algoritmo de *machine learning* no sea capaz de extraer conocimiento de *corpus* de documentos.

Para resolver este problema se filtran estas palabras del *corpus* antes de construir el diccionario. A estas palabras, que en realidad son todos los artículos, preposiciones, etc., se las conoce como ***stop words***, y existen listas en diferentes idiomas para realizar este filtrado. Veamos cómo.

Cuando trabajamos con texto es extremadamente útil conocer la librería NLTK ([thttps://www.nltk.org/](https://www.nltk.org/)), ya que incorpora infinidad de herramientas para la manipulación de textos en lenguaje natural. Entre otras funcionalidades, incorpora una lista de *stop words* en diferentes idiomas. Carguemos las *stop words* en español:

In [0]:
import nltk
nltk.download("popular") # required to download the stopwords lists

from nltk.corpus import stopwords

spanish_stopwords = stopwords.words('spanish')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cmudict.zip.
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gazetteers.zip.
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/genesis.zip.
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gutenberg.zip.
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/inaugural.zip.
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/movie_reviews.zip.
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/names.zip.
[nltk_data]    | Downloading package shakespeare to /root/nltk_data...
[nlt

Las visualizamos:

In [0]:
print(spanish_stopwords)

['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos', 'estáis', 'están', 'e

Ahora, podemos crearnos una instancia de nuestro *CountVectorizer* que incluya esta lista de *stop words* utilizando el parámetro *stop_words* de su constructor:

In [0]:
count_vectorizer = CountVectorizer(stop_words = spanish_stopwords)

Y repetimos el proceso anterior:

In [0]:
corpus = [
    "El miedo es el camino hacia el lado oscuro, el miedo lleva a la ira, la ira lleva al odio, el odio lleva al sufrimiento, el sufrimiento al lado oscuro."
]

X = count_vectorizer.fit_transform(corpus)

print(X.toarray())

[[1 1 2 2 3 2 2 2 2]]


Si analizamos las palabras del diccionario vemos que no hay ni rastro de las *stop words*:

In [0]:
print(count_vectorizer.get_feature_names())

['camino', 'hacia', 'ira', 'lado', 'lleva', 'miedo', 'odio', 'oscuro', 'sufrimiento']


Aunque llegados a este punto ya tenemos una buena representación vectorial de nuestros textos, aún existe un problema: la representación creada no está normalizada. Esta no-normalización plantea básicamente dos problemas:

- A nivel de *documento* (las filas de nuestra matriz de datos) cada uno lleva una escala completamente libre y hace que sea imposible compararlos entre si. Un texto más largo tendrá contadores con valores más grandes que un texto más corto. En un ejemplo llevado al extremo podemos comparar un tweet con la noticia que enlaza ese tweet. Ambos documentos versarán sobre el mismo tema, pero no pueden compararse debido a la volumetría de ambos.

- A nivel de *palabras* es complicado comparar cuáles son más relevante y cuáles menos para un *corpus* concreto. Ya hemos eliminado las *stop words*, pero, en función del sesgo de nuestro *corpus* existen palabras que no aportan demasiada información y, por lo tanto, su incidencia en nuestro algoritmo de *machine learning* debería ser menor. Por ejemplo, imaginemos que tenemos un *corpus* de documentos hablando únicamente de los equipos de la Liga de Fútbol Profesional. En este corpus la palabra *'fútbol'* es completamente irrelevante, ya que todos los documentos hablan de ella. Por contra, palabras como *'lesión'* o *'fichaje'* son muy relevante porque permiten subclasificar los documentos. Sin embargo, si nuestro *corpus* está formado por noticias de todo tipo, la palabra *'fútbol'* es muy relevante ya que identifica un tipo de noticias.

Para resolver este problema se emplea una normalización denominada **tf-idf** (*term-frecuency times inverse document-frecuency*). Ésta viene definida por la siguiente ecuación:

$\textrm{tf-idf}(t, d) = tf(t, d) \times idf(t)$

siendo $tf(t, d)$ el número de veces que aparece el término (palabra) $t$ en el documento $d$ y definiéndose $idf(t)$ como:

$idf(t) = log \frac{1 + n}{1 + df(t)} + 1$

siendo $n$ el número de documentos de nuestro *corpus* y $d(t)$ el número de documentos en los que aparece el término $t$.

Posteriormente, los vectores son normalizados a nivel de documento (el modulo del vector de cada documento vale 1).

Analizando estas ecuaciones observamos que *tf-idf* observamos que, aquellas palabras que tengan menos frecuencia de aparición serán más relevante que aquellas que aparezcan en más documentos.

Esta transformación puede realizarse mediante el objeto [TfidfTransformer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer).

Para ver su funcionamiento, vamos a construir un *corpus* con varios documentos:

In [0]:
corpus = [
    "Este es el primer documento.",
    "Este documento es el segundo documento.",
    "Y este es el tercero",
    "¿Es este el primer documento? No."
]

Aplicando el proceso anterior obtenemos los siguientes vectores:

In [0]:
X = count_vectorizer.fit_transform(corpus)

print(X.toarray())

[[1 1 0 0]
 [2 0 1 0]
 [0 0 0 1]
 [1 1 0 0]]


Veamos como aplicar ahora *tf-idf*. Cargamos el módulo y creamos el objeto:

In [0]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()

Realizamos la transformación:

In [0]:
counts = X.toarray()
X_transformed = tfidf_transformer.fit_transform(counts)

Analizamos el resultado:

In [0]:
print(X_transformed.toarray())

[[0.62922751 0.77722116 0.         0.        ]
 [0.78722298 0.         0.61666846 0.        ]
 [0.         0.         0.         1.        ]
 [0.62922751 0.77722116 0.         0.        ]]


## Imágenes

Cuando trabajamos con imágenes vuelva a surgir la necesidad de transformar los datos de la imagen en una interpretación matemática válida a ingerir por los algoritmos de *machine learning*. A diferencia de lo que sucedía con los datos discretos y los textos, en este caso, el tratamiento es más trivial debido a la propia naturaleza de las imágenes en un ordenador.

Una imagen, por compleja que sea, está siempre compuesta por pixeles. Los píxeles se agrupan formando una matriz que define el tamaño de la imagen. Cuantas más filas y columnas tenga esa matriz, más resolución tendrá la imagen. A continuación, se muestra una imagen de 55x55 píxeles:

![Imagen pixelada](https://drive.google.com/uc?export=view&id=1B6Z7foIjSYXdu2INvBlmxht3ou65h_N2)

Cuando se trabaja con imágenes, generalmente, se distinguen dos tipos de imágenes: las imágenes en blanco y negro (o escala de grises) y las imágenes a color (o RGB). Las primeras definen el color de cada uno de sus pixeles mediante un número de 0 a 255 que indica la cantidad de blanco que posee dicho píxel: el valor 0 se corresponden con la ausencia de blanco (negro) y el valor 255 se corresponde con el negro total. Los valores intermedios permiten definir los diferentes tonos de gris existentes. Esta sería la imagen anterior en escala de grises:

![Imagen pixelada en escala de grises](https://drive.google.com/uc?export=view&id=1oLBS16EEwI5opnKiXCXkaPfG3vqkWsP0)

Por su parte, las segundas consiguen generar el color mediante la adición de tres componentes lumínicos: el componente rojo, el componente azul y el componente verde. Es por esto por lo que a estas imágenes se las conoce como RGB (del inglés, *Red-Green-Blue*). Mediante la combinación de estos tres componentes puede conseguirse representar cualquier color. Por tanto, cuando definamos una imagen en color, cada píxel vendrá definido por tres valores: la cantidad de rojo, la cantidad de verde y la cantidad de azul de píxel. Todos ellos, al igual que las imágenes en escala de grises, vendrán definidos con un valor numérico de 0 a 255, siendo 0 la ausencia del componente y 255 la totalidad del componente. Las siguientes imágenes muestran la imagen original separando cada uno de sus canales de RGB:

![Imagen pixelada separa por componentes RGB](https://drive.google.com/uc?export=view&id=1lSeyP8Otwlzv-MdnjVbC-LW_HWBLAGNM)

Debido esta representación de las imágenes, para los algoritmos de *machine learning* es bastante sencillo emplearlas como datos de entrada. Aunque, evidentemente, no es sencillo obtener información relevante de las mismas. Cuando queramos emplear imágenes en nuestro algoritmo simplemente debemos transformar las imágenes a su representación matricial.

Para facilitar esta tarea disponemos de la librería *sklear-image* ([https://scikit-image.org/](https://scikit-image.org/)). Con ella nos resulta sencillo convertir imágenes en escala de grises o a color en arrays de *NumPy* que pueden ser pasados como datos a un algoritmo de *machine learning*.



Para poder cargar imágenes desde ficheros o direcciones de internet debemos importar el módulo *io* de dicha librería:

In [0]:
from skimage import io

A continuación, vamos a cargar la siguiente imagen de 15x15 píxeles y ver su representación:

![Número dos](https://drive.google.com/uc?export=view&id=1f5YvGRb6Eoq1czyHWzGc2L86pNa13tWB)


In [0]:
image = io.imread('https://drive.google.com/uc?export=view&id=1pB_Ju0xyV7s2usfpiEyGF_bOWSSn9Ze7')

print(image.shape)
print(image)

(15, 15)
[[255 253 255 254 255 255 253 255 255 254 255 253 253 255 254]
 [253 255 252 255 255 135  18   2   1  50 186 255 255 252 255]
 [255 249 255 255 119   2 135 253 238  69   1 172 253 253 254]
 [253 255 254 220   0 134 255 255 255 253  36  85 255 253 255]
 [254 255 252 150   3 220 254 255 255 255 100  31 255 255 255]
 [255 250 255 254 255 255 254 254 253 255  86  52 253 254 255]
 [254 255 255 254 254 255 254 255 255 180   0 141 251 255 253]
 [255 255 251 255 253 255 254 255 134   2 104 251 255 255 255]
 [254 254 255 252 255 255 201  51   0 135 255 255 253 255 251]
 [255 255 252 255 254 134   0  84 236 255 252 254 254 254 255]
 [253 255 255 248 142  16 187 255 255 255 254 255 255 253 254]
 [254 255 254 189   0 189 254 255 253 255 255 250 253 255 255]
 [253 254 255 102  50 255 254 252 254 255 251 255 255 255 252]
 [255 254 252  70   1   0   1   3   4   0   0  70 253 255 255]
 [254 254 255 254 255 254 254 254 254 255 255 254 255 250 255]]


Observamos que se ha construido una matriz de 15x15 píxeles es escala de grises y que, los píxeles que conforman el número 2, toman valores más bajos por ser de color negro.

Ahora bien, si en lugar de cargar la imagen anterior cargamos la siguiente imagen RGB de 15x15 píxeles:

![Número ocho](https://drive.google.com/uc?export=view&id=1Wk5rLjzPmFlcvzFVfe0hT502mhboJnj1)


In [0]:
image = io.imread('https://drive.google.com/uc?export=view&id=10o0eMYMCVLRQT4ZLnNKW9gTzhylbA1hP')

print(image.shape)

print(image[:,:,0]) # red

print(image[:,:,1]) # green

print(image[:,:,2]) # blue

(15, 15, 3)
[[  4   4   2   0   0   7   0   0   1   0   2   0   0  11   0]
 [  3   0   0   3   4 179 244 255 255 215 109   1   2   0   5]
 [  0   6   0   3 205 246 112   2   0 179 255  87   0   0   0]
 [  0   0   8  66 250 119   0   0   4   4 228 150   2   0   4]
 [  2   0   4  51 255 124   0  10   0   3 242 158   1   0   0]
 [  0  10   0   0 182 232 107   9   0 179 240  75   0   3   0]
 [  1   0   2   6  38 224 253 255 253 255 132   2   0   1   2]
 [  0   1   0   0 224 216  82   0   0 185 250 119  15   0   0]
 [ 11   0   0 140 255  67   2   0   0   0 190 231   1   0   0]
 [  4   0   1 166 213   8   0   4   7   0 145 255  64   2   0]
 [  4   0   0 171 215   0   7   0   0   0 139 255  39   8   0]
 [  0   0  10 135 255  88   1   0   1   8 203 226   0   0   8]
 [  0   3   1   0 205 225 145   0   1 183 248 104   5   0   0]
 [  5   0   0   0   4 171 241 255 254 209 110   4   0   6   0]
 [  5   0   0   0   0   3   0   0   7   0   0  10   0   4   0]]
[[250 255 253 255 255 253 255 255 255 255 

Se observan perfectamente los tres componentes de la imagen que definen el número 8 y el fondo de esta.

Aunque en este bloque hemos visto una muestra muy simple de cómo podemos trabajar con imágenes, el uso de imágenes en *machine learning* requiere de mucho más procesamiento. Cuando tratamos con imágenes debemos intentar que todas ellas tengan el mismo tamaño para poder ser comparadas entre sí. Además, es importante que propiedades de las imágenes como la saturación, el balance de blancos o el contraste sean homogéneos para evitar sesgos en el conjunto de datos. Todos estos ajustes pueden realizarse con la librería *sklearn-images*.

---

*Este documento ha sido desarrollado por **Fernando Ortega**. Dpto. Sistemas Informáticos, ETSI de Sistemas Informáticos, Universidad Politécnica de Madrid.*

*Última actualización: Julio de 2019*

<img src="https://drive.google.com/uc?export=view&id=1QuQDHyH_yrRbNt6sGzoZ8YcvFGEGlnWZ" alt="CC BY-NC">