In [2]:
from random import seed
from random import random
from random import randint
from random import gauss
from random import choice
from random import sample
from random import shuffle

import numpy as np

# Introducción 

La aleatoriedad es una gran parte del aprendizaje automático. Es usada como herramienta en la preparación de datos y para a la hora de realizar en el entrenamiento de algoritmos a la hora de realizar predicciones.

Para comprender la necesidad de los métodos estadísticos en el campo del aprendizaje automático, debemos comprender la fuente de aleatoriedad en el aprendizaje automático. Esta fuente es conocida como números pseudo aleatorios.

# Aleatoriedad en el aprendizaje automático

Existen muchas fuentes de aleatoriedad en el aprendizaje automático aplicado. La aleatoriedad es una herramienta que es usada para ayudar a los algoritmos a aprender, a ser más robustos y obtener mejores predicciones y por lo tanto modelos más precisos.

# Aleatoriedad en los datos

Existe un elemento aleatorio en la muestra de datos que hemos recuperado del dominio que usaremos para entrenar nuestro modelo. Los datos pueden tener errores o equivaciones. Más profundamente los datos pueden contener ruido que puede ocultar la relación entre las entradas y las salidas.

# Aleatoriedad en la evaluación de un modelo

No tenemos acceso a todas las observaciones del dominio con el que trabajamos. Trabajamos solo con una pequeña muestra de datos. Por lo tanto, nos aprovechamos de la aleatoriedad cuando evaluamos un modelo, tal como el uso de la validación cruzada para fijar y evaluar el modelo con diferentes subconjuntos de nuestra muestra. Hacemos esto para ver como se comporta nuestro modelo en promedio en lugar de para un conjunto de datos específico.

# Aleatoriedad en algoritmos

Los algoritmos de aprendizaje automático hacen uso de la aleatoriedad cuando aprenden de una muestra de datos. Esto es una característica, donde la aleatoriedad permite que el algoritmo logre un mejor rendimiento en el mapeo de los datos que en el caso de no hacer uso de esta.

La aleatoriedad es una característica, que permite que un algoritmo intente evitar el ajuste excesivo del conjunto de entrenamiento y generalice a un problema más amplio.

Los algoritmos que usan aleatoriedad son a menudo llamados algoritmos estocásticos en lugar de algoritmos aleatorios. Algunos de los ejemplos más claros del uso de aleatoriedad en el aprendizaje automático son:

* La mezcla de datos de entrenamiento en cada una de las épocas de entrenamiento en el algoritmo de descenso de gradiente estocástico.

* El subconjunto de características aleatorias de entrada elegidas para la división en un algoritmo de RandomForest.

* Los pesos iniciales aleatorios en una red neuronal.

# Generador de números Pseudoaleatorios

La fuente de aleatoriedad que existe en nuestros programas y algoritmos se conocida como generador de números pseudoaleatorios. Un generador de números aleatorios es un sistema que genera números aleatorios a partir de una fuente de aleatoriedad auténtica.

En el aprendizaje automático no es necesaria esta aleatoriedad. En su lugar se hace uso de la pseudoaleatoriedad, que se trata de una muestra de números que parecen aleatorios, para que son generados usando un proceso determinista.

La mezcla de datos o la inicialización de coeficientes con valores aleatorios usa generados de números pseudoaleatorios. Los números son generados en secuencia. Esta secuencia es determinista y es fijada a partir de una semilla. Si dicha semilla no es fijada con un valor predeterminado, puede hacer uso del tiempo del sistema en segundos o milisegundos como valor de la semilla. El valor de la semilla no es importante, podemos elegir la que queramos. Lo importante es que si vamos a repetir un proceso, este proceso siempre tenga la misma semilla.

# Número aleatorios con Python 

Python dispone de un módulo llamado **random** que ofrece un conjunto de funciones para generar números aleatorios. Python hace uso de un conocido y robusto generador de números pseudoaleatorios llamado Mersenne Twister. 

## Semilla del generador de números aleatorios

Un generador de pseudonúmeros aleatorios es una función matemática que genera una secuencia de números casi aleatorios. Se necesita de una semalla para iniciar la secuencia.

La función es determinista, es decir, dada una misma semilla, esta producirá la misma secuencia de números cada vez que se genere el proceso. La elección de la semilla no es importante. Dicha semilla lo que hace es fijar el generador de números aleatorios.

El módulo **random** dispone de la función **seed()** que nos permite fijar la semilla de nuestro generador de números aleatorios. Esta función recibe como argumento un número entero, este número nos fijara el generador.

In [3]:
#Fijamos la semilla 
seed(1)

#Geramos algunos números aleatorios
print(random(), random(), random())

#Volvemos a fijar la semilla
seed(1)

#Generamos nuevamente números aleatorios
print(random(), random(), random())

0.13436424411240122 0.8474337369372327 0.763774618976614
0.13436424411240122 0.8474337369372327 0.763774618976614


Controlar la aleatoriedad puede tener sentido cuando lo que queremos es que nuestro código produzca los mismos resultados cuando es ejecutado una y otra vez, como por ejemplo a la hora de poner un modelo en producción.

## Valores aleatorios de punto flotante

Para generar valores de punto flotante aleatorios podemos hacer uso directamente de la función **random()**. Los valores son generados dentro del rango [0,1). Estos valores son extraídos a partir de una distribución uniforme, lo que significa que todo valor tiene igual probabilidad de ser elegido.

Estos valores puede ser reescalados para el rango deseado haciendo uso de la expresión: $$valor\_escalado = min + (value(max-min))$$

Donde tenemos que min y max son los valores máximo y mínimo del rango deseado y value es un valor de punto flotante dentro de rango 0,1.

In [4]:
#Fijamos la semilla
seed(1)

#Generamos números aleatorios entre 0 y 5
for _ in range(10):
    value = random()
    print(0 + (value*(5-0)))

0.6718212205620061
4.237168684686163
3.8188730948830703
1.2753451286971085
2.4771754354597046
2.2474553239436905
3.2579648636138145
3.943616755677566
0.46929793387117447
0.14173738261003155


## Valores enteros aleatorios

Los valores aleatorios de tipo entero pueden ser generadosa partir de la función **randint()**. Esta función toma dos argumentos: el principio y el final del rango en el cual queremos generar nuestros números enteros. Estos valores son extraidos a partir de una función de distribución uniforme.

In [9]:
#Fijamos la semilla
seed(1)

#Generamos 10 números enteros aleatorios entre 0 y 10
for _ in range(10):
    print(randint(0,10))

2
9
1
4
1
7
7
7
10
6


## Valores gaussianos aleatorios

Las valores de punto flotante pueden ser extraidos de una distribución Gaussiana usando la función de **gauss()**. Esta función recibe dos parámetros que controla el tamaño de nuestra distribución: la media y la desviación estándar.

In [11]:
#Fijamos la semilla
seed(1)

#Generamos 10 números que provienen de una distribución Gaussiana
for _ in range(10):
    print(gauss(0,1))

1.2881847531554629
1.449445608699771
0.06633580893826191
-0.7645436509716318
-1.0921732151041414
0.03133451683171687
-1.022103170010873
-1.4368294451025299
0.19931197648375384
0.13337460465860485


## Selección aleatoria de una lista de valores

Los números aleatorios pueden ser usados para seleccionar de forma aleatoria elementos de una lista. Para realizar esto disponemos de la función **choice()**, esta función nos permite hacer selecciones aleatoria de elementos de una lista con una probabilidad uniforme.

In [14]:
#Generamos la semilla
seed(1)

#Generamos una lista de 10 elementos
l = [i for i in range(10)]

#Seleccionamos 3 elementos de forma aleatoria
for _ in range(3):
    print(choice(l))

2
9
1


## Selección de un subconjunto aleatorio de una lista de valores

Podemos estar interesados en repetir la selección aleatoria descrita en el apartado anterior hasta que dispongamos de un subconjunto de valores. Una vez el elemento es seleccionado de nuestra lista original y es añadido a nuestro subconjunto de valores este no debería de volver a ser depositado en nuestra lista original. Esto se le conoce como selección sin reemplazamiento.

Este tipo de comportamiento nos lo proporciona la función **sample()** que selecciona un determinado número de elementos de una lista sin reemplazamiento. Los parámetros que recibe esta función es en primer lugar la lista de la cual queremos extraer valores y en segundo lugar el número de valores que queremos extraer, retorna una lista que contiene el subconjunto de valores seleccionados de la lista original.

In [16]:
#Generamos la semilla
seed(1)

#Generamos una lista con 10 números aleatorios
l = [i for i in range(10)]

#Seleccionamos un subconjunto de valores de la muestra
print(sample(l, 3))

[2, 1, 4]


## Ordenando de forma aleatoria una lista

La aleatoriedad puede ser usada para ordenar de forma aleatoria una lista. Para realizar esta operación disponemos de la función **shuffle()**, esta función recibe como parámetro una lista que la ordena de forma aleatoria. Cabe destacar que lo que hace esta función es aplicar este nuevo orden sobre la propia lista y no sobre una copia de dicha lista.

In [19]:
#Generamos la semilla
seed(1)

#Generamos una lista con 10 elementos
l = [i for i in range(10)]
print(l)

#Ordenamos nuestra lista de forma aleatoria
shuffle(l)
print(l)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[6, 8, 9, 7, 5, 3, 0, 4, 1, 2]


# Números Aleatorios con Numpy

Las librerías más usadas en machine learning como Scikit-learn o Keras hacen uso por debajo de una librería llamada Numpy,esta es una librería que trabaja con vectores y matrices y números de una forma muy eficiente. Numpy dispone de su propio generador de números pseudoaleatorios. Numpy además tiene su propion implementación del generador Mersenne Twister.

## Semilla del generador de números aleatorios

El generador de números pseudoaleatorios de Numpy se trata de un generador distintio del que hace uso Python con su librería por defecto. Es importante destacar que la semilla usada en el generador de números pseudoaleatorios de Python no afecta a la semilla del generador de números pseudoaleatorios de Numpy.

In [3]:
#Fijamos la semilla
np.random.seed(1)

#Generamos números aleatorios
print(np.random.randn(3))

[ 1.62434536 -0.61175641 -0.52817175]


## Array con valores aleatorios de punto flotante

Un array de valores aleatorios de punto flotante puede ser generada a partir de la función **randn()**.  Si a dicha función no se le indica ningún argumento genera por defecta un único número aleatorio, de otra forma se le puede proporcionar la dimensión del array. 

In [4]:
#Fijamos la semilla
np.random.seed(1)

#Generamos un array con 10 números aleatorios
print(np.random.randn(10))

[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763 -2.3015387
  1.74481176 -0.7612069   0.3190391  -0.24937038]


## Array con valores aleatorios de tipo entero

Un array con valores aleatorios de números enteros puede ser creada a partir de la funcion **randint()**. Esta función toma 3 argumentos, el inicio y el final del rango que queremos tomar y el tamaño que queremos que tenga el array. Los valores son elegidos a partir de una distribución uniforme, además de incluir el valor inferior y excluir el valor superior.

In [5]:
#Fijamos la semilla
np.random.seed(1)

#Generamos un array de 10 números enteros aleatorios
print(np.random.randint(0,10,10))

[5 8 9 5 0 0 1 7 6 9]


## Array con valores aleatorios provenientes de una distribución gaussiana

Podemos crear un array formada por números aleatorios que provienen de una distribución gaussiana, para esto podemos hacer uso de la función **randn()**. Esta funcion toma un único argumento, que es el número de elementos de nuestra array. La función de distribución gaussiana a partir de la cual se extraen los números es de medio cero y varianza unidad.

In [7]:
#Fijamos la semilla
np.random.seed(1)

#Generamos un array de 10 elementos aleatorios provenientes de una distribución gaussiana
print(np.random.randn(10))

[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763 -2.3015387
  1.74481176 -0.7612069   0.3190391  -0.24937038]


Si queremos generar valores a partir de una distribución gaussiana con distinta media y varianza basta con sumar y multiplicar por la media y varianza respectivamente deseadas.

In [8]:
#Fijamos la semilla
np.random.seed(1)

#Generamos 10 valores aleatorios de una distribución gaussiana con media 3 y varianza 2
print(2 * np.random.randn(10) + 3)

[ 6.24869073  1.77648717  1.9436565   0.85406276  4.73081526 -1.60307739
  6.48962353  1.4775862   3.63807819  2.50125925]


## Mezclando elementos de un array

Un array puede ser aleatoriamente mezaclada haciendo uso de la función **shuffle()** de Numpy. Cuidado, la función **shuffle()** ejecuta el orden sobre la propia lista, de forma que esta función no retorna nada.

In [19]:
#Generamos la semilla
np.random.seed(1)

#Creamos una lista de 10 elementos
l = [i for i in range(10)]
print(l)

#Procedemos a mezclar los elementos de forma aleatoria
np.random.shuffle(l)
print(l)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[2, 9, 6, 4, 0, 3, 1, 7, 8, 5]


# Cuando fijar la semilla del generador de números aleatorios

Existen situaciones a la hora de realizar un proyecto de Machine Learning en las que se podría considerar fijar la semilla del generador de números aleatorios

* **Preparación de los datos:** en la preparación de los datos la aleatoriedad puede ser usada, como en la mezcla o selección de valores. La preparación de los datos debe ser consistente para que los datos siempre estén preparados de la misma forma durante la fijación del modelo, evaluación, y cuando realizamos predicciones con el modelo final

* **Split de datos:** la separación de datos en por ejemplo train/test o en k-fold debe ser consistente. Esto nos asegura que cada algoritmo es entrenado y evaluado de la misma forma y con la misma submuestra de datos.

# Como controlar la aleatoriedad

Un algoritmo de aprendizaje automático estocástico aprenderá de forma ligeramente diferente cada vez que se ejecute con los mismos datos. Esto dará a un rendimiento diferente en el algoritmo cada vez que este es entrenado. Ya hemos indicado que podemos entrenar nuestro algoritmo fijando siempre la misma secuencia de números cada vez. Cuando evaluamos un modelo esto es una mala práctica, ya que esconde incertidumbre inherente en nuestro modelo.

Una mejor forma a la hora de evaluar nuestro algoritmo es hacerlo de tal manera que el rendimiento informado incluya la incertidumbre. Esto se puede hacer evaluando nuestro modelo múltiples veces con diferentes secuencias de números aleatorios. Es decir, la semilla del generador de números aleatorios puede ser fijado una vez al principio de la evaluación del modelo o ir cambiando su valor cada vez que el modelo es evaluado. Tenemos que considerar dos aspectos:  

* **Incertidumbre en los datos:** Evalua un algoritmo con múltiples splits de datos nos dará una visión de como varía el rendimiento de nuestro algoritmo cambiando los datos de train y test.

* **Incertidumbre del algoritmo:** Evaluando un algoritmo múltiples veces con el mismo split de datos nos dará una visión de como varía el rendimiento de solamente nuestro algoritmo.