In [1]:
from numpy import *
from matplotlib.pyplot import *

%matplotlib inline
# Correct size for figures in slideshow
rcParams["figure.figsize"] = (5, 4)
rcParams["figure.dpi"] = 100

# Inteligencia Artificial y *Machine Learning*

Hemos visto que el análisis de datos es de gran importancia en la ciencia. También hemos visto que, por el aumento de datos disponibles, necesitamos nuevas técnicas de análisis -- no es tan fácil hoy en día hacer los análisis en forma "tradicional":

* Explorar
* Gráficar
* Refutar/apoyar hipótesis

Hoy en día se necesita algorítmos automáticos para hacer el análisis de datos, pero hay muchos tipos de análisis que no se pueden hacer muy fácilmente en una manera automática.

### Un ejemplo de la astronomía: clasificación de las galaxias

Las galaxias tienen distintas formas. Las dos categorías más amplias son "elíptica" o "espiral". Dentro de estas clasificaciones hay más subcategorías.

Eliptica | Espiral
---------|--------
![](clase3_imagenes/elliptical.jpg) | ![](clase3_imagenes/spiral.jpg)

Las subcategorías son:

![](clase3_imagenes/hubble_sequence.png)

¿Cómo se clasifican las galaxias? **¡Por vista!** Los astrónomos miran a las imagenes y deciden la categoría según su aparencia visual.

En los *surveys* de galaxias típicamente se observan *millones de galaxias*. No es factible (y es probablemente contra los derechos humanos) pedir a un astrónomo que mire a cada imágen y clasifique todas las galaxias...

Pero ¿por qué es algo debe hacerlo una persona? Es porque los humanos son *muy* buenos en identificar objetos por su apariencia visual.

#### A veces demasiado bueno...

| ¿Nube o conejo? |
|----------------|
| ![](clase3_imagenes/rabbit_cloud.jpg) |

| Sólo un pan tostado? o la cara de Jesús/John Bonham de Led Zeppelin? |
|-------------------------------------------------------------|
| ![](clase3_imagenes/JesusOnToast2.jpg) |

Tiene sentido que una *persona* haga la clasificación de las galaxias. Una solución al problema de tener muchas imagenes de datos es pedir la ayuda de otros...

<img style="float: center;" src="clase3_imagenes/gz-screenshot.jpg" alt="alt text" width="600" height="600" class="blog-image">

https://www.zooniverse.org/projects/zookeeper/galaxy-zoo

Este es un ejemplo de *ciencia ciudadana* donde cualquier persona puede ayudar a hacer nuevos descubrimientos en la ciencia y otros áreas.

https://www.zooniverse.org/projects

Hay proyectos en las artes, la biología, la historia, la literatura, la medicina, la física, etc.

#### ¿Podría hacerlo también un computador?

La tarea de reconocer lo que hay en una imágen visual es algo que los humanos hacen sin pensar. Pero requiere juicio, contexto, tomar decisiones con información poco clara...

**Inteligencia artificial (IA)** es el área de la informática sobre el desarrollo de los algorítmos que pueden lidiar estos desafíos (es decir, que permiten a un computador "pensar como un humano").

Sería demasiado complicado programar explícitamente todos los pasos que un computador necesitaría para reconocer una imágen. Sería mucho mejor si el computador pudiese *aprender por si mismo* como hacerlo.

Por eso, una parte muy importante de la inteligencia artificial es el diseño e implementación de algorítmos de **aprendizaje de máquina** (*machine learning*).

## Inteligencia Artificial (IA)

La IA tiene una historia larga y complicada. Desde los primeros días de la informática se ha preguntado si un computador podría ser tan inteligente como un humano.

El padre de la informática, Alan Turing, ideó una prueba para ver si una máquina tenía inteligencia o no - la famosa *prueba (test) de Turing*.

![](clase3_imagenes/turing.jpg)

### La prueba de Turing

![](clase3_imagenes/turing_test.png)

La idea de la prueba es la siguiente:


* Hay una persona $C$ que hace preguntas a $A$ y $B$. 
* Escondidos de la persona $C$, hay un computador $A$ y otra persona $B$.
* Si la persona $C$ no puede determinar cuál de $A$ o $B$ es el computador, entonces decimos que el computador es "inteligente".

<img style="float: right;" src="clase3_imagenes/turing_test.png" alt="alt text" width="400" height="600" class="blog-image">

Aunque el concepto de la prueba es interesante, de hecho tiene muchos problemas:

1. **No es muy objetivo**: depende de la persona haciendo las preguntas, depende de las preguntas, etc.
2. **Es específico a la inteligencia *humana***. Sabemos muy bien que muchas veces los humanos actuan sin inteligencia, y parece que hay otros animales que tienen mucha inteligencia.
3. Es la inteligencia "de verdad" o inteligencia "simulada"?

En la práctica, el resultado de la prueba, al final, **¡es irrelevante!** 

Una analogía:

Nadie dice que la meta de la aeronáutica es construir aviones que vuelen de forma tan similar a los pájaros que los pájaros reales no puedan distinguirlos!

#### La definición de la inteligencia

Entonces, la pregunta más fundamental, que la prueba de Turing no aborda, es ¿qué es la inteligencia?

La respuesta es típicamente "algo que actúa como nosotros, los humanos". Pero esta defición es muy vaga, y lógicamente circular.

A pesar de que no hay una definición buena de lo que es "la inteligencia", la historia de la IA incluye muchos intentos de construir una máquina con una inteligencia general, como un humano. Esta aún no existe.

#### IA moderna

Hay un punto de vista moderno de la IA que es diferente. 

* En vez de crear un computador que "piensa como un humano", podemos intentar crear algorítmos que hacen cosas que, usualmente, los humanos hacen mejor que el computador.

* Estos son cosas que involucran información incompleta, razonamiento probabilístico, inferencia, etc.

#### Ejemplo: reconocimiento de imágenes

De nuevo, el reconocimiento de imágenes es un ejemplo muy común. En esta imágen es muy fácil para nosotros ver que hay una bici roja:

<img style="float: center;" src="clase3_imagenes/red_bike.jpg" alt="alt text" width="600" height="600" class="blog-image">

...pero es muy difícil (sin las técnicas de *machine learning*) escribir un algorítmo que puede identificar los contenidos de cualquier imágen.

Por cierto, el concepto de una "captcha" es para asegurar que el usuario es una persona y no un computador (un "bot"):

![](clase3_imagenes/captcha.png)

Es muy fácil (para nosotros) leer la palabra, pero típicamente es muy difícil para un computador (especialmente cuando esta distorcionada como en el ejemplo).

#### Ejemplo: lenguajes naturales

Los leguajes naturales (lenguajes humanos, e.g. castellano, inglés) tienen mucha ambigüedad. Uno se necesita saber el contexto de una frase para entenderla...

![](clase3_imagenes/hallar_x.jpg)

![](clase3_imagenes/socrates.jpg)

Hay varias áreas de investigación en el área de lenguajes naturales en IA:

* **Natural Language Processing**: Procesamiento de los lenguajes naturales, por ejemplo en el uso de *asistentes virtuales*, traducción automática (Google Translate).
* **Natural Language Understanding**: Entendimiento de los lenguajes naturales, por ejemplo tener una máquina que puede entender el contenido de una noticia.
* **Natural Language Generation**: Generación de los lenguajes naturales, por ejemplo los *chatbots* que responden a preguntas, o un programa que puede redactar una carta.

### Aplicaciones de IA
Existen tres tipos de aplicaciones fundamentales de la inteligencia artificial:

* **Clasificación**: categorizar lo que existe en el mundo.
* **Predicción**: adivinar lo que va a pasar en el futuro.
* **Reacción**: responder a las circunstancias actuales.

#### Classificación
Para entender el mundo, tenemos que organizar nuestro conocimiento del mismo: tenemos que *clasificar* (categorizar) lo que hay.

![](clase3_imagenes/cat_dog.png)

#### Predicción
Es importante para nosotros tener la capacidad de adivinar más o menos lo que va a pasar en el futuro (el futuro inmediato). También es así para un sistema de inteligencia artificial.

![](clase3_imagenes/evil_computer.gif)

#### Reacción

<p align="center">
<img style="float: right;" src="clase3_imagenes/boston-dynamics-robot.gif " alt="alt text" width="260" class="blog-image"> 
</p>

En el caso de un sistema inteligente, es importante reaccionar a los eventos externos. 

Por ejemplo, un **vehículo autónomo** obviamente tiene que reaccionar bien a eventos externos...   

Este aspecto de la inteligencia artificial tiene más relevancia para los robots que para los sistemas típicamente utilizados en la ciencia.



A la derecha: *Robot de Boston Dynamics*.



### IA aplicada a la ciencia

Una aplicación de la IA hoy en día es el diseño de algorítmos para la extracción de información útil de datos complejos, incompletos e inciertos.

En la ciencia, podemos usar estos algorítmos para muchos tipos de análisis:
* Clasificación.
* Identificación de datos raros (*outliers*).
* Determinación de relaciones entre variables.
* Predicciones para observaciones futuras.
* y mucho más...

Hablamos de algorítmos de ***machine learning***: un conjunto de técnicas diseñadas para lidiar este tipo de problemas. 

Se llama *machine learning* (aprendizaje de máquina) porque los algorítmos pueden mejorar su propio rendimiento con más y más datos, es decir *aprenden*.

#### Tipos de *machine learning*

Hay dos tipos principales de machine learning:

1. Aprendizaje sin supervisión.
2. Aprendizaje con supervisión.

También hay **aprendizaje semi-supervisado** (entre supervisado y no supervisado) y **aprendizaje reforzado** (más para robots/agentes).

#### Aprendizaje sin supervisión

Estos son algorítmos que podemos aplicar a los datos inmediatamente, sin la necesidad de "entrenamiento".

Un ejemplo simple es un algorítmo que se llama *k-means clustering*.

Ejemplo: Supongamos que tenemos mediciones de las masas y temperaturas de algunas estrellas. 

Las estrellas en la *secuencia principal* tienen masas y temperaturas bajas, las gigantes rojas tienen masas y temperaturas mayores, y las gigantes azules tienen altas masa y temperaturas aún mayor.

![](clase3_imagenes/masa_temp.png)

#### *k-means clustering*

Tenemos un espacio (bidimensional) de dos parámetros. Los datos agrupan en ciertas regiones de este espacio.

Visualmente es muy fácil reconocer las regiones del espacio de parámetros donde los puntos se agrupan. Ahora, veremos que el algorítmo *k-means clustering* puede identificar estos regiones automáticamente.

In [2]:
datos = np.load("clase3_imagenes/datos.npy")

Importamos el módulo *scikit-learn* que contiene funciones que son implementaciones de muchos algorítmos de *machine learning*.

In [3]:
from sklearn.cluster import KMeans

Ahora vamos a usar el método *k-means clustering*. Suponemos que hay $3$ grupos de puntos (*clusters*). La función **KMeans** crea un objeto que podemos usar con nuestros datos.

In [4]:
kmeans = KMeans(n_clusters=3, n_init=10)

Aplicamos nuestro modelo de *k-means* a los datos que tenemos.

In [5]:
kmeans.fit(datos)

Podemos ver las posiciones de los centros de los grupos, según el algoritmo:

In [None]:
kmeans.cluster_centers_

El algoritmo indica cual punto está en cual grupo con una etiqueta (*label*):

In [None]:
kmeans.labels_

Podemos usar estos números en la función *scatter* que grafica los datos. Uno de los argumentos de *scatter* es "c", para especificar el color de cada punto.

In [None]:
scatter(datos[:,0],datos[:,1], c=kmeans.labels_)
show()

El algoritmo ha identificado correctamente los distintos grupos de puntos. Este algorítmo es muy útil si queremos identificar grupos en muchos datos.

Es importante notar que no hemos dado información sobre los datos. Solamente que estamos buscando $3$ grupos. El algorítmo *aprendió* cuales son los grupos.

Por ejemplo, en vez de $30$ puntos, quizás tenemos $10000$ estrellas, y mediciones de $8$ variables, y no solamente $2$. Entonces, estaríamos buscando varios grupos dentro de los $10000$ puntos en un espacio con $8$ dimensiones! Vemos entonces que un algorítmo automático ayuda muchísimo.

#### Aprendizaje con supervisión

El ejemplo anterior era de un método "sin supervisión". No teniamos que dar datos de "entrenamiento" para enseñar el algorítmo.

Ahora, vamos a ver un ejemplo de un algorítmo con supervisión, donde tenemos que enseñar el algorítmo con algunos de los datos.

#### Ejemplo: árbol de decisión (decision tree)

Un *árbol de decisión* es como un diagrama de flujo. El algorítmo divide los datos según sus propiedades hasta que sean totalmente categorizados.

Pero, el algoritmo necesita saber cuales propiedades corresponden a cuales categorías - por lo tanto hay que "entrenar" el algoritmo antes. Usamos datos que ya están categorizados (datos de entrenamiento), y el algorítmo se ajusta hasta que funcione bien con estos datos.

Después, podemos aplicar el algorítmo a datos nuevos.

Un ejemplo con la taxonomía de animales.

Tenemos un conjunto de datos que son observaciones de propiedades de algunos animales. Supongamos que tenemos observaciones de caballos, perros, vacas y pelícanos.

Observaciones |  Caballo  |  Perro  | Vaca  | Pelícano
--------------|-----------|---------|-------|---------
4 patas?      |    Si     |    Si   |  Si   |    No
Tiene pelaje? |    No     |    Si   |  No   |    No
Tiene ubres?  |    No     |    No   |  Si   |    No

De las observaciones podemos determinar qué animal es usando un *árbol de decisión*:

<img style="float: center;" src="clase3_imagenes/animals.png" alt="alt text" width="700" height="600" class="blog-image">

Ahora tenemos una clasificación de los datos según el árbol.

Con datos científicos, podemos construir el árbol en forma automática usando un algorítmo computacional. De nuevo, el módulo de *scikit-learn* en Python contiene funciones para este.

#### Otro ejemplo: de las flores *iris*

![](clase3_imagenes/iris_petal_sepal.png)

In [None]:
from sklearn import tree
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
iris.feature_names

In [None]:
iris.data

In [None]:
arbol = tree.DecisionTreeClassifier()
arbol = arbol.fit(iris.data, iris.target)

In [None]:
import graphviz

In [None]:
dot_data = tree.export_graphviz(arbol, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)

In [None]:
graph = graphviz.Source(dot_data)

In [None]:
graph

### Redes neuronales artificiales

Un algoritmo más complejo en el área de *machine learning* es una **Red Neuronal Artificial** (RNA). La investigación de las RNA comenzó hace muchos años en los primeros días de la Inteligencia Artificial.

La idea básica es crear un modelo computacional de algo similar a la estructura del cerebro:

<img style="float: center;" src="clase3_imagenes/neurons_brain.jpg" alt="alt text" width="600" height="600" class="blog-image">

<img style="float: center;" src="clase3_imagenes/neurona-comun.png" alt="alt text" width="700" height="600" class="blog-image">

Una neurona en el cerebro se activa cuando recibe un señal suficientemente fuerte (un pulso eléctrico) de otras neuronas que están conectadas a sus dendritas. 

Cuando la neurona se activa, manda un pulso eléctrico a lo largo de su axón que termina en sinapsis que se conectan con las dendritas de otras neuronas.

Una red neuronal artificial es un modelo muy simplificado de esta estructura cerebral. Las neuronas artificiales son así:
    
|![](clase3_imagenes/neurona_artificial.png)|
|-------------------------------------------|
| Neurona de McCulloch-Pitts                |

En este modelo, la neurona recibe "señales" en sus dendritas, que son simplemente los números $x_n$ multiplicados por *pesos* $w_n$. 

Luego, en el cuerpo de la neurona se calcula la sumatoria (y a veces se agrega un valor de umbral). El resultado de la sumatoria va como entrada a la *función de activación* $f$.

Podemos elegir (casi) cualquier función para $f$. Algunas posibilidades son:

![](clase3_imagenes/funcion_activacion.png)

El resultado de la función de activación es la salida de la neurona, que puede ir como entrada a otra neurona, y así formar una red compleja.

Un ejemplo:

Una neurona recibe $4$ valores de entrada: $x_1 = 1$, $x_2 = -3$, $x_3 = -4$, $x_4 = 2$. Los *pesos* son $w_1 = 0.1$, $w_2 = 0.3$, $w_3 = 0.1$ y $w_4 = 0.5$. El sumatorio, usando los pesos, será:

$$x_1 w_1 + x_2 w_2 + x_3 w_3 + x_4 w_4 = -0.2$$

La función de activación es la función *escalón* en los ejemplos arriba. Su valor de entrada es $-0.2 < 0$ así que su valor de salida es $-1$.

Por otra parte, si el valor de un peso fuese $w_1 = 0.5$ en vez del valor del ejemplo anterior, el sumatorio será igual a $0.2 > 0$ y la salida de la función de activación será $+1$.

Podemos contectar varias neuronas así en una red:

![](clase3_imagenes/RedNeuronalArtificial.png)

1. Tenemos que dar valores como valores de entrada a la primera *capa* de neuronas, que se llama **la capa de entrada**.
2. Las salidas de las funciones de activación de las neuronas en la primera capa dependen de los valores de entrada.
3. Estas salidas van como entrada a la próxima capa de neuronas. Ya que esta capa no está conectada al mundo "fuera" de la red, se llama una **capa oculta**.
4. Las salidas de la capa oculta van como entradas a la capa de salida, y las salidas de esta última capa son corresponden a las salidas finales de la red.

Entonces, las redes neuronales artificiales son como funciones matemáticas:

![](clase3_imagenes/functionmachine.png)

Pero, una red neuronal artificial puede **aprender** y **mejorar** su propio rendimiento! ¿Cómo lo hace?

##### Aprendizaje de la red

Cada conexión (sinapsis) entre las neuronas tiene asociado un *peso*. Este es un valor (típicamente) entre $0$ y $1$. Un valor de $0$ significa que esta conexión no contribuye nada la activación de la neurona. Un valor de $1$ significa que esta conexión tiene una contribución máxima a la activación de la neurona:

![](clase3_imagenes/neuron_weights.png)

La activación o no de cada neurona depende de los valores de los pesos. El resultado final (la salida final) de la red depende del patrón de activación de toda la red.

* Podemos usar datos conocidos para ajustar los pesos para obtener la salida que queremos. Este proceso se llama *entrenamiento de la red*.

Por ejemplo, supongamos que tenemos una red neuronal con $3$ entradas. Damos los valores $3.1$, $-0.1$, $2.6$ como entradas a la red. Las salidas que queremos son $0$ y $1$ (hay dos neuronas en la capa de salida de esta red).

![](clase3_imagenes/neuron_network.png)

¿Cómo podemos garantizar que tendremos las salidas correctas? Por ajustar los pesos.

#### Una red neuronal muy básica

Ahora vamos a crear una red neuronal para ver como funciona, y como podemos ajustar los pesos para obtener las salidas que queremos.

En este ejemplo, vamos a tener una "red" muy simple, que contiene solamente $1$ neurona, con $3$ sinapsis (entradas) y una salida:

![](clase3_imagenes/neuron_simple.png)

Queremos una red que pueda representar los siguientes valores de entrada y salida:
    
Entradas | Salida
---------|-------
0 0 1    |   0
1 1 1    |   1
1 0 1    |   1
0 1 1    |   0

Entonces, ¿cuál será la salida para las siguientes entradas?

Entradas | Salida
---------|-------
1 0 0    |   ?

De acuerdo al patrón anterior, la salida siempre es igual a la primera entrada, así que debería ser $1$.

¿Cuáles son los valores de los *pesos* en cada entrada? 

Comenzamos utilizando pesos aleatorios. Después actualizamos los valores de los pesos para tener las salidas correctas.

Necesitamos $3$ pesos (uno para cada entrada de la neurona):

In [None]:
pesos = random.uniform(low=-1.0,high=1.0,size=3)
pesos

##### El proceso de entrenamiento:

1. Elegimos un conjunto de entradas (por ejemplo, la primera fila de la tabla arriba).
2. Aplicamos los *pesos* a estos valores para calcular el sumatorio ponderado de las entradas.
3. Utilizamos el resultado del sumatorio como entrada a la función de activación de la neurona.
4. La salida de la función de activación, en este caso, es la salida de la red. Comparamos esta salida con el valor correcto y calculamos el error.
5. En este caso, el error es la diferencia entre la salida de la neurona y la salida correcta.
6. **Ajustamos los pesos**.
7. Repetimos el proceso muchas veces...

**Paso 1**

Elegimos la primera fila de entradas. Entonces tenemos $x_1 = 0$, $x_2 = 0$, $x_3 = 1$.

**Paso 2**

Sumatorio ponderado de las entradas: $x = \sum_i w_i x_i = w_1 x_1 + w_2 x_2 + w_3 x_3$.

In [None]:
entradas = array([0,0,1])
pesos*entradas

Es importante notar que podemos representar las entradas y los pesos como *vectores* $\vec{x}$, $\vec{w}$.

In [None]:
sumatorio = sum(pesos*entradas)
sumatorio

**Pasos 3 y 4**

La función de activación que vamos a ocupar en este caso es la función *sigmoide*: $y = \frac{1}{1+e^{-x}}$

Elegimos esta función porque se parece a la función escalón, pero es más fácil derivar ya que es siempre continua.

In [None]:
xvals = linspace(-6,6,100)
yvals = 1.0/(1.0 + exp(-xvals))
plot(xvals,yvals)
show()

La salida de la función de activación es:

In [None]:
1.0/(1.0 + exp(-sumatorio))

La salida correcta es $0$.

**Paso 5**

El error en nuestra salida es la diferencia entre la salida correcta y la de la red:

$\epsilon = y_c - y$

(Hay varias maneras de calcular el error. Estamos usando una opción simple)

In [None]:
error = 0 - 1.0/(1.0 + exp(-sumatorio))
error

**Paso 6**

Ahora viene la parte más complicada. Queremos ajustar los pesos para mejorar el rendimiento de la red. En otras palabras, queremos reducir el error mediante un ajuste de los pesos.

Pensando en el problema en una forma matemática, lo que buscamos es el *mínimo* de la función que da el error. La operación de buscar este mínimo es algo que se llama *optimización*.

De la aplicación del cálculo diferencial a este problema, es posible demostrar que la siguiente actualización de los pesos sirve:

$$\delta \vec{w} = \epsilon \vec{x} \frac{dy}{dx}$$

La derivada de la función $y$ (que es la función de activación de la neurona) es

$$\frac{dy}{dx} = y(1-y)$$

$$\delta \vec{w} = \epsilon \vec{x} \frac{dy}{dx}$$

Esta ecuación nos dice que el ajuste de los pesos es:
* **Proporcional al error $\epsilon$**. Si el error es grande, implica que los valores de los pesos son muy lejos de sus valores óptimos, y por lo tanto deberíamos cambiarlos más que en el caso de un error pequeño.
* **Proporcional a las entradas $\vec{x}$**. Así que, cada peso es proporcional a la entrada asociada. Si la entrada asociada al peso es igual a cero, no importa que valor de peso tenemos y por lo tanto no es necesario cambiarlo.
* **Proporcional a la derivada de la función de activación**. Buscamos el mínimo del error, $\epsilon$. Este error esta dado por $y_c - y$. Para encontrar el mínimo de una función, hay que considerar su derivada. Entonces, la derivada del error es la derivada de la función $y$ ($y_c$ es una constante).

Es posible demostrar matemáticamente como actualizar los pesos para una red que tiene un número arbitrario de neuronas y conexiones.

Esta parte del algorítmo (la actualización de los pesos) es la parte **más importante** de la operación de una red neuronal artificial. El algorítmo para actualizar los pesos se llama ***backpropagation***.

Es por el uso de *backpropagation* que la red puede aprender. Este es la diferencia entre una red neuronal artificial y una función matemática!

Ahora, calculamos la derivada:

In [None]:
y = 1.0/(1.0 + exp(-sumatorio))
derivada = y*(1-y)
derivada

Entonces los cambios de los pesos son:

In [None]:
delta_w = error * entradas * derivada
delta_w

Actualizamos los valores de los pesos:

In [None]:
pesos += delta_w
pesos

Calculamos el resultado con los nuevos valores de los pesos...

In [None]:
sumatorio = sum(pesos*entradas)
1.0/(1.0 + exp(-sumatorio))

El valor ha reducido después de la actualización de los pesos. Hay que repetir el proceso varias veces, y también hay que ocupar todas los pares de entradas/salidas de entrenamiento:

Entradas | Salida
---------|-------
0 0 1    |   0
1 1 1    |   1
1 0 1    |   1
0 1 1    |   0

Entonces, vamos a aplicar el algorítmo a todas las entradas/salidas que tenemos.

In [None]:
entradas = array([[0,0,1],[1,1,1],[1,0,1],[0,1,1]])
salidas = array([[0,1,1,0]]).T ## La "T" significa la transpuesta del arreglo

In [None]:
entradas

In [None]:
salidas

In [None]:
pesos = random.uniform(low=-1.0,high=1.0,size=(3,1))

In [None]:
pesos

Definimos una función en Python para la función de activación de la neurona.

In [None]:
def sigmoide(x):
    return( 1/(1+exp(-x)) )

Podemos calcular el sumatorio de cada conjunto de entradas con los pesos ocupando el producto escalar entre cada fila del arreglo "entradas" y el vector "pesos". En *NumPy* el producto escalar está dado por la operación "dot":

In [None]:
y = sigmoide(dot(entradas, pesos))
y

Los errores son:

In [None]:
errores = salidas - y
errores

La derivada de la función de activación otra vez es $y(1-y)$:

In [None]:
derivadas = y*(1-y)
derivadas

Entonces, para calcular los cambios de los pesos $\delta \vec{w} = \epsilon \vec{x} \frac{dy}{dx}$ *para cada fila de entradas* podemos usar la operación "dot" de nuevo:

In [None]:
entradas.T

In [None]:
dot(entradas.T, errores * derivadas)

Estos son los valores de $\delta \vec{w}$ que usamos para actualizar los pesos. Ahora, aplicamos nuestro proceso $10000$ veces para entrenar la red:

In [None]:
for iteracion in range(10000):
    # Calculamos para todas las entradas y pesos
    y = sigmoide(dot(entradas, pesos))
    errores = salidas - y
    derivadas = y*(1-y)
    pesos += dot(entradas.T, errores * derivadas)

In [None]:
pesos

Ahora comparamos las salidas de la red, para cada fila de entradas, con los valores correctos:

In [None]:
sigmoide(dot(entradas, pesos))

Estos valores son muy similares a los valores exactos:

Entradas | Salida
---------|-------
0 0 1    |   0
1 1 1    |   1
1 0 1    |   1
0 1 1    |   0

Pero... ¿Podrá nuestra red puede determinar el valor correcto para entradas que nunca ha visto? Queremos ver la siguiente salida:

Entradas | Salida
---------|-------
1 0 0    |   1

In [None]:
nuevas_entradas = array([1,0,0])

In [None]:
sigmoide(dot(nuevas_entradas, pesos))

**Esto está muy cerca al valor correcto de $1$!**

#### Aplicaciones de las redes neuronales artificiales

Las redes neuronales artificiales son la base de muchas aplicaciones de Inteligencia Artificial y *machine learning*. Si alguien habla de "deep learning" (aprendizaje profundo) se refiere al uso de RNAs.

En la red que vimos había solamente una neurona, así que no era una "red" de verdad. Con varias tapas de varias neuronas, podemos tener una relación muy no-lineal entre las entradas a la red, y las salidas.

Por eso, las RNAs son muy útiles para problemas de análisis de datos en la ciencia que son problemas muy no-lineales.

Fuera de la ciencia, las RNAs son la base de intentos de diseñar inteligencias artificiales que tienen el nivel de la inteligencia humana.

Por ejemplo, el sistema *Watson* de IBM:

<center>
<img style="float: center;" src="clase3_imagenes/watson_jeopardy.jpg" alt="alt text" width="700" height="600" class="blog-image">
</center>

Otro ejemplo es el sistema *Deep Mind* de Google:

![](clase3_imagenes/alphaGo.jpg)

Las recomendaciones de videos en YouTube están determinadas por una red neuronal artificial...
<center>
<img style="float: center;" src="clase3_imagenes/youtube.png" alt="alt text" width="500" height="600" class="blog-image">
</center>

# Resumen

* Las cantidades de datos que hay en la ciencia hoy en día requieren técnicas de análisis más allá de las "tradicionales".
* Con el desarrollo de algoritmos de *machine learning* hoy en día es posible automatizar muchos tipos de análisis que antes necesitaban una persona.
* Hemos visto algunos ejemplos de algorítmos de *machine learning*: con supervisión (redes nueronales, árboles de decisión) y sin supervisión (*k-means clustering*)
* En Python hay varios módulos que son útiles en este área, como *scikit-learn*.
* Hay nuevas herramientas como *TensorFlow* que ayudan en el diseño de redes neuronales.
* La importancia de estas técnicas va a seguir creciendo hacia el futuro!