# El Hola Mundo del Aprendizaje Profundo con Redes Neuronales
Basado en https://colab.research.google.com/github/lmoroney/mlday-tokyo/blob/master/Lab1-Hello-ML-World.ipynb#scrollTo=X9uIpOS2zx7k
Originalmente en: https://github.com/lmoroney/mlday-tokyo/blob/master/Lab1-Hello-ML-World.ipynb

Como con cualquier primera aplicación, deberías comenzar con algo súper simple que muestre el andamiaje general de cómo funciona tu código.
En el caso de crear redes neuronales, el ejemplo que me gusta usar es uno donde aprende la relación entre dos números. Entonces, por ejemplo, si estuvieras escribiendo código para una función como esta, ya conoces las "reglas":

'''
float my_function(float x){
    float y = (3 * x) + 1;
    return y;
}
'''
Entonces, ¿cómo entrenarías una red neuronal para realizar la tarea equivalente? ¡Usando datos! Al alimentarla con un conjunto de X y un conjunto de Y, debería ser capaz de descubrir la relación entre ellos.
Este es obviamente un paradigma muy diferente al que podrías estar acostumbrado, así que vamos a analizarlo pieza por pieza.

# Importaciones
Comencemos con nuestras importaciones. Aquí estamos importando TensorFlow y llamándolo tf para facilitar su uso.
Luego importamos una biblioteca llamada numpy, que nos ayuda a representar nuestros datos fácil y rápidamente como listas.
El framework para definir una red neuronal como un conjunto de capas secuenciales se llama keras, así que también lo importamos.

In [3]:
import tensorflow as tf
import numpy as np
from tensorflow import keras

# Definir y Compilar la Red Neuronal
A continuación, crearemos la red neuronal más simple posible. Tiene 1 capa, y esa capa tiene 1 neurona, y la forma de entrada es solo 1 valor.

In [4]:

model = tf.keras.Sequential([keras.layers.Dense(units=1, input_shape=[1])])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Ahora compilamos nuestra Red Neuronal. Al hacerlo, tenemos que especificar 2 funciones, una pérdida y un optimizador.

Si has visto mucha matemática para machine learning, aquí es donde generalmente se usa, pero en este caso está muy bien encapsulada en funciones para ti. Pero qué sucede aquí, expliquemos...

Sabemos que en nuestra función, la relación entre los números es y=3x+1.

Cuando la computadora está tratando de "aprender" eso, hace una suposición... tal vez y=10x+10. La función de PÉRDIDA mide las respuestas supuestas contra las respuestas correctas conocidas y mide qué tan bien o mal lo hizo.

Luego usa la función de OPTIMIZADOR para hacer otra suposición. Según cómo fue la función de pérdida, intentará minimizar la pérdida. En ese punto, tal vez llegue a algo como y=5x+5, que, aunque todavía es bastante malo, está más cerca del resultado correcto (es decir, la pérdida es menor).

Repetirá esto por el número de ÉPOCAS que verás en breve. Pero primero, así es como le decimos que use 'ERROR CUADRÁTICO MEDIO' para la pérdida y 'DESCENSO DE GRADIENTE ESTOCÁSTICO' para el optimizador. Aún no necesitas entender la matemática de estos, ¡pero puedes ver que funcionan! :)

Con el tiempo aprenderás las diferentes funciones de pérdida y optimizador apropiadas para diferentes escenarios.

In [5]:

model.compile(optimizer='sgd', loss='mean_squared_error')

# Proporcionar los Datos
A continuación, introduciremos algunos datos. En este caso estamos tomando 6 x y 6 y. Puedes ver que la relación entre estos es que y=2x-1, entonces donde x = -1, y=-3, etc.
Una biblioteca de Python llamada 'Numpy' proporciona muchas estructuras de datos de tipo array que son una forma estándar de facto de hacerlo. Declaramos que queremos usarlos especificando los valores como un np.array[]

In [6]:
xs = np.array([-1.0, 0.0, 1.0, 2.0, 3.0, 4.0], dtype=float)
ys = np.array([-2.0, 1.0, 4.0, 7.0, 10.0, 13.0], dtype=float)

# Entrenamiento de la Red Neuronal
El proceso de entrenar la red neuronal, donde "aprende" la relación entre las X y las Y está en la llamada model.fit. Aquí es donde pasará por el bucle del que hablamos anteriormente, haciendo una suposición, midiendo qué tan buena o mala es (también conocida como pérdida), usando el optimizador para hacer otra suposición, etc. Lo hará por el número de épocas que especifiques. Cuando ejecutes este código, verás la pérdida en el lado derecho.

In [7]:
model.fit(xs, ys, epochs=50)

Epoch 1/50


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 168ms/step - loss: 42.5040
Epoch 2/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 33.4429
Epoch 3/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step - loss: 26.3139
Epoch 4/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 20.7052
Epoch 5/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 16.2924
Epoch 6/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step - loss: 12.8206
Epoch 7/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - loss: 10.0891
Epoch 8/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step - loss: 7.9401
Epoch 9/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step - loss: 6.2492
Epoch 10/50
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step - loss: 4.9189
Epoch 11/50
[1m1/1[0

<keras.src.callbacks.history.History at 0x77172c5456d0>

Bien, ahora tienes un modelo que ha sido entrenado para aprender la relación entre X e Y. Puedes usar el método model.predict para hacer que determine la Y para una X previamente desconocida. Entonces, por ejemplo, si X = 10, ¿cuál crees que será Y? Adivina antes de ejecutar este código:

In [8]:
print(np.array([10.0]))

[10.]


In [9]:

print(model.predict(np.array([10.0])))

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[[31.142534]]


Podrías haber pensado 31, ¿verdad? Pero terminó siendo un poco más. ¿Por qué crees que es eso?
Recuerda que las redes neuronales trabajan con probabilidades, así que dados los datos que alimentamos a la RN con, calculó que hay una probabilidad muy alta de que la relación entre X e Y sea Y=3X+1, pero con solo 6 puntos de datos no podemos estar seguros. Como resultado, el resultado para 10 es muy cercano a 31, pero no necesariamente 31.
A medida que trabajes con redes neuronales, verás este patrón recurrente. Casi siempre tratarás con probabilidades, no certezas, y harás un poco de codificación para descubrir cuál es el resultado basado en las probabilidades, particularmente cuando se trata de clasificación.