# Regresión logística y redes neuronales

<img src="1.png"></img>

~ Basado en el video de <b>DOT.CSV</b>: [Redes Neuronales](https://www.youtube.com/watch?v=W8AeOXa_FqU) y curso de Machine Learning de la Universidad de Standford, de Andrew Ng.

~ Imágenes extraídas desde el curso de Andrew NG de Coursera (Machine Learning de Standford University), canal de YouTube de DOT.CSV, Wikipedia, Slideshare, entre otros.

~ Recomendado saber sobre cursos de cálculo de universidad (cálculo I, II y III), programación, álgebra y estadística.

## Aviso

Antes de comenzar, y para cualquiera que esté leyendo (<i>por cierto, me sorprendería que a alguien le sea útil</i>), este notebook será más largo de lo habitual por dos razones:

• Se explicarán los problemas de clasificación.

• Tengo muchísimo material sobre redes neuronales.

Bueno, antes de iniciar de lleno con redes neuronales, debemos aprender y comprender lo que son los problemas de clasificación, dado que con ellos, seremos capaces de categorizar y utilizar clases, trabajando con datos discretos.

## (1) Problemas de clasificación

Los problemas de clasificación implican predecir una variable que tiene valores discretos. Esto implica que nuestro output tendrá un carácter booleano:

• $(Y = 0)$ OR $(Y = 1)$.

• En este sentido, nuestra hipótesis, $ 0 \leq h_ 	\theta (X) \leq 1 $.

Empezaremos con problemas de dos clases o de <b>clasificación binaria</b>. Entonces, ¿cómo se desarrolla un algoritmo de clasificación? A continuación, hallaremos un conjunto de entrenamiento para una tarea de clasificación sobre si un tumor es beligno o maligno. Observemos que si es benigno o no, adquiere únicamente dos valores, 0 de no y 1 de sí.

<img src="3.png"></img>

Anteriormente, habíamos mencionado que el clasificador $ 0 \leq h_ \theta (X) \leq 1 $, por lo que nos gustaría una hipótesis que satisfaga esta propiedad, es decir, que estas predicciones estén entre cero y uno.

Cuando usábamos la regresión lineal, conocíamos nuestra hipótesis como $ h_ \theta (X) $. Además, si nos ayudamos del álgebra lineal, podemos apreciar que, podemos expresar nuestra fórmula de la siguiente manera:

• Consideramos $ \theta ^{T} $ nuestra matriz de parámetros $ \theta $s.

• Además, $ X $ estaría compuesta por nuestras características.

De esta forma, podemos expresar nuestra regresión lineal de forma acotada:

$ h_ \theta (X) = \theta ^{T}X $

En caso de no haber comprendido del todo el procedimiento, recomiendo leer [el siguiente artículo de Andrew NG sobre aprendizaje supervisado (aprox. pág. 3)](https://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf).

## Regresión logística

La regresión logística pretende estimar la probabilidad de un determinado evento, medible por variables categóricas y numéricas, <b>que se sabe está correlacionado con ciertas variables cuantitativas</b>. 

Puede ser, que hasta el momento, se esté algo perdido, dado que introducimos dos conceptos que no están del todo explicados.

Recordemos:

• $(Y = 0)$ OR $(Y = 1)$.

• Hipótesis, $ 0 \leq h_ \theta (X) \leq 1 $.

¿Por qué no utilizar la regresión lineal en vez de la regresión logística?

Pues, intentemos. 

Dado el conjunto de entrenamiento del ejemplo anterior, de los tumores, podríamos ajustar una regresión lineal, obteniendo una hipótesis que tal vez, se parecería a la siguiente.

<img src="4.png"></img>

Pero, ¿cómo haríamos para obtener, predicciones en valores discretos entre 0 y 1?Para ello, aplicaremos un umbral, de forma que dado los resultados del clasificador:

• Nuestra hipótesis definirá $ Y = 1 $ si nuestros resultados, son $ 0.5 \leq h_ \theta (X) $.

• De otra forma ($ 0.5 > h_ \theta (X) $), nuestra hipótesis definirá $ Y = 0 $.

Pareciera que la regresión lineal está realizando algo razonable, a pesar se trata de una tarea de clasificación. Sin embargo, cambiemos un poco el problema.

Supongamos que tenemos otro conjunto de entrenamiento, pero con outliers (datos atípicos), de esta forma, la pendiente variará, resultando en un modelo con menos exactitud.

Por dicha razón, <b color="red">no es conveniente aplicar regresión lineal en problemas de clasificación</b>, y de hecho, es una <i>pésima práctica</i>.

## Representación de la regresión logística

A continuación, representaremos hipótesis, que es, la función que vamos a utilizar para los problemas de clasificación.

Anteriormente, habíamos dicho que nos gustaría que el clasificador genere valores que se encuentren entre cero y uno, por lo que necesitamos una hipótesis que satisfaga esta propiedad.

Antes, con al regresión lineal, habíamos definido la siguiente hipótesis:

<img src="5.png"></img>

Donde:

• $ \theta ^{T} $ definía nuestro vector de parámetros.

• $ X $ definía nuestro vector de características (variables).

• $ h_ \theta (X) $ es nuestra hipótesis.

Para la regresión logística modificaremos levemente la hipótesis de la regresión lineal $ h_ \theta (X) = \theta ^{T}X $, de forma que $ h_ \theta (X) \in [0, 1] $, por lo que la definiremos de la siguiente forma:

- Regresión lineal: $ h_ \theta (X) = \theta ^{T}X $.

- Regresión logística: $ h_ \theta (X) = g( \theta ^{T}X) $.

De esta forma, definimos la regresión logística a través de una composición de funciones (combinación en palabras simples), dado que, la función $ h_ \theta (X) $ está definida en otra función $ g( \theta ^{T}X) $. 

Dado que en el Machine Learning tiende a acotarse la nomenclatura para que sea conveniente de escribir en código (y más eficiente a través de matrices), definiremos otra abreviatura a través de la nueva introducida hipótesis:

- Siendo $ h_ \theta (X) = g( \theta ^{T}X) $, definimos $ Z =  \theta ^{T}X $, de forma que, $ h_ \theta (X) = g(Z) $. ¿Más simple, no?

Bien. Hasta ahora, hemos hablado de composición de funciones, nomenclatura... Pero, ¿qué función es en verdad $ g(Z) $?

- Definimos la regresión logística o sigmoidea como $ h_ \theta (X) = g(Z) $, donde $ g(Z) = \frac{1}{1+e^{-z}} $ y $ Z = \theta ^{T}X $, por lo que $ g( \theta ^{T}X) = \frac{1}{1+e^{- \theta ^{T}X}} $.

Gracias a un fragmento de Wikipedia, así se ve el gráfico de la función de la hipótesis (azul) con su derivada (línea roja).

<img src="6.png"></img>

- La función sigmoidea tiene dos asíntotas. Mientras $ Z $ va hacia menos infinito, $ g(Z) $ se aproxima a cero y mientras $ g(Z) $ tiende a infinito $ Z $ se aproxima a uno. Es decir, $ g(Z) $ ofrece valores que están entre 0 y 1 pero también tenemos que $ h_ \theta (X) $ debe estar entre 0 y 1.

- Como antes, lo que debemos hacer es ajustar los parámetros $ \theta $ a nuestros datos. Así que dado un conjunto de entrenamiento, necesitamos elegir un valor para los parámetros $ \theta $ y esta hipótesis nos permitirá hacer predicciones. 

- Hablaremos del algoritmo de aprendizaje más adelante respecto al ajuste de los parámetros $ \theta $, mientras tanto, consideraremos la interpretación del modelo. Es decir, cómo se interpreta el resultado de la hipótesis $ h_ \theta (X) $.

- La interpretación de la salida de la hipótesis se entiende a partir de $ h_ \theta (X) = probabilidad $, donde la $ probabilidad $ es la prob. estimada que $ y = 1 $ en el ejemplo de entrada de $ X $.

Si suponemos que, $ h_ \theta (X) = probabilidad de vender una casa $, siendo  $ X = [X_{0}, X_{1}] = [1, tamañoCasa] $, donde, tras introducir la variable en la hipótesis, nos arroja la <i>probabilidad de vender una casa</i> igual a $ h_ \theta (X) = 0.7 $, entonces la hipótesis estará prediciendo que existe una probabilidad del 70% de que se venda una casa dado el tamaño de la misma.

En probabilidad, ésto se entiende:

<img src="7.png"></img>

Donde:

- Entendemos $ Y \in [0, 1] $, siendo $ Y $ la probabilidad de que se venda la casa ($ Y = 1 $), dado que "X" tiene un tamaño particular, siendo esta probabilidad parametrizada por $ \theta $.

- La hipótesis nos dará las estimaciones de la probabilidad de que $ Y = 1 $.

Ahora, de la misma forma, podemos estimar la probabilidad de $ Y = 0 $. Y de hecho, la suma de que $ Y = 0 OR  Y = 1 $ es igual a la probabilidad de unión, que en este caso, corresponde al 100% al tratarse de un evento con solo dos posibilidades (binario). Si tuviésemos una regresión logística multiclase,deberíamos incorporar mayor número de eventos, o clasificadores, y por ende, su suma no sería el 100%, sino el n-número de clases.

<img src="8.jpg"></img>

<i>Extraído desde [https://es.slideshare.net/RichardHuamanDurand/estadistica-y-probabilidades-cap-vi2](Slideshare)</i>.

De esta forma, podemos obtener las probabilidades de que $ Y = 0 $ o bien, $ Y = 1 $ con simples despejes.

## Límite de decisión

En el punto anterior, vimos la representación de la regresión logística, hablamos de su representación de la hipótesis y además, del cómo la regresión lineal no se ajusta a las necesidades de los problemas de clasificación.

En el presente punto, hablaremos del <b>límite de decisión</b>, que nos dará una mejor idea de lo que las regresiones logísticas, y en particular, sus hipótesis, son capaces de computar.

Para recapitular, recordemos lo que establecimos como hipótesis:

- Siendo $ h_ \theta (X) = g( \theta ^{T}X) $, definimos $ Z = \theta ^{T}X $, de forma que, $ h_ \theta (X) = g(Z) $.

- Definimos la regresión logística o sigmoidea como $ h_ \theta (X) = g(Z) $, donde $ g(Z) = \frac{1}{1+e^{-z}} $ y $ Z = \theta ^{T}X $, por lo que $ g( \theta ^{T}X) = \frac{1}{1+e^{- \theta ^{T}X}} $.

Concretamente, esta hipótesis, está dando estimaciones de la probabilidad de que $ Y = 1 $, dado X y parametrizado por $ \theta $, por lo que, si quisiéramos predecir si $ Y = 1 $ o $ Y = 0 $, lo que deberíamos hacer sería:

- Suponer predicción de que $ Y = 1 $ solo si 
$ 0.5 \leq h_ \theta (X) $.

- De otra forma, suponemos $ Y = 0 $ solo si $ 0.5 > h_ \theta (X) $.

Es decir, siempre que la hipótesis da como resultado la probabilidad de que $ Y = 1 $ es debido a que la probabilidad de que $ Y = 1 $ es mayor o igual al 50% según nuestra hipótesis (hay más probabilidades de que $ Y = 1 $ de que $ Y = 0 $). De lo contrario, si la probabilidad estimada de que $ Y = 1 $ es menor al 50%, entonces vamos a predecir que $ Y = 0 $.

Ahora, ¿cómo vemos ésto en la gráfica? ¿Con qué valores de $ Z $ ($ \theta ^{T}X $) obtendremos determinados valores para $ Y $?

<img src="9.png"></img>

Notemos que, en la función sigmoide, $ g(Z) $ es mayor o igual a 0.5 siempre que $ Z $ sea mayor o igual a cero:

- Es decir, siempre que $ 0 \leq Z $, tendremos que $ 0.5 \leq g(Z) $.

Dado que, en la hipótesis, definimos $ Z = \theta ^{T}X $, entonces este término debe ser mayor o igual a 0 en orden para que $ g(Z) $ sea mayor o igual a 0.5:

- De esta forma, $ 0.5 \leq g(Z) $ siempre que $ 0 \leq Z $, por lo que $ 0.5 \leq g( \theta ^{T}X) $, por lo que $ 0 \leq \theta ^{T}X $.

Lo anterior es un simple reemplazo asumiendo que $ Z = \theta ^{T}X $.

En resumen, y para terminar majaderamente con estas definiciones:

- Suponemos $ Y = 1 $ cuando $ 0.5 \leq g(Z) $.
- Suponemos $ Y = 0 $ cuando $ 0.5 > g(Z) $.

## Entendamos con el conjunto de entrenamiento

Usemos el punto anterior para entender cómo la hipótesis de regresión logística realiza estas predicciones. Por lo que, ahora, supongamos que tenemos un conjunto de entrenamiento como el que se muestra en la imagen adjunta.

<img src="10.png"></img>

Respecto al ajuste de los parámetros, hablaremos de ello más adelante.

Suponiendo que, a través de un procedimiento especificado, terminamos con los siguientes valores para los parámetros:

- Es decir, $ \theta = [ \theta _{0}, \theta _{1}, \theta _{2}] = [-3, 1, 1] $ (recordemos $ \theta _{0} $ es el bias).

Entonces, al tener esta elección de parámetros, intentemos averiguar donde una hipótesis terminará prediciendo que $ Y = 1 $ y donde predeciría que $ Y = 0 $. Pues, usando las fórmulas anteriormente mencionadas:

- Sabemos que nuestra hipótesis predicirá $ Y = 1 $ solo si $ 0.5 \leq g(Z) $.

Al tener  $ \theta = [ \theta _{0}, \theta _{1}, \theta _{2}] = [-3, 1, 1] $, y realizando la múltiplicación de $ \theta ^{T} $ por X:

- Al ser $ \theta ^{T} $ una matriz de 1 x 3 y X una matriz de 3 x 1, es posible realizar el producto punto. He allí el por qué se transpone $ \theta $.

Obtenemos que:

- Nuestra hipótesis está definida por $ g(-3 + X_{1} + X_{2}) = \frac{1}{1+e^{-(-3 + X_{1} + X_{2})}} $ y $ Z = -3 + X_{1} + X_{2} $, por lo que $ g(-3 + X_{1} + X_{2}) = \frac{1}{1+e^{-(-3 + X_{1} + X_{2})}} $.

En este caso particular, tenemos más de un parámetro.

Realizando un poco de aritmética básica y despejando la inecuación:

- Obtenemos $ 3 \leq X_{1} \leq X_{2} $.

De esta forma, $ Y = 1 $ siempre que $ 3 \leq X_{1} \leq X_{2} $, y esta, corresponde a una recta.

<img src="11.png"></img>

Al graficar la recta, veremos que pasa a través de 3 en el eje $ X_{1} $, y de igual manera en el eje $ X_{2} $. Así que, la parte del plano $ X_{1} $ y $ X_{2} $ que corresponde a cuando $ X_{1} + X_{2} $ es mayor o igual a 3, será toda la mitad derecha, y esta parte corresponde a $ Y = 1 $.

Por contraparte, todas aquellas zonas donde no se satisfaga la inecuación, será la zona $ Y = 0 $.

Es aquí cuando definimos lo relevante, la recta rosada nos permitió establecer los límites de la predicción de la hipótesis sobre Y, lo que se define como <b>límite de decisión</b>.

<img src="12.png"></img>

Esta recta, el límite de decisión, corresponde a cuando la hipótesis es igual a 0.5 exactamente. La línea, separa la región de donde se predice los valores de Y:

- Además, el <b>límite de decisión es una propiedad de la hipótesis que incluye los parámetros</b>. Por lo que, si no tuviéramos visualizados los datos o parámetros, el límite de decisión podría seguir graficándose.

Recordemos que el vector de características son los coeficientes que acompañan a las variables independientes, que, una vez evaluadas, nos resultará en la variable dependiente Y, de modo que, anteriormente, en la regresión lineal, lo que se realizaba era construir una función que cada vez se acercara más al fenónemo (recorrido de los datos), de modo que, introduciendo nuestros conjuntos de entrenamiento de entrada, nos produzcan con menor error posible la salida real de dicho conjunto de entrenamiento.

## Límites de decisión no lineales



## (2) Redes neuronales

Las redes neuronales fueron desarrolladas como simulación de las neuronas o de las redes de neuronas en el cerebro. 

## Neuronas

<img src="15.png"></img>

Las neuronas - <i>como la que está adjunta en la imagen</i> -, son una perfecta analogía para entender la representación de la hipótesis de las redes neuronales.

Las primeras cosas que llaman la atención es que, las neuronas, tienen un cuerpo celular morado, con ramificaciones, llamadas "dentritas". Estas dentritas son similares a nuestras entradas de la función, 'inputs' o X (características).

Además, estos cables de entrada reciben inputs de otras ubicaciones.

Finalmente, tenemos que estos cables de entrada se conectan a un cable de salida, denominado axón, cuya función es enviar señales a otras neuronas. Este 'output' vendría siendo nuestras salidas 'h(x)'.

Cobra sentido, ¿no parece?

## Unidad computacional

En analogía a las neuronas biológicas, y en un nivel simple, una neurona es una <b>unidad computacional</b> que tiene un número de entradas. Es, a través de estos cables de entrada, que se reciben características con las cuales se realizan algunos cálculos, y luego, se envían estos resultados mediante su axón (output) a otros nodos o a otras neuronas del cerebro.

## Red neuronal artificial: unidad de logística

En una red neuronal artificial, lo que implementamos en una computadora es un modelo muy simple respecto a lo que realizan las neuronas biológicas.

Modelaremos una neurona como una unidad logística. Así que, en el caso de la representación del modelo:

• El círculo amarillo representaría una función análoga del cuerpo de una neurona (los cálculos sobre los input que darán un output).

• Nuestro resultado, $ h_ \theta (x) $, vendría siendo el output gracias al axón (en analogía biológica).

<img src="16.png"></img>
