# Clasificacion

En esta seccion veremos <b>algortimos de clasificacion</b>, que lo que hacen es clasificar objetos. Si la salida del clasificador son dos opciones posibles, entonces el algoritmo es de clasificacion <b>binaria</b>, en cambio si la salida son mas de dos opciones el algoritmo de de <b>clasificacion multiclase</b>. Para que el algoritmo <b>aprenda</b> a clasificar, debemos entrenarlo con datos, para los cuales conocemos la salida. 

<hr>

## ID3

Es un algoritmo de tipo <b>greedy</b> en cual en cada paso realiza el mejor split del set de datos, el split que mayor <b>ganancia de informacion</b> le proporcione. Armando asi un <b>arbol de decision</b>.

<img src="imagenes/arbol_de_decision.png">

Definicion de <b>Ganancia de Informacion</b>:

\begin{equation}
\large GI(S,A) = H(S) - \sum_{v \in V(A)}{\frac{|S_v|}{|S|}H(S_v)}
\end{equation}

<b>Hiper-parametros</b>: Ninguno

<hr>

<b>Ejemplo:</b>

candidato | presencia | estudios | experiencia | contratado
----------|-----------|----------|-------------|-----------
1         | buena     | univ     | alta        | si
2         | mala      | univ     | media       | no
3         | buena     | sec      | alta        | si
4         | mala      | univ     | baja        | no
5         | buena     | sec      | media       | si
6         | buena     | univ     | media       | si
7         | reg       | pri      | baja        | no
8         | reg       | univ     | media       | si

Como dijimos el algoritmo en cada paso realiza el mejor split del set de datos. Asi que hagamos esto, elijamos cual es el atributo que proporciona mayor <b>ganancia de informacion</b> para saber si el cantidato va a ser contratado o no.

\begin{equation}
GI(Estudios) = H(Set de Datos) - \sum \frac{|S_v|}{|S|} H(Estudios)
\end{equation}
\begin{equation}
GI(Presencia) = H(Set de Datos) - \sum \frac{|S_v|}{|S|} H(Presencia)
\end{equation}
\begin{equation}
GI(Experiencia) = H(Set de Datos) - \sum \frac{|S_v|}{|S|} H(Presencia)
\end{equation}

Recordar la definicion de <b>entropia</b>:

\begin{equation}
\large H(X) = -\sum_{i = 1}^n{P_i log_2(P_i)} 
\end{equation}

<hr>

- Entropia del Set:

\begin{equation}
\large H(Set) = - [P_{Contratado} log_2(P_{Contratado}) + P_{No Contratado} log_2(P_{No Contratado})] = 0.9544
\end{equation}

\begin{equation}
\large H(Set) = - [\frac{5}{8} log_2(\frac{5}{8}) + \frac{3}{8} log_2(\frac{3}{8})] = 0.9544 \approx 0.95
\end{equation}

- Ganancia de Informacion del campo <b>Estudios</b>:

\begin{equation}
\large GI(Set, Estudios) = H(Set) - \sum_{v \in V(Estudios)} {\frac{|S_v|}{|Set|}} H(S_v)
\end{equation}

\begin{equation}
GI(Estudios) = 0.95 - [\frac{5}{8} H[3/5; 2/5] + \frac{2}{8} H[2/2;0/2] + \frac{1}{8} H[0/1; 1/1]]
\end{equation}

\begin{equation}
GI(Estudios) = 0.95 + [\frac{5}{8} [\frac{3}{5} log_2(\frac{3}{5}) + \frac{2}{5} log_2(\frac{2}{5})] + \frac{2}{8} 0 + \frac{1}{8} 0]
\end{equation}

\begin{equation}
GI(Estudios) = 0.95 + [\frac{5}{8} [\frac{3}{5} log_2(\frac{3}{5}) + \frac{2}{5} log_2(\frac{2}{5})]]
\end{equation}

\begin{equation}
GI(Estudios) = 0.95 + [\frac{3}{8} log_2(\frac{3}{5}) + \frac{2}{8} log_2(\frac{2}{5})] = 0.34
\end{equation}

- Idem con <b>Presencia</b> y <b>Experiencia</b>:

\begin{equation}
GI(Presencia) = 0.70444
\end{equation}
\begin{equation}
GI(Experiencia) = 0.5488
\end{equation}

El campo que mas proporciona informacion es la presencia por lo tanto ira en la raiz del arbol.

In [2]:
#                                               PRESENCIA
#                                                   |
#                               -----------------------------------------
#                               |                   |                    |
#                             Buena              Regular               Mala
#                               |                   |                    |   
#                            Y(4,4)           Y(1,2) N(1,2)            N(2,2)

Asi que hasta ahora asi queda nuestro arbol. Si la presencia es buena el algoritmo contestara que el candidato sera contratado y si es mala que no sera contratado. Ahora si es regular todabia no sabemos, en nuestro set tenemos dos casos con presencia regular.

Ahora para seguir por la rama del medio, recortamos el set de datos en solamente los casos que cumplen con la propiedad de ese nodo. Asi que de ocho casos que teniamos solo nos quedamos con dos:

candidato | presencia | estudios | experiencia | contratado
----------|-----------|----------|-------------|-----------
7         | reg       | pri      | baja        | no
8         | reg       | univ     | media       | si

Y ahora solo resta decidir que campo nos da mas ganancia de informacion, las opciones que tenemos son estudios y experiencia.

\begin{equation}
GI(Estudios) = H(Set de Datos) - \sum \frac{|S_v|}{|S|} H(Estudios)
\end{equation}
\begin{equation}
GI(Experiencia) = H(Set de Datos) - \sum \frac{|S_v|}{|S|} H(Presencia)
\end{equation}

\begin{equation}
H(Set) = -[\frac{1}{2} log_2(\frac{1}{2}) + \frac{1}{2} log_2(\frac{1}{2})] = 1
\end{equation}

Ganancia de Informacion de <b>Estudios</b>:

\begin{equation}
GI(Estudios) = 1 - \sum \frac{|S_v|}{|S|} H(Estudios)
\end{equation}
\begin{equation}
GI(Estudios) = 1 - [\frac{1}{2} H(1/2;1/2) + \frac{1}{2} H(1/2;1/2)] = 0
\end{equation}

Ganancia de Informacion de <b>Experiencia</b>:

\begin{equation}
GI(Experiencia) = 1 - \sum \frac{|S_v|}{|S|} H(Experiencia)
\end{equation}
\begin{equation}
GI(Experiencia) = 1 - [\frac{1}{2} H(1/2;1/2) + \frac{1}{2} H(1/2;1/2)] = 0
\end{equation}

Ambos campos nos proporcionan la misma cantidad de informacion asi que podemos elegir cualquiera de los dos.

In [3]:
#                                               PRESENCIA
#                                                   |
#                               -----------------------------------------
#                               |                   |                    |
#                             Buena              Regular               Mala
#                               |                   |                    |
#                            Y(4,4)             ESTUDIOS               N(2,2)
#                                                   |
#                                            ---------------
#                                            |              |
#                                        Primario     Universitario
#                                            |              |
#                                          N(1,1)         Y(1,1)

<hr>

## Random Forest

El algoritmo de <b>Random Forest</b> crea un conjunto de arboles de decision, un <b>bosque</b>. Cada arbol de este bosque utiliza una cantidad de atributos, no la cantidad total, sino menos atributos, estos son elegidos de forma aleatoria. Cada arbol del bosque lo crea aplicando el mismo metodo que en ID3, es decir realizando los split segun las <b>ganancias de informacion</b>.

Luego ademas usa <b>Bagging</b> con <b>Bootstrapping</b> para tomar los datos. Recordar que esto es correr el clasificador varias veces con la misma cantidad de datos pero usando repeticion, asi que en cada corrida algunos datos quedan afuera debido a algunos de los que entraron tienen alguna repeticion.

En el <b>entrenamiento</b> del algoritmo se construira el bosque. Pero luego al momento de usarlo cada uno de los arboles clasificara de una menera diferente y la respuesta final sera la respuesta mas elegida, es la misma idea que las votaciones presidenciales por ejemplo. A esto se lo denomina <b>Majority Voting</b>.

<b>Hiper-parametros</b>: 
- Cantidad de arboles a crear.
- Cantidad de atributos en cada uno.

<hr>

<b>Ejemplo</b>:

<b>Datos</b>: 1, 2, 3, 4, 5 <br>
<b>Atributos</b>: A,B,C <br>
<br>
<b>Cantidad de Arboles</b>: 4 <br>
<b>Cantidad de Atributos en cada arbol</b>: 2

<img src="imagenes/ejemplo_random_forest.png">

<hr>

## XGBoost

Este algoritmo es Random Forest con una diferencia. En Random Forest, los arboles generados son independientes, es decir, uno no depende para nada del otro. En cambio en XGBoost no es asi, luego de la generacion del primer arbol, se procede a ver que tan bien clasifico, y el algoritmo mira en que casos clasifico mal, para decirle al siguiente arbol que se enfoque en esas clasificaciones que fallo. Y asi sucesivamente con el tercer, cuarto ... n arbol.

<hr>

## Naive Bayes

Este algoritmo esta basado en el <b>Teorema de Bayes</b>.

<b>Hiper-parametros</b>: Ninguno.

<b>Teorema de Bayes</b>: 

\begin{equation}
\large P(A|B) = \frac{P(B|A)P(A)}{P(B)}
\end{equation}

Usando esto mismo podemos calcular la probabilidad de una clase para cierto documento.

\begin{equation}
\large P(Clase|D) = \frac{P(Clase)P(D|Clase)}{P(D)}
\end{equation}

\begin{equation}
\large P(D|Clase) = \prod_{w_i \in D}{P(w_i|Clase)}
\end{equation}

<hr>

<b>Ejemplo</b>:

Clasificar el documento: D = deporte, equipo, caballo.

<b>Clases</b>: 
- Futbol
- Polo
- Ajedrez

<b>Documentos</b>:
- D1 (polo)    = pelota equipo caballo handicap equipo
- D2 (ajedrez) = jaque caballo elo
- D3 (futbol)  = pelota equipo foul deporte pelota
- D4 (ajedrez) = deporte equipo elo
- D5 (futbol)  = foul pelota equipo pelota
- D6 (futbol)  = deporte pelota pelota
- D7 (polo)    = caballo foul caballo deporte
- D8 (futbol)  = caballo foul foul

\begin{equation}
P(Futbol|D) = \frac{P(Futbol)P(D|Futbol))}{P(D)}
\end{equation}

\begin{equation}
P(Futbol) = \frac{4}{8} = \frac{1}{2}
\end{equation}

<b>P(D|Futbol)</b>: Probabilidad de que ocurra el documento D, dado que es de clase Futbol. Es equivalente a pedir que ocurra cada una de las palabras del documento D dado que es de clase Futbol.

\begin{equation}
P(D|Futbol) = P(deporte|Futbol) P(equipo|Futbol) P(caballo|Futbol) 
\end{equation}

Palabra | Cantidad de veces que se repite
---------|---------------------------
pelota |6
equipo |2
foul | 4
deporte |2
caballo |1
total|15

<b>Observacion</b>: Para evitar que sea 0 sumamos 1 en el numerador y la cantidad de palabras diferentes en el denominador.

\begin{equation}
P(D|Futbol) = \frac{2+1}{15+8}  \frac{2+1}{15+8}  \frac{1+1}{15+8} = 0.00148
\end{equation}

\begin{equation}
P(Futbol|D) = \frac{0.5 * 0.00148}{P(D)} = \frac{0.00074}{P(D)}
\end{equation}

<b>Idem</b> para Polo y Ajedrez:

\begin{equation}
P(Ajedrez|D) = \frac{0.000725}{P(D)}
\end{equation}

\begin{equation}
P(Polo|D) = \frac{0.0012}{P(D)}
\end{equation}

Comparando los resultados vemos como el algoritmo de Bayes le asigna una mayor probabilidad a que el documento sea Polo. <b>Por lo tanto el algoritmo clasifica el documento como Polo</b>.

<hr>

# Perceptron

Es un algoritmo de clasifiacion <b>lineal</b>.

<img src="imagenes/clasificacion_lineal.png">

 Este algoritmo surge a fines de la decada del 50 y fue desarrollado por Frank Rosenblantt. En aquel entonces se buscaba crear un algoritmo que imitara el funcionamiento del cerebro humano. La teoria era que una neurona podia programarse como una salida binaria que dependia del resultado de la combinacion lineal entre los inputs y pesos asignados a los mismos. La neurona respondia 0 o 1 segun el resultado de la combinacion lineal fuese mayor o menor a un cierto umbral.

<img src="imagenes/perceptron.png">

Como se aprecia en la imagen, recibe un input X, y se prodece a multiplicarlo con los pesos de cada input, luego pasa por una funcion de activacion que toma este producto y determina si supera el umbral para debolver 1 o 0, tambien puede ser 1 o -1.

Cuando se lo entrena a este algoritmo, lo que sucede es que va determinando los diferentes pesos (w) que son adecuados para cada valor de entrada. 

<hr>

## Support Vector Machines (SVM) 

Este es otro algoritmo de clasificacion <b>lineal</b>. Asi como Perceptron. La diferencia es que en Perceptron buscabamos un hiperplano que separe las clases, el cual este no podia ser el que mejor lo haga. En SVM nos enfocamos en buscar el MEJOR hiperplano que separe las clases. Maximiza el margen entre las clases. Es decir logra la maxima separacion entre las clases.

<img src="imagenes/separacion_clases.png">