# ID3 (iterative dichotomiser tree)

#### Creado por Ross Quinlan en 1979. 

El algoritmo crea un arbol de decision colocando los diferentes atributos. La logica que usa para ir colocando los atributos es fijarse que atributos son los mas determinantes, para la final clasificacion. Esto es, por ejemplo, supongamos que tenemos ciertos candidatos a un trabajo, y supongamos que si hay un atributo que es "recibido", que en caso de ser afirmativo el cantidato es contratado sin importar ningun otro atributo, entonces en ese ejemplo el atributo "recibido" es determinante, entonces se lo coloca en la raiz del arbol, y en la flecha "si" ya el algoritmo responde "contratado" en cambio en la flecha "no" se tendra que fijar en algun otro atributo, devuelta, el que mas <b>ganancia de informacion</b> proporcione.

<img src="imagenes/ID3_algorithm_decision_tree.png">

### Ejemplo

Tenemos los siguientes candidatos a un trabajo, cada uno ellos tienen diferentes caracteristicas. En base a estos datos queremos construir un modelo predictor usando el algoritmo ID3.

In [None]:
# candidato | presencia | estudios | experiencia | contratado
# -----------------------------------------------------------
# 1         | buena     | univ     | alta        | si
# 2         | mala      | univ     | media       | no
# 3         | buena     | sec      | alta        | si
# 4         | mala      | univ     | baja        | no
# 5         | buena     | sec      | media       | si
# 6         | buena     | univ     | media       | si
# 7         | reg       | pri      | baja        | no
# 8         | reg       | univ     | media       | si

In [6]:
# 8 cantidatos
# 5 contratados
# 3 no contratados

# Entropia del Set:
# H[5/8;3/8] = -((5/8*log2(5/8))+(3/8*log2(3/8))) = 0.9544

#### Presencia

In [1]:
# presencia | contratado | no contratado | total
# ----------------------------------------------
# buena     | 4          | 0             | 4 
# mala      | 0          | 2             | 2
# regular   | 1          | 1             | 2

In [7]:
# Entropia de "presencia"
# H(presencia = buena) = H[4/4;0/4] = 0
# H(presencia = mala) = H[0/2;2/2] = 0
# H(presencia = regular) = H[1/2;1/2] = 1
# H(presencia) = P(buena)*H(buena) + P(mala)*H(mala) + P(regular)*H(regular)
# H(presencia) = (4/8)*0 + (2/8)*0 + (2/8)*1 = 2/8 = 0.25

In [8]:
# GI(presencia) = H(Set) - H(presencia) = 0.9544 - 0.25 = 0.7044

#### Estudios

In [None]:
# estudios  | contratado | no contratado | total
# ----------------------------------------------
# univ      | 3          | 2             | 5 
# sec       | 2          | 0             | 2
# pri       | 0          | 1             | 1

In [None]:
# GI(estudios) = H(Set) - H(estudios) 
#              = 0.9544 - [P(univ)*H(univ) + P(sec)*H(sec) + P(pri)*H(pri)]
#              = 0.9544 - [5/8*H(univ) + 2/8*H(sec) + 1/8*H(pri)]
#              = 0.9544 - [5/8*H[3/5;2/5] + 2/8*H[2/2;0/2] + 1/8*H[0/2;1/2]]
#              = 0.9544 - [5/8*(-(3/5*log2(3/5) + 2/5*log2(2/5)))] = 0.3476

#### Experiencia 

In [None]:
# experiencia  | contratado | no contratado | total
# ----------------------------------------------
# alta         | 2          | 0             | 2 
# media        | 1          | 3             | 4
# baja         | 0          | 2             | 2

In [None]:
# GI(experiencia) = H(Set) - H(experiencia) 
#                 = 0.9544 - [P(alta)*H(alta) + P(media)*H(media) + P(baja)*H(baja)]
#                 = 0.9544 - [2/8*H(alta) + 4/8*H(media) + 2/8*H(baja)]
#                 = 0.9544 - [2/8*H[2/2;0/2] + 4/8*H[1/4;3/4] + 2/8*H[0/2;2/2]]
#                 = 0.9544 - [1/2*(-(1/4*log2(1/4) + 3/4*log2(3/4)))] = 0.5488

#### Ganancias de Informacion 

In [1]:
# GI(presencia) = 0.7044   |
# GI(estudios) = 0.3476    | => La que mayor ganancia de informacion tiene es la "presencia" 
# GI(experiencia) = 0.5488 |

In [None]:
# => Sera la raiz de nuestro arbol de decision.

#### Arbol de decision ID3 primer split

<img src="imagenes/arbol_de_decision_primer_split.png">

In [None]:
# Cuando la presencia es buena, el arbol clasifica como "contratado".
# Cuando la presencia es mala, el arbol clasifica como "no contratado"
# Cuando la presencia es regular, todabia no podemos clasificar. Porque tenemos casos en el set de entrenamiento
# donde se clasifico como contratado y casos donde no.

In [None]:
# Observando nuestra informacion vemos que cuando la presencia es regular, lo que determina si el candidato es
# contratado o no, puede ser los estudios o la experiencia, deberiamos ver que cual de estas dos caracteristicas
# nos proporcionan una mayor ganancia de informacion, la cuestion es que ambas tienen la misma ganancia, esto 
# se deduce porque ambas caracteristicas cuentan con la misma proporcion contratados, que es 1/2.

In [None]:
# por lo tanto sin hacer cuentas elegimos cualquiera de las dos caracteristicas para hacer el split.

#### Arbol de decision ID3 segundo split

<img src="imagenes/arbol_de_decision_segundo_split.png">

## Cuestion a tener en cuenta para no caer en Underfitting o Overfitting

Para no caer en <b>Overfitting</b>, ramificando demasiado, armando todos los caminos, para cada caso del set de entrenamiento es conveniente, establecer un minimo de registros en cada hoja del arbol, este es un <b>hiper-parametro</b>, que se lo denomica <b>minbucket</b>. Y hay que tener cuidado de no poner un numero demasiado grande de minbucket para no caer en un modelo muy simple y que eso conlleve a <b>Underfitting</b>.