## Arboles de decision, resumen.

<br>Se basa en generar un modelo que pueda predecir futuros valores de ciertos argumentos y arrojar un resultado correspondiente a esos valores.
Se parte de un conjunto de datos (Training set) que contiene los valores para los atributos y el respectivo atributo objetivo (el que se tiene que predecir).
Se empieza eligiendo el atributo que sea mas util para predecir el atributo objetivo. El atributo mas útil es el que tiene la mejor "ganancia de informacion" (information gain, IG). Se calcula la IG de cada atributo cuando se tiene que elegir el proximo atributo que va a ser el clasificador.<br>

#### Entropia
<br>La entropia caracteriza la impuridad de una muestra de ejemplos. Si se tiene una muestra S con valores positivos y negativos la entropia correspondiente a una clasificacion binaria es: <br>
<br>$ Entropia(S) = -p_{neg}log_{2}p_{neg}-p_{pos}log_{2}p_{pos}$.<br>
<br> Donde $p_{neg}$ y $ p_{pos}$ son las proporciones de S que son negativas y positivas correspondientemente.<br>
<br> NOTA: EN LOS CALCULOS DE ENTROPIA SE DEFINE $0*log(0) = 0$ <br>
<br> Ejemplo: Si se tiene una coleccion de 14 muestras de algun concepto booleano donde 9 de estas son positivas y 5 son negativas, la entropia respecto a la clasificacion booleana de esta muestra es : <br>
<br>$Entropia([9+, 5-])= -(9/14)log_{2}(9/4)-(5/14)log_{2}(5/14)= 0.940$ <br>
<br> Caso mas general: Si el atributo objetivo puede tomar c diferentes valores (ya nos apartamos de una clasificacion booleana a una clasificacion de mayor magnitud ), la entropia de S respecto a esta clasificacion en c valores es: <br>
<br>$Entropia(S)=\sum\limits_{i=1}^c -p_{i}log_{2}(p_{i})$<br>
<br> Donde $p_{i}$ es la proporcion de S que pertenece a la clase i.<br>

#### Ganancia de informacion
<br>Una vez que se mide la entropia de un conjunto de muestras se puede definir la efectividad de un atributo para clasificar los datos. Esta medida es la ganancia de informacion. La IG de un atributo A respecto a una coleccion de ejemplos S es :<br>
<br>$Gain(S,A) = Entropia(S) - \sum\limits_{v\in Valores(A)} \frac{\|{{S_{v}}}\|}{\|{{S}}\|} Entropia(S_{v})$<br>
<br>Donde Valores(A) son las posibles valores para el atributo A y $S_{v}$ es la cantidad de muestras de S donde el atributo A tiene el valor v.<br>
<br>Ejemplo: Se tiene una coleccion de muestras de training "Dias" descrita por los atributos "Viento", que puede ser "Fuerte" o "Debil". Donde S es una coleccion de 14 ejemplos, 9 positivos y 5 negativos (9+, 5-). De estos 14 ejemplos, de los que tienen "Viento"="Debil" 6 son positivos y 2 son negativos. Los que restan son "Viento"="Fuerte". La IG del atributo "Viento" se calcula como:<br> 
<br>$ Valores(Viento) = Fuerte, Debil $<br>
<br>$ S = [ 9+, 5-] $<br>
<br>$ S_{Debil} = [ 6+, 2-] $<br>
<br>$ S_{Fuerte} = [ 3+, 3-] $<br>
<br> $\begin{align}Gain(S,Viento) =Entropia(S)-\sum\limits_{v\in{Fuerte, Debil}} \frac{\|{S_{v}}\|}{\|{S}\|} Entropia(S_{v}) \\ Gain(S,Viento) = Entropia(S)-\frac{8}{14} Entropia(S_{Debil}) - \frac{6}{14}Entropia(S_{Fuerte}) \\ Gain(S,Viento) = 0.940 - \frac{8}{14}  0.811 -\frac{6}{14} 1 \\ Gain(S,Viento) = 0.048\end{align}$<br>  
<br> La ganancia de informacion es la medida usada por el algoritmo de arboles de decision para seleccionar el mejor atributo que clasifique en cada paso. El atributo que tenga mejor IG sera el que proveera mayor informacion sobre la muestra. <br>



### Haciendo un arbol de decision paso a paso.


In [62]:
#Carga de datos
import pandas as pd

df_tennis = pd.read_csv("tennis.txt")

columns_df=['Day', 'Temperature', 'Outlook', 'Humidity', 'Wind', 'Play']


#%%list_of_rows = list()
#for event in range(14):
 #   row = list()
  #  for feature in range(int(len(columns_df))):
   #     row.append(df_tennis.T[1+event+15*feature][0])
    #list_of_rows.append(row)
    
#df_tennis = pd.DataFrame(list_of_rows, columns=columns_df)
df_tennis

Unnamed: 0,Day,Temp.,Outlook,Humid.,Wind,Play
0,D1,Hot,Sunny,High,Weak,No
1,D2,Hot,Sunny,High,Strong,No
2,D3,Hot,Overcst,High,Weak,Yes
3,D4,Mild,Rain,High,Weak,Yes
4,D5,Cool,Rain,Normal,Weak,Yes
5,D6,Cool,Rain,Normal,Strong,No
6,D7,Cool,Overcst,Normal,Strong,Yes
7,D8,Mild,Sunny,High,Weak,No
8,D9,Cool,Sunny,Normal,Weak,Yes
9,D10,Mild,Rain,Normal,Weak,Yes


In [80]:
import math

#Funcion para calcular entropia
def calcular_entropia (muestra, atributo_obj):
#La funcion necesita que la muestra sea pasada como un dataframe con los atributos en las columnas y atributo_obj sea un string con el nombre del atributo objetivo
    
    entrop = 0
    cant_muestras = muestra.T.iloc[1].size
    valores_posibles_obj = muestra[atributo_obj].unique()
    for i in valores_posibles_obj:
         pi = muestra[muestra[atributo_obj]==i][atributo_obj].size/cant_muestras
         entrop = entrop - pi*math.log(pi, 2)
    return entrop

#Funcion para calcular la ganancia de informacion de un atributo

def calcular_IG (muestra, atrb_IG, atrb_obj):
    print("caca1")
    IG = calcular_entropia (muestra, atrb_obj)
    cant_muestras = muestra.T.iloc[1].size
    v = muestra[atrb_IG].unique()
    for valor in v:
        Sv = muestra[muestra[atrb_IG]==valor]
        entrop_Sv = calcular_entropia(Sv, atrb_obj)
        IG = IG - (Sv.T.iloc[1].size/cant_muestras) * entrop_Sv
    return IG

In [79]:
print('Verificando las funciones con los ejemplos: ') 
print('Entropia del set de datos Tennis.txt : {0}'.format(calcular_entropia(df_tennis, 'Temp')))
print('Ganancia de informacion del atributo Viento: {0}'.format(calcular_IG(df_tennis, 'Wind', 'Temp')))

Verificando las funciones con los ejemplos: 


KeyError: 'Temp'

In [82]:
#Ejemplo de como se elegiria el atributo raiz de un arbol a partir de la ganancia de los atributos.
atributes = df_tennis.columns[1:-1]
atr_IG = dict()
IG_ls = list()
for atr in atributes:
    atr_IG.update({atr:calcular_IG(df_tennis, atr, 'Play')}) 
print(atr_IG)
print('El atributo con mayor ganancia de informacion es : {0}. Entonces este sera el atributo raiz.'.format(list(atr_IG.keys())[list(atr_IG.values()).index(max(atr_IG.values()))]))

{'Temperature': 0.029222565658954647, 'Outlook': 0.2467498197744391, 'Humidity': 0.15183550136234136, 'Wind': 0.04812703040826932}
El atributo con mayor ganancia de informacion es : Outlook. Entonces este sera el atributo raiz.


## Bosques aleatorios.

<br>Los metodos de conjunto involucran la combinacion de varios modelos para resolver un problema singular. Consisten en hacer muchos modelos o clasificadores y obtener una mega prediccion de ellos, donde esta mega prediccion puede ser (o no) mejor que la prediccion de un solo clasificador o modelo. <br>
<br>Random forests es un metodo de conjunto (Ensemble method) que puede hacer tanto clasificacion como regresion. Genera muchos modelos de arboles de decisión. <br>
#### <br>Ventajas<br>
<br>Es uno de los algoritmos de aprendizaje más certeros que hay disponible. Para un set de datos lo suficientemente grande produce un clasificador muy certero.<br>
<br>Corre eficientemente en bases de datos grandes.<br>
<br>Puede manejar cientos de variables de entrada sin excluir ninguna.<br>
<br>Da estimados de qué variables son importantes en la clasificación.<br>
<br>Tiene un método eficaz para estimar datos perdidos y mantener la exactitud cuando una gran proporción de los datos está perdida.<br>
<br>Computa los prototipos que dan información sobre la relación entre las variables y la clasificación.<br>
<br>Computa las proximidades entre los pares de casos que pueden usarse en los grupos, localizando valores atípicos, o (ascendiendo) dando vistas interesantes de los datos.
    Ofrece un método experimental para detectar las interacciones de las variables.<br>
#### <br>Desventajas<br>
<br>Se ha observado que Random forests sobreajusta en ciertos grupos de datos con tareas de clasificación/regresión ruidosas.<br>
<br>A diferencia de los árboles de decisión, la clasificación hecha por random forests es difícil de interpretar por el hombre.<br>
<br>Para los datos que incluyen variables categóricas con diferente número de niveles, el random forests se parcializa a favor de esos atributos con más niveles. Por consiguiente, la posición que marca la variable no es fiable para este tipo de datos. Métodos como las permutaciones parciales se han usado para resolver el problema<br>
<br>Si los datos contienen grupos de atributos correlacionados con similar relevancia para el rendimiento, entonces los grupos más pequeños están favorecidos sobre los grupos más grandes.<br>

