# Algoritmo ID3

## Árboles de decisión

###### Se desea saber cuales son las preferencias de condiciones para nadar usando el algoritmo ID3

In [1]:

import math
import numpy as np
import pandas as pd
import operator

###### Definimos el target, la entropia y la información de ganancia

In [2]:
def target_list(df,target_index):
    target=df.iloc[:,target_index]
    tot=len(target)
    target_vals = list(set(target))
    return tot,target_vals
    
def _entropy(df,target_index,atri=None):
    target=df.iloc[:,target_index]
    tot,target_vals =  target_list(df,target_index)
    entropy = 0 
    for i in target_vals:
        t_count = len(list(filter(lambda x : x == i,target)))
        entropy += (t_count/tot)* (-math.log(t_count/tot,2))
    return entropy

def info_gain(df,target_index,atri,ent_des):
    atri_list = list(set(df[atri]))
    tot,target_vals =  target_list(df,target_index)
    info_gain = ent_des
    for i in atri_list:
        atri_total = len(list(filter(lambda x: x == i,df[atri])))
        info_gain -= (atri_total/tot) * _entropy(df[(df[atri] == i)],target_index)
    return info_gain

###### Creamos listas(arrays) para los valores de nuestras variables

In [5]:
waterTemperature=np.array(['cold','warm','cold','warm','cold','warm'])

swimmingSuit = np.array(['none','none','small','small','good','good'])


# Label or target varible

preferences = np.array(['no','no','no','no','no','yes'])

df=pd.DataFrame({'swimmingSuit': swimmingSuit,'waterTemperature':waterTemperature,'preferences':preferences})
target_index=2

###### Imprimimos los datos en una tabla

In [6]:
df

Unnamed: 0,swimmingSuit,waterTemperature,preferences
0,none,cold,no
1,none,warm,no
2,small,cold,no
3,small,warm,no
4,good,cold,no
5,good,warm,yes


###### Definimos el target(las preferencias)

In [7]:
target=df.iloc[:,target_index]
target

0     no
1     no
2     no
3     no
4     no
5    yes
Name: preferences, dtype: object

###### Contamos los sí y no

In [9]:
tot = len(target)
p = len(list(filter(lambda x : x =='yes',preferences)))
n = len(list(filter(lambda x : x =='no',preferences)))
print(p)
print(n)

1
5


###### Calculamos la entropia total de preferencias

In [10]:
ent_des = _entropy(df,target_index)
ent_des

0.6500224216483541

###### Calculamos la entropia de las particiones

###### S none : Que no usan traje de baño

In [11]:
_entropy(df[(df['swimmingSuit'] == 'none')],target_index)

0.0

###### Nota:  La entropia en S none es cero por que todas las instancias tienen la clase NO

###### S small: Que prefieren usar traje de baño pequeño

In [12]:
_entropy(df[(df['swimmingSuit'] == 'small')],target_index)

0.0

###### S good : Que prefieren usar un traje de baño que les quede bien 

In [13]:
_entropy(df[(df['swimmingSuit'] == 'good')],target_index)

1.0

######  Nota: En la particion S good que nos dió la entropia más grande significa que es la que nos va a aportar más información 

######  Calculamos la informacion de ganancia

In [14]:
all_attributes = list(df.columns) 
all_attributes.remove(df.columns[target_index])
information_gain = {}

for i in all_attributes:
    information_gain[i] = info_gain(df,target_index,i,ent_des)
    print('information gain for ' + i + ' is: ' + str(information_gain[i]))

information gain for swimmingSuit is: 0.3166890883150208
information gain for waterTemperature is: 0.19087450462110933


######   Por lo tanto, podemos obtener más información sobre el conjunto S(swimming suit)


######  Elaboró Thelma y Hugo