# DISCRETIZACIÓN BASADA EN LA ENTROPÍA

### Existen muchas maneras de discretizar. Se suele hablar de dos grandes grupos:

    • No supervisada. Ejemplos:
        De longitud fija (valor = bins o frontera del intervalo)
        De frecuencia fija (intervalos con el mismo número de instancias) 
        
    • Supervisada. Ejemplo:
        Miniza la entropía respecto a una segunda variable, que es la clasificación

In [1]:
import numpy as np
from scipy.stats import entropy
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, export_graphviz, export_text
from re import findall, finditer

### Se tomará el fichero de datos correspondiente a IRIS, ejemplo muy conocido e incoporado directamente en SkLearn

In [2]:
iris = load_iris()

#### Se carga un objeto denominado, en este caso, iris. Tiene una método denomando DESCR, que en formato print muestra información muy detallada del dataset.

In [3]:
# print(iris.DESCR)

### Ejemplo de construcción de una tabla columna a columna

In [4]:
tabla = pd.DataFrame(columns=iris.feature_names, data=iris.data)

In [5]:
tabla.insert(loc=len(tabla.columns), column="Class", value=iris.target) 

In [6]:
tabla.Class = iris.target_names[tabla.Class]

In [7]:
tabla

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


### Discretización del primer atributo basándose en la entropía. Se ha de fijar el máximo de intervalos (4). Se suele coger un múltiplo de dos.

In [8]:
clf = DecisionTreeClassifier(max_leaf_nodes=4, criterion='entropy')

In [9]:
clf.fit(np.array(tabla['sepal length (cm)']).reshape(-1,1), tabla.Class)

DecisionTreeClassifier(criterion='entropy', max_leaf_nodes=4)

In [10]:
txt = export_text(clf, feature_names=['sepal length (cm)'])

In [11]:
print(txt)

|--- sepal length (cm) <= 5.55
|   |--- sepal length (cm) <= 5.45
|   |   |--- class: setosa
|   |--- sepal length (cm) >  5.45
|   |   |--- class: versicolor
|--- sepal length (cm) >  5.55
|   |--- sepal length (cm) <= 6.15
|   |   |--- class: versicolor
|   |--- sepal length (cm) >  6.15
|   |   |--- class: virginica



In [12]:
txt

'|--- sepal length (cm) <= 5.55\n|   |--- sepal length (cm) <= 5.45\n|   |   |--- class: setosa\n|   |--- sepal length (cm) >  5.45\n|   |   |--- class: versicolor\n|--- sepal length (cm) >  5.55\n|   |--- sepal length (cm) <= 6.15\n|   |   |--- class: versicolor\n|   |--- sepal length (cm) >  6.15\n|   |   |--- class: virginica\n'

In [13]:
export_graphviz(decision_tree=clf, out_file='sepal_length_tree.dot', class_names=iris.target_names)

In [14]:
! dot -Tpdf 'sepal_length_tree.dot' -o 'sepal_length_tree.pdf'

In [15]:
txt.count('<=')

3

In [16]:
b = []
for i in finditer('<=', txt):
    print(i.start(), i.end())
    b.append(float(txt[i.start()+2:i.start()+7]))

23 25
58 60
217 219


In [17]:
b.sort()

In [18]:
b

[5.45, 5.55, 6.15]

In [19]:
d1 = np.digitize(x=tabla['sepal length (cm)'], bins=b)

In [20]:
d1

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 0, 0, 2, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 3, 3, 3, 1, 3, 2, 3, 0, 3, 0, 0, 2, 2, 2, 2, 3,
       2, 2, 3, 2, 2, 2, 3, 2, 3, 3, 3, 3, 2, 2, 1, 1, 2, 2, 0, 2, 3, 3,
       2, 1, 1, 2, 2, 0, 2, 2, 2, 3, 0, 2, 3, 2, 3, 3, 3, 3, 0, 3, 3, 3,
       3, 3, 3, 2, 2, 3, 3, 3, 3, 2, 3, 2, 3, 3, 3, 3, 3, 2, 3, 3, 3, 3,
       3, 3, 2, 3, 3, 3, 2, 3, 3, 3, 2, 3, 3, 3, 3, 3, 3, 2])

In [21]:
[entropy(tabla.Class[d1==i].value_counts(normalize=True), base=2) for i in np.unique(d1)]

[0.6496096346956634,
 0.8631205685666311,
 1.2250335169881905,
 0.8698926856041563]