In [1]:
import pandas as pd
import numpy as np
from __future__ import division
from math import log

El WoE (Weight of Evidence) es un estadistico de ayuda en algunos problemas de clasificación, se puede definir como una transformación de nuestra matriz de datos y nuestras etiquetas en una nueva matriz de datos, si $X\in M^{m\times n}$ y $Y\in M^{m\times 1}$ tal que $Y_i\in\{0,1\}$ para toda $1\le i\le m$ entonces definimos nuestra transformación $T:M^{m\times n}\times M^{m\times 1}\rightarrow M^{m\times n}$ como: 
$$ WoE_{ij}=(f(X,Y))_{ij}=\log \left( \frac{\sum_{k=1}^{m}1\{y_i=1,x_{ki}=x_{ij}\}}{\sum_{k=1}^{m}1\{y_i=0,x_{ki}=x_{ij}\}}\right)\quad \text{WoE Discreto}$$
Esta definición es valida solo cuando se asume que $x_{ij}\in D_{j}$ y $|D_j|\le m$, osea que se tenga una variable categorica o discreta, para algunas variables se debe asumir que el conjunto en el qe toman valores sea un intervalo compacto $I_j\subset \mathbb{R}$ en este caso se pude hacer una partición (bins) del intervalo $I_j$ $\tau^{i} =\{t^{i}_{1},...,t_{s_{i}}^{i}\}$ en ese caso la transformación sería de la siguiente manera: 
$$ WoE_{ij}=(f(X,Y))_{ij}=\log \left( \frac{\sum_{k=1}^{s_i}1\{y_i=1,t^{i}_k\le x_{ij}\le t^{i}_{k+1}\}}{\sum_{k=1}^{s_i}1\{y_i=0,t^{i}_k\le x_{ij}\le t^{i}_{k+1}\}}\right)\quad \text{WoE continuo}$$
La transformación así como esta definida no nos serviría de nada pues toma valores justamente de lo que queremos predecir $Y$ por lo que no podría ser llamado esatistico, sin embargo se puede definir la transformación para algún otra matriz de valores $Z\in M^{m\times n}$ $R: M^{m\times n} \rightarrow  M^{m\times n}$ 
$$(R(Z))_{ij}=\sum_{j=1}^{n}(WoE)_{ij}1\{z_{ij}=x_{ij}\}\quad \text{Transfromación aplicada}$$ 
La idea de esta transformación es polarizar entre valores positivos y negativos, pues es el logaritmo de una proporción.

In [396]:
class WoE:
    def __init__(self, disc, cont):
        self.maps = None
        self.disc = disc
        self.cont = cont
        self.IV = None
    def fit(self, Z, y,bins=None):
        X = Z.copy()
        self.IV = pd.DataFrame([np.zeros(len(X.columns))],columns = X.columns)
        self.maps = pd.DataFrame()
        cols = X.columns
        X['var'] = y
        X['ID'] = range(len(X))
        for col in self.disc:
            a = X.pivot_table(aggfunc='count',columns='var',fill_value=0, index=col,values='ID').reset_index()
            a.loc[-1] =["TOTAL", sum(a[0]), sum(a[1])]
            lis = []
            for y in set(X[col].values):
                g = int(a[a[col]==y][1])/int(a[a[col]=='TOTAL'][1])
                b = int(a[a[col]==y][0])/int(a[a[col]=='TOTAL'][0])
                if g*b == 0 :
                    d = log((g+0.5)/(b+0.5))
                else:
                    d = log(g/b)
                self.IV[col] += float((g-b)*d)
                lis.append((y,d))
            lis1 = pd.DataFrame(columns=[col])
            lis1[col] = lis
            self.maps = pd.concat([self.maps, lis1],axis=1) 
        for col in self.cont:
            IV = []
            for i in bins:
                IV.append(0)
                X[col] = pd.cut(Z[col], bins = i)
                a = X.pivot_table(aggfunc='count',columns='var',fill_value=0, index=col,values='ID').reset_index()
                a.loc[-1] =["TOTAL", sum(a[0]), sum(a[1])]
                for y in set(X[col].values):
                    goods = float(int(a[a[col]==y][1])/int(a[a[col]=='TOTAL'][1]))
                    bads = float(a[a[col]==y][0]/int(a[a[col]=='TOTAL'][0]))
                    if (bads != 0)&(goods !=0):
                        d = log(bads/goods)
                        IV[-1] += float((bads-goods)*d)
                    else:
                        IV[-1] += -np.inf 
            IV = np.array(IV)
            armax = np.argmax(IV[IV <np.inf])
            M = int(bins[armax])
            y1 = min(Z[col])
            y2 = max(Z[col])
            B = [-np.inf]+[y1 + n*(y2-y1)/M for n in range(1,M)]+[np.inf]
            X[col] = pd.cut(Z[col], bins = M,include_lowest=True,right=True,labels= [x for x in range(1,M+1)])
            a = X.pivot_table(aggfunc='count',columns='var',fill_value=0, index=col,values='ID').reset_index()
            a.loc[-1] =["TOTAL", sum(a[0]), sum(a[1])]
            lis = []
            for y in set(X[col].values):
                g = int(a[a[col]==y][1])/int(a[a[col]=='TOTAL'][1])
                b = int(a[a[col]==y][0])/int(a[a[col]=='TOTAL'][0])
                if g*b == 0 :
                    d = log((g+0.5)/(b+0.5))
                else:
                    d = log(g/b)
                self.IV[col] += float((g-b)*d)
                lis.append((B[y-1],B[y],d))
            lis1 = pd.DataFrame(columns=[col])
            lis1[col] = lis
            self.maps = pd.concat([self.maps, lis1],axis=1) 
    def transform(self, W):
        Z = W.copy()
        for col in self.disc:
            for value in Z[col].values:
                Aux = [x for x in self.maps[col] if type(x)==tuple]
                if value in [x[0] for x in Aux]:
                        aux = [x[1] for x in Aux if x[0]==value]
                        Z[col].replace(value,aux[0],inplace=True)
                else:
                    print str(value)+" No se observo en la variable original " + str(col)
        for col in self.cont:
            for pairs in [x for x in self.maps[col] if type(x)==tuple ]:
                for value in Z[col].values:
                    if (pairs[0]<= value) & (value<= pairs[1]):
                        Z[col].replace(value,pairs[2],inplace=True)
        return Z

Tomamos un ejemplo para ajustar

In [397]:
Z = pd.read_csv("Ejemplo.csv")
Z.head()

Unnamed: 0,a1,a2,a3,a4,a5,a6,c1,y
0,5,2,3,2,0,1,0.54,0
1,2,3,6,8,10,8,-0.98,1
2,2,3,4,7,14,5,0.23,0
3,3,5,6,2,2,6,1.234,0
4,2,2,5,1,12,8,3.2,1


Indicamos quienes son nuestros valores $X$ y las etiquetas $Y$, así como que variables son continuas o discretas

In [398]:
X = Z[['a'+str(x) for x in range(1,7)]+['c1']]
Y = Z['y']
disc = ['a'+str(x) for x in range(1,7)]
cont = ['c1']

Creamos la instancia llamada woe

In [399]:
woe = WoE(disc,cont)

Ajustamos a $X$ y $Y$ con una lista de posibles bins de los que nuestra función fit se encargara de calcular el IV y utilizar la que lo máximice.

In [400]:
woe.fit(X,Y,bins=[2,3,5,6])

maps represente la función $WoE$ como tal, es el conjunto de flechas que se aplicaran a algún otro conjunto de datos $Z$ en el caso de de las variables discretas guarda el valor de la variable y el del $WoE$ en una tupla $(x_{ij},WoE_{ij})$ y en el caso de las variables continuas guarda el intervalo y el $WoE$ de la siguiente manera $(t^{i}_j,t^{i}_{j+1}, WoE_{ij})$, notemos que nuestra partición es completa es decir va de $-\infty$ a $ \infty$


In [401]:
woe.maps

Unnamed: 0,a1,a2,a3,a4,a5,a6,c1
0,"(1, 0.287682072452)","(0, 0.287682072452)","(2, -0.336472236621)","(0, -0.336472236621)","(0, -0.182321556794)","(1, -0.336472236621)","(-inf, -1.40666666667, -0.182321556794)"
1,"(2, 0.916290731874)","(1, 0.510825623766)","(3, -0.182321556794)","(1, -0.182321556794)","(1, 0.287682072452)","(5, -0.875468737354)","(-1.40666666667, 0.896666666667, -0.587786664902)"
2,"(3, -0.875468737354)","(2, -0.875468737354)","(4, -0.182321556794)","(2, -0.875468737354)","(2, -0.587786664902)","(6, -0.587786664902)","(0.896666666667, inf, 0.916290731874)"
3,"(5, -0.875468737354)","(3, 0.510825623766)","(5, 0.510825623766)","(3, 0.287682072452)","(3, -0.336472236621)","(7, 0.287682072452)",
4,,"(5, -0.587786664902)","(6, 0.510825623766)","(5, 0.287682072452)","(5, 0.287682072452)","(8, 0.69314718056)",
5,,,"(8, -0.336472236621)","(7, -0.336472236621)","(7, 0.287682072452)","(9, 0.287682072452)",
6,,,,"(8, 0.287682072452)","(10, 0.287682072452)",,
7,,,,"(9, 0.287682072452)","(12, 0.287682072452)",,
8,,,,,"(14, -0.336472236621)",,


IV nos muestra el valor informativo de cada variable

In [402]:
woe.IV

Unnamed: 0,a1,a2,a3,a4,a5,a6,c1
0,0.731386,0.725723,0.385129,0.53673,0.615516,0.949153,0.437708


In [387]:
W = pd.read_csv("transformar.csv")
W

Unnamed: 0,a1,a2,a3,a4,a5,a6,c1
0,2,1,4,1,1,9,0.34
1,3,1,3,2,7,9,-2.34
2,5,0,2,5,12,8,3.1


In [403]:
woe.transform(W)

Unnamed: 0,a1,a2,a3,a4,a5,a6,c1
0,0.916291,0.510826,-0.182322,-0.182322,0.287682,0.287682,-0.587787
1,-0.875469,0.510826,-0.182322,-0.875469,0.287682,0.287682,-0.587787
2,-0.875469,0.287682,-0.336472,0.287682,0.287682,0.693147,0.916291


El caso en el que los valores que tome una variable $x_i$ no esten contenidos en los valores en los que se ajusto hay dos casos, en el continuo no hay problema pues nuestra partición es sobre todos los números reales. Pero en el caso discreto no hay una forma de saber el WoE de algo que nunca se ha observado. Lo que ocurre es lo siguiente:

In [404]:
Q = pd.DataFrame([(50,20,12,3,-12,23,50.342)],columns=disc+cont)
Q

Unnamed: 0,a1,a2,a3,a4,a5,a6,c1
0,50,20,12,3,-12,23,50.342


In [405]:
woe.transform(Q)

50 No se observo en la variable original a1
20 No se observo en la variable original a2
12 No se observo en la variable original a3
-12 No se observo en la variable original a5
23 No se observo en la variable original a6


Unnamed: 0,a1,a2,a3,a4,a5,a6,c1
0,50,20,12,0.287682,-12,23,0.916291


Solo se transforma lo que si coincide, y la continua. 
Se podria proponer una forma de PREDECIR el WoE utilizando la poca información con la que contamos, esto lo propongo usando la frecuencia con la que ocurre la variable es decir entontrar una $f$ tal que: 
$$f\left( \frac{\sum_{k=1}^{m}1\{x_{ki} =x_{ij}\}}{n}\right)=WoE_{ij}$$ 
Usando algún metodo de regresión para poder aproximar esta función $f$ y evaluarla con las frecuencia con la que ocurra una variable nueva. 