In [None]:
# DEFINICION DE FUNCIONES

# Definición de la función que calcula el gini index
def gini(y):
    if y.shape[0] == 0:
        return 0
    else:
        return 1 - (y.mean()**2 + (1 - y.mean())**2)

# Definición de la función gini_imputiry para calular la ganancia de una variable predictora j dado el punto de corte k
def gini_impurity(X_col, y, split):
    
    filter_l = X_col < split
    y_l = y.loc[filter_l]
    y_r = y.loc[~filter_l]
    
    n_l = y_l.shape[0]
    n_r = y_r.shape[0]
    
    gini_y = gini(y)
    gini_l = gini(y_l)
    gini_r = gini(y_r)
    
    gini_impurity_ = gini_y - (n_l / (n_l + n_r) * gini_l + n_r / (n_l + n_r) * gini_r)
    
    return gini_impurity_

# Definición de la función best_split para calcular cuál es la mejor variable y punto de cortepara hacer la bifurcación del árbol
def best_split(X, y, num_pct=10):
    
    features = range(X.shape[1])
    
    best_split = [0, 0, 0]  # j, split, gain
    
    # Para todas las varibles 
    for j in features:
        
        splits = np.percentile(X.iloc[:, j], np.arange(0, 100, 100.0 / (num_pct+1)).tolist())
        splits = np.unique(splits)[1:]
        
        # Para cada partición
        for split in splits:
            gain = gini_impurity(X.iloc[:, j], y, split)
                        
            if gain > best_split[2]:
                best_split = [j, split, gain]
    
    return best_split

In [None]:
## Tree grow con gini index
# Definición de la función tree_grow para hacer un crecimiento recursivo del árbol corregida
def tree_grow(X, y, level=0, min_gain=0.001, max_depth=None, num_pct=10, min_samples_leaf=6):
    
    # Si solo es una observación
    if X.shape[0] == 1:
        tree = dict(y_pred=y.iloc[:1].values[0], y_prob=0.5, level=level, split=-1, n_samples=1, gain=0)
        return tree
    
    # Calcular la mejor división
    j, split, gain = best_split(X, y, num_pct)
    
    # Guardar el árbol y estimar la predicción
    y_pred = int(y.mean() >= 0.5) 
    y_prob = (y.sum() + 1.0) / (y.shape[0] + 2.0)  # Corrección Laplace 
    
    tree = dict(y_pred=y_pred, y_prob=y_prob, level=level, split=-1, n_samples=X.shape[0], gain=gain)
    # Revisar el criterio de parada 
    if gain < min_gain or X.shape[0] <= min_samples_leaf:
        return tree
    if max_depth is not None:
        if level >= max_depth:
            return tree   
    
    # Continuar creando la partición
    filter_l = X.iloc[:, j] < split
    X_l, y_l = X.loc[filter_l], y.loc[filter_l]
    X_r, y_r = X.loc[~filter_l], y.loc[~filter_l]
    tree['split'] = [j, split]

    # Siguiente iteración para cada partición
    
    tree['sl'] = tree_grow(X_l, y_l, level + 1, min_gain=min_gain, max_depth=max_depth, num_pct=num_pct, min_samples_leaf=min_samples_leaf)
    tree['sr'] = tree_grow(X_r, y_r, level + 1, min_gain=min_gain, max_depth=max_depth, num_pct=num_pct, min_samples_leaf=min_samples_leaf)
    
    return tree

In [10]:
# Valores predichos por el weak learner
y_pred = [1, 0, 0, 1]

# Pesos de las observaciones
w = [0.3, 0.1, 0.5, 0.9]

sum_2=sum(w)
# Valores reales
y_real = [1, 0, 1, 1]

# Cálculo del error ponderado del weak learner
error = sum(w[i] for i in range(len(y_pred)) if y_pred[i] != y_real[i])
round(error/sum_2,3)

0.278

In [4]:
import math
error_ht = 0.5

# Cálculo del peso del weak learner ht
weight_ht =  math.log((1 - error_ht) / error_ht)
weight_ht

0.0

En este caso se utilizo la funcion de perdida 'binary_crossentropy' para problemas de clasificación binaria, es una función de pérdida comúnmente utilizada en problemas de clasificación binaria en redes neuronales. Su objetivo es medir la discrepancia entre las distribuciones de probabilidad de la verdad fundamental y las predicciones del modelo.


$$L(y, \hat{y}) = - (y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}))$$

Params Kagle

In [None]:
param = {
        'metric': ['rmse'], 
        'random_state': 42,
        'n_estimators': 20000,
        'reg_alpha': [1e-3, 0.1, 5, 10.0],
        'reg_lambda':  [1e-3, 0.1, 5, 10.0],
        'colsample_bytree': [0.3,0.4,0.5,0.6,0.7,0.8,0.9, 1.0],
        'subsample': [0.4,0.5,0.6,0.7,0.8,1.0],
        'learning_rate': [0.006,0.008,0.01,0.014,0.017,0.02],
        'max_depth': [10,20,100],
        'num_leaves' :  [1, 1000],
        'min_child_samples': [1, 300],
        'cat_smooth' : [ 1, 100]
    }