In [144]:
from sklearn.base import BaseEstimator, TransformerMixin
import pandas as pd
import numpy as np

class target_encoder(BaseEstimator, TransformerMixin):
    '''
    Classe que transforma dados categóricos em dados numéricos através das proporções encontradas nos dados de treino e pode ser passada em um pipeline do sklearn
    OBS: Usada para problemas de classificação onde a variável dependente é 0 ou 1
    
    Parâmetros do construtor:
    -------------------------
    target_variable : nome da variável dependente a ser prevista no modelo, padrão:'AGE_PERCENTIL'
    encoder_variable : nome da variável categórica a ser transformada, padrão:'ICU'
    
    Atributos do construtor:
    ------------------------
    target_variable : nome da variável dependente a ser prevista no modelo
    encoder_variable : nome da variável categórica a ser transformada
    
    Funções:
    --------
    
        fit():
        ------
        Cria um dicionário associando cada categoria a proporção da mesma achada na variável dependente
        
            Parâmetros:
            ----------
            X : dados com as variáveis independentes
            y : dados com a variável dependente
            
            Atributos:
            ----------
            map_dict : dicionário associando cada valor categórico ao numérico
            
        transform():
        ------------
        Transforma a variável categória mapeando a pelo dicionário estabelecido na função fit()
            
            Parâmetros:
            ----------
            X : dados com as variáveis independentes
            y : dados com a variável dependente, padrão : None
            
            Retorno:
            --------
            Retorna o conjunto de dados das variáveis dependentes(X) com a variável categórica transformada       
    '''
    def __init__(self, encoder_variable='AGE_PERCENTIL', target_variable='ICU'):
        self.target_variable = target_variable
        self.encoder_variable = encoder_variable
        
    def fit(self, X, y):
        data = pd.concat([X,y], axis=1)
        self.map_dict = {}
        for value in data[self.encoder_variable].unique():
            self.map_dict[value] = data[data[self.encoder_variable] <= value][self.target_variable].mean()
        return self
    
    def transform(self, X, y=None):
        X[self.encoder_variable] = X[self.encoder_variable].map(self.map_dict)
        return X

In [143]:
data = pd.read_csv('../data/preprocessed_data/Kaggle_Sirio_Libanes_ICU_Prediction.csv')

In [140]:
data['AGE_PERCENTIL']

0            60th
1            10th
2            40th
3            10th
4            10th
          ...    
289          40th
290    Above 90th
291          50th
292          40th
293          50th
Name: AGE_PERCENTIL, Length: 294, dtype: object

In [141]:
te = target_encoder()
te.fit(data,None)
data = data.drop(['WINDOW', 'PATIENT_VISIT_IDENTIFIER'],axis=1)
te.transform(data)['AGE_PERCENTIL']

0      0.392857
1      0.166667
2      0.242424
3      0.166667
4      0.166667
         ...   
289    0.242424
290    0.555556
291    0.419355
292    0.242424
293    0.419355
Name: AGE_PERCENTIL, Length: 294, dtype: float64

In [145]:
te = target_encoder()
te.fit(data,None)
data = data.drop(['WINDOW', 'PATIENT_VISIT_IDENTIFIER'],axis=1)
te.transform(data)['AGE_PERCENTIL']

0      0.280000
1      0.166667
2      0.226950
3      0.166667
4      0.166667
         ...   
289    0.226950
290    0.357143
291    0.261628
292    0.226950
293    0.261628
Name: AGE_PERCENTIL, Length: 294, dtype: float64