<a href="https://colab.research.google.com/github/MarioPrado1148/DSWP_Aluno_Mario/blob/MarioPrado1148-Notebooks/Kaggle_catboost_20201130b_notebookZenilson.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Instalação do CATBOOST


In [None]:
!pip install catboost

Collecting catboost
[?25l  Downloading https://files.pythonhosted.org/packages/7e/c1/c1c4707013f9e2f8a96899dd3a87f66c9167d6d776a6dc8fe7ec8678d446/catboost-0.24.3-cp36-none-manylinux1_x86_64.whl (66.3MB)
[K     |████████████████████████████████| 66.3MB 83kB/s 
Installing collected packages: catboost
Successfully installed catboost-0.24.3


##2. Importação das bibliotecas

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix # para plotar a confusion matrix
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
from sklearn.model_selection import GridSearchCV # para otimizar os hiperparâmetros dos modelos preditivos
from sklearn.model_selection import cross_val_score # Para o CV (Cross-Validation)
from sklearn.model_selection import cross_validate



## 3. Carregando os dataframes iniciais com os dados de treino e teste

In [None]:
df_treino = pd.read_csv("train.csv")
df_teste = pd.read_csv("test.csv")

## 4. Classe para tratamento dos dados do DataFrame.   A intenção ao utilizar uma classe pra isso foi a possibilidade de ir adicionando métodos que retornem diferentes "versões" do dataframe, com diferentes tratamentos de features...e ir testando/mantendo aquelas que tenham mais sucesso.
### Observações:
1. O dataframe "original" é passado como parâmetro na criação do objeto.   Ao instanciar o objeto alguns tratamentos iniciais, sugeridos pelo Mario, são aplicados (ex: renomear colunas, missing values, conversão de tipo, etc.) 
2. Após a criação, posso utilizar algo como objeto.getDataFramexxxxxx() para obter o dataframe com o tratamento específico definido no respectivo método.

In [None]:
class Trata_DataFrame():
    def __init__(self,df):
      self.df = df
      self.renomeia_colunas()
      self.trata_CobrancaTotal()
      self.trata_MesesNaCompanhia()
      self.trata_MetodoPagamento()
      self.trata_TemDependentes()
      self.trata_Idoso()

    def renomeia_colunas(self):
       self.df.rename(columns = {'id':'id',
                                'gender':'genero',
                                'SeniorCitizen':'Idoso',
                                'Partner':'TemParceiro',
                                'Dependents':'TemDependentes',
                                'tenure':'MesesNaCompanhia',
                                'PhoneService':'TemTelefone',
                                'MultipleLines':'MaisLinhas',
                                'InternetService':'TemInternet',
                                'OnlineSecurity':'ServicoSegurancaOnline',
                                'OnlineBackup':'ServicoBackupOnline',
                                'DeviceProtection':'ServicoProtecaoOnline',
                                'TechSupport':'ServicoSuporteOnline',
                                'StreamingTV':'ServicoTV',
                                'StreamingMovies':'ServicoPctFilmes',
                                'Contract':'Contrato',
                                'PaperlessBilling':'ContaOnline',
                                'PaymentMethod':'MetodoPagamento',
                                'MonthlyCharges':'CobrancaMensal',
                                'TotalCharges':'CobrancaTotal',
                                'Churn':'Churn'}, inplace=True)   

    def trata_MetodoPagamento(self):
        ''' atribui uma string ('MISS') aos valores missing da coluna.'''
        self.df.loc[self.df["MetodoPagamento"].isna(),"MetodoPagamento"] = "MISS"
    def trata_TemDependentes(self):
        ''' atribui o valor Yes ao campo TemDependentes caso o cliente possua mais de uma linha, e 'No' caso não possua'''
        self.df.loc[self.df["TemDependentes"].isna(),"TemDependentes"] = "MISS"
        self.df.loc[(self.df["MaisLinhas"] == 'No') & (self.df["TemDependentes"] == 'MISS'), "TemDependentes"] = "No"
        self.df.loc[(self.df["MaisLinhas"] == 'Yes') & (self.df["TemDependentes"] == 'MISS'), "TemDependentes"] = "Yes"

    def trata_CobrancaTotal(self):
        '''  converte os valores para número...Em seguida substitui Nan por MesesNaCompanhia * CobrancaMensal '''
        self.df['CobrancaTotal'] = pd.to_numeric(self.df['CobrancaTotal'], errors='coerce')
        self.df.loc[np.isnan(self.df["CobrancaTotal"]),"CobrancaTotal"] = self.df["MesesNaCompanhia"] * self.df["CobrancaMensal"]
    
    def trata_Idoso(self):
      self.df["Idoso"] = self.df["Idoso"].astype('str')

    def trata_MesesNaCompanhia(self):
        ''' recalcula a qtde de meses dos missing values dividindo o valor total pelo valor mensal '''   
        self.df.loc[np.isnan(self.df["MesesNaCompanhia"]),"MesesNaCompanhia"] = round(self.df["CobrancaTotal"] / self.df["CobrancaMensal"],0)
        self.df["MesesNaCompanhia"] = self.df["MesesNaCompanhia"].astype("float")

    def getDataFrameDefault(self):
        ''' retorna o dataframe apenas com os ajustes iniciais "'''
        return self.df  

    def getDataFrameMelhoresFeatures(self): #dataframe utilizado na primeira submissão do kaggle a atingir 0.80397
        ''' Utiliza como base o dataframe com os ajustes iniciais e realiza nele as seguintes operações:
            - adiciona a QtdeServicosAdicionaisInternet, onde são totalizadas 4 colunas
            - Deixa as colunas "ServicoTV" "ServicoPctFilmes" apenas com os valores Yes e No (No phone service é substituido por No)
            - Exclusão das colunas 'genero' e 'Temparceiro'....A ausência das colunas melhorou a acurácia no treino em vários modelos que testei, por isso resolvi excluí-las
            - Exclusão das quatro colunas de serviços adicionais de internet, que foram totalizadas na nova coluna criada.
            - Exclusão da coluna "TemTelefone".   Entendo que a informação do campo "MaisLinhas" ja é suficiente.
            - chama o método que adiciona a coluna "anos na companhia".
        '''                  
        df2 = self.df.copy()
        df2["QtdeServicosAdicionaisInternet"] = 0
        df2.loc[df2["ServicoSegurancaOnline"] == "Yes","QtdeServicosAdicionaisInternet"] = df2["QtdeServicosAdicionaisInternet"] + 1
        df2.loc[df2["ServicoBackupOnline"] == "Yes","QtdeServicosAdicionaisInternet"] =  df2["QtdeServicosAdicionaisInternet"] + 1
        df2.loc[df2["ServicoProtecaoOnline"] == "Yes","QtdeServicosAdicionaisInternet"] =  df2["QtdeServicosAdicionaisInternet"] + 1
        df2.loc[df2["ServicoSuporteOnline"] == "Yes","QtdeServicosAdicionaisInternet"] = df2["QtdeServicosAdicionaisInternet"] + 1
        df2.loc[df2["ServicoTV"] != "Yes","ServicoTV"] =  "No"
        df2.loc[df2["ServicoPctFilmes"] != "Yes","ServicoPctFilmes"] = "No"
        df2["QtdeServicosAdicionaisInternet"] = df2["QtdeServicosAdicionaisInternet"].astype('int64')
        df2.drop(columns=["genero","TemParceiro","TemTelefone","ServicoSegurancaOnline","ServicoBackupOnline","ServicoProtecaoOnline","ServicoSuporteOnline" ],inplace=True)
        return df2   

    def getDataFrameMelhoresFeatures2(self): # também atigiu, em três arquivos diferentes, a nota 0.80397....tb gerou 0.802... e 0.801...
        ''' Utilizando o dataframe retornado pelo método getDataFrameMelhoresFeatures(), acrescenta a coluna "AnosNaCompanhia", onde os valores são agrupados por faixa '''
        df2 = self.getDataFrameMelhoresFeatures() 
        df2["AnosNaCompanhia"] = ""
        df2.loc[df2["MesesNaCompanhia"] <= 12,"AnosNaCompanhia"] = "0 a 1"
        df2.loc[(df2["MesesNaCompanhia"] > 12) & (df2["MesesNaCompanhia"] <= 24),"AnosNaCompanhia"] = "1 a 2"
        df2.loc[(df2["MesesNaCompanhia"] > 24) & (df2["MesesNaCompanhia"] <= 36),"AnosNaCompanhia"] = "2 a 3"
        df2.loc[(df2["MesesNaCompanhia"] > 36) & (df2["MesesNaCompanhia"] <= 48),"AnosNaCompanhia"] = "3 a 4"
        df2.loc[(df2["MesesNaCompanhia"] > 48) & (df2["MesesNaCompanhia"] <= 60),"AnosNaCompanhia"] = "4 a 5"
        df2.loc[(df2["MesesNaCompanhia"] > 60) & (df2["MesesNaCompanhia"] <= 72),"AnosNaCompanhia"] = "5 a 6"
        df2.loc[(df2["MesesNaCompanhia"] > 72),"AnosNaCompanhia"] = "6 a 7"  
        df2.drop(columns=["MesesNaCompanhia"])
        return df2        

    def getDataFramePrecoMedio(self): # resultados ruins...
        ''' retorna o dataframe default, adicionando duas novas colunas (qtdeServicos e vlrMedioPorServico), e igualando "No" e "No internet service" das colunas relativas a serviços online '''
        df2 = self.df.copy()
        df2["QtdeServicos"] = 0
        df2.loc[df2["TemTelefone"] == "Yes","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["TemInternet"] != "No","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoTV"] == "Yes","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoSegurancaOnline"] == "Yes","QtdeServicos"] = df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoBackupOnline"] == "Yes","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoProtecaoOnline"] == "Yes","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoPctFilmes"] == "Yes","QtdeServicos"] = df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoSuporteOnline"] == "Yes","QtdeServicos"] = df2["QtdeServicos"] + 1

        df2.loc[df2["ServicoTV"] != "Yes","ServicoTV"] =  "No"
        df2.loc[df2["ServicoSegurancaOnline"] != "Yes","ServicoSegurancaOnline"] = "No"
        df2.loc[df2["ServicoBackupOnline"] != "Yes","ServicoBackupOnline"] =  "No"
        df2.loc[df2["ServicoProtecaoOnline"] != "Yes","ServicoProtecaoOnline"] = "No"
        df2.loc[df2["ServicoPctFilmes"] != "Yes","ServicoPctFilmes"] = "No"
        df2.loc[df2["ServicoSuporteOnline"] != "Yes","ServicoSuporteOnline"] = "No"
        df2["QtdeServicos"] = df2["QtdeServicos"].astype('float')
        df2.drop(columns=["TemParceiro"],inplace=True)
        #df2["vlrMedioPorServico"] = df2["CobrancaMensal"] / df2["QtdeServicos"]

        return df2  

    def getDataFrameServAdicionais(self): # não melhorou resultados no treino...
        ''' Utilizando como base o dataframe "padrão" (com os ajustes iniciais), retorna dataframe com nova coluna apenas com o indicativo pra saber se há serviços adicionais de internet '''
        df2 = self.df.copy()
        df2["ServicosAdicionaisInternet"] = "No"
        df2.loc[df2["ServicoSegurancaOnline"] == "Yes","ServicosAdicionaisInternet"] = "Yes"
        df2.loc[df2["ServicoBackupOnline"] == "Yes","ServicosAdicionaisInternet"] =  "Yes"
        df2.loc[df2["ServicoProtecaoOnline"] == "Yes","ServicosAdicionaisInternet"] =  "Yes"
        df2.loc[df2["ServicoPctFilmes"] == "Yes","ServicosAdicionaisInternet"] = "Yes"
        df2.loc[df2["ServicoSuporteOnline"] == "Yes","ServicosAdicionaisInternet"] = "Yes"
        df2.loc[df2["ServicoTV"] == "Yes","ServicosAdicionaisInternet"] = "Yes"
        #df2.drop(columns = [ "ServicoSegurancaOnline","ServicoBackupOnline","ServicoSuporteOnline","ServicoProtecaoOnline","ServicoPctFilmes","ServicoTV"],inplace=True)
        df2.drop(columns = ["TemParceiro", "TemDependentes", "ServicoSegurancaOnline","ServicoBackupOnline","ServicoSuporteOnline","ServicoProtecaoOnline","ServicoPctFilmes","ServicoTV"],inplace=True)
        return df2

    def getDataFrameQtdeServicos2(self):  # não melhorou resultados no treino...
        df2 = self.df.copy()
        df2["QtdeServicos"] = 0
        df2["QtdeServicosAdicionais"] = 0
        df2.loc[df2["TemTelefone"] == "Yes","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["TemInternet"] != "No","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoTV"] == "Yes","QtdeServicos"] =  df2["QtdeServicos"] + 1
        df2.loc[df2["ServicoSegurancaOnline"] == "Yes","QtdeServicosAdicionais"] =  df2["QtdeServicosAdicionais"] + 1
        df2.loc[df2["ServicoBackupOnline"] == "Yes","QtdeServicosAdicionais"] =  df2["QtdeServicosAdicionais"] + 1
        df2.loc[df2["ServicoProtecaoOnline"] == "Yes","QtdeServicosAdicionais"] =  df2["QtdeServicosAdicionais"] + 1
        df2.loc[df2["ServicoPctFilmes"] == "Yes","QtdeServicosAdicionais"] =  df2["QtdeServicosAdicionais"] + 1
        df2.loc[df2["ServicoSuporteOnline"] == "Yes","QtdeServicosAdicionais"] =  df2["QtdeServicosAdicionais"] + 1
        df2["QtdeServicos"] = df2["QtdeServicos"].astype('float')
        df2["QtdeServicosAdicionais"] = df2["QtdeServicosAdicionais"].astype('float')
        df2.drop(columns = ["TemTelefone","TemInternet","ServicoTV","ServicoSegurancaOnline","ServicoBackupOnline","ServicoSuporteOnline","ServicoProtecaoOnline","ServicoPctFilmes"],inplace=True)
        return df2          



## 5. Criação dos objetos "Trata_DataFrame" para os dataframes de Teste e de Treino

In [None]:
otdf_Treino = Trata_DataFrame(df_treino)
otdf_Teste = Trata_DataFrame(df_teste)

## 6. Função para treino/teste
### Parametros da função:
  * dfTreino -> dataframe para treino do modelo.
  * dfTeste -> dataframe de teste.  Não precisa ser fornecido se gerarArquivo = False
  * ts -> tamanho percentual do conjunto de teste (test_size do train_test_split)
  * it, lr e depth -> parâmetros 'iterations', learning_rate e depth do CatBoostClassifier
  * rs -> seed.  parâmetro random_state para o train_test_split
  * gerarArquivo e accMinGerarArquivo -> Caso gerarARquivo = "True", vai aplicar o modelo no dataframe de teste e gerar o arquivo de resultado para submeter no kaggle, desde que a acurácia do treino seja superior ao parâmetro accMinGerarArquivo
  * mostrarFI -> mostra a importância de cada feature
  * retorna a acurácia obtida no treino.

In [None]:
def cbc_treina_testa(dfTreino=None, dfTeste=None, ts=0.30,it=300, lr=0.03, depth=5, rs= None, gerarArquivo=False, accMinGerarArquivo = 82, mostrarFI=False):
   preditoras = dfTreino.copy()
   preditoras.drop(columns=["Churn","id"],inplace=True)
   target = dfTreino["Churn"]
   categorical_features_indices = np.where((preditoras.dtypes != np.float))[0] #considerei todas as features que não são do tipo "flutuante" como categóricas
   X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(preditoras, target, test_size = ts, random_state = rs)
   catb = CatBoostClassifier(iterations = it, learning_rate = lr, depth=depth, silent=True)
   catb_tuned = catb.fit(  X_treinamento, y_treinamento, cat_features=categorical_features_indices)
   y_pred = catb_tuned.predict(X_teste)
   acc_catb = round(accuracy_score(y_teste, y_pred) * 100, 2)
   print('ts: {} it: {} lr: {} depth: {} rs: {} -> '.format(ts,it,lr,depth, rs)+'Score do Treino: %' + str(acc_catb))
   if (mostrarFI == True):
      l_fi = list(zip(X_treinamento.columns, catb_tuned.feature_importances_))
      print(l_fi)
   if (gerarArquivo == True) and (acc_catb >= accMinGerarArquivo):  
      df_id = dfTeste[["id"]]
      df_teste3 = dfTeste.drop(columns=["id"])
      resposta = catb_tuned.predict(df_teste3)
      resposta_df = pd.DataFrame(resposta, columns=['Churn'])
      resultado_submissao = pd.concat([df_id, resposta_df],axis=1)
      resultado_submissao.head().T
      filename = 'novo_submissao_kaggle_catb_fs_ts0{}_it{}_lr{}_depth{}_rs{}_sc{}.csv'.format(round(ts*100,0),it, lr, depth,rs,str(int(acc_catb*100)))
      resultado_submissao.to_csv(filename, index=False)   
      print(filename)
   return acc_catb   

## 7. Aqui realizei alguns testes, treinando alguns modelos a partir do dataframe "Default", e avaliei a importância das features.

In [None]:
# obtém o dataframe default :

df_TreinoDefault = otdf_Treino.getDataFrameDefault()

# cria e treina o modelo, apresentando as feature_importances...

cbc_treina_testa(dfTreino=df_TreinoDefault, rs = 310, mostrarFI=True)

ts: 0.3 it: 300 lr: 0.03 depth: 5 rs: 310 -> Score do Treino: %81.25
[('genero', 0.48213235480793815), ('Idoso', 0.9702756992426257), ('TemParceiro', 0.1377586168432712), ('TemDependentes', 1.5860880201226373), ('MesesNaCompanhia', 14.247894902515934), ('TemTelefone', 0.3954919730615556), ('MaisLinhas', 3.1534183846630617), ('TemInternet', 15.772634197805669), ('ServicoSegurancaOnline', 4.925075009667106), ('ServicoBackupOnline', 2.902601332978861), ('ServicoProtecaoOnline', 1.637678694128276), ('ServicoSuporteOnline', 3.9353798260668498), ('ServicoTV', 1.720860772976292), ('ServicoPctFilmes', 2.9263865633661017), ('Contrato', 25.53023233803254), ('ContaOnline', 3.3745372293927227), ('MetodoPagamento', 3.553531907795029), ('CobrancaMensal', 5.618433068556928), ('CobrancaTotal', 7.129589107976612)]


81.25

#### Obs: 
 * gênero (0.48) e TemParceiro (0.13) apresentaram baixa importância, motivo pelo qual resolvi eliminá-las implementando o método getMelhoresFeatures()
 * TemTelefone tem baixa importância (0.39).   Além disso, entendi que a mesma informação já está sendo representada na features 'MaisLinhas', que apresenta três valores possíveis: Yes, No e No Phone Service....Entendo que quando o catboost criar as colunas dummy a partir desta, a situação de "TemTelefone já estará representada, motivo pelo qual resolvi eliminá-la.
 * Além da exclusão das features, fiz algumas outras simulações, e fui mantendo aquelas cujo resultado do treino ia melhorando:
  - Em um dos testes, criei uma feature para quantificar todos os serviços contratados, mas não vi melhoria
  - Também criei uma feature com o preço médio por serviço, que também não melhorou os resultados.
  - Em outro teste, totalizei na feature apenas os 4 serviços adicionais de internet, que acabei mantendo por ter melhorado o treino.

  - 
   aquelas criei uma feature para totalizar a quantidade de serviços, que não deu muito resultado


## 8. Recuperação dos dataframes de treino e teste com as features selecionadas

In [None]:
df_treino_mf2 = otdf_Treino.getDataFrameMelhoresFeatures2()
df_teste_mf2 = otdf_Teste.getDataFrameMelhoresFeatures2()

Observações:
   * O primeiro resultado de 0.80397 na submissão foi obtido utilizando o dataframe retornado por "getMelhoresFeatures()
   * Posteriormente, com a implementação de getMelhoresFeatures2(), consegui repetir o mesmo resultado (0.80397) outras vezes, além de conseguir várias submissões superiores a 0.80.

## 9. Modelos iniciais no catboost
* Tentei ajustar alguns parâmetros do catboost (iterations, depth, learning_rate), mas percebi que quando encontrava parâmetros que produziam bons resultados no treino, os resultados do kaggle eram bem diferentes, e se modificasse a "seed" utilizada no 'random_state' para fazer o split do treino a acurácia mudava completamente, o que tornava necessário reajustar os parâmetros para a nova seed

In [None]:
cbc_treina_testa(dfTreino=df_treino_mf2, ts = 0.25, it=400, lr = 0.04, depth = 6, rs = 7)
cbc_treina_testa(dfTreino=df_treino_mf2, ts = 0.25, it=400, lr = 0.04, depth = 6, rs = 210)
cbc_treina_testa(dfTreino=df_treino_mf2, ts = 0.25, it=400, lr = 0.04, depth = 6, rs = 200)

ts: 0.25 it: 400 lr: 0.04 depth: 6 rs: 7 -> Score do Treino: %82.54
ts: 0.25 it: 400 lr: 0.04 depth: 6 rs: 210 -> Score do Treino: %80.55
ts: 0.25 it: 400 lr: 0.04 depth: 6 rs: 200 -> Score do Treino: %79.91


79.91

Com base na observação citada anteriormente, resolvi fazer diversas execuções do modelo, sem definir a "seed", testando diversas combinações de parâmetros, e armazenando os scores respectivos em um dicionário para análise posterior.   O objetivo era tentar encontrar alguma combinação de parâmetros em que houvesse pouca variação na acurácia para qualquer "pedaço" do conjunto de treino que fosse utilizado.

## 10. Loop para tentar identificar parâmetros que funcionariam bem para qualquer amostra do treino (DEMORADO - NÃO PRECISA EXECUTAR!!!)

### 10.1 Executa a função cbc_treina_testa() diversas vezes para cada diferente combinação dos parâmetros depth, learning_rate, iterations, armazenando os resultados em um dicionário.

In [None]:
# Variáveis originais do loop (demora pra executar)
#l_ts = [0.24, 0.25, 0.26, 0.28, 0.30] 
#l_it =  [80, 100, 200, 300, 400] 
#l_lr = [0.02, 0.03, 0.04, 0.05, 0.06] 
#l_depth = [2, 3, 4, 5, 6, 7, 8] 
#qtdeDeRepeticoes = 7

#variáveis para uma demonstração mais rápida:
l_ts = [ 0.25, 0.26] 
l_it =  [300, 400] 
l_lr = [0.03, 0.04, 0.05, 0.06] 
l_depth = [2, 3, 4, 5, 6, 7] 
qtdeDeRepeticoes = 3

qtdeExecucoes = len(l_ts) * len(l_it) * len(l_lr) * len(l_depth) * qtdeDeRepeticoes
resultado = {}

for vez in range(1,qtdeDeRepeticoes+1):
   resultado[vez] = {"ts":[], "it":[], "lr":[],"depth":[],"score":[]}
   for ts in l_ts:
       print(f'execução {vez}/ts {ts}...')
       for it in l_it:
           for lr in l_lr:
               for depth in l_depth:
                  res = cbc_treina_testa(dfTreino=df_treino_mf2, ts=ts, it=it, lr=lr, depth=depth,gerarArquivo=False, rs = None, mostrarFI=False) #não vai salvar o arquivo e nem mostrar as melhores features
                  resultado[vez]["ts"].append(ts)
                  resultado[vez]["it"].append(it)
                  resultado[vez]["lr"].append(lr)
                  resultado[vez]["depth"].append(depth)
                  resultado[vez]["score"].append(res)

execução 1/ts 0.25...
ts: 0.25 it: 300 lr: 0.03 depth: 2 rs: None -> Score do Treino: %80.98
ts: 0.25 it: 300 lr: 0.03 depth: 3 rs: None -> Score do Treino: %81.41
ts: 0.25 it: 300 lr: 0.03 depth: 4 rs: None -> Score do Treino: %80.41
ts: 0.25 it: 300 lr: 0.03 depth: 5 rs: None -> Score do Treino: %81.55
ts: 0.25 it: 300 lr: 0.03 depth: 6 rs: None -> Score do Treino: %79.84
ts: 0.25 it: 300 lr: 0.03 depth: 7 rs: None -> Score do Treino: %82.19
ts: 0.25 it: 300 lr: 0.04 depth: 2 rs: None -> Score do Treino: %80.27
ts: 0.25 it: 300 lr: 0.04 depth: 3 rs: None -> Score do Treino: %80.77
ts: 0.25 it: 300 lr: 0.04 depth: 4 rs: None -> Score do Treino: %82.04
ts: 0.25 it: 300 lr: 0.04 depth: 5 rs: None -> Score do Treino: %81.48
ts: 0.25 it: 300 lr: 0.04 depth: 6 rs: None -> Score do Treino: %80.7
ts: 0.25 it: 300 lr: 0.04 depth: 7 rs: None -> Score do Treino: %81.19
ts: 0.25 it: 300 lr: 0.05 depth: 2 rs: None -> Score do Treino: %79.06
ts: 0.25 it: 300 lr: 0.05 depth: 3 rs: None -> Score do 

KeyboardInterrupt: 

### 10.2 Transforma o dicionário gerado no passo anterior em um Dataframe e apresenta seus resultados organizados, permitindo verificar qual conjunto (ts,it, lr e depth) gerou boa média de nota e pequeno std.


In [None]:
arrays = []
for vez, v in resultado.items():
    d = pd.DataFrame(v)
    d["vez"] = vez
    arrays.append(d.copy())
dfResultado = pd.concat(arrays,axis=0,sort=False)

dfTotais = dfResultado.groupby(by=["ts","it","lr","depth"]).agg({"score":["min","max","mean","std"], "vez": ["count"]}).sort_values([("score","mean")],ascending=False)
dfTotais.head(10)

### 10.3 Conclusão:
 * no exemplo acima, poderia dar preferência pelos parâmetros test_size=0.25, iterations=300, learning_rate = 0.05 e depth = 7. 
 * Quando utilizei o dataframe de getMelhoresFeatures(), os parâmetros que encontrei foram ts = 0.26, it = 400, lr = 0.02 e depth = 3
 * Quando utilizei o dataframe de getMelhoresFeatures2(), os parâmetros que encontrei foram ts = 0.25, it = 400, lr = 0.04 e depth = 2


## 11. executa o modelo diversas vezes (ex: 50X, 100x, etc.) com os "melhores parâmetros" encontrados, obtendo diversas acurácias diferentes (por causa da não especificação de um "seed" fixo para separação dos dados de treino e teste)
 
#### obs: alterei a função para só gerar arquivos de submissão cuja nota do treino fosse superior ao valor mínio passado como parâmetro.   Depois disso, pegava os arquivos com as maiores notas e submetia no kaggle

In [None]:
# melhores parametros:
ts = 0.25
it = 400
lr = 0.04
depth = 2
rs = None

qtdeExecucoes = 50
accMin_GerarArquivo = 80.5

for vez in range(1,qtdeExecucoes+1):
   res = cbc_treina_testa(dfTreino=df_treino_mf2, dfTeste=df_teste_mf2, ts=ts, it=it, lr=lr, rs = rs, depth=depth,gerarArquivo=True, accMinGerarArquivo = accMin_GerarArquivo, mostrarFI=False)


## 12. Salvar os melhores arquivos gerados anteriormente e submeter ao kaggle
  * Conforme comentado anteriormente, nas execuções iniciais que fiz a maior nota que havia conseguido era 0.80397. 
  * Após conseguir repetir o mesmo resultado em 4 ocasiões diferentes, e por não ser possível utilizar a biblioteca de "votting" (pois não havia "salvo" os modelos que geraram as melhores notas, procedi da seguinte forma:
  - fiz outro notebook, onde carreguei três arquivos csv´s gerados e que produziam a nota 0.80397.   
  * concatenei os dataframes e comparei as três colunas de churn de cada linha, repetindo, e uma quarta coluna, o "Churn" que aparecia pelo menos duas veze na linha.  
  * Salvei um novo arquivo "csv" com o resultado do "churn" que encontrei e submeti no kaggle, e foi quando a nota aumentou para 0.808xx
  * Essa nota ficou liderando o ranking do kaggle sexta-feira (27).
  * A partir de sexta-feira, ao refazer o notebook para apresentação, fiz diversos testes pra tentar descobrir uma maneira de deixar o notebook com "seed" fixo, e possibilitar a geração de arquivos que produzissem sempre as melhores notas obtidas no kaggle, sem ter que, necessariamente, gerar diversos arquivos aleatoriamente e contar com a "sorte".    
  * Durante os testes, consegui definir seed´s fixos que produziram melhores resultados no kaggle, inclusive foi possível atingar pontuação maior que a anterior (0.80965) 

## 13. Parâmetros para geração de arquivos com melhores notas no kaggle:

### 13.1 Parâmetros para geração de arquivo com nota 0.80397

In [None]:
# melhores parametros:
ts = 0.25
it = 400
lr = 0.04
depth = 2
l_rs = [15590, 68788]
for rs in l_rs:
    res = cbc_treina_testa(dfTreino=df_treino_mf2, dfTeste=df_teste_mf2, ts=ts, it=it, lr=lr, rs = rs, depth=depth,gerarArquivo=True, accMinGerarArquivo = 80, mostrarFI=False)


ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 15590 -> Score do Treino: %80.98
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs15590_sc8098.csv
ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 68788 -> Score do Treino: %81.55
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs68788_sc8155.csv


### 13.2 Parâmetros para geração de arquivo com nota 0.80539 no kaggle:


In [None]:
# melhores parametros:
ts = 0.25
it = 400
lr = 0.04
depth = 2
l_rs = [24605, 55380, 23209, 45210]
for rs in l_rs:
    res = cbc_treina_testa(dfTreino=df_treino_mf2, dfTeste=df_teste_mf2, ts=ts, it=it, lr=lr, rs = rs, depth=depth,gerarArquivo=True, accMinGerarArquivo = 80, mostrarFI=False)


ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 24605 -> Score do Treino: %80.48
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs24605_sc8048.csv
ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 55380 -> Score do Treino: %81.55
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs55380_sc8155.csv
ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 23209 -> Score do Treino: %81.19
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs23209_sc8119.csv
ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 45210 -> Score do Treino: %80.98
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs45210_sc8098.csv


### 13.3 Parâmetros para arquivo que gera nota 0.80681 no kaggle:


In [None]:
# melhores parametros:
ts = 0.25
it = 400
lr = 0.04
depth = 2
l_rs = [31572, 38171, 31104]
for rs in l_rs:
    res = cbc_treina_testa(dfTreino=df_treino_mf2, dfTeste=df_teste_mf2, ts=ts, it=it, lr=lr, rs = rs, depth=depth,gerarArquivo=True, accMinGerarArquivo = 80, mostrarFI=False)


ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 31572 -> Score do Treino: %80.91
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs31572_sc8091.csv
ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 38171 -> Score do Treino: %81.55
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs38171_sc8155.csv
ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 31104 -> Score do Treino: %81.41
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs31104_sc8141.csv


### 13.4 Parâmetros para geração de arquivo com nota 0.80965

In [None]:
# melhores parametros:
ts = 0.25
it = 400
lr = 0.04
depth = 2
rs = 18353

res = cbc_treina_testa(dfTreino=df_treino_mf2, dfTeste=df_teste_mf2, ts=ts, it=it, lr=lr, rs = rs, depth=depth,gerarArquivo=True, accMinGerarArquivo = 80, mostrarFI=False)


ts: 0.25 it: 400 lr: 0.04 depth: 2 rs: 18353 -> Score do Treino: %80.34
novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs18353_sc8034.csv


## 14. Tentativa de melhorar a nota comparando os arquivos e reproduzindo o resultado que aparece mais vezes

#### 14.1 função para comparar três diferentes arquivos e retornar um dataframe contendo o "Churn" que mais se repete: 

In [None]:
#Função para carregar três diferentes arquivos e retornar o churn 

def melhor_de_tres(l_arquivos):
    df_Final = None
    vez = 0
    for arquivo in l_arquivos:
        df_atual = pd.read_csv(arquivo,  index_col="id")
        df_atual.rename(columns={"Churn": "Churn_"+str(vez)},inplace=True)
        if (vez == 0):
          df_Final = df_atual.copy()
        else:
          df_Final = pd.concat([df_Final, df_atual],axis=1)  
        vez+=1   

    df_Final["Churn_Soma"] = df_Final.Churn_0 + df_Final.Churn_1 + df_Final.Churn_2 
    df_Final["Churn"] = np.where(df_Final.Churn_Soma >= 2,1,0) 
    df_Final.reset_index(inplace=True)
    df_Final.rename(columns={"index":"id"})
    return df_Final
        

### 14.2 - Comparação dos três arquivos que atingiram nota de 0.80681

In [None]:
# tres arquivos que atingiram 0.806
l_arquivos = ["novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs31104_sc8141.csv",
              "novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs31572_sc8091.csv",
              "novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs38171_sc8155.csv"]
df_Final = melhor_de_tres(l_arquivos)
df_Final

Unnamed: 0,id,Churn_0,Churn_1,Churn_2,Churn_Soma,Churn
0,5027,0,0,0,0,0
1,1733,0,0,0,0,0
2,5384,1,0,0,1,0
3,6554,0,0,0,0,0
4,364,0,0,0,0,0
...,...,...,...,...,...,...
1404,4897,0,0,0,0,0
1405,6940,0,0,0,0,0
1406,804,0,0,0,0,0
1407,1143,1,1,1,3,1


In [None]:
df_Final[["id","Churn"]].to_csv("teste_compara_3arquivos_nota_080681.csv",index=False)

#### OBS: ao submeter o arquivo gerado, a nota no kaggle do novo arquivo tb foi 0.80681

### 14.3 Comparação utilizando arquivo com nota 0.80965 e dois arquivos de nota 0.80681

In [None]:
# arquivo de nota 0.809 e dois de 0.806
l_arquivos = ["novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs31104_sc8141.csv",
              "novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs31572_sc8091.csv",
              "novo_submissao_kaggle_catb_fs_ts025.0_it400_lr0.04_depth2_rs18353_sc8034.csv"]
df_Final = melhor_de_tres(l_arquivos)
df_Final[["id","Churn"]].to_csv("teste_compara_3arquivos_nota_0809_e0806.csv",index=False)

# RESULTADO: ao sumeter o novo arquivo, a nota subiu para **0.81107**!!!!!!