                        Floresta Aleatória de Classificação

-> A Floresta Aleatória de Classificação (Random Forest) é um modelo de machine
learning muito poderoso que, em vez de tomar decisões com base em um único modelo, usa o cocneito de "sabedoria da multidão".

-> Pense nela como um comitê de especialistas. Em vez de confiar na opinião
de um único especialista (um único modelo), a Floresta Aleatória reune dezenas
ou centenas de especialistas (chamados de árvore de decisão) e torna a decisão final com base na maioria dos votos deles.

                        Elementos principais

-> Floresta: O modelo é uma coleção de várias Árvores de Decisão. Uma Árvore de Decisão é um modelo mais simples que toma decisões com base em uma série
de perguntas (como um fluxograma).

-> Aleatóriedade: A aleatoriedade é a chave para o poder da floresta. Cada
árvore na floresta é treinada de uma maneira diferente:

    -> Ela usa apenas um subconjunto aleatório dos dados de treino.

    -> Para fazer suas decisões, ela considera apenas um subconjunto
    aleatório das caracteristicas (colunas da sua base de dados).


                    Como a Floresta Aleatória Faz Previsões

-> Para classificar um novo dado, o modelo:

-> 1.Envia esse dado para todas as árvores na floresta

-> 2. Cada árvore, individualmente, faz sua própria previsão.

-> 3. O modelo coleta as previsões de todas as árvores e a previsão final
é a que recebeu o maior número de votos (o resultado mais comum).

-> A principal vantagem da Floresta Aleatória é que essa abordagem de combinar
várias árvores aleatórias reduz o problema de superajuste (overfitting) e 
geralmente resulta em um modelo final muito mais preciso e confiável do que
qualquerr uma das árvores individuais.

Criando a predição do modelo

In [None]:
# Função que irá criar a predição do modelo. A função irá receber como 
# argumento:
# classificador: Ira conter o modelo treinado e pronto para realizar predições
# xtest: Irá conter os dados que serão utilizados para a classificação do modelo.
def predicaoModelo(classificador, xtest):
    
    # Irá retornar a predição do modelo usando a função predict que irá
    # conter como argumento o xtest
    return classificador.predict(xtest)

Criando a matriz confusão que irá mostrar a quantidade de erros e acertos 
do modelo 

In [None]:
# Função que irá construir a matriz de confusão. A função irá receber como
# argumento:
# ytest: Dados reais da classificação dos dados que serão comparados com
# as predições do modelo.
# ypredicao: Predição do modelo.
def matrizConfusao(ytest, ypredicao):
    
    # Import da classe confusion_matrix do módulo metrics da biblioteca
    # sklearn que tem como objetivo construir matrizes de confusão.
    from sklearn.metrics import confusion_matrix
    
    # Instância da classe de matriz de confusão. O construtor da classe
    # irá receber como argumento os dados reais e a predição do modelo.
    matriz = confusion_matrix(ytest, ypredicao)
    
    # Retorno da matriz construida.
    return matriz

Construção do modelo de floresta aleatória

In [None]:
# Função que irá construir a floresta aleatória. A função irá receber como
# argumento:
# xtrain: Dados de treino do conjunto x (caracteristicas)
# ytrain: Dados de treino do conjunto y (variável alvo)
# numero_arvores: Irá definir o numero de arvores que serão construidas
# na floresta.
def computarModelo(xtrain, ytrain, numero_arvores):
    
    # Import da classe RandomForestClassifier do módulo ensemble da
    # biblioteca sklearn que tem como objetivo construir florestas
    # aleatórias. 
    from sklearn.ensemble import RandomForestClassifier
    
    # Instância da classe (criação do objeto) RandomForestClassifier.
    # O construtor da classe irá receber como argumento:
    # n_estimators: Contém a quantidade de arvores que serão construidas
    # na floresta.
    # criterion: Será o cálculo que o modelo irá utilizar para classificar
    # os dados. 
    classificador = RandomForestClassifier(n_estimators=numero_arvores, criterion='entropy')
    
    # Função que irá treinar o modelo usando os dados de treino.
    classificador.fit(xtrain, ytrain)
    
    # Irá retornar o modelo treinado e pronto para realizar predições
    return classificador

Aplicando o modelo de classificação nos dados 

In [None]:
# Import do nosso arquivo de funções.
from minhasfuncoes import funcoes

# Função que irá aplicar o modelo de classificação nos dados. A função irá
# receber como argumento:

# nome_do_arquivo: Local que a base de dados análisada está armazenada.

# delimitador: Sinal que separa os dados no dataset. Vamos definir como
# valor padrão do argumento a ',' que é comumente usada em arquivos csv.

# inicio_preenchimento: Ira conter a coluna inicial que será preenchida
# caso o dataset tenha dados faltantes. Como nem todos os datasets possuem
# dados faltantes, vamos definir como valor padrão para o argumento o None,
# dessa maneira não seremos obrigados a atribuir um valor para essa variável

# fim_preenchimento: Ira conter a coluna final que será preenchida
# caso o dataset tenha dados faltantes. Como nem todos os datasets possuem
# dados faltantes, vamos definir como valor padrão para o argumento o None,
# dessa maneira não seremos obrigados a atribuir um valor para essa variável

# lista_rotulacao: Irá conter uma lista das variáveis categóricas que devem
# ser numericamente rotuladas com o objetivo de possibilitar que o modelo
# interprete essas variáveis. Como nem todo dataset possui valores categóricos
# , vamos definir como valor padrão o None que nos tira a obrigação de definir
# um valor para esse argumento. 
def FlorestaAleatoriaDecisao(nome_do_arquivo, delimitador = ',', inicio_preenchimento = None, fim_preenchimento = None, lista_rotulacao = None):
    
    # Trecho que irá carregar o dataset na memória ram: Como no nosso arquivo 
    # de funções Nós dividimos os dados em x e y (utilizando a função values
    # que transforma as variáveis em arrays numpy) com o objetivo de obtermos
    # as caracteristicas e os alvos da base de dados.
    
    # x: Caracteristicas (variáveis independentes)
    
    # y: Variável alvo (variáveis dependentes)
    
    # carregar_Dataset: Função que irá carregar o dataset. A função irá
    # receber como argumento o nome do arquivo e o seu delimitador.
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    # If que irá verificar se é necessário preencher dados faltantes.
    # Basicamente a estrutura irá verificar se os argumentos inicio_
    # preenchimento e fim_preenchimento possuem algum valor diferente
    # de None 
    if inicio_preenchimento != None and fim_preenchimento != None:
        
        # Se essa condição for verdadeira, vamos chamar a função
        # que preenche dados faltantes usando a classe SimpleImputer.
        # A função recebe como argumento: x (conjunto que será preenchido
        # ), inicio_preenchimento (indice da coluna inicial que será preenchi
        # da) e fim_preenchimento (indice da coluna final que será preenchida).
        x = funcoes.preencherDadosFaltantes(x, inicio_preenchimento, fim_preenchimento)
    
    # Irá verificar se é necessário rotular os dados categóricos do dataset.
    # Basicamente, o if irá verificar se a variável possui um valor diferente
    # de None.
    if lista_rotulacao != None:
        
        # Se a condição for verdadeira, vamos criar um for que irá percorrer
        # a lista de indices das colunas com o objetivo de aplicar a função de
        # rotulação em todas as colunas categóricas.
        for indice in lista_rotulacao:
            
            # Função que irá rotular as colunas. A função irá receber como
            # argumento o x (conjunto de dados análisado) e o indice (indice
            # da coluna que será rotulada).
            x = funcoes.rotulacao(x, indice)
    
    # xtrain: Irá conter as caracteristicas de treino que irão ensinar
    # o modelo a identificar padrões e tendências.
    
    # xtest: Ira conter os dados que serão utilizados na predição do modelo
    
    # ytrain: Dados de treino do conjunto y que tem como objetivo conter
    # as respostas coletadas pelo modelo no treinamento.
    
    # ytest: Dados reais da classificação que serõa comparados com a
    # predição do modelo.
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    # Trecho que irá normalizar os dados com o objetivo de criar escalas
    # que padronizam os dados e evitam outliers através da criação de uma
    # média 0 e um desvio padrão 1.
    
    # Função que irá normalizar o conjunto de treino de x. Após normalizar
    # os dados vamos atribuir o xtrain normalizado na variável escala que
    # será utilizada na normalização do xtest.
    xtrain_normalizado, escala = funcoes.normalizacao(xtrain)
    
    # Irá normalizar o xtest usando o xtrain
    xtest_normalizado = escala.transform(xtest)
    
    # Função que irá construir o modelo usando os dados de treino (com
    # o xtrain normalizado).
    classificador = computarModelo(xtrain_normalizado, ytrain, 10)
    
    # Função que irá fazer a predição do modelo usando o classificador
    # (modelo) e o  xtest_normalizado (dados que serão utilizados na
    # predição)
    ypredicao = predicaoModelo(classificador, xtest_normalizado)
    
    # Retorno da matriz confusão que irá comparar o ytest (dados reais
    # ) e a predição do modelo.
    return matrizConfusao(ytest, ypredicao)

Chamada da função que irá construir a matriz de confusão

In [46]:
matriz = FlorestaAleatoriaDecisao(nome_do_arquivo = 'Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2, lista_rotulacao = [1, 0] )

print(matriz)

[[105  16]
 [ 16  42]]


                                Interpretação da Matriz
-> 105: Quantidade de pessoas que o modelo classificou corretamente como
não sobreviventes.

-> 16: Quantidade de pessoas que o modelo classificou incorretamente como
sobreviventes

-> 16: Quantidade de pessoas que o modelo classificou incorretamente como
não sobreviventes

-> 42: Quantidade de pessoas que o modelo classificou corretamente como
sobreviventes


Função que irá mostrar a acurácia do nosso sistema

In [50]:
acuracia = funcoes.acuracia(matriz)

print(round(acuracia, 2))

0.82


Agora, vamos testar o nosso modelo várias vezes com o objetivo de capturar a média das acurácias do nosso modelo. Dessa forma, poderemos concluir o quão
    bom é o nosso modelo.

In [None]:
# O lambda irá permitir que a gente passe como argumento para a função
# testar_modelo_classificação a nossa função de floresta aleatória com
# os seus argumentos preenchidos.
floresta = lambda: FlorestaAleatoriaDecisao(nome_do_arquivo = 'Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2, lista_rotulacao = [1, 0] )

Testando a eficiência do modelo

In [None]:
# Chamada da função com os seguintes argumentos:
# floresta: Função que constroi a floresta aleatória com os nossos argumentos
# preenchidos.
# 20: Tamanho do loop (quantidade de vezes que o modelo será executado)
# 'Construindo o teste de eficiência da floresta aleatória': Descrição da
# barra de progresso.
teste_de_eficiência = funcoes.testar_modelo_classificacao(floresta, 20, 'Construindo o teste de eficiência da floresta aleatória')

Construindo o teste de eficiência da floresta aleatória: 100%|██████████| 20/20 [00:00<00:00, 32.48it/s]

Média das acurácias do modelo de classificação: 0.79



