# Exemplo com Naive Bayes
### Analisando a situação de risco de créditos para clientes com históricos distintos com base no banco de dados "Exemplo de Naive Bayes.xlsx"

Nesse documento, será feita uma análise probabilística, utilizando o naive bayes, para determinar se um determinado cliente tem risco de crédito alto, baixo ou moderado em um sistema de negócios para realização de empréstimos. Vale a pena ressaltar que toda a montagem probabilística dos dados está localizada no arquivo "Exemplo de Naive Bayes.xlsx", localizado na pasta onde este documento se encontra.

### Exemplo 1 - Cliente favorável

Vamos considerar que um cliente quer realizar um empréstimo em determinada empresa. Para isso, ele possui os seguintes históricos de créditos:

|**Entrada de Novo Cliente no Sistema**|
|:-------------------------------------|
|História de Crédito: **Boa**|
|Dívida: **Alta**|
|Garantias: **Nenhuma**|
|Renda: **>35**|

Agora, com relação a tabela de probabilidades montada e localizada no arquivo "Exemplo de Naive Bayes.xlsx", vamos selecionar somente as colunas relativas aos campos presentes no histórico do usuário acima.

<html>
    <body>
        <table>
            <tr>
                <td>Risco de Crédito</td>
                <td>Boa</td>
                <td>Alta</td>
                <td>Nenhuma</td>
                <td>Maior que 35</td>
            </tr>
            <tr>
                <td>Alto(6/14)</td>
                <td>(1/6)</td>
                <td>(4/6)</td>
                <td>(6/6)</td>
                <td>(1/6)</td>
            </tr>
            <tr>
                <td>Moderado(3/14)</td>
                <td>(1/3)</td>
                <td>(1/3)</td>
                <td>(2/3)</td>
                <td>(1/3)</td>
            </tr>
            <tr>
                <td>Baixo(5/14)</td>
                <td>(3/5)</td>
                <td>(2/5)</td>
                <td>(3/5)</td>
                <td>(5/5)</td>
            </tr>
        </table>
    </body>
</html>

É necessário fazer a multiplicação de todos os valores numéricos presentes em cada linha. Dessa forma, vamos obter valores de risco de crédito para analisar a situação do cliente.

- **P(ALTO)** = 0.007936507937
- **P(MODERADO)** = 0.005291005291
- **P(BAIXO)** = 0.051428571

Desse modo, temos que o valor mais alto é o risco baixo de crédito, sendo essa a classificação final dada ao cliente.

Se quisermos analisar esses dados em porcentagem, basta somar todos os dados, considerar essa soma como o todo, e fazer a divisão probabilística com cada amostragem de crédito. Observe os procedimentos abaixo:

- **Somatório** = 0.007936507937 + 0.005291005291 + 0.051428571 = 0.064653155

- **P(ALTO)** = $\frac{0.007936507937}{0.064653155} = 12,27$%
- **P(MODERADO)** = $\frac{0.005291005291}{0.064653155} = 8,18$%
- **P(BAIXO)** = $\frac{0,051428571}{0.064653155} = 79,54$%

Portanto, o cliente possui 79.54% de chances de possuir risco de crédito baixo, 8.18% de chances de possuir risco de crédito moderado e 12.27% de chances de possuir risco de crédito alto.

### Exemplo 2 - Cliente Desfavorável

Vamos considerar que um cliente quer realizar um empréstimo em determinada empresa. Para isso, ele possui os seguintes históricos de créditos:

|**Entrada de Novo Cliente no Sistema**|
|:-------------------------------------|
|História de Crédito: **Ruim**|
|Dívida: **Alta**|
|Garantias: **Adequada**|
|Renda: **<15**|

Agora, com relação a tabela de probabilidades montada e localizada no arquivo "Exemplo de Naive Bayes.xlsx", vamos selecionar somente as colunas relativas aos campos presentes no histórico do usuário acima.

<html>
    <body>
        <table>
            <tr>
                <td>Risco de Crédito</td>
                <td>Ruim</td>
                <td>Alta</td>
                <td>Adequada</td>
                <td>Menor que 15</td>
            </tr>
            <tr>
                <td>Alto(6/14)</td>
                <td>(3/6)</td>
                <td>(4/6)</td>
                <td>0</td>
                <td>(3/6)</td>
            </tr>
            <tr>
                <td>Moderado(3/14)</td>
                <td>(1/3)</td>
                <td>(1/3)</td>
                <td>(1/3)</td>
                <td>0</td>
            </tr>
            <tr>
                <td>Baixo(5/14)</td>
                <td>0</td>
                <td>(2/5)</td>
                <td>(2/5)</td>
                <td>0</td>
            </tr>
        </table>
    </body>
</html>

É necessário fazer a multiplicação de todos os valores numéricos presentes em cada linha. Dessa forma, vamos obter valores de risco de crédito para analisar a situação do cliente. Entretanto, teremos resultados nulos, pois há uma multiplicação por 0 em cada linha. Para resolver esse problema, é necessário fazer uso de um artifício chamado **Correção Laplaciana**, esse que consiste no simples ato de adicionar mais um elemento na amostragem e no valor total, para garantir que os dados estatísticos permaneçam na mesma proporção. Observe isso na nova tabela abaixo para esse mesmo cliente.

<html>
    <body>
        <table>
            <tr>
                <td>Risco de Crédito</td>
                <td>Ruim</td>
                <td>Alta</td>
                <td>Adequada</td>
                <td>Menor que 15</td>
            </tr>
            <tr>
                <td>Alto(7/15)</td>
                <td>(4/7)</td>
                <td>(5/7)</td>
                <td>(1/7)</td>
                <td>(4/7)</td>
            </tr>
            <tr>
                <td>Moderado(4/15)</td>
                <td>(2/4)</td>
                <td>(2/4)</td>
                <td>(2/4)</td>
                <td>(1/4)</td>
            </tr>
            <tr>
                <td>Baixo(6/15)</td>
                <td>(1/6)</td>
                <td>(3/6)</td>
                <td>(3/6)</td>
                <td>(1/6)</td>
            </tr>
        </table>
    </body>
</html>

- **P(ALTO)** = 0,0155490767735666‬
- **P(MODERADO)** = 0,0083333333333333‬
- **P(BAIXO)** = 0,0027777777777778

Desse modo, temos que o valor mais alto é o risco alto de crédito, sendo essa a classificação final dada ao cliente.

Se quisermos analisar esses dados em porcentagem, basta somar todos os dados, considerar essa soma como o todo, e fazer a divisão probabilística com cada amostragem de crédito. Observe os procedimentos abaixo:

- **Somatório**: 0,0155490767735666‬ + 0,0083333333333333‬ + 0,0027777777777778 = 0,0266601878846777‬

- **P(ALTO)** = $\frac{0,0155490767735666‬}{,0266601878846777‬} = 58,32$%
- **P(MODERADO)** = $\frac{0,0083333333333333‬}{,0266601878846777‬} = 31,26$%
- **P(BAIXO)** = $\frac{0,0027777777777778}{,0266601878846777‬} = 10,42$%

Portanto, o cliente possui 10,42% de chances de possuir risco de crédito baixo, 31,26% de chances de possuir risco de crédito moderado e 58,32% de chances de possuir risco de crédito alto.

### Mais Conceitos Importantes

> **Probabilidade a priori**: *Em probabilidade bayesiana, uma distribuição de probabilidade a priori para uma quantidade indeterminada p, também chamada simplesmente de prior relativo a p (suponha, por exemplo, que p seja a proporção de votantes em determinado político numa eleição futura) é a distribuição de probabilidade que expressaria a incerteza sobre o valor de p antes de qualquer dado ou medida (por exemplo, uma pesquisa de opinião). É uma maneira de atribuir incerteza em vez de aleatoriedade à grandeza em questão, além de ponto de partida para o uso do teorema de Bayes após a obtenção dos dados.* (Wikipédia)

> **Probabilidade a posteriori**: *Em estatística bayesiana, a probabilidade a posteriori de um evento aleatório ou uma proposição incerta é a probabilidade condicionada que é atribuída depois que evidências ou planos de fundo relevantes são levados em conta. De forma semelhante, a distribuição de probabilidade a posteriori é a distribuição de probabilidade de uma quantidade incerta, tratada como uma variável aleatória, condicional sobre a evidência obtida de um experimento ou survey.* (Wikipédia)

### Vantagens de se Utilizar o Naive Bayes
- **Rápido**;
- **Simplicidade de Interpretação**;
- **Trabalha com Altas Dimensões**;
- **Boas Previsões em Bases Pequenas**;


### Desvantagens de se Utilizar o Naive Bayes
- **Combinação de características(atributos independentes) - cada par de características são independentes - nem sempre é verdade**;

### Alguma dúvida? Entre em contato comigo:


- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);