# Algoritimo Naive Bayes
***

Naive Bayes é um algorítimo de classificação que se baseia no teorema de Bayes, que estabelece uma relação entre a probabilidade condicional de um evento e suas evidencias.

![Equação de Bayes](./doc_img/equacao_bayes.jpg "Equação de Bayes")

Temos:
- P(A | B) = Qual a probabilidade da classe A, dada a característica B ?
- P(B | A) = Dada a característica B, qual a probabilidade de ser da classe A ?
- P(A) = Probabilidade da classe A
- P(B) = Probabilidade da característica B

# Importando as bibliotecas
***

In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
import warnings
warnings.simplefilter('ignore')

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
# Coletando dados de risco
df_risco = pd.read_csv ('./dataset/base_risco.csv', 
            sep=';',
            encoding='latin1'
            )

In [3]:
# Visualizando base de dados
df_risco

Unnamed: 0,renda,tipo_divida,fiador,historico_credito,risco
0,Acima de 40.000,Baixa,Possui,Ruim,Alto
1,Entre 13.500 a 40.000,Alta,Possui,Ruim,Moderado
2,Menor de 13.000,Baixa,Não Possui,Ruim,Moderado
3,Menor de 13.000,Alta,Não Possui,Ruim,Baixo
4,Acima de 40.000,Baixa,Possui,Não possui,Moderado
5,Entre 13.500 a 40.000,Baixa,Não Possui,Bom,Moderado
6,Acima de 40.000,Baixa,Não Possui,Ruim,Alto
7,Menor de 13.000,Alta,Não Possui,Não possui,Moderado
8,Menor de 13.000,Baixa,Não Possui,Não possui,Baixo
9,Acima de 40.000,Baixa,Possui,Bom,Alto


In [4]:
#selecionando as colunas que vamos utilizar para criar o indicador
colunas_selecionadas = ['renda', 'tipo_divida', 'fiador', 'historico_credito']

# Preparação dos dados 
***

In [5]:
# Criando um identificador para cada uma das variáveis categóricas
LE = LabelEncoder()

# Criando uma nova coluna baseada no encoder criado
for coluna in colunas_selecionadas:
    df_risco[f'id_{coluna}'] = LE.fit_transform(df_risco[coluna])

In [6]:
df_risco.head()

Unnamed: 0,renda,tipo_divida,fiador,historico_credito,risco,id_renda,id_tipo_divida,id_fiador,id_historico_credito
0,Acima de 40.000,Baixa,Possui,Ruim,Alto,0,1,1,2
1,Entre 13.500 a 40.000,Alta,Possui,Ruim,Moderado,1,0,1,2
2,Menor de 13.000,Baixa,Não Possui,Ruim,Moderado,2,1,0,2
3,Menor de 13.000,Alta,Não Possui,Ruim,Baixo,2,0,0,2
4,Acima de 40.000,Baixa,Possui,Não possui,Moderado,0,1,1,1


In [7]:
# Organizando as colunas no dataframe
df_risco = df_risco[['id_renda', 'renda','id_tipo_divida', 'tipo_divida', 'id_fiador', 'fiador', 'id_historico_credito', 'historico_credito', 'risco']]			

In [8]:
df_risco.head()

Unnamed: 0,id_renda,renda,id_tipo_divida,tipo_divida,id_fiador,fiador,id_historico_credito,historico_credito,risco
0,0,Acima de 40.000,1,Baixa,1,Possui,2,Ruim,Alto
1,1,Entre 13.500 a 40.000,0,Alta,1,Possui,2,Ruim,Moderado
2,2,Menor de 13.000,1,Baixa,0,Não Possui,2,Ruim,Moderado
3,2,Menor de 13.000,0,Alta,0,Não Possui,2,Ruim,Baixo
4,0,Acima de 40.000,1,Baixa,1,Possui,1,Não possui,Moderado


In [9]:
# Selecionando apenas as colunas que vamos utilizar no modelo
colunas_modelo = ['id_renda', 'id_tipo_divida', 'id_fiador', 'id_historico_credito' ]

In [10]:
df_risco[colunas_modelo]

Unnamed: 0,id_renda,id_tipo_divida,id_fiador,id_historico_credito
0,0,1,1,2
1,1,0,1,2
2,2,1,0,2
3,2,0,0,2
4,0,1,1,1
5,1,1,0,0
6,0,1,0,2
7,2,0,0,1
8,2,1,0,1
9,0,1,1,0


In [11]:
# Separando features do target
X_dados = df_risco[colunas_modelo]
y_dados = df_risco['risco']

In [12]:
# Criacao do modelo
model = GaussianNB()

In [13]:
model.fit(X_dados.values, y_dados.values)

In [14]:
#Visualizando dados do modelo
model.classes_

array(['Alto', 'Baixo', 'Moderado'], dtype='<U8')

In [15]:
model.class_count_

array([3., 2., 5.])

In [16]:
model.class_prior_

array([0.3, 0.2, 0.5])

In [17]:
model.score(X_dados.values, y_dados.values)

0.7

In [18]:
model.predict(X = X_dados.values)

array(['Alto', 'Moderado', 'Baixo', 'Baixo', 'Alto', 'Moderado', 'Alto',
       'Baixo', 'Baixo', 'Alto'], dtype='<U8')

In [19]:
df_risco['classe_predita'] = model.predict(X_dados.values)

In [20]:
df_risco

Unnamed: 0,id_renda,renda,id_tipo_divida,tipo_divida,id_fiador,fiador,id_historico_credito,historico_credito,risco,classe_predita
0,0,Acima de 40.000,1,Baixa,1,Possui,2,Ruim,Alto,Alto
1,1,Entre 13.500 a 40.000,0,Alta,1,Possui,2,Ruim,Moderado,Moderado
2,2,Menor de 13.000,1,Baixa,0,Não Possui,2,Ruim,Moderado,Baixo
3,2,Menor de 13.000,0,Alta,0,Não Possui,2,Ruim,Baixo,Baixo
4,0,Acima de 40.000,1,Baixa,1,Possui,1,Não possui,Moderado,Alto
5,1,Entre 13.500 a 40.000,1,Baixa,0,Não Possui,0,Bom,Moderado,Moderado
6,0,Acima de 40.000,1,Baixa,0,Não Possui,2,Ruim,Alto,Alto
7,2,Menor de 13.000,0,Alta,0,Não Possui,1,Não possui,Moderado,Baixo
8,2,Menor de 13.000,1,Baixa,0,Não Possui,1,Não possui,Baixo,Baixo
9,0,Acima de 40.000,1,Baixa,1,Possui,0,Bom,Alto,Alto


# Avaliando novo registro
- Renda acima de R$40.000
- Tipo de dívida BAIXA
- Possui fiador
- Histórico de crédito RUIM

### Indicadores
![Indicadores](./doc_img/indicadores.jpg "Indicadores")

In [21]:
dados_cliente = [[0, 1, 1, 2]]

In [23]:
model.predict(dados_cliente)

array(['Alto'], dtype='<U8')

# Criando novos registros para classificação do algoritimo
***


In [48]:
novos_registros  = [
    [1,0,1,0], # Entre 13 e 40, divida alta, possui fiador, bom
    [2,1,0,0],
    [0,0,0,0],
    [1,1,1,1],
    [0,1,1,2],
]

In [49]:
df_predicao = pd.DataFrame(novos_registros, columns=[colunas_modelo])
df_predicao

Unnamed: 0,id_renda,id_tipo_divida,id_fiador,id_historico_credito
0,1,0,1,0
1,2,1,0,0
2,0,0,0,0
3,1,1,1,1
4,0,1,1,2


# Aplicação do algoritimo para um novo conjuntos de dados
***

In [50]:
df_predicao['classe_predita'] = model.predict(df_predicao.values)

In [51]:
df_predicao

Unnamed: 0,id_renda,id_tipo_divida,id_fiador,id_historico_credito,classe_predita
0,1,0,1,0,Moderado
1,2,1,0,0,Baixo
2,0,0,0,0,Moderado
3,1,1,1,1,Moderado
4,0,1,1,2,Alto
