# Naive Bayes

In [1]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB

## Teoria

### Características

* **Suposição de independência condicional:** O principal princípio do Naive Bayes é assumir que os recursos são independentes entre si, dado o rótulo de classe. Isso simplifica muito o cálculo das probabilidades, tornando o modelo eficiente computacionalmente.
* **Baseado em probabilidade:** O Naive Bayes usa a teoria das probabilidades para calcular a probabilidade de que uma instância pertença a uma classe específica, dadas suas características.
* **Adequado para dados categóricos e textuais:** É particularmente eficaz em tarefas de classificação de texto, onde palavras ou termos são tratados como recursos. Também pode ser aplicado a dados numéricos e categóricos.
* **Sensível a grandes volumes de dados:** O Naive Bayes pode funcionar bem em grandes conjuntos de dados, desde que a suposição de independência condicional seja aproximadamente válida.

### Vantagens

* **Simplicidade:** O algoritmo Naive Bayes é simples de entender e implementar, o que o torna uma escolha rápida e eficaz para tarefas de classificação.
* **Eficiência computacional:** Devido à sua simplicidade matemática, o Naive Bayes é geralmente rápido para treinar e fazer previsões, tornando-o adequado para grandes conjuntos de dados.
* **Bom desempenho em problemas de linguagem natural:** O Naive Bayes frequentemente supera outros métodos em tarefas como classificação de texto, análise de sentimentos e detecção de spam.
* **Manuseio de múltiplas classes:** Ele pode lidar facilmente com problemas de classificação com várias classes.

### Desvantagens

* **Suposição de independência condicional:** A suposição de independência entre os recursos pode ser irrealista em muitos casos da vida real, o que pode levar a resultados subótimos.  
* **Sensibilidade a valores ausentes:** O Naive Bayes não lida bem com valores ausentes, e técnicas de imputação de dados podem ser necessárias.  
* **Desempenho limitado em problemas complexos:** Em problemas com relações de dependência complexas entre os recursos, o Naive Bayes pode não ser tão preciso quanto modelos mais avançados, como redes neurais profundas.   
* **Necessidade de grandes quantidades de dados de treinamento:** Para obter um bom desempenho, o Naive Bayes muitas vezes requer grandes quantidades de dados de treinamento, especialmente em tarefas de texto.

## Base risco de crédito

In [2]:
base_risco=pd.read_csv("./data_csv/risco_credito.csv")

In [3]:
base_risco

Unnamed: 0,historia,divida,garantias,renda,risco
0,ruim,alta,nenhuma,0_15,alto
1,desconhecida,alta,nenhuma,15_35,alto
2,desconhecida,baixa,nenhuma,15_35,moderado
3,desconhecida,baixa,nenhuma,acima_35,alto
4,desconhecida,baixa,nenhuma,acima_35,baixo
5,desconhecida,baixa,adequada,acima_35,baixo
6,ruim,baixa,nenhuma,0_15,alto
7,ruim,baixa,adequada,acima_35,moderado
8,boa,baixa,nenhuma,acima_35,baixo
9,boa,alta,adequada,acima_35,baixo


### Variáveis previsores

In [4]:
X_risco = base_risco.iloc[:,:4].values
X_risco

array([['ruim', 'alta', 'nenhuma', '0_15'],
       ['desconhecida', 'alta', 'nenhuma', '15_35'],
       ['desconhecida', 'baixa', 'nenhuma', '15_35'],
       ['desconhecida', 'baixa', 'nenhuma', 'acima_35'],
       ['desconhecida', 'baixa', 'nenhuma', 'acima_35'],
       ['desconhecida', 'baixa', 'adequada', 'acima_35'],
       ['ruim', 'baixa', 'nenhuma', '0_15'],
       ['ruim', 'baixa', 'adequada', 'acima_35'],
       ['boa', 'baixa', 'nenhuma', 'acima_35'],
       ['boa', 'alta', 'adequada', 'acima_35'],
       ['boa', 'alta', 'nenhuma', '0_15'],
       ['boa', 'alta', 'nenhuma', '15_35'],
       ['boa', 'alta', 'nenhuma', 'acima_35'],
       ['ruim', 'alta', 'nenhuma', '15_35']], dtype=object)

### Variável classe

In [5]:
y_risco = base_risco.iloc[:,4].values
y_risco

array(['alto', 'alto', 'moderado', 'alto', 'baixo', 'baixo', 'alto',
       'moderado', 'baixo', 'baixo', 'alto', 'moderado', 'baixo', 'alto'],
      dtype=object)

### Tratamento de variáveis categóricas

In [6]:
from sklearn.preprocessing import LabelEncoder

In [7]:
label_encoder_historia=LabelEncoder()
label_encoder_divida=LabelEncoder()
label_encoder_garantia=LabelEncoder()
label_encoder_renda=LabelEncoder()

In [8]:
X_risco[:,0]=label_encoder_historia.fit_transform(X_risco[:,0])
X_risco[:,1]=label_encoder_divida.fit_transform(X_risco[:,1])
X_risco[:,2]=label_encoder_garantia.fit_transform(X_risco[:,2])
X_risco[:,3]=label_encoder_renda.fit_transform(X_risco[:,3])

In [9]:
X_risco

array([[2, 0, 1, 0],
       [1, 0, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 2],
       [1, 1, 1, 2],
       [1, 1, 0, 2],
       [2, 1, 1, 0],
       [2, 1, 0, 2],
       [0, 1, 1, 2],
       [0, 0, 0, 2],
       [0, 0, 1, 0],
       [0, 0, 1, 1],
       [0, 0, 1, 2],
       [2, 0, 1, 1]], dtype=object)

### Salvar os dados processados

In [10]:
import pickle
with open('./data_processed/risco_credito.pkl','wb') as f:
    pickle.dump([X_risco,y_risco],f)

### O algoritmo Naive Bayes

Precisamos fazer o treinamento desse algoritmo.  
Esse treinamento é a geração da tabela de probabilidades que vimos nas outras aulas.  
Essa tabela é gerado utilizandoo método `fit`

In [11]:
naive_risco_credito=GaussianNB()
naive_risco_credito.fit(X_risco,y_risco)

Agora, podemos fazer uma previsão.  

história boa, divida alta, garantia nenhuma e renda > 35   <===>  [0,0,1,2]  
história ruim, divida alta , garantia adequada e renda < 15   <===>  [2,0,0,0]

In [12]:
previsao = naive_risco_credito.predict([[0,0,1,2],[2,0,0,0]])
previsao

array(['baixo', 'moderado'], dtype='<U8')

### Atributos

In [13]:
naive_risco_credito.classes_

array(['alto', 'baixo', 'moderado'], dtype='<U8')

In [14]:
naive_risco_credito.class_count_

array([6., 5., 3.])

In [15]:
naive_risco_credito.class_prior_

array([0.42857143, 0.35714286, 0.21428571])

## Base credit

In [20]:
with open('./data_train_test/credit.pkl','rb') as f:
    X_credit_train, y_credit_train, X_credit_test, y_credit_test  = pickle.load(f)

In [25]:
X_credit_train.shape,y_credit_train.shape

((1500, 3), (1500,))

In [24]:
X_credit_test.shape,y_credit_test.shape

((500, 3), (500,))

### O algoritmo Naive Bayes

In [27]:
naive_credit_data = GaussianNB()
naive_credit_data.fit(X_credit_train,y_credit_train)

Nesse caso, já temos as previsões de X_test, queremos compara-las com os valores gerados pelo algoritmo.  
Ou seja, testar o modelo.

In [32]:
previsoes = naive_credit_data.predict(X_credit_test)
previsoes

array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,

### Como comparar com y_credit_test?

In [39]:
from sklearn.metrics import accuracy_score,confusion_matrix, classification_report

In [36]:
accuracy_score(y_credit_test,previsoes)

0.938

In [38]:
confusion_matrix(y_credit_test,previsoes)
# the count of true negatives is
# :math:`C_{0,0}`, false negatives is :math:`C_{1,0}`, true positives is
#:math:`C_{1,1}` and false positives is :math:`C_{0,1}`.


array([[428,   8],
       [ 23,  41]], dtype=int64)

In [41]:
print(classification_report(y_credit_test,previsoes))

              precision    recall  f1-score   support

           0       0.95      0.98      0.97       436
           1       0.84      0.64      0.73        64

    accuracy                           0.94       500
   macro avg       0.89      0.81      0.85       500
weighted avg       0.93      0.94      0.93       500



## Base census

In [44]:
with open('./data_train_test/census.pkl','rb') as f:
    X_census_train, y_census_train, X_census_test, y_census_test  = pickle.load(f)

In [45]:
X_census_train.shape, y_census_train.shape

((27676, 108), (27676,))

In [46]:
 X_census_test.shape, y_census_test.shape

((4885, 108), (4885,))

In [48]:
naive_census_data=GaussianNB()
naive_census_data.fit(X_census_train,y_census_train)

In [51]:
previsoes=naive_census_data.predict(X_credit_test)
previsoes

array([' >50K', ' >50K', ' >50K', ..., ' <=50K', ' >50K', ' >50K'],
      dtype='<U6')

### Como comparar com y_credit_test?

In [52]:
from sklearn.metrics import accuracy_score,confusion_matrix, classification_report

In [54]:
accuracy_score(y_census_test,previsoes)

0.4767656090071648

In [55]:
confusion_matrix(y_census_test,previsoes)

array([[1172, 2521],
       [  35, 1157]], dtype=int64)

In [57]:
print(classification_report(y_census_test,previsoes))

              precision    recall  f1-score   support

       <=50K       0.97      0.32      0.48      3693
        >50K       0.31      0.97      0.48      1192

    accuracy                           0.48      4885
   macro avg       0.64      0.64      0.48      4885
weighted avg       0.81      0.48      0.48      4885

