# Classificador Bayesiano

Nome: Joao Paulo Ramos

Disciplina: Processamento de Linguagem Natural - PEL218

### Objetivo Geral

Criar uma classificador Bayesiano capaz de discriminar uma frase entre pedofilia e não pedofilia

#### Etapa 1:
Criar uma matriz com todas as palavras represtadas pelas colunas e linhas de uma matriz, 
e também os sinalizadores de contextos C0 e C1 como as ultimas colunas e linhas dessa matriz:

```
W1 W2 W3 W4 Wn C0 C1
W1 
W2
W3
W4
Wn
C0
C1
```

#### Etapa 2:

Criar a interseção entre as palavras vizinhas

Essa matriz representa as conexões entre as palavras em um determinado contexto, gerando um grafo.

#### Etapa 3:

Criar um classificador Bayesiano

#### Etapa 4:

Otimizar o modelo.


#### Base de dados: PAN12 Sexual Predator Identification	

In [1]:
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.metrics import accuracy_score

In [2]:
data = pd.read_csv('./Datasets-Conversas/train.csv')

In [3]:
data['type'].unique()

array([0, 1])

In [4]:
data[data['message'].isnull()]

Unnamed: 0.1,Unnamed: 0,chat_id,line,message,author,type
803,14122,105,51,,f42a87add1c0f6f6f752f9977c8bbee2,0
3338,13563,103,110,,3386750395d5990bd23374458798ebc4,0
3710,12072,93,77,,ed468ccaa6af71a54cbda2f679ab561f,0
3776,6509,66,20,,3b61d601bef810d07597f61920ea8754,0
3836,13387,102,110,,feac11cb12e33e40fe9d947bb717d610,0
4720,12124,93,129,,8e150ba782a5db40ac530026fc101e6a,0
5312,10466,82,17,,b90a6be98116427a5580cf32cedaf55c,0
6620,12004,93,9,,ed468ccaa6af71a54cbda2f679ab561f,0
7997,18913,150,82,,7dc05d1cf558bd2e5548fda49aef7371,0
12309,10285,81,28,,2f14cad7debebf2e57fa480e7a27b307,0


In [5]:
data = data.dropna()

# Limpa  texto

In [6]:
from bs4 import BeautifulSoup
import string
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/jramos/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [7]:
def remove_html(text):
    soup = BeautifulSoup(text, 'lxml')
    html_free = soup.text
    return html_free

In [8]:
def remove_punctuation(text):
    clean_txt = "".join([c for c in text if c not in string.punctuation])
    return clean_txt

In [9]:
def remove_stopWords(text):
    phrase = [w.lower() for w in text.split() if w not in stopwords.words('portuguese')]
    return phrase

In [10]:
def classify(phrase, graph, reverse_dict):
    
    """
        Essa função é o classificador bayesiano.
    """
    import numpy as np
    
    ctx_1_weight = graph[:, -2].sum()
    ctx_2_weight = graph[:, -1].sum()
    product_ctx_1 = 0
    product_ctx_2 = 0
    
    if len(phrase) > 0:
        for word in phrase:
            try:
                word_idx = reverse_dict[word]
            except KeyError:
                word_idx = 1

            #print(word_idx)
            #Classificação do contexto 1
            word_to_ctx_1 = graph[word_idx][-2]
            if word_to_ctx_1 != 0:
                product_ctx_1 = np.log((word_to_ctx_1/ctx_1_weight)) + product_ctx_1
            #print(product_ctx_1)

            #Classificação do contexto 2
            word_to_ctx_2 = graph[word_idx][-1]        

            if word_to_ctx_2 != 0:
                product_ctx_2 = np.log((word_to_ctx_2/ctx_2_weight)) + product_ctx_2
            #print(product_ctx_2)
            
            try:
                product_ctx_1 = np.exp(product_ctx_1)
                product_ctx_2 = np.exp(product_ctx_2)
            except OverflowError:
                print("Overflow Error occured")
                return -1

        probability_ctx_1 = product_ctx_1/(product_ctx_1 + product_ctx_2)
        probability_ctx_2 = product_ctx_2/(product_ctx_1 + product_ctx_2)

        if probability_ctx_1 > probability_ctx_2:
            return 0
        else:
            return 1
    else:
        return -1

## Pré-processamento textual

In [11]:
data['message'] = data['message'].apply(lambda text: remove_html(text))

data['message'] = data['message'].apply(lambda text: remove_punctuation(text))

data['message'] = data['message'].apply(lambda text: remove_stopWords(text))

In [12]:
data.head()

Unnamed: 0.1,Unnamed: 0,chat_id,line,message,author,type
0,21003,159,235,[quê],31983229136ed17d79c70bd991d419ef,0
1,7378,70,67,"[pois, luzinhas, intensidade, som, tá, captand...",a90ceef513df19ef7fee7b872f733e4a,0
2,10892,83,77,[uai],8e150ba782a5db40ac530026fc101e6a,0
3,20247,155,92,"[vai, bora, faz, muita, força, aqui]",94eb8c17d07f1ed9ddfff352e22e6675,0
4,10890,83,75,"[ainda, fala, assim, gente, xinga, pessoa, tá,...",8e150ba782a5db40ac530026fc101e6a,0


In [13]:
# Transforma as frases por linha em palavras por linha
word_type = pd.DataFrame(data['message'].apply(pd.Series,1).stack())
word_type = word_type.droplevel(1)
word_type = word_type.merge(data['type'].to_frame(),  left_index=True, right_index=True)

In [14]:
word_type.rename(columns={0:"words", "type":"context"}, inplace=True)

In [15]:
# Cria dicionario de indice:palavra
unique_words = word_type['words'].unique()
reverse_dict = {unique_words[i]:i for i in range(len(unique_words))}

# Constroi Grafo de palavras (2-Gram)

In [16]:
def buildGraph(row, graph, reverse_dict):
    phrase = row['message']
    context = row['type']
    for j in range(len(phrase)):
        
        # Valida se a palavra atual tem vizinho
        if j+1 >= len(phrase):
            pass
        else:
            
            # Se tem vizinho, incrementa na interseção
            graph[reverse_dict[phrase[j]]][reverse_dict[phrase[j+1]]] += 1
            graph[reverse_dict[phrase[j+1]]][reverse_dict[phrase[j]]] += 1
            # Verifica o contexto das palavras e aplica na matriz
            if context == 0:
                ctx = -2
                graph[reverse_dict[phrase[j]]][ctx] += 1
                graph[ctx][reverse_dict[phrase[j]]] += 1
                graph[reverse_dict[phrase[j+1]]][ctx] += 1
                graph[ctx][reverse_dict[phrase[j+1]]] += 1
            else:
                ctx = -1
                graph[reverse_dict[phrase[j]]][ctx] += 1
                graph[ctx][reverse_dict[phrase[j]]] += 1
                graph[reverse_dict[phrase[j+1]]][ctx] += 1
                graph[ctx][reverse_dict[phrase[j+1]]] += 1

In [17]:
graph = np.zeros((len(unique_words)+2, len(unique_words)+2), dtype=int)
data.apply(lambda row: buildGraph(row, graph, reverse_dict), axis=1)
gp_norm = preprocessing.normalize(graph, 'l1')

# Classificação

Nessa etapa é feita a classificação do modelo, utilizando a base de teste e o classificador Bayesiano

Podemos observar que o modelo tem uma precisão baixa, de 16.5%

In [18]:
test_data = pd.read_csv('./Datasets-Conversas/test.csv')
test_data = test_data.dropna()

In [19]:
test_data['message'] = test_data['message'].apply(lambda text: remove_html(text))

test_data['message'] = test_data['message'].apply(lambda text: remove_punctuation(text))

test_data['message'] = test_data['message'].apply(lambda text: remove_stopWords(text))

In [20]:
test_data_classifed = test_data.copy()

In [21]:
test_data_classifed['pred'] = test_data_classifed.apply(lambda row: classify(row['message'], gp_norm, reverse_dict), axis=1)
score = accuracy_score(test_data_classifed['type'], test_data_classifed['pred'])



In [22]:
print("Precisão final: ", score*100)

Precisão final:  16.529789457966253


# Otimização do Modelo

Para melhorar a precisão do modelo, aumentei o grau do grafo para que o mesmo encontre conexões diferentes entre as palavras (que são os nós do grafo).

Para aumentar o grau do grafo devemos seguir as seguintes etapas:

1) Salvar o grafo inicial

2) Multiplicar o grafo por ele mesmo

3) Somar o resultado da multiplicação com o grafo inicial

4) Normalizar o grafo final

# Make Matrix Degree (n=2)

Exemplo de codigo para gerar um grafo N=2

In [23]:
try:
    gp_norm = np.load('graph_pot_2.npy')
except:
    graph = gp_norm.copy()
    for i in range(2):
        new_graph_pot = graph
        graph_pot = np.matmul(new_graph_pot, new_graph_pot)
        graph = graph_pot + new_graph_pot
        graph = preprocessing.normalize(graph, 'l1')

    np.save('graph_pot_2.npy', graph)

Abaixo estão os grafos com o aumento de grau ja feito, pois essa multiplicação exige tempo e poder computacional para ser feita.

In [24]:
gp_norm2 = np.load("graph_pot_0.npy")

gp_norm3 = np.load("graph_pot_1.npy")

gp_norm4 = np.load("graph_pot_2.npy")

gp_norm5 = np.load("graph_pot_3.npy")

gp_norm6 = np.load("graph_pot_4.npy")

gp_norm7 = np.load("graph_pot_5.npy")

test_data_classifed['pred_2'] = test_data_classifed.apply(lambda row: classify(row['message'], gp_norm2, reverse_dict), axis=1)

test_data_classifed['pred_3'] = test_data_classifed.apply(lambda row: classify(row['message'], gp_norm3, reverse_dict), axis=1)

test_data_classifed['pred_4'] = test_data_classifed.apply(lambda row: classify(row['message'], gp_norm4, reverse_dict), axis=1)

test_data_classifed['pred_5'] = test_data_classifed.apply(lambda row: classify(row['message'], gp_norm5, reverse_dict), axis=1)

test_data_classifed['pred_6'] = test_data_classifed.apply(lambda row: classify(row['message'], gp_norm6, reverse_dict), axis=1)

test_data_classifed['pred_7'] = test_data_classifed.apply(lambda row: classify(row['message'], gp_norm7, reverse_dict), axis=1)

score = accuracy_score(test_data_classifed['type'], test_data_classifed['pred'])



In [25]:
score2 = accuracy_score(test_data_classifed['type'], test_data_classifed['pred_2'])
score3 = accuracy_score(test_data_classifed['type'], test_data_classifed['pred_3'])
score4 = accuracy_score(test_data_classifed['type'], test_data_classifed['pred_4'])
score5 = accuracy_score(test_data_classifed['type'], test_data_classifed['pred_5'])
score6 = accuracy_score(test_data_classifed['type'], test_data_classifed['pred_6'])
score7 = accuracy_score(test_data_classifed['type'], test_data_classifed['pred_7'])

# Resultado da otimização

Com a otimização podemos observar um aumento significativo da classificação do modelo.

O modelo parece convergir quando N=6

In [26]:
print("N=1", score*100)
print("N=2", score0*100)
print("N=3", score1*100)
print("N=4", score2*100)
print("N=5",score3*100)
print("N=6",score4*100)
print("N=7",score5*100)

N=1 16.529789457966253
N=2 76.88517246528296
N=3 80.63311930715246
N=4 79.78199193668807
N=5 79.60280722711663
N=6 79.60280722711663
N=7 80.5883231297596
