# Regex

## Metacaracteres:

- ".": reconhece qualquer caractere
- "\": permite usar metacaracteres como caracteres (e o inverso também)

- "()": cria um grupo de cadeias de caractere
  > Importante: ele guarda todos os grupos encontrados (APENAS OS QUE DERAM MATCH NO QUE ESTÁ ESCRITO DENTRO DOS PARÊNTESES)
- "[]": conjunto de CARACTERES!
- "|": funciona como um OU

- "*": pode ser repetido de 0 até infinitas vezes
- "+": pode ser repetido de 1 até infinitas vezes
- "?": pode ser 0 ou 1
- "{}": fornece o mínimo de repetições e o máximo de repetições

- "^": a string deve iniciar com determinada cadeia de caracteres (usado no início do regex)
  > Pode ser usado como negação dentro de um [] 
- "$": a string deve terminar com determinada cadeia de caracteres (usado no final do regex)

- "\d": dígitos
- "\D": não dígitos
- "\w": alfanuméricos
- "\W": não alfanuméricos
- "\s": qualquer espaço em branco
- "\S": nenhum espaço em branco


## Sites interessantes:

- https://regex101.com/
- https://regexone.com/

# Inicialização

In [1]:
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
import seaborn as sns


dados_portugues = pd.read_csv("dataset/stackoverflow_portugues.csv")
dados_ingles = pd.read_csv("dataset/stackoverflow_ingles.csv")
dados_espanhol = pd.read_csv("dataset/stackoverflow_espanhol.csv")

dados_portugues

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações
0,2402,Como fazer hash de senhas de forma segura?,"<p>Se eu fizer o <em><a href=""http://pt.wikipe...",<hash><segurança><senhas><criptografia>,350,22367
1,6441,Qual é a diferença entre INNER JOIN e OUTER JOIN?,<p>Qual é a diferença entre <code>INNER JOIN</...,<sql><join>,276,176953
2,579,Por que não devemos usar funções do tipo mysql_*?,<p>Uma dúvida muito comum é por que devemos pa...,<php><mysql>,226,9761
3,2539,As mensagens de erro devem se desculpar?,<p>É comum encontrar uma mensagem de erro que ...,<aplicação-web><gui><console><ux>,214,5075
4,17501,"Qual é a diferença de API, biblioteca e Framew...",<p>Me parecem termos muito próximos e eventual...,<api><framework><terminologia><biblioteca>,193,54191
...,...,...,...,...,...,...
495,194857,O que é Polyfill?,<p>Já vi esse termo <em>Polyfill</em> sendo ut...,<javascript><terminologia><polyfill>,26,6860
496,323137,Pra que serve o comando LOCK TABLES?,<p>Esses dias me deparei com um trecho de um S...,<mysql>,26,657
497,232958,O que é um valor opaco?,<p>Por vezes vejo em documentações ou especifi...,<nomenclatura>,26,587
498,227907,"O que são Proxy, Gateway e Tunnel no protocolo...","<p>Na especificação do protocolo HTTP, mais pr...",<http>,26,625


# Testando a biblioteca

In [2]:
dados_portugues.Questão[5]

"<p>Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo:</p>\n\n<pre><code>//----CONSULTA SQL----//\n$busca = mysql_query ('insert into Produtos (coluna) values(' . $valor . ')');\n</code></pre>\n\n<p>Logo, digamos que o usuário usar a sentença: <code>1); DROP TABLE Produtos;</code> para ao campo <code>valor</code> o comando ficaria: </p>\n\n<pre><code>insert into Produtos (coluna) values(1); DROP TABLE Produtos;\n</code></pre>\n\n<p>Ele vai inserir um novo registro cujo o campo <code>coluna</code> será <code>1</code> e logo em seguida ele vai deletar a tabela Produtos.</p>\n\n<p>Como posso melhorar meu código para prevenir essa situação?</p>\n"

In [3]:
re.findall(r"<p>(.*)</p>", dados_portugues.Questão[5])

['Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo:',
 'Logo, digamos que o usuário usar a sentença: <code>1); DROP TABLE Produtos;</code> para ao campo <code>valor</code> o comando ficaria: ',
 'Ele vai inserir um novo registro cujo o campo <code>coluna</code> será <code>1</code> e logo em seguida ele vai deletar a tabela Produtos.',
 'Como posso melhorar meu código para prevenir essa situação?']

In [4]:
re.sub(r"<.*?>", "", dados_portugues.Questão[5])

"Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo:\n\n//----CONSULTA SQL----//\n$busca = mysql_query ('insert into Produtos (coluna) values(' . $valor . ')');\n\n\nLogo, digamos que o usuário usar a sentença: 1); DROP TABLE Produtos; para ao campo valor o comando ficaria: \n\ninsert into Produtos (coluna) values(1); DROP TABLE Produtos;\n\n\nEle vai inserir um novo registro cujo o campo coluna será 1 e logo em seguida ele vai deletar a tabela Produtos.\n\nComo posso melhorar meu código para prevenir essa situação?\n"

In [5]:
REGEX = re.compile(r"<p>(.*)</p>")
REGEX.findall(dados_portugues.Questão[5])

['Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo:',
 'Logo, digamos que o usuário usar a sentença: <code>1); DROP TABLE Produtos;</code> para ao campo <code>valor</code> o comando ficaria: ',
 'Ele vai inserir um novo registro cujo o campo <code>coluna</code> será <code>1</code> e logo em seguida ele vai deletar a tabela Produtos.',
 'Como posso melhorar meu código para prevenir essa situação?']

# Tratamento dos dados

## Removendo TAGS e coletando apenas o texto desejado

In [6]:
def retorna_paragrafos(textos):
    RETORNA_PARAGRAFO = re.compile(r"<p>(.*)</p>")
    if type(textos) == str:
        return " ".join(RETORNA_PARAGRAFO.findall(textos))
    else:
        return pd.Series([" ".join(RETORNA_PARAGRAFO.findall(texto)) for texto in textos])

def remove_tags(textos):
    REMOVE_TAGS = re.compile(r"<.*?>")
    if type(textos) == str:
        return REMOVE_TAGS.sub("", textos)
    else:
        return pd.Series([REMOVE_TAGS.sub("", texto) for texto in textos])


questoes_tratadas_portugues = remove_tags(retorna_paragrafos(dados_portugues.Questão.copy() ) )
questoes_tratadas_ingles = remove_tags(retorna_paragrafos(dados_ingles.Questão.copy() ) )
questoes_tratadas_espanhol = remove_tags(retorna_paragrafos(dados_espanhol.Questão.copy() ) )

questoes_tratadas_portugues.head()

0    Se eu fizer o hash de senhas antes de armazená...
1    Qual é a diferença entre INNER JOIN e OUTER JO...
2    Uma dúvida muito comum é por que devemos parar...
3    É comum encontrar uma mensagem de erro que diz...
4    Me parecem termos muito próximos e eventualmen...
dtype: object

In [7]:
dados_portugues["Questão_Tratada"] = questoes_tratadas_portugues
dados_ingles["Questão_Tratada"] = questoes_tratadas_ingles
dados_espanhol["Questão_Tratada"] = questoes_tratadas_espanhol

dados_portugues.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,Questão_Tratada
0,2402,Como fazer hash de senhas de forma segura?,"<p>Se eu fizer o <em><a href=""http://pt.wikipe...",<hash><segurança><senhas><criptografia>,350,22367,Se eu fizer o hash de senhas antes de armazená...
1,6441,Qual é a diferença entre INNER JOIN e OUTER JOIN?,<p>Qual é a diferença entre <code>INNER JOIN</...,<sql><join>,276,176953,Qual é a diferença entre INNER JOIN e OUTER JO...
2,579,Por que não devemos usar funções do tipo mysql_*?,<p>Uma dúvida muito comum é por que devemos pa...,<php><mysql>,226,9761,Uma dúvida muito comum é por que devemos parar...
3,2539,As mensagens de erro devem se desculpar?,<p>É comum encontrar uma mensagem de erro que ...,<aplicação-web><gui><console><ux>,214,5075,É comum encontrar uma mensagem de erro que diz...
4,17501,"Qual é a diferença de API, biblioteca e Framew...",<p>Me parecem termos muito próximos e eventual...,<api><framework><terminologia><biblioteca>,193,54191,Me parecem termos muito próximos e eventualmen...


## Removendo pontuações e tornando tudo minúsculo

In [8]:
questoes_tratadas_espanhol[0]

'Las sentencias dinámicas son sentencias SQL que se crean como cadenas de texto (strings) y en las que se insertan/concatenan valores obtenidos de alguna fuente (normalmente proveniente del usuario), lo que puede hacer que sean vulnerables a inyección SQL si no se sanean las entradas, como por ejemplo: Eso es un ejemplo de una vulnerabilidad grave en la seguridad de una aplicación (web o no) porque si el usuario introdujese un valor como 1; DROP TABLE usuarios;-- nos encontraríamos con que la sentencia ejecutada sería: Y se eliminaría la tabla Usuarios con todos los datos contenidos en ella.  ¿Cómo puedo evitar que la inyección SQL ocurra en PHP?'

In [9]:
def remove_pontuacao(textos):
    REMOVE_PONTUACAO = re.compile(r"\w+")
    if type(textos) == str:
        return " ".join(REMOVE_PONTUACAO.findall(textos))
    else:
        return pd.Series([" ".join(REMOVE_PONTUACAO.findall(texto)).lower() for texto in textos])

def remove_digitos(textos):
    REMOVE_DIGITOS = re.compile(r"[\D ]+")
    if type(textos) == str:
        return " ".join(REMOVE_DIGITOS.findall(textos))
    else:
        return pd.Series([" ".join(REMOVE_DIGITOS.findall(texto)).lower() for texto in textos])
        
dados_portugues["Questão_Tratada"] = remove_digitos( remove_pontuacao(dados_portugues["Questão_Tratada"]) )
dados_ingles["Questão_Tratada"] = remove_digitos( remove_pontuacao(dados_ingles["Questão_Tratada"]) )
dados_espanhol["Questão_Tratada"] = remove_digitos( remove_pontuacao(dados_espanhol["Questão_Tratada"]) )

dados_espanhol["Questão_Tratada"][0]

'las sentencias dinámicas son sentencias sql que se crean como cadenas de texto strings y en las que se insertan concatenan valores obtenidos de alguna fuente normalmente proveniente del usuario lo que puede hacer que sean vulnerables a inyección sql si no se sanean las entradas como por ejemplo eso es un ejemplo de una vulnerabilidad grave en la seguridad de una aplicación web o no porque si el usuario introdujese un valor como   drop table usuarios nos encontraríamos con que la sentencia ejecutada sería y se eliminaría la tabla usuarios con todos los datos contenidos en ella cómo puedo evitar que la inyección sql ocurra en php'

# Dataset final

In [10]:
dados_portugues["Idioma"] = "Português"
dados_ingles["Idioma"] = "Inglês"
dados_espanhol["Idioma"] = "Espanhol"


In [11]:
df_final = pd.concat([dados_portugues, dados_ingles, dados_espanhol])

In [12]:
from sklearn.model_selection import train_test_split

port_treino, port_test = train_test_split(dados_portugues.Questão_Tratada, 
                                          test_size = 0.2,
                                          random_state = 23)

ing_treino, ing_test = train_test_split(dados_ingles.Questão_Tratada, 
                                          test_size = 0.2,
                                          random_state = 23)

esp_treino, esp_test = train_test_split(dados_espanhol.Questão_Tratada, 
                                          test_size = 0.2,
                                          random_state = 23)

port_treino.shape

(400,)

In [13]:
from nltk.tokenize import WhitespaceTokenizer
from nltk.lm.preprocessing import padded_everygram_pipeline

tokens_port = WhitespaceTokenizer().tokenize( " ".join(port_treino) )

port_treino_bigram, vocab_port = padded_everygram_pipeline(2, tokens_port)

## Modelo MLE

In [14]:
from nltk.lm import MLE

modelo_port = MLE(2)
modelo_port.fit(port_treino_bigram, vocab_port)

In [15]:
modelo_port.generate(num_words = 6)

['m', 'o', '</s>', 'e', '</s>', 'r']

In [16]:
from nltk.lm import NgramCounter

modelo_port.counts[["m"]].items()

dict_items([('a', 1768), ('</s>', 2262), ('i', 215), ('e', 1219), ('u', 191), ('p', 588), ('é', 68), ('o', 738), ('ã', 2), ('á', 40), ('b', 113), ('y', 20), ('ó', 32), ('l', 17), ('m', 17), ('í', 12), ('v', 18), ('g', 4), ('ú', 6), ('s', 8), ('_', 1), ('d', 2), ('â', 7)])

In [17]:
texto = "bom dia"

tokens_texto = WhitespaceTokenizer().tokenize( texto )
port_treino_bigram, vocab_port = padded_everygram_pipeline(2, tokens_texto)
palavras_bigram = list( map(list, port_treino_bigram) )
palavras_bigram = [aux[1::2] for aux in palavras_bigram]
palavras_bigram

[[('<s>', 'b'), ('b', 'o'), ('o', 'm'), ('m', '</s>')],
 [('<s>', 'd'), ('d', 'i'), ('i', 'a'), ('a', '</s>')]]

In [18]:
print(modelo_port.perplexity(palavras_bigram[0]))
print(modelo_port.perplexity(palavras_bigram[1]))

14.852928835451554
7.927408876852863


In [19]:
def treinar_modelo_mle(lista_textos):
    todos_os_textos = " ".join(lista_textos)
    tokens_palavras = WhitespaceTokenizer().tokenize( todos_os_textos )
    bigrams, vocab = padded_everygram_pipeline(2, tokens_palavras)
    modelo = MLE(2)
    modelo.fit(bigrams, vocab)
    return modelo

modelo_portugues = treinar_modelo_mle( port_treino )
modelo_ingles = treinar_modelo_mle( ing_treino )
modelo_espanhol = treinar_modelo_mle( esp_treino )



In [63]:
def calcular_perplexidade(modelo, texto, debug = False):

    perplexidade = 0
    lista_perplexidades = []
    tokens_texto = WhitespaceTokenizer().tokenize( texto )
    port_treino_bigram, vocab_port = padded_everygram_pipeline(2, tokens_texto)
    palavras_bigram = list( map(list, port_treino_bigram) )
    palavras_bigram = [aux[1::2] for aux in palavras_bigram]

    for palavra in palavras_bigram:
        perplexidade += modelo.perplexity(palavra)
        lista_perplexidades.append( [  "".join(map(lambda x: x[1], palavra[:-1]))  , modelo.perplexity(palavra)] )

    if debug: return pd.DataFrame(lista_perplexidades, columns = ["Palavra", "Perplexidade"])
    return pd.DataFrame(lista_perplexidades, columns = ["Palavra", "Perplexidade"])["Perplexidade"].median()

print(calcular_perplexidade(modelo_portugues, port_test.iloc[0] ))
print(calcular_perplexidade(modelo_ingles, port_test.iloc[0] ))
print(calcular_perplexidade(modelo_espanhol, port_test.iloc[0] ))

8.929482634127393
13.859901477110867
10.27675728815525


In [64]:
from nltk.lm import Laplace

def treinar_modelo_laplace(lista_textos):
    todos_os_textos = " ".join(lista_textos)
    tokens_palavras = WhitespaceTokenizer().tokenize( todos_os_textos )
    bigrams, vocab = padded_everygram_pipeline(2, tokens_palavras)
    modelo = Laplace(2)
    modelo.fit(bigrams, vocab)
    return modelo

modelo_portugues_laplace = treinar_modelo_laplace( port_treino )
modelo_ingles_laplace = treinar_modelo_laplace( ing_treino )
modelo_espanhol_laplace = treinar_modelo_laplace( esp_treino )

print(calcular_perplexidade(modelo_portugues_laplace, port_test.iloc[0] ))
print(calcular_perplexidade(modelo_ingles_laplace, port_test.iloc[0] ))
print(calcular_perplexidade(modelo_espanhol_laplace, port_test.iloc[0] ))

9.02419856223766
13.898129079600626
10.299996655306252


In [68]:
def atribuir_idioma(lista_textos):
    idiomas = []
    for texto in lista_textos:
        score_portugues = calcular_perplexidade(modelo_portugues_laplace, texto)
        score_ingles = calcular_perplexidade(modelo_ingles_laplace, texto)
        score_espanhol = calcular_perplexidade(modelo_espanhol_laplace, texto)

        idx = np.argmin( [score_portugues, score_ingles, score_espanhol] )
        idiomas.append( ["Português", "Inglês", "Espanhol"][idx] )

    return pd.Series(idiomas)

idiomas_port_test = atribuir_idioma(port_test)
idiomas_esp_test = atribuir_idioma(esp_test)
idiomas_ing_test = atribuir_idioma(ing_test)

idiomas_ing_test[ idiomas_ing_test != "Inglês" ]

10    Português
dtype: object

In [69]:
ing_test.iloc[10]

''

In [59]:
valores_perplexidade = calcular_perplexidade(modelo_espanhol_laplace, esp_test.iloc[14], debug = True)
valores_perplexidade.sort_values(by = "Perplexidade", ascending = False).describe()

Unnamed: 0,Perplexidade
count,81.0
mean,24.241075
std,67.532989
min,4.021327
25%,7.353549
50%,10.117179
75%,13.883566
max,439.957235


In [60]:
valores_perplexidade = calcular_perplexidade(modelo_portugues_laplace, esp_test.iloc[14], debug = True)
valores_perplexidade.sort_values(by = "Perplexidade", ascending = False).describe()

Unnamed: 0,Perplexidade
count,81.0
mean,23.063099
std,32.67367
min,4.254333
25%,8.983896
50%,11.289533
75%,17.613392
max,165.093728
