In [1]:
import pandas as pd

# Final Algorithm

In [2]:
dados_portugues = pd.read_csv('dataset/stackoverflow_portugues.csv')
dados_ingles = pd.read_csv('dataset/stackoverflow_ingles.csv')
dados_espanhol = pd.read_csv('dataset/stackoverflow_espanhol.csv')

In [3]:
dirty_column = 'Questão'
cleaned_column = 'Questão Limpa'
regex_list = [
    r'<.*?>',
    r'<code>(.|(\n))*?</code>',
    r'[^ \w+]',
    r'\d+',
    r'\s+'
]
substituation_list = [
    '',
    '',
    ' ',
    ' ',
    ' '
]

In [4]:
import re

In [5]:
from typing import List, TypeVar
pandas_type = TypeVar('pandas.core.frame.DataFrame')

In [27]:
def clean_column_apply(
    df: pandas_type,
    dirty_column: str,
    cleaned_column: str,
    regex_list: List[str],
    substituation_list: List[str]) -> pandas_type:
    
    df[cleaned_column] = df[dirty_column]
    
    for regex, subst in zip(regex_list, substituation_list):
        regex_compiled = re.compile(regex, 2)
        df[cleaned_column] = df[cleaned_column].apply(lambda x : regex_compiled.sub(subst, x))
    
    df[cleaned_column] = df[cleaned_column].apply(lambda x : x.lower())
    return df

In [7]:
def clean_column(
    df: pandas_type,
    dirty_column: str,
    cleaned_column: str,
    regex_list: List[str],
    substituation_list: List[str]) -> pandas_type:
    
    tags_filter = re.compile(r'<.*?>', 2)
    code_regex = re.compile(r'<code>(.|(\n))*?</code>', 2)
    punctuation_regex = re.compile(r'[^ \w]', 2)
    number_regex = re.compile(r'\d+', 2)
    spaces_regex = re.compile(r'\s+', 2)
    
    df[cleaned_column] = df[dirty_column].apply(lambda x : code_regex.sub('', x))
    df[cleaned_column] = df[cleaned_column].apply(lambda x : tags_filter.sub('', x))
    df[cleaned_column] = df[cleaned_column].apply(lambda x : punctuation_regex.sub(' ', x))
    df[cleaned_column] = df[cleaned_column].apply(lambda x : number_regex.sub(' ', x))
    df[cleaned_column] = df[cleaned_column].apply(lambda x : x.lower())
    df[cleaned_column] = df[cleaned_column].apply(lambda x : spaces_regex.sub(' ', x))
    
    return df

In [8]:
dados_portugues = clean_column(
    dados_portugues,
    dirty_column,
    cleaned_column,
    regex_list,
    substituation_list)

dados_ingles = clean_column(
    dados_ingles,
    dirty_column,
    cleaned_column,
    regex_list,
    substituation_list)

dados_espanhol = clean_column(
    dados_espanhol,
    dirty_column,
    cleaned_column,
    regex_list,
    substituation_list)

## Train and Split

In [9]:
from sklearn.model_selection import train_test_split

pt_train_dataset, pt_test_dataset = train_test_split(
    dados_portugues['Questão Limpa'],
    test_size=0.2,
    random_state=222)

en_train_dataset, en_test_dataset = train_test_split(
    dados_ingles['Questão Limpa'],
    test_size=0.2,
    random_state=222)

esp_train_dataset, esp_test_dataset = train_test_split(
    dados_espanhol['Questão Limpa'],
    test_size=0.2,
    random_state=222)

## Model

### Model MLE

In [10]:
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk.lm import MLE

def lme_model_train(text_list):
    full_text = ' '.join(text_list)
    splited_text = full_text.split()
    bigrams, vocabulary = padded_everygram_pipeline(order = 2, text = splited_text)
    model = MLE(2)
    model.fit(bigrams, vocabulary)
    return model

In [11]:
model_pt = lme_model_train(pt_train_dataset)
model_en = lme_model_train(en_train_dataset)
model_esp = lme_model_train(esp_train_dataset)

### Model Laplace

In [12]:
from nltk.lm import Laplace

def lme_model_train_laplace(text_list):
    full_text = ' '.join(text_list)
    splited_text = full_text.split()
    bigrams, vocabulary = padded_everygram_pipeline(order = 2, text = splited_text)
    model = Laplace(2)
    model.fit(bigrams, vocabulary)
    return model

In [13]:
model_pt_laplace = lme_model_train_laplace(pt_train_dataset)
model_en_laplace = lme_model_train_laplace(en_train_dataset)
model_esp_laplace = lme_model_train_laplace(esp_train_dataset)

### Calculating Perplexity

In [14]:
from nltk.lm.preprocessing import pad_both_ends
from nltk.util import bigrams

def calculate_perplexity(model, text):
    perplexity = 0
    palavras = text.split()
    palavras_fakechar = [ list(pad_both_ends(palavra, 2)) for palavra in palavras ]
    palavras_bigrams = [ list(bigrams(palavra)) for palavra in palavras_fakechar ]
    
    for palavra in palavras_bigrams:
        perplexity += model.perplexity(palavra)
    
    return perplexity

In [15]:
perp = calculate_perplexity(model_pt, pt_test_dataset.iloc[2])
perp

1071.2383257716294

In [16]:
perp = calculate_perplexity(model_pt_laplace, pt_test_dataset.iloc[2])
perp

1075.2419895409655

In [17]:
pt_test_dataset = pd.DataFrame(pt_test_dataset)
en_test_dataset = pd.DataFrame(en_test_dataset)
esp_test_dataset = pd.DataFrame(esp_test_dataset)

In [18]:
pt_test_dataset['Idioma'] = 'pt'
en_test_dataset['Idioma'] = 'en'
esp_test_dataset['Idioma'] = 'esp'

## Assign language

In [19]:
def assign_language(df):
    df['pt'] = 0
    df['en'] = 0
    df['esp'] = 0
    df['Idioma Inferido'] = 'vazio'
    
    df['pt'] = df['Questão Limpa'].apply(lambda x: calculate_perplexity(model_pt_laplace, x))
    df['en'] = df['Questão Limpa'].apply(lambda x: calculate_perplexity(model_en_laplace, x))
    df['esp'] = df['Questão Limpa'].apply(lambda x: calculate_perplexity(model_esp_laplace, x))
    
    df['Idioma Inferido'] = df[['pt', 'en', 'esp']].idxmin(axis=1)
    df['Acerto'] = (df['Idioma'] == df['Idioma Inferido'])
    
    return df

In [20]:
pt_test_dataset = assign_language(pt_test_dataset)

In [21]:
en_test_dataset = assign_language(en_test_dataset)

In [22]:
esp_test_dataset = assign_language(esp_test_dataset)

## Evaluating model

In [23]:
def evaluate_model(df):
    accuracy = df['Acerto'].value_counts().iloc[0] / len(df)
    return accuracy

In [24]:
evaluate_model(pt_test_dataset)

1.0

In [25]:
evaluate_model(en_test_dataset)

1.0

In [26]:
evaluate_model(esp_test_dataset)

0.99

# CLASS - EXPLORATION

# REGEX

## Findall
Creating a set of filter tags that follow `r'<.*?>` pattern

In [1]:
import pandas as pd

In [4]:
import re

In [5]:
dados_portugues = pd.read_csv('dataset/stackoverflow_portugues.csv')
dados_ingles = pd.read_csv('dataset/stackoverflow_ingles.csv')
dados_espanhol = pd.read_csv('dataset/stackoverflow_espanhol.csv')

In [6]:
sets_list = dados_portugues['Questão'].apply(lambda x : set(re.findall(r'<.*?>', x)))
tags_sets = set()
for _set in sets_list:
    tags_sets = tags_sets.union(_set)
tags_sets

{'</a>',
 '</b>',
 '</blockquote>',
 '</code>',
 '</div>',
 '</em>',
 '</h1>',
 '</h2>',
 '</h3>',
 '</i>',
 '</kbd>',
 '</li>',
 '</ol>',
 '</p>',
 '</pre>',
 '</strong>',
 '</sub>',
 '</sup>',
 '</ul>',
 '<a href="/questions/tagged/assembly" class="post-tag" title="mostrar perguntas com a tag &#39;assembly&#39;" rel="tag">',
 '<a href="/questions/tagged/c" class="post-tag" title="mostrar perguntas com a tag &#39;c&#39;" rel="tag">',
 '<a href="/questions/tagged/c%2b%2b" class="post-tag" title="mostrar perguntas com a tag &#39;c++&#39;" rel="tag">',
 '<a href="/questions/tagged/css" class="post-tag" title="mostrar perguntas com a tag &#39;css&#39;" rel="tag">',
 '<a href="/questions/tagged/java" class="post-tag" title="mostrar perguntas com a tag &#39;java&#39;" rel="tag">',
 '<a href="/questions/tagged/laravel" class="post-tag" title="mostrar perguntas com a tag &#39;laravel&#39;" rel="tag">',
 '<a href="/questions/tagged/php" class="post-tag" title="mostrar perguntas com a tag &#39;

## Compile
Creating a REGEX object to apply filters

In [8]:
tags_filter = re.compile(r'<.*?>', 2)
tags_filter

code_regex = re.compile(r'<code>(.|(\n))*?</code>', 2)
code_regex

punctuation_regex = re.compile(r'[^ \w]', 2)
punctuation_regex

number_regex = re.compile(r'\d+', 2)
number_regex

spaces_regex = re.compile(r'\s+', 2)
spaces_regex

re.compile(r'<code>(.|(\n))*?</code>', re.IGNORECASE|re.UNICODE)

In [12]:
dados_portugues['Questão Limpa'] = dados_portugues['Questão'].apply(lambda x : code_regex.sub('', x))
dados_portugues['Questão Limpa'] = dados_portugues['Questão Limpa'].apply(lambda x : tags_filter.sub('', x))
dados_portugues['Questão Limpa'] = dados_portugues['Questão Limpa'].apply(lambda x : punctuation_regex.sub(' ', x))
dados_portugues['Questão Limpa'] = dados_portugues['Questão Limpa'].apply(lambda x : number_regex.sub(' ', x))
dados_portugues['Questão Limpa'] = dados_portugues['Questão Limpa'].apply(lambda x : x.lower())
dados_portugues['Questão Limpa'] = dados_portugues['Questão Limpa'].apply(lambda x : spaces_regex.sub(' ', x))

In [13]:
dados_ingles['Questão Limpa'] = dados_ingles['Questão'].apply(lambda x : code_regex.sub('', x))
dados_ingles['Questão Limpa'] = dados_ingles['Questão Limpa'].apply(lambda x : tags_filter.sub('', x))
dados_ingles['Questão Limpa'] = dados_ingles['Questão Limpa'].apply(lambda x : punctuation_regex.sub(' ', x))
dados_ingles['Questão Limpa'] = dados_ingles['Questão Limpa'].apply(lambda x : number_regex.sub(' ', x))
dados_ingles['Questão Limpa'] = dados_ingles['Questão Limpa'].apply(lambda x : x.lower())
dados_ingles['Questão Limpa'] = dados_ingles['Questão Limpa'].apply(lambda x : spaces_regex.sub(' ', x))

In [14]:
dados_espanhol['Questão Limpa'] = dados_espanhol['Questão'].apply(lambda x : code_regex.sub('', x))
dados_espanhol['Questão Limpa'] = dados_espanhol['Questão Limpa'].apply(lambda x : tags_filter.sub('', x))
dados_espanhol['Questão Limpa'] = dados_espanhol['Questão Limpa'].apply(lambda x : punctuation_regex.sub(' ', x))
dados_espanhol['Questão Limpa'] = dados_espanhol['Questão Limpa'].apply(lambda x : number_regex.sub(' ', x))
dados_espanhol['Questão Limpa'] = dados_espanhol['Questão Limpa'].apply(lambda x : x.lower())
dados_espanhol['Questão Limpa'] = dados_espanhol['Questão Limpa'].apply(lambda x : spaces_regex.sub(' ', x))

In [15]:
dados_espanhol['Questão Limpa'][0]

'las sentencias dinámicas son sentencias sql que se crean como cadenas de texto strings y en las que se insertan concatenan valores obtenidos de alguna fuente normalmente proveniente del usuario lo que puede hacer que sean vulnerables a inyección sql si no se sanean las entradas como por ejemplo eso es un ejemplo de una vulnerabilidad grave en la seguridad de una aplicación web o no porque si el usuario introdujese un valor como nos encontraríamos con que la sentencia ejecutada sería y se eliminaría la tabla usuarios con todos los datos contenidos en ella cómo puedo evitar que la inyección sql ocurra en php '

# Modelos de Linguagem

In [16]:
import nltk

A probilidade calculada depende apenas do passado recente e quer calcular a probabilidade da próxima palavra

In [20]:
from nltk.util import bigrams

In [18]:
texto_teste = 'alura'

In [19]:
print(list(bigrams(texto_teste)))

[('a', 'l'), ('l', 'u'), ('u', 'r'), ('r', 'a')]


In [18]:
from nltk.lm.preprocessing import pad_both_ends

In [21]:
print(list(bigrams(pad_both_ends(texto_teste, 2))))

[('<s>', 'a'), ('a', 'l'), ('l', 'u'), ('u', 'r'), ('r', 'a'), ('a', '</s>')]


In [22]:
dados_portugues['idioma'] = 'pt'
dados_ingles['idioma'] = 'en'
dados_espanhol['idioma'] = 'esp'

In [25]:
from sklearn.model_selection import train_test_split

pt_treino, pt_teste = train_test_split(
    dados_portugues['Questão Limpa'],
    test_size=0.2,
    random_state=422)

In [26]:
dados_portugues['Questão Limpa']

0      se eu fizer o hash de senhas antes de armazená...
1      qual é a diferença entre e podem me dar alguns...
2      uma dúvida muito comum é por que devemos parar...
3      é comum encontrar uma mensagem de erro que diz...
4      me parecem termos muito próximos e eventualmen...
                             ...                        
495    já vi esse termo polyfill sendo utilizado vári...
496    esses dias me deparei com um trecho de um sql ...
497    por vezes vejo em documentações ou especificaç...
498    na especificação do protocolo http mais precis...
499    eu preciso fazer o upload de uma foto e em seg...
Name: Questão Limpa, Length: 500, dtype: object

In [27]:
texto_pt = ' '.join(dados_portugues['Questão Limpa'])

In [28]:
tokens_pt = texto_pt.split()

In [29]:
tokens_pt

['se',
 'eu',
 'fizer',
 'o',
 'hash',
 'de',
 'senhas',
 'antes',
 'de',
 'armazená',
 'las',
 'em',
 'meu',
 'banco',
 'de',
 'dados',
 'é',
 'suficiente',
 'para',
 'evitar',
 'que',
 'elas',
 'sejam',
 'recuperadas',
 'por',
 'alguém',
 'estou',
 'falando',
 'apenas',
 'da',
 'recuperação',
 'diretamente',
 'do',
 'banco',
 'de',
 'dados',
 'e',
 'não',
 'qualquer',
 'outro',
 'tipo',
 'de',
 'ataque',
 'como',
 'força',
 'bruta',
 'na',
 'página',
 'de',
 'login',
 'da',
 'aplicação',
 'keylogger',
 'no',
 'cliente',
 'e',
 'criptoanálise',
 'rubberhose',
 'qualquer',
 'forma',
 'de',
 'hash',
 'não',
 'vai',
 'impedir',
 'esses',
 'ataques',
 'tenho',
 'preocupação',
 'em',
 'dificultar',
 'ou',
 'até',
 'impossibilitar',
 'a',
 'obtenção',
 'das',
 'senhas',
 'originais',
 'caso',
 'o',
 'banco',
 'de',
 'dados',
 'seja',
 'comprometido',
 'como',
 'dar',
 'maior',
 'garantia',
 'de',
 'segurança',
 'neste',
 'aspecto',
 'quais',
 'preocupações',
 'adicionais',
 'evitariam',
 'o

In [30]:
from nltk.lm.preprocessing import padded_everygram_pipeline

In [31]:
pt_treino_bigram, vocab_pt = padded_everygram_pipeline(2, tokens_pt)

In [32]:
from nltk.lm import MLE

In [33]:
modelo_pt = MLE(2)

In [34]:
modelo_pt.fit(pt_treino_bigram, vocab_pt)

In [35]:
modelo_pt.generate(8)

['s', '</s>', 'o', '</s>', '<s>', 'o', '</s>', '<s>']

In [36]:
from nltk.lm import NgramCounter

In [37]:
modelo_pt.counts[['m']].items()

dict_items([('a', 2578), ('</s>', 3379), ('e', 1802), ('o', 1063), ('p', 851), ('u', 276), ('y', 15), ('i', 358), ('b', 172), ('ó', 42), ('m', 26), ('á', 52), ('é', 90), ('g', 4), ('í', 16), ('ú', 6), ('l', 22), ('v', 22), ('ã', 5), ('â', 14), ('s', 9), ('_', 1), ('d', 2)])

In [48]:
frase = 'Luke Skywalker bom dia linguagem programacao'
palavras = frase.split()
palavras_fakechar = [ list(pad_both_ends(palavra, 2)) for palavra in palavras ]
palavras_bigrams = [ list(bigrams(palavra)) for palavra in palavras_fakechar ]

In [50]:
print(list(palavras_bigrams))

[[('<s>', 'L'), ('L', 'u'), ('u', 'k'), ('k', 'e'), ('e', '</s>')], [('<s>', 'S'), ('S', 'k'), ('k', 'y'), ('y', 'w'), ('w', 'a'), ('a', 'l'), ('l', 'k'), ('k', 'e'), ('e', 'r'), ('r', '</s>')], [('<s>', 'b'), ('b', 'o'), ('o', 'm'), ('m', '</s>')], [('<s>', 'd'), ('d', 'i'), ('i', 'a'), ('a', '</s>')], [('<s>', 'l'), ('l', 'i'), ('i', 'n'), ('n', 'g'), ('g', 'u'), ('u', 'a'), ('a', 'g'), ('g', 'e'), ('e', 'm'), ('m', '</s>')], [('<s>', 'p'), ('p', 'r'), ('r', 'o'), ('o', 'g'), ('g', 'r'), ('r', 'a'), ('a', 'm'), ('m', 'a'), ('a', 'c'), ('c', 'a'), ('a', 'o'), ('o', '</s>')]]


## Testar o modelo usando perplexidade
Quanto menor a perplexidade, mais aderente é o exemplo ao modelo

In [51]:
print(modelo_pt.perplexity(palavras_bigrams[0]))

inf


In [67]:
modelo_pt.perplexity(palavras_bigrams[1])

inf

In [68]:
for i, (palavra , bigram) in enumerate(zip(palavras, palavras_bigrams)):
    perp = modelo_pt.perplexity(palavras_bigrams[i])
    print(f'{palavra} - {perp}')

Luke - inf
Skywalker - inf
bom - 14.716613291325794
dia - 7.86995645505658
linguagem - 11.220489267412507
programacao - 13.209141054241531


In [69]:
def lme_model_train(text_list):
    full_text = ' '.join(text_list)
    splited_text = full_text.split()
    bigrams, vocabulary = padded_everygram_pipeline(order = 2, text = splited_text)
    model = MLE(2)
    model.fit(bigrams, vocabulary)
    return model

In [77]:
model_pt = lme_model_train(pt_treino)

In [78]:
for i, (palavra , bigram) in enumerate(zip(palavras, palavras_bigrams)):
    perp = model_pt_2.perplexity(palavras_bigrams[i])
    print(f'{palavra} - {perp}')

Luke - inf
Skywalker - inf
bom - 14.898263376484977
dia - 7.813053994367565
linguagem - 11.33803319293939
programacao - 13.150767464576857


In [118]:
def calculate_perplexity(model, text):
    perplexity = 0
    palavras = text.split()
    palavras_fakechar = [ list(pad_both_ends(palavra, 2)) for palavra in palavras ]
    palavras_bigrams = [ list(bigrams(palavra)) for palavra in palavras_fakechar ]
    
    for palavra in palavras_bigrams:
        perplexity += model.perplexity(palavra)
    
    return perplexity

In [36]:
perp = calculate_perplexity(model_pt, pt_train_dataset.iloc[2])
perp

97.69848552220712

In [37]:
perp = calculate_perplexity(model_en, pt_train_dataset.iloc[2])
perp

inf

In [38]:
perp = calculate_perplexity(model_esp, pt_train_dataset.iloc[2])
perp

150.56583996240596

# Modelo de linguagem de Laplace

In [54]:
from nltk.lm import Laplace

def lme_model_train_laplace(text_list):
    full_text = ' '.join(text_list)
    splited_text = full_text.split()
    bigrams, vocabulary = padded_everygram_pipeline(order = 2, text = splited_text)
    model = Laplace(2)
    model.fit(bigrams, vocabulary)
    return model

In [60]:
model_pt_laplace = lme_model_train_laplace(pt_train_dataset)

In [61]:
perp = calculate_perplexity(model_pt_laplace, pt_train_dataset.iloc[2])
perp

98.22640940724878

In [62]:
perp = calculate_perplexity(model_pt_laplace, en_train_dataset.iloc[2])
perp

1172.3755627267324

In [63]:
perp = calculate_perplexity(model_pt_laplace, esp_train_dataset.iloc[2])
perp

1904.917717854228

In [123]:
def assign_language(df):
    
    df['pt'] = 0
    df['en'] = 0
    df['esp'] = 0
    df['Idioma Inferido'] = 'vazio'
    
    df['pt'] = df['Questão Limpa'].apply(lambda x: calculate_perplexity(model_pt_laplace, x))
    df['en'] = df['Questão Limpa'].apply(lambda x: calculate_perplexity(model_en_laplace, x))
    df['esp'] = df['Questão Limpa'].apply(lambda x: calculate_perplexity(model_esp_laplace, x))
    
    df['Idioma Inferido'] = df[['pt', 'en', 'esp']].idxmin(axis=1)
    
    return df

In [135]:
pt_test_dataset = pd.DataFrame(pt_test_dataset)

pt_test_dataset = assign_language(pt_test_dataset)

pt_test_dataset['Idioma Inferido'].unique()

en_test_dataset = pd.DataFrame(en_test_dataset)

en_test_dataset = assign_language(en_test_dataset)

en_test_dataset['Idioma Inferido'].unique()

esp_test_dataset = pd.DataFrame(esp_test_dataset)

esp_test_dataset = assign_language(esp_test_dataset)

esp_test_dataset['Idioma Inferido'].unique()

array(['esp', 'en'], dtype=object)

In [133]:
esp_test_dataset

Unnamed: 0,Questão Limpa,pt,en,esp,Idioma Inferido
209,normalmente incluía un favicon en mis páginas ...,1453.651246,1356.572246,968.454374,esp
278,estoy informandome con las funciones para inte...,952.042834,964.180795,601.365697,esp
125,estamos realizando una app híbrida con phonega...,1815.794696,1911.272302,1270.893232,esp
20,alguien sabe que significa esto en javascript...,193.752506,161.595054,98.065992,esp
472,hoy he empezado a usar python y me pregunto si...,904.437562,1069.431973,581.695771,esp
...,...,...,...,...,...
490,hay alguna forma de pintar de diferentes colo...,515.638590,524.974608,305.814075,esp
241,en muchas ocasiones he requerido de tomar un v...,823.831754,817.080581,414.687702,esp
169,me explico quiero que la expresión regular enc...,3960.141369,3557.114602,2192.090094,esp
452,soy nuevo en desarrollo web seguramente lo que...,926.609059,791.515933,461.433249,esp
