## Importando as bibliotecas

In [1]:
import pandas as pd
import re
from timeit import timeit

## Carregando os dados

In [2]:
dados_ingles = pd.read_csv('Dados/stackoverflow_ingles.csv')
dados_portugues = pd.read_csv('Dados/stackoverflow_portugues.csv')
url='https://caelum-online-public.s3.amazonaws.com/1321-nlp-modelos-linguagem/Dados+csv/stackoverflow_espanhol.csv'
dados_espanhol = pd.read_csv(url)

## Conhecendo os dados

In [3]:
questao_portugues = dados_portugues['Questão'][0]
print(questao_portugues)

<p>Se eu fizer o <em><a href="http://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_de_embaralhamento_criptogr%C3%A1fico" rel="noreferrer">hash</a></em> de senhas antes de armazená-las em meu banco de dados é suficiente para evitar que elas sejam recuperadas por alguém?</p>

<p>Estou falando apenas da recuperação diretamente do banco de dados e não qualquer outro tipo de ataque, como <a href="http://pt.wikipedia.org/wiki/Ataque_de_for%C3%A7a_bruta" rel="noreferrer">força bruta</a> na página de login da aplicação, <em><a href="http://pt.wikipedia.org/wiki/Keylogger" rel="noreferrer">keylogger</a></em> no cliente e <a href="http://pt.wikipedia.org/wiki/Criptoan%C3%A1lise_de_mangueira_de_borracha" rel="noreferrer">criptoanálise <em>rubberhose</em></a>. Qualquer forma de <em>hash</em> não vai impedir esses ataques.</p>

<p>Tenho preocupação em dificultar ou até impossibilitar a obtenção das senhas originais caso o banco de dados seja comprometido. Como dar maior garantia de segurança neste aspecto

In [4]:
questao_ingles = dados_ingles['Questão'][0]
print(questao_ingles)

<p>Here is a piece of C++ code that seems very peculiar. For some strange reason, sorting the data miraculously makes the code almost six times faster.</p>

<pre class="lang-cpp prettyprint-override"><code>#include &lt;algorithm&gt;
#include &lt;ctime&gt;
#include &lt;iostream&gt;

int main()
{
    // Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];

    for (unsigned c = 0; c &lt; arraySize; ++c)
        data[c] = std::rand() % 256;

    // !!! With this, the next loop runs faster
    std::sort(data, data + arraySize);

    // Test
    clock_t start = clock();
    long long sum = 0;

    for (unsigned i = 0; i &lt; 100000; ++i)
    {
        // Primary loop
        for (unsigned c = 0; c &lt; arraySize; ++c)
        {
            if (data[c] &gt;= 128)
                sum += data[c];
        }
    }

    double elapsedTime = static_cast&lt;double&gt;(clock() - start) / CLOCKS_PER_SEC;

    std::cout &lt;&lt; elapsedTime &lt;&lt; std::endl;
    std::cout &lt

In [5]:
questao_espanhol = dados_espanhol['Questão'][0]
print(questao_espanhol)

<p>Las sentencias dinámicas son sentencias SQL que se crean como cadenas de texto (strings) y en las que se insertan/concatenan valores obtenidos de alguna fuente (normalmente proveniente del usuario), lo que puede hacer que sean vulnerables a inyección SQL si no se sanean las entradas, como por ejemplo:</p>

<pre><code>$id_usuario = $_POST["id"];

mysql_query("SELECT * FROM usuarios WHERE id = $id_usuario");
</code></pre>

<p>Eso es un ejemplo de una vulnerabilidad grave en la seguridad de una aplicación (web o no) porque si el usuario introdujese un valor como <code>1; DROP TABLE usuarios;--</code> nos encontraríamos con que la sentencia ejecutada sería:</p>

<pre><code>SELECT * FROM usuarios WHERE id = 1; DROP TABLE usuarios;--
</code></pre>

<p>Y se eliminaría la tabla Usuarios con todos los datos contenidos en ella. </p>

<p><strong>¿Cómo puedo evitar que la inyección SQL ocurra en PHP?</strong></p>



## Regex em Python

In [6]:
# Detectando tags html com regex.
re.findall(r"<.*?>", questao_portugues)

['<p>',
 '<em>',
 '<a href="http://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_de_embaralhamento_criptogr%C3%A1fico" rel="noreferrer">',
 '</a>',
 '</em>',
 '</p>',
 '<p>',
 '<a href="http://pt.wikipedia.org/wiki/Ataque_de_for%C3%A7a_bruta" rel="noreferrer">',
 '</a>',
 '<em>',
 '<a href="http://pt.wikipedia.org/wiki/Keylogger" rel="noreferrer">',
 '</a>',
 '</em>',
 '<a href="http://pt.wikipedia.org/wiki/Criptoan%C3%A1lise_de_mangueira_de_borracha" rel="noreferrer">',
 '<em>',
 '</em>',
 '</a>',
 '<em>',
 '</em>',
 '</p>',
 '<p>',
 '</p>',
 '<p>',
 '<em>',
 '</em>',
 '</p>']

In [7]:
# Substituindo tags html por espaço em branco.
re.sub(r"<.*?>", "", questao_portugues)

'Se eu fizer o hash de senhas antes de armazená-las em meu banco de dados é suficiente para evitar que elas sejam recuperadas por alguém?\n\nEstou falando apenas da recuperação diretamente do banco de dados e não qualquer outro tipo de ataque, como força bruta na página de login da aplicação, keylogger no cliente e criptoanálise rubberhose. Qualquer forma de hash não vai impedir esses ataques.\n\nTenho preocupação em dificultar ou até impossibilitar a obtenção das senhas originais caso o banco de dados seja comprometido. Como dar maior garantia de segurança neste aspecto?\n\nQuais preocupações adicionais evitariam o acesso às senhas? Existem formas melhores de fazer esse hash?\n'

In [8]:
# Comparando o tempo de execução.
setup = """import re""" 
print(timeit("""re.search(r"70", "18455161561651561651651898165670")""", setup, number=1000000))

setup = """import re
regex = re.compile("70")""" # Compila a regex antes de executar.
print(timeit("""regex.search("18455161561651561651651898165670")""", setup, number=1000000))

0.7987114999850746
0.2581308000080753


## Regex: Tratando os dados da web

### Criando função que remove os textos

In [9]:
# Criando uma função para remover os textos.
def remover(textos, regex):
    if type(textos) == str:
        return regex.sub("", textos)
    else:
        return [regex.sub("", texto) for texto in textos]

In [10]:
# Removendo tags html das questões.
regex_html = re.compile(r'<.*?>')

# Removendo tags html das questões em inglês.
questao_sem_tag = remover(questao_ingles, regex_html)
print(questao_sem_tag)

Here is a piece of C++ code that seems very peculiar. For some strange reason, sorting the data miraculously makes the code almost six times faster.

#include &lt;algorithm&gt;
#include &lt;ctime&gt;
#include &lt;iostream&gt;

int main()
{
    // Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];

    for (unsigned c = 0; c &lt; arraySize; ++c)
        data[c] = std::rand() % 256;

    // !!! With this, the next loop runs faster
    std::sort(data, data + arraySize);

    // Test
    clock_t start = clock();
    long long sum = 0;

    for (unsigned i = 0; i &lt; 100000; ++i)
    {
        // Primary loop
        for (unsigned c = 0; c &lt; arraySize; ++c)
        {
            if (data[c] &gt;= 128)
                sum += data[c];
        }
    }

    double elapsedTime = static_cast&lt;double&gt;(clock() - start) / CLOCKS_PER_SEC;

    std::cout &lt;&lt; elapsedTime &lt;&lt; std::endl;
    std::cout &lt;&lt; "sum = " &lt;&lt; sum &lt;&lt; std::endl;
}



Wit

### Criando função que substitui o intervalo de código por "CODE"

In [11]:
# Criando uma função para substituir os textos.
def substituir(textos, regex):
    if type(textos) == str:
        return regex.sub("CODE", textos)
    else:
        return [regex.sub("CODE", texto) for texto in textos]

In [12]:
# Criando regex para detectar código.
regex_codigo = re.compile(r"<code>(.|(\n))*?</code>")

# Substituindo código por CODE.
questao_sem_code = substituir(questao_ingles, regex_codigo)
print(questao_sem_code)

<p>Here is a piece of C++ code that seems very peculiar. For some strange reason, sorting the data miraculously makes the code almost six times faster.</p>

<pre class="lang-cpp prettyprint-override">CODE</pre>

<ul>
<li>Without CODE, the code runs in 11.54 seconds.</li>
<li>With the sorted data, the code runs in 1.93 seconds.</li>
</ul>

<p>Initially, I thought this might be just a language or compiler anomaly. So I tried it in Java.</p>

<pre class="lang-java prettyprint-override">CODE</pre>

<p>With a somewhat similar but less extreme result.</p>

<hr>

<p>My first thought was that sorting brings the data into the cache, but then I thought how silly that is because the array was just generated.</p>

<ul>
<li>What is going on?</li>
<li>Why is it faster to process a sorted array than an unsorted array?</li>
<li>The code is summing up some independent terms, and the order should not matter.</li>
</ul>



### Criando coluna ['sem_code_tag'] de cada conjunto de dados

#### Português

In [13]:
# Removendo código.
questoes_port_sem_code = substituir(dados_portugues['Questão'], regex_codigo)

# Removendo tags html.
questoes_port_sem_code_tag = remover(questoes_port_sem_code, regex_html)

# Adicionando coluna com os dados tratados.
dados_portugues['sem_code_tag'] = questoes_port_sem_code_tag

# Visualizando os dados.
dados_portugues.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,sem_code_tag
0,2402,Como fazer hash de senhas de forma segura?,"<p>Se eu fizer o <em><a href=""http://pt.wikipe...",<hash><segurança><senhas><criptografia>,350,22367,Se eu fizer o hash de senhas antes de armazená...
1,6441,Qual é a diferença entre INNER JOIN e OUTER JOIN?,<p>Qual é a diferença entre <code>INNER JOIN</...,<sql><join>,276,176953,Qual é a diferença entre CODE e CODE? Podem me...
2,579,Por que não devemos usar funções do tipo mysql_*?,<p>Uma dúvida muito comum é por que devemos pa...,<php><mysql>,226,9761,Uma dúvida muito comum é por que devemos parar...
3,2539,As mensagens de erro devem se desculpar?,<p>É comum encontrar uma mensagem de erro que ...,<aplicação-web><gui><console><ux>,214,5075,É comum encontrar uma mensagem de erro que diz...
4,17501,"Qual é a diferença de API, biblioteca e Framew...",<p>Me parecem termos muito próximos e eventual...,<api><framework><terminologia><biblioteca>,193,54191,Me parecem termos muito próximos e eventualmen...


#### Inglês

In [14]:
# Removendo código.
questoes_ingles_sem_code = substituir(dados_ingles['Questão'], regex_codigo)

# Removendo tags html.
questoes_ingles_sem_code_tag = remover(questoes_ingles_sem_code, regex_html)

# Adicionando coluna com os dados tratados.
dados_ingles['sem_code_tag'] = questoes_ingles_sem_code_tag

# Visualizando os dados.
dados_ingles.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,sem_code_tag
0,11227809,Why is it faster to process a sorted array tha...,<p>Here is a piece of C++ code that seems very...,<java><c++><performance><optimization><branch-...,23057,1358574,Here is a piece of C++ code that seems very pe...
1,927358,How do I undo the most recent local commits in...,<p>I accidentally committed the wrong files to...,<git><version-control><git-commit><undo>,19640,7906137,I accidentally committed the wrong files to Gi...
2,2003505,How do I delete a Git branch locally and remot...,<p>I want to delete a branch both locally and ...,<git><git-branch><git-remote>,15249,6940906,I want to delete a branch both locally and rem...
3,292357,What is the difference between 'git pull' and ...,<blockquote>\n <p><strong>Moderator Note:</st...,<git><git-pull><git-fetch>,11008,2543052,\n Moderator Note: Given that this question h...
4,477816,What is the correct JSON content type?,"<p>I've been messing around with <a href=""http...",<json><http-headers><content-type>,9701,2478940,I've been messing around with JSON for some ti...


#### Espanhol

In [15]:
# Removendo código.
questoes_espanhol_sem_code = substituir(dados_espanhol['Questão'], regex_codigo)

# Removendo tags html.
questoes_espanhol_sem_code_tag = remover(questoes_espanhol_sem_code, regex_html)

# Adicionando coluna com os dados tratados.
dados_espanhol['sem_code_tag'] = questoes_espanhol_sem_code_tag

# Visualizando os dados.
dados_espanhol.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,sem_code_tag
0,18232,¿Cómo evitar la inyección SQL en PHP?,<p>Las sentencias dinámicas son sentencias SQL...,<php><mysql><sql><seguridad><inyección-sql>,169,38614,Las sentencias dinámicas son sentencias SQL qu...
1,197,¿Por qué mis programas no pueden hacer cálculo...,<p>Unas veces los cálculos funcionan correctam...,<matemáticas><coma-flotante><lenguaje-agnóstico>,141,3860,Unas veces los cálculos funcionan correctament...
2,36,¿Cuál es la diferencia entre un inner y un out...,<p>¿Cuál es la diferencia entre un <code>inner...,<mysql><sql><join>,97,53627,¿Cuál es la diferencia entre un CODE y un CODE...
3,29177,¿Por qué es considerado una mala práctica util...,"<p>La mayoría de nosotros decimos, (muchas vec...",<variables><variables-globales><patrones-de-di...,89,9987,"La mayoría de nosotros decimos, (muchas veces ..."
4,142,Validar un email en JavaScript que acepte todo...,<h3>Pregunta</h3>\n\n<p>¿Cómo validar un e-mai...,<javascript><validación><email><regex>,87,73129,Pregunta\n\n¿Cómo validar un e-mail que acepte...
