### Introdução

O presente projeto tem o objetivo de aplicar técnicas de Regex com uso da linguagen Python. 

Bibliotecas utilizadas:

* re
* Pandas

---

# Importação dos dados

In [1]:
import pandas as pd
import re

In [3]:
df_portugues = pd.read_csv('../dados/stackoverflow_portugues.csv')
df_espanhol = pd.read_csv('../dados/stackoverflow_espanhol.csv')
df_ingles = pd.read_csv('../dados/stackoverflow_ingles.csv')

# Introdução a Regex

In [31]:
quest_pt = df_portugues['Questão'][5]
quest_es = df_espanhol['Questão'][5]
quest_en = df_ingles['Questão'][5]
print(quest_pt)

<p>Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo:</p>

<pre><code>//----CONSULTA SQL----//
$busca = mysql_query ('insert into Produtos (coluna) values(' . $valor . ')');
</code></pre>

<p>Logo, digamos que o usuário usar a sentença: <code>1); DROP TABLE Produtos;</code> para ao campo <code>valor</code> o comando ficaria: </p>

<pre><code>insert into Produtos (coluna) values(1); DROP TABLE Produtos;
</code></pre>

<p>Ele vai inserir um novo registro cujo o campo <code>coluna</code> será <code>1</code> e logo em seguida ele vai deletar a tabela Produtos.</p>

<p>Como posso melhorar meu código para prevenir essa situação?</p>



In [12]:
re.findall(r"<.*?>", quest_pt)

['<p>',
 '</p>',
 '<pre>',
 '<code>',
 '</code>',
 '</pre>',
 '<p>',
 '<code>',
 '</code>',
 '<code>',
 '</code>',
 '</p>',
 '<pre>',
 '<code>',
 '</code>',
 '</pre>',
 '<p>',
 '<code>',
 '</code>',
 '<code>',
 '</code>',
 '</p>',
 '<p>',
 '</p>']

In [13]:
test_text = re.sub(r"<.*?>", ' T--E--S--T--E ', quest_pt)
print(test_text)

 T--E--S--T--E Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo: T--E--S--T--E 

 T--E--S--T--E  T--E--S--T--E //----CONSULTA SQL----//
$busca = mysql_query ('insert into Produtos (coluna) values(' . $valor . ')');
 T--E--S--T--E  T--E--S--T--E 

 T--E--S--T--E Logo, digamos que o usuário usar a sentença:  T--E--S--T--E 1); DROP TABLE Produtos; T--E--S--T--E  para ao campo  T--E--S--T--E valor T--E--S--T--E  o comando ficaria:  T--E--S--T--E 

 T--E--S--T--E  T--E--S--T--E insert into Produtos (coluna) values(1); DROP TABLE Produtos;
 T--E--S--T--E  T--E--S--T--E 

 T--E--S--T--E Ele vai inserir um novo registro cujo o campo  T--E--S--T--E coluna T--E--S--T--E  será  T--E--S--T--E 1 T--

In [14]:
re.search(r'70', '234124801204128070')

<re.Match object; span=(16, 18), match='70'>

In [16]:
re.compile(r'70')

re.compile(r'(coluna)', re.UNICODE)

# Limpeza de dados

## Funções

In [48]:
def remover(texts, regex):
    
    """
    # Remover
    """
    if type(texts) == str:
        return regex.sub('', texts)
    else:
        return [regex.sub('', text) for text in texts]
    
# ----------------------------------------------------------------    
def substituir_codigo(texts, regex):
    
    """
    # Substituir código:
    """
    if type(texts) == str:
        return regex.sub('CODE', texts)
    else:
        return [regex.sub('CODE', text) for text in texts]
    
# ----------------------------------------------------------------    
def minusuclo(texts):
    
    """
    # Minúsculo
    """
    if type(texts) == str:
        return texts.lower()
    else:
        return [text.lower() for text in texts]

## Remoção de tags HTML

In [25]:
regex_html = re.compile(r'<.*?>')
quest_s_tag = remover(quest_pt, regex_html)
quest_s_tag

"Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo:\n\n//----CONSULTA SQL----//\n$busca = mysql_query ('insert into Produtos (coluna) values(' . $valor . ')');\n\n\nLogo, digamos que o usuário usar a sentença: 1); DROP TABLE Produtos; para ao campo valor o comando ficaria: \n\ninsert into Produtos (coluna) values(1); DROP TABLE Produtos;\n\n\nEle vai inserir um novo registro cujo o campo coluna será 1 e logo em seguida ele vai deletar a tabela Produtos.\n\nComo posso melhorar meu código para prevenir essa situação?\n"

In [20]:
quest_s_tag_es = remover(quest_es, regex_html)
quest_s_tag_es

'Siempre he visto que en JavaScript hay:\n\n\nasignaciones =\ncomparaciones == y ===\n\n\nCreo entender que == hace algo parecido a comparar el valor de la variable y el === también compara el tipo (como un equals de java). \n\n¿Alguien podría confirmarme este punto y extenderlo?. Soy javero y el no tipado de javascript a veces me encanta y otras lo odio.\n\n\n\n¿Cuál es la manera correcta en javascript de comparar undefined, null y otros valores por defecto? \n\nvariable == null\nvariable === null\n\n\n¿undefined se usa como cadena de texto o como palabra clave? ¿Cual de las siguientes comparaciones es la correcta para un elemento html sin value? (por ejemplo un label sin contenido)\n\nvariable == "undefined"\nvariable === "undefined"\nvariable == undefined\nvariable === undefined\n\n'

## Remoção de códigos em questões

In [33]:
regex_codigo = re.compile(r'<code>(.|(\n))*?</code>')

In [34]:
quest_sem_code = substituir_codigo(quest_pt, regex_codigo)
quest_sem_code

'<p>Desenvolvi uma página em PHP para uso interno da empresa que trabalho e apenas pouquíssimas pessoas a utilizam. Através dessa página é possível fazer algumas consultas, inserções, alterações e remoções de dados de uma tabela em um banco de dados MySQL, porém eu acredito que meu código em PHP não está protegido contra injeção de código SQL, por exemplo:</p>\n\n<pre>CODE</pre>\n\n<p>Logo, digamos que o usuário usar a sentença: CODE para ao campo CODE o comando ficaria: </p>\n\n<pre>CODE</pre>\n\n<p>Ele vai inserir um novo registro cujo o campo CODE será CODE e logo em seguida ele vai deletar a tabela Produtos.</p>\n\n<p>Como posso melhorar meu código para prevenir essa situação?</p>\n'

## Limpeza de colunas

### PT

In [38]:
quest_pt_sem_code = substituir_codigo(df_portugues.Questão , regex=regex_codigo)
quest_pt_s_code_html = remover(quest_pt_sem_code, regex = regex_html)
df_portugues['cleaning_1'] = quest_pt_s_code_html
df_portugues.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,cleaning_1
0,2402,Como fazer hash de senhas de forma segura?,"<p>Se eu fizer o <em><a href=""http://pt.wikipe...",<hash><segurança><senhas><criptografia>,350,22367,Se eu fizer o hash de senhas antes de armazená...
1,6441,Qual é a diferença entre INNER JOIN e OUTER JOIN?,<p>Qual é a diferença entre <code>INNER JOIN</...,<sql><join>,276,176953,Qual é a diferença entre CODE e CODE? Podem me...
2,579,Por que não devemos usar funções do tipo mysql_*?,<p>Uma dúvida muito comum é por que devemos pa...,<php><mysql>,226,9761,Uma dúvida muito comum é por que devemos parar...
3,2539,As mensagens de erro devem se desculpar?,<p>É comum encontrar uma mensagem de erro que ...,<aplicação-web><gui><console><ux>,214,5075,É comum encontrar uma mensagem de erro que diz...
4,17501,"Qual é a diferença de API, biblioteca e Framew...",<p>Me parecem termos muito próximos e eventual...,<api><framework><terminologia><biblioteca>,193,54191,Me parecem termos muito próximos e eventualmen...


### EN

In [39]:
quest_en_sem_code = substituir_codigo(df_ingles.Questão , regex=regex_codigo)
quest_en_s_code_html = remover(quest_en_sem_code, regex = regex_html)
df_ingles['cleaning_1'] = quest_en_s_code_html
df_ingles.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,cleaning_1
0,11227809,Why is it faster to process a sorted array tha...,<p>Here is a piece of C++ code that seems very...,<java><c++><performance><optimization><branch-...,23057,1358574,Here is a piece of C++ code that seems very pe...
1,927358,How do I undo the most recent local commits in...,<p>I accidentally committed the wrong files to...,<git><version-control><git-commit><undo>,19640,7906137,I accidentally committed the wrong files to Gi...
2,2003505,How do I delete a Git branch locally and remot...,<p>I want to delete a branch both locally and ...,<git><git-branch><git-remote>,15249,6940906,I want to delete a branch both locally and rem...
3,292357,What is the difference between 'git pull' and ...,<blockquote>\n <p><strong>Moderator Note:</st...,<git><git-pull><git-fetch>,11008,2543052,\n Moderator Note: Given that this question h...
4,477816,What is the correct JSON content type?,"<p>I've been messing around with <a href=""http...",<json><http-headers><content-type>,9701,2478940,I've been messing around with JSON for some ti...


### ES

In [40]:
quest_es_sem_code = substituir_codigo(df_espanhol.Questão , regex=regex_codigo)
quest_es_s_code_html = remover(quest_es_sem_code, regex = regex_html)
df_espanhol['cleaning_1'] = quest_es_s_code_html
df_espanhol.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,cleaning_1
0,18232,¿Cómo evitar la inyección SQL en PHP?,<p>Las sentencias dinámicas son sentencias SQL...,<php><mysql><sql><seguridad><inyección-sql>,169,38614,Las sentencias dinámicas son sentencias SQL qu...
1,197,¿Por qué mis programas no pueden hacer cálculo...,<p>Unas veces los cálculos funcionan correctam...,<matemáticas><coma-flotante><lenguaje-agnóstico>,141,3860,Unas veces los cálculos funcionan correctament...
2,36,¿Cuál es la diferencia entre un inner y un out...,<p>¿Cuál es la diferencia entre un <code>inner...,<mysql><sql><join>,97,53627,¿Cuál es la diferencia entre un CODE y un CODE...
3,29177,¿Por qué es considerado una mala práctica util...,"<p>La mayoría de nosotros decimos, (muchas vec...",<variables><variables-globales><patrones-de-di...,89,9987,"La mayoría de nosotros decimos, (muchas veces ..."
4,142,Validar un email en JavaScript que acepte todo...,<h3>Pregunta</h3>\n\n<p>¿Cómo validar un e-mai...,<javascript><validación><email><regex>,87,73129,Pregunta\n\n¿Cómo validar un e-mail que acepte...


## Remoção de pontuações

In [45]:
regex_pontuacao = re.compile(r'[^\w\s]')
print(remover(quest_es_s_code_html[5], regex_pontuacao))

Siempre he visto que en CODE hay


asignaciones CODE
comparaciones CODE y CODE


Creo entender que CODE hace algo parecido a comparar el valor de la variable y el CODE también compara el tipo como un equals de java 

Alguien podría confirmarme este punto y extenderlo Soy javero y el no tipado de javascript a veces me encanta y otras lo odio



Cuál es la manera correcta en javascript de comparar CODE CODE y otros valores por defecto 

CODE

CODE se usa como cadena de texto o como palabra clave Cual de las siguientes comparaciones es la correcta para un elemento CODE sin CODE por ejemplo un label sin contenido

CODE



In [41]:
quest_es_s_code_html[5]

'Siempre he visto que en CODE hay:\n\n\nasignaciones CODE\ncomparaciones CODE y CODE\n\n\nCreo entender que CODE hace algo parecido a comparar el valor de la variable y el CODE también compara el tipo (como un equals de java). \n\n¿Alguien podría confirmarme este punto y extenderlo?. Soy javero y el no tipado de javascript a veces me encanta y otras lo odio.\n\n\n\n¿Cuál es la manera correcta en javascript de comparar CODE, CODE y otros valores por defecto? \n\nCODE\n\n¿CODE se usa como cadena de texto o como palabra clave? ¿Cual de las siguientes comparaciones es la correcta para un elemento CODE sin CODE? (por ejemplo un label sin contenido)\n\nCODE\n'

In [47]:
minusuclo(quest_es_s_code_html[5])

'siempre he visto que en code hay:\n\n\nasignaciones code\ncomparaciones code y code\n\n\ncreo entender que code hace algo parecido a comparar el valor de la variable y el code también compara el tipo (como un equals de java). \n\n¿alguien podría confirmarme este punto y extenderlo?. soy javero y el no tipado de javascript a veces me encanta y otras lo odio.\n\n\n\n¿cuál es la manera correcta en javascript de comparar code, code y otros valores por defecto? \n\ncode\n\n¿code se usa como cadena de texto o como palabra clave? ¿cual de las siguientes comparaciones es la correcta para un elemento code sin code? (por ejemplo un label sin contenido)\n\ncode\n'

In [49]:
regex_digits = re.compile(r'\d+')

Meu nome é mikeias e tenho  anos, nascido em /
