In [1]:
import pandas as pd
import re

In [2]:
dados_portugues = pd.read_csv('dados/stackoverflow_portugues.csv', sep=',')
dados_ingles = pd.read_csv('dados/stackoverflow_ingles.csv', sep=',')
dados_espanhol = pd.read_csv('dados/stackoverflow_espanhol.csv', sep=',')

In [3]:
def remover(textos, regex):
    if isinstance(textos, str):
        return regex.sub("",textos)
    else:
        return [regex.sub('', texto) for texto in textos]

In [4]:
def substitui_codigo(textos, regex):
    if isinstance(textos, str):
        return regex.sub("CODE",textos)
    else:
        return [regex.sub('CODE', texto) for texto in textos]

In [5]:
def minusculo(textos):
    if isinstance(textos, str):
        return textos.lower()
    else:
        return [texto.lower() for texto in textos]

In [6]:
def substituir_por_espaco(textos, regex):
    if isinstance(textos, str):
        return regex.sub(' ', textos)
    else:
        return [regex.sub(' ', texto) for texto in textos]

In [7]:
regex_html = re.compile(r'<.*?>')
regex_codigo = re.compile(r'<code>(.|\n)</code>')
regex_pontuacao = re.compile(r'[^\w\s]')
regex_digitos = re.compile(r'\d+')
regex_espaco = re.compile(r' +')
regex_quebra_linha = re.compile(r'(\n)')

In [8]:
def tratar_textos(textos):
    textos_tratados = substitui_codigo(textos, regex_codigo)
    textos_tratados = remover(textos_tratados, regex_html)
    textos_tratados = remover(textos_tratados, regex_pontuacao)
    textos_tratados = remover(textos_tratados, regex_digitos)
    textos_tratados = minusculo(textos_tratados)
    textos_tratados = substituir_por_espaco(textos_tratados, regex_quebra_linha)
    textos_tratados = substituir_por_espaco(textos_tratados, regex_espaco)
    
    return textos_tratados

In [9]:
dados_portugues['questoes_tratadas'] = tratar_textos(dados_portugues.Questão)

In [10]:
dados_ingles['questoes_tratadas'] = tratar_textos(dados_ingles.Questão)

In [11]:
dados_espanhol['questoes_tratadas'] = tratar_textos(dados_espanhol.Questão)

In [12]:
dados_portugues.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,questoes_tratadas
0,2402,Como fazer hash de senhas de forma segura?,"<p>Se eu fizer o <em><a href=""http://pt.wikipe...",<hash><segurança><senhas><criptografia>,350,22367,se eu fizer o hash de senhas antes de armazená...
1,6441,Qual é a diferença entre INNER JOIN e OUTER JOIN?,<p>Qual é a diferença entre <code>INNER JOIN</...,<sql><join>,276,176953,qual é a diferença entre inner join e outer jo...
2,579,Por que não devemos usar funções do tipo mysql_*?,<p>Uma dúvida muito comum é por que devemos pa...,<php><mysql>,226,9761,uma dúvida muito comum é por que devemos parar...
3,2539,As mensagens de erro devem se desculpar?,<p>É comum encontrar uma mensagem de erro que ...,<aplicação-web><gui><console><ux>,214,5075,é comum encontrar uma mensagem de erro que diz...
4,17501,"Qual é a diferença de API, biblioteca e Framew...",<p>Me parecem termos muito próximos e eventual...,<api><framework><terminologia><biblioteca>,193,54191,me parecem termos muito próximos e eventualmen...


In [13]:
dados_ingles.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,questoes_tratadas
0,11227809,Why is it faster to process a sorted array tha...,<p>Here is a piece of C++ code that seems very...,<java><c++><performance><optimization><branch-...,23057,1358574,here is a piece of c code that seems very pecu...
1,927358,How do I undo the most recent local commits in...,<p>I accidentally committed the wrong files to...,<git><version-control><git-commit><undo>,19640,7906137,i accidentally committed the wrong files to gi...
2,2003505,How do I delete a Git branch locally and remot...,<p>I want to delete a branch both locally and ...,<git><git-branch><git-remote>,15249,6940906,i want to delete a branch both locally and rem...
3,292357,What is the difference between 'git pull' and ...,<blockquote>\n <p><strong>Moderator Note:</st...,<git><git-pull><git-fetch>,11008,2543052,moderator note given that this question has a...
4,477816,What is the correct JSON content type?,"<p>I've been messing around with <a href=""http...",<json><http-headers><content-type>,9701,2478940,ive been messing around with json for some tim...


In [14]:
dados_espanhol.head()

Unnamed: 0,Id,Título,Questão,Tags,Pontuação,Visualizações,questoes_tratadas
0,18232,¿Cómo evitar la inyección SQL en PHP?,<p>Las sentencias dinámicas son sentencias SQL...,<php><mysql><sql><seguridad><inyección-sql>,169,38614,las sentencias dinámicas son sentencias sql qu...
1,197,¿Por qué mis programas no pueden hacer cálculo...,<p>Unas veces los cálculos funcionan correctam...,<matemáticas><coma-flotante><lenguaje-agnóstico>,141,3860,unas veces los cálculos funcionan correctament...
2,36,¿Cuál es la diferencia entre un inner y un out...,<p>¿Cuál es la diferencia entre un <code>inner...,<mysql><sql><join>,97,53627,cuál es la diferencia entre un inner y un oute...
3,29177,¿Por qué es considerado una mala práctica util...,"<p>La mayoría de nosotros decimos, (muchas vec...",<variables><variables-globales><patrones-de-di...,89,9987,la mayoría de nosotros decimos muchas veces si...
4,142,Validar un email en JavaScript que acepte todo...,<h3>Pregunta</h3>\n\n<p>¿Cómo validar un e-mai...,<javascript><validación><email><regex>,87,73129,pregunta cómo validar un email que acepte todo...


In [15]:
import csv


dados_portugues.to_csv('dados/stackoverflow_portugues_tratados.csv', sep=",", quotechar="\"", quoting=csv.QUOTE_ALL, index=False)
dados_ingles.to_csv('dados/stackoverflow_ingles_tratados.csv', sep=",", quotechar="\"", quoting=csv.QUOTE_ALL, index=False)
dados_espanhol.to_csv('dados/stackoverflow_espanhol_tratados.csv', sep=",", quotechar="\"", quoting=csv.QUOTE_ALL, index=False)