In [1]:
import nltk
#nltk.download('punkt') # one time execution
from nltk.corpus import stopwords
from nltk import word_tokenize
import unicodedata
import re
import pandas as pd

In [2]:
REPLACE_BY_SPACE_RE = re.compile('[/(){}\[\]\|@,;]')
BAD_SYMBOLS_RE = re.compile('[^0-9a-z %#+_]')
STOPWORDS = set(stopwords.words('portuguese'))

def strip_accents(text):

    text = unicodedata.normalize('NFD', str(text))\
           .encode('ascii', 'ignore')\
           .decode("utf-8")

    return str(text)

STOPWORDS = [strip_accents(w) for w in STOPWORDS]

def clean_text(text):
    """
        text: a string
        
        return: modified initial string
    """
    text = text.lower() # lowercase text
    text = strip_accents(text) # remove accents
    text = text.replace('\n', ' ')
    text = REPLACE_BY_SPACE_RE.sub(' ', text) # replace REPLACE_BY_SPACE_RE symbols by space in text. substitute the matched string in REPLACE_BY_SPACE_RE with space.
    text = BAD_SYMBOLS_RE.sub('', text) # remove symbols which are in BAD_SYMBOLS_RE from text. substitute the matched string in BAD_SYMBOLS_RE with nothing. 
    text = text.replace('\W', '')
    text = ' '.join(word for word in text.split() if word not in STOPWORDS) # remove stopwors from text
    return text

# Load Data

In [3]:
df_raw = pd.read_csv('../data/data_raw.csv')
df_raw.head()

Unnamed: 0,SUBJECT,AUTHOR,TEXT
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...


# Clean

In [4]:
df_raw['TEXT'].iloc[0]

"19/03/2009\nFATO CORRIQUEIRO\nO fato mais importante da semana foi o pedido de demissão do secretário de segurança pública do estado de São Paulo, Ronaldo Marzagão. Ocupando o cargo desde o início do governo Serra, Marzagão realizava bom trabalho, priorizando a continuidade da política estadual de segurança, iniciada ainda no segundo governo Covas, no final da década passada. \nO que motivou e determinou a demissão foram as graves denúncias envolvendo seu ex secretário adjunto, o advogado Lauro Freitas. Este cidadão está sendo acusado de criar esquema de propinas para favorer policiais civis em eventuais promoções e transferências de unidades policiais. Como era pessoa de confiança de Marzagão, tais suspeitas colocaram o secretário em situação desconfortável. Fez bem em sair.\nA longevidade dos secretários estaduais de segurança pública nos respectivos cargos não ultrapassa 18 meses, em média. Isso é revelador das constantes crises que assolam a administração do setor, inviabilizando 

In [5]:
clean_text(df_raw['TEXT'].iloc[0])

'19 03 2009 fato corriqueiro fato importante semana pedido demissao secretario seguranca publica estado paulo ronaldo marzagao ocupando cargo desde inicio governo serra marzagao realizava bom trabalho priorizando continuidade politica estadual seguranca iniciada ainda segundo governo covas final decada passada motivou determinou demissao graves denuncias envolvendo ex secretario adjunto advogado lauro freitas cidadao sendo acusado criar esquema propinas favorer policiais civis eventuais promocoes transferencias unidades policiais pessoa confianca marzagao tais suspeitas colocaram secretario situacao desconfortavel fez bem sair longevidade secretarios estaduais seguranca publica respectivos cargos ultrapassa 18 meses media revelador constantes crises assolam administracao setor inviabilizando continuidade acoes governamentais continua prevalecendo seguranca publica brasileira gerenciamento crises outra dado relevante 27 secretarios estaduais menos 15 delegados policia federal sintomatic

In [6]:
df_clean = df_raw.copy()

In [7]:
df_clean['TEXT_CLEAN'] = df_clean['TEXT'].apply(clean_text)

In [8]:
df_clean.head()

Unnamed: 0,SUBJECT,AUTHOR,TEXT,TEXT_CLEAN
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...,19 03 2009 fato corriqueiro fato importante se...
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...,06 07 2009 politica estado problema cronico po...
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...,12 07 2009 toque recolher procurado suspender ...
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...,23 03 2009 crise socioeducativa ocorreram duas...
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...,24 12 2008 estatisticas criminais confiaveis b...


In [9]:
#df_clean.drop('TEXT', axis=1)

In [10]:
df_clean.to_csv('../data/data_clean.csv', index=False)

# New Features

In [11]:
df_feat = df_clean.copy()

## New Feature - Number of stopwords

In [12]:
df_feat['NUM_STOPWORDS'] = df_feat['TEXT'].apply(lambda x: len([w for w in str(x).lower().split() if w in STOPWORDS]))
print('maximum of num_stopwords in data',df_feat["NUM_STOPWORDS"].max())
df_feat.head()

maximum of num_stopwords in data 1228


Unnamed: 0,SUBJECT,AUTHOR,TEXT,TEXT_CLEAN,NUM_STOPWORDS
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...,19 03 2009 fato corriqueiro fato importante se...,67
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...,06 07 2009 politica estado problema cronico po...,75
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...,12 07 2009 toque recolher procurado suspender ...,95
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...,23 03 2009 crise socioeducativa ocorreram duas...,55
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...,24 12 2008 estatisticas criminais confiaveis b...,133


## New Feature - Number of punctuations

In [13]:
import string
df_feat['NUM_PUNCTUATIONS'] = df_feat['TEXT'].apply(lambda x: len([c for c in str(x) if c in string.punctuation]) )
print('maximum of num_punctuations in data',df_feat["NUM_PUNCTUATIONS"].max())
df_feat.head()

maximum of num_punctuations in data 492


Unnamed: 0,SUBJECT,AUTHOR,TEXT,TEXT_CLEAN,NUM_STOPWORDS,NUM_PUNCTUATIONS
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...,19 03 2009 fato corriqueiro fato importante se...,67,29
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...,06 07 2009 politica estado problema cronico po...,75,29
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...,12 07 2009 toque recolher procurado suspender ...,95,46
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...,23 03 2009 crise socioeducativa ocorreram duas...,55,26
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...,24 12 2008 estatisticas criminais confiaveis b...,133,43


## New Feature - Number of title case words in the text

In [14]:
df_feat['NUM_WORDS_UPPER'] = df_feat['TEXT'].apply(lambda x: len([w for w in str(x).split() if w.isupper()]))
print('maximum of num_words_upper in data',df_feat["NUM_WORDS_UPPER"].max())
df_feat.head()

maximum of num_words_upper in data 121


Unnamed: 0,SUBJECT,AUTHOR,TEXT,TEXT_CLEAN,NUM_STOPWORDS,NUM_PUNCTUATIONS,NUM_WORDS_UPPER
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...,19 03 2009 fato corriqueiro fato importante se...,67,29,5
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...,06 07 2009 politica estado problema cronico po...,75,29,11
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...,12 07 2009 toque recolher procurado suspender ...,95,46,11
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...,23 03 2009 crise socioeducativa ocorreram duas...,55,26,6
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...,24 12 2008 estatisticas criminais confiaveis b...,133,43,17


## New Feature - Number of chars

In [15]:
df_feat['NUM_CHARS'] = df_feat['TEXT'].str.len()
print('maximum of num_chars in data',df_feat["NUM_CHARS"].max())
df_feat.head()

maximum of num_chars in data 17803


Unnamed: 0,SUBJECT,AUTHOR,TEXT,TEXT_CLEAN,NUM_STOPWORDS,NUM_PUNCTUATIONS,NUM_WORDS_UPPER,NUM_CHARS
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...,19 03 2009 fato corriqueiro fato importante se...,67,29,5,1375
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...,06 07 2009 politica estado problema cronico po...,75,29,11,1342
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...,12 07 2009 toque recolher procurado suspender ...,95,46,11,1587
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...,23 03 2009 crise socioeducativa ocorreram duas...,55,26,6,1141
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...,24 12 2008 estatisticas criminais confiaveis b...,133,43,17,2309


## New Feature - Number of words


In [16]:
df_feat['NUM_WORDS'] = df_feat['TEXT'].str.split(' ').str.len()
print('maximum of num_words in data',df_feat["NUM_WORDS"].max())
df_feat.head()

maximum of num_words in data 2966


Unnamed: 0,SUBJECT,AUTHOR,TEXT,TEXT_CLEAN,NUM_STOPWORDS,NUM_PUNCTUATIONS,NUM_WORDS_UPPER,NUM_CHARS,NUM_WORDS
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...,19 03 2009 fato corriqueiro fato importante se...,67,29,5,1375,199
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...,06 07 2009 politica estado problema cronico po...,75,29,11,1342,207
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...,12 07 2009 toque recolher procurado suspender ...,95,46,11,1587,257
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...,23 03 2009 crise socioeducativa ocorreram duas...,55,26,6,1141,167
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...,24 12 2008 estatisticas criminais confiaveis b...,133,43,17,2309,366


## New Feature - Number of numbers

In [17]:
#df_feat['NUM_NUMS'] = df_feat['TEXT'].str.split(' ').str.len()
#print('maximum of num_nums in data',df_feat["NUM_NUMS"].max())
#df_feat.head()

## New Feature - Average word length


In [18]:
def avg_word(sentence):
    if type(sentence) != str:
        return 0
    words = sentence.split()
    return (sum(len(word) for word in words)/len(words))

df_feat['AVG_WORD'] = df_feat['TEXT'].apply(avg_word)
print('maximum of avg_word in data',df_feat["AVG_WORD"].max())
df_feat.head()

maximum of avg_word in data 6.123232323232323


Unnamed: 0,SUBJECT,AUTHOR,TEXT,TEXT_CLEAN,NUM_STOPWORDS,NUM_PUNCTUATIONS,NUM_WORDS_UPPER,NUM_CHARS,NUM_WORDS,AVG_WORD
0,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,19/03/2009\nFATO CORRIQUEIRO\nO fato mais impo...,19 03 2009 fato corriqueiro fato importante se...,67,29,5,1375,199,5.787129
1,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,06/07/2009\nPOLÍTICA DE ESTADO\nUm problema cr...,06 07 2009 politica estado problema cronico po...,75,29,11,1342,207,5.449275
2,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,12/07/2009\nTOQUE DE RECOLHER\nProcurado para ...,12 07 2009 toque recolher procurado suspender ...,95,46,11,1587,257,5.180392
3,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,23/03/2009\nCRISE SOCIOEDUCATIVA\nOcorreram du...,23 03 2009 crise socioeducativa ocorreram duas...,55,26,6,1141,167,5.761905
4,ASSUNTOS VARIADOS,LUIZ FLAVIO SAPORI,24/12/2008\nESTATÍSTICAS CRIMINAIS CONFIÁVEIS\...,24 12 2008 estatisticas criminais confiaveis b...,133,43,17,2309,366,5.246612


In [19]:
df_feat.to_csv('../data/data_feat.csv', index=False)