# Init

In [55]:
!pip install nltk
import nltk
nltk.download('stopwords')
nltk.download('rslp')
from nltk.stem import RSLPStemmer
from nltk.corpus import stopwords

!pip install spacy
!python -m spacy download pt_core_news_sm
import spacy



[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /home/jovyan/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m11.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [56]:
import pandas as pd
import re
import string

In [57]:
df = pd.read_csv('articles_text.csv')
df = df.dropna()
df['text'] = df['text'].astype(str)

In [58]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10035 entries, 0 to 10096
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    10035 non-null  object
dtypes: object(1)
memory usage: 156.8+ KB


# Pre Processing

In [59]:
# remover duplicadas
df = df.drop_duplicates()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10030 entries, 0 to 10096
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    10030 non-null  object
dtypes: object(1)
memory usage: 156.7+ KB


In [60]:
# lowercase
df['text'] = df['text'].str.lower()
df.head()

Unnamed: 0,text
0,o 1º programa de treinamento em jornalismo de ...
1,em ofício enviado ao juiz sergio moro nesta se...
2,o ex-governador do rio sérgio cabral foi trans...
3,"entre aplausos e vaias, o juiz federal sergio ..."
4,um ex-executivo da empreiteira odebrecht afirm...


In [61]:
# remover pontuacao
df['text'] = df['text'].str.translate(str.maketrans(string.punctuation, ' '*len(string.punctuation)))
df.head()

Unnamed: 0,text
0,o 1º programa de treinamento em jornalismo de ...
1,em ofício enviado ao juiz sergio moro nesta se...
2,o ex governador do rio sérgio cabral foi trans...
3,entre aplausos e vaias o juiz federal sergio ...
4,um ex executivo da empreiteira odebrecht afirm...


In [62]:
# Remover dígitos ou palavras que contenham dígitos
df['text'] = df['text'].str.replace(r'\w*\d\w*', '', regex=True)
df.head()

Unnamed: 0,text
0,o programa de treinamento em jornalismo de ag...
1,em ofício enviado ao juiz sergio moro nesta se...
2,o ex governador do rio sérgio cabral foi trans...
3,entre aplausos e vaias o juiz federal sergio ...
4,um ex executivo da empreiteira odebrecht afirm...


In [63]:
# Remover stopwords nltk

stop_words = set(stopwords.words('portuguese'))
df['text'] = df['text'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))

df.head()

Unnamed: 0,text
0,programa treinamento jornalismo agroindústria ...
1,ofício enviado juiz sergio moro nesta sexta fe...
2,ex governador rio sérgio cabral transferido co...
3,aplausos vaias juiz federal sergio moro respon...
4,ex executivo empreiteira odebrecht afirmou aco...


In [64]:
nlp = spacy.blank("pt")

df['text'] = df['text'].apply(lambda x: ' '.join([token.text for token in nlp(x) if not token.is_stop]))

df.head()

Unnamed: 0,text
0,programa treinamento jornalismo agroindústria ...
1,ofício enviado juiz sergio moro feira presiden...
2,ex governador rio sérgio cabral transferido co...
3,aplausos vaias juiz federal sergio moro respon...
4,ex executivo empreiteira odebrecht afirmou aco...


In [65]:
nlp = spacy.load("pt_core_news_sm")

def lemmatize_text(text):
    doc = nlp(text)
    return " ".join([token.lemma_ for token in doc])

#df['text'] = df['text'].apply(lemmatize_text)

In [66]:
# Remover palavras com 3 ou menos caracteres
df['text'] = df['text'].apply(lambda x: ' '.join([word for word in x.split() if len(word) > 5]))
df.head()

Unnamed: 0,text
0,programa treinamento jornalismo agroindústria ...
1,ofício enviado sergio presidente michel esquiv...
2,governador sérgio cabral transferido complexo ...
3,aplausos federal sergio responsável operação i...
4,executivo empreiteira odebrecht afirmou acordo...


In [67]:
stemmer = RSLPStemmer()

def stem_text(text):
    return ' '.join([stemmer.stem(word) for word in text.split()])

#df['stemmed_text'] = df['text'].apply(stem_text)

In [68]:
import pickle
with open('pickle/df_proc.p', 'wb') as file:
    pickle.dump(df, file)