# Init

In [17]:
!pip install nltk
import nltk
nltk.download('stopwords')
nltk.download('rslp')

!pip install spacy
!python -m spacy download pt_core_news_sm



[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /home/jovyan/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [18]:
import pandas as pd
import re
import string
import nltk
from nltk.stem import RSLPStemmer
from nltk.corpus import stopwords
import spacy

In [21]:
df = pd.read_csv('articles.csv')
df = df.dropna()
df['text'] = df['text'].astype(str)

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10035 entries, 0 to 10096
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    10035 non-null  object
dtypes: object(1)
memory usage: 156.8+ KB


# Pre Processing

In [23]:
# remover duplicadas
df = df.drop_duplicates()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10030 entries, 0 to 10096
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    10030 non-null  object
dtypes: object(1)
memory usage: 156.7+ KB


In [24]:
# lowercase
df['text'] = df['text'].str.lower()
df.head()

Unnamed: 0,text
0,o 1º programa de treinamento em jornalismo de ...
1,em ofício enviado ao juiz sergio moro nesta se...
2,o ex-governador do rio sérgio cabral foi trans...
3,"entre aplausos e vaias, o juiz federal sergio ..."
4,um ex-executivo da empreiteira odebrecht afirm...


In [25]:
# remover pontuacao
df['text'] = df['text'].str.translate(str.maketrans(string.punctuation, ' '*len(string.punctuation)))
df.head()

Unnamed: 0,text
0,o 1º programa de treinamento em jornalismo de ...
1,em ofício enviado ao juiz sergio moro nesta se...
2,o ex governador do rio sérgio cabral foi trans...
3,entre aplausos e vaias o juiz federal sergio ...
4,um ex executivo da empreiteira odebrecht afirm...


In [26]:
# Remover dígitos ou palavras que contenham dígitos
df['text'] = df['text'].str.replace(r'\w*\d\w*', '', regex=True)
df.head()

Unnamed: 0,text
0,o programa de treinamento em jornalismo de ag...
1,em ofício enviado ao juiz sergio moro nesta se...
2,o ex governador do rio sérgio cabral foi trans...
3,entre aplausos e vaias o juiz federal sergio ...
4,um ex executivo da empreiteira odebrecht afirm...


In [27]:
# Remover stopwords
stop = stopwords.words('portuguese')
df['text'] = df['text'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop]))
df.head()

Unnamed: 0,text
0,programa treinamento jornalismo agroindústria ...
1,ofício enviado juiz sergio moro nesta sexta fe...
2,ex governador rio sérgio cabral transferido co...
3,aplausos vaias juiz federal sergio moro respon...
4,ex executivo empreiteira odebrecht afirmou aco...


In [28]:
# implementar lemma
nlp = spacy.load('pt_core_news_sm')
df['text'] = df['text'].apply(lambda x: ' '.join([token.lemma_ for token in nlp(x)]))
df.head()

Unnamed: 0,text
0,programa treinamento jornalismo agroindústr su...
1,ofício enviar juiz sergio morar em este sexta ...
2,ex governador rio sérgio cabral transferir com...
3,aplauso vaia juiz federal sergio Moro responsá...
4,ex Executivo empreiteira odebrecht afirmar aco...


In [31]:
# Remover dígitos ou palavras que contenham dígitos
df['text'] = df['text'].str.replace(r'\w*\d\w*', '', regex=True)
df.head()

Unnamed: 0,text
0,programa treinamento jornalismo agroindústr su...
1,ofício enviar juiz sergio morar em este sexta ...
2,ex governador rio sérgio cabral transferir com...
3,aplauso vaia juiz federal sergio Moro responsá...
4,ex Executivo empreiteira odebrecht afirmar aco...


In [33]:
import pickle
with open('df.p', 'wb') as file:
    pickle.dump(df, file)