In [4]:
import re
import string

import numpy as np
import pandas as pd

from unidecode import unidecode

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

from sklearn.feature_extraction.text import TfidfVectorizer

In [5]:
text = """
Fake news significa "notícias falsas", em inglês. São informações enganosas, inventadas ou que distorcem a realidade, construídas em formato de notícia (imitando o texto jornalístico) e feitas para que o seu leitor acredite que a informação é verdadeira.

As notícias falsas e o fenômeno da desinformação cresceram muito com o estabelecimento da internet e a criação das redes sociais, as plataformas onde as fake news são mais compartilhadas.

Normalmente, o objetivo de uma fake news é criar uma polêmica em torno de uma situação ou mesmo de uma pessoa. Elas servem para criar um clima de insegurança e medo, incentivar discursos de ódio ou ainda para sujar a imagem de alguém.

Por abordar temas dramáticos e apelativos, costumam atrair muita atenção das pessoas, especialmente das que estão desatentas, não têm o costume de confirmar dados ou ainda daquelas que tem opinião concordante com a abordagem da notícia falsa.

No âmbito político, por exemplo, as notícias falsas são fabricadas para manchar a reputação de determinado candidato, influenciando para uma derrota em potenciais eleitores.

Fake news são extremamente perigosas. Além de prejudicar individualmente as pessoas, coletivamente, elas conseguem distorcer a percepção da realidade.
"""


In [6]:
# Lowercase
text = text.lower()


In [3]:
pip install unidecode

Collecting unidecode
  Downloading Unidecode-1.3.8-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.8


In [9]:
print(text)


fake news significa "notícias falsas", em inglês. são informações enganosas, inventadas ou que distorcem a realidade, construídas em formato de notícia (imitando o texto jornalístico) e feitas para que o seu leitor acredite que a informação é verdadeira.

as notícias falsas e o fenômeno da desinformação cresceram muito com o estabelecimento da internet e a criação das redes sociais, as plataformas onde as fake news são mais compartilhadas.

normalmente, o objetivo de uma fake news é criar uma polêmica em torno de uma situação ou mesmo de uma pessoa. elas servem para criar um clima de insegurança e medo, incentivar discursos de ódio ou ainda para sujar a imagem de alguém.

por abordar temas dramáticos e apelativos, costumam atrair muita atenção das pessoas, especialmente das que estão desatentas, não têm o costume de confirmar dados ou ainda daquelas que tem opinião concordante com a abordagem da notícia falsa.

no âmbito político, por exemplo, as notícias falsas são fabricadas para ma

In [7]:
# Remoção de pontuação e símbolos
punctuation = string.punctuation
trantab = str.maketrans(punctuation, len(punctuation)*' ')
text = text.translate(trantab)

In [8]:
print(text)


fake news significa  notícias falsas   em inglês  são informações enganosas  inventadas ou que distorcem a realidade  construídas em formato de notícia  imitando o texto jornalístico  e feitas para que o seu leitor acredite que a informação é verdadeira 

as notícias falsas e o fenômeno da desinformação cresceram muito com o estabelecimento da internet e a criação das redes sociais  as plataformas onde as fake news são mais compartilhadas 

normalmente  o objetivo de uma fake news é criar uma polêmica em torno de uma situação ou mesmo de uma pessoa  elas servem para criar um clima de insegurança e medo  incentivar discursos de ódio ou ainda para sujar a imagem de alguém 

por abordar temas dramáticos e apelativos  costumam atrair muita atenção das pessoas  especialmente das que estão desatentas  não têm o costume de confirmar dados ou ainda daquelas que tem opinião concordante com a abordagem da notícia falsa 

no âmbito político  por exemplo  as notícias falsas são fabricadas para ma

In [9]:
# Remover caracteres especiais (acentos e afins)
text = unidecode(text)

In [10]:
print(text)


fake news significa  noticias falsas   em ingles  sao informacoes enganosas  inventadas ou que distorcem a realidade  construidas em formato de noticia  imitando o texto jornalistico  e feitas para que o seu leitor acredite que a informacao e verdadeira 

as noticias falsas e o fenomeno da desinformacao cresceram muito com o estabelecimento da internet e a criacao das redes sociais  as plataformas onde as fake news sao mais compartilhadas 

normalmente  o objetivo de uma fake news e criar uma polemica em torno de uma situacao ou mesmo de uma pessoa  elas servem para criar um clima de inseguranca e medo  incentivar discursos de odio ou ainda para sujar a imagem de alguem 

por abordar temas dramaticos e apelativos  costumam atrair muita atencao das pessoas  especialmente das que estao desatentas  nao tem o costume de confirmar dados ou ainda daquelas que tem opiniao concordante com a abordagem da noticia falsa 

no ambito politico  por exemplo  as noticias falsas sao fabricadas para ma

In [11]:
# Remover dígitos
text = re.sub(r'\d+', '', text)

In [12]:
print(text)


fake news significa  noticias falsas   em ingles  sao informacoes enganosas  inventadas ou que distorcem a realidade  construidas em formato de noticia  imitando o texto jornalistico  e feitas para que o seu leitor acredite que a informacao e verdadeira 

as noticias falsas e o fenomeno da desinformacao cresceram muito com o estabelecimento da internet e a criacao das redes sociais  as plataformas onde as fake news sao mais compartilhadas 

normalmente  o objetivo de uma fake news e criar uma polemica em torno de uma situacao ou mesmo de uma pessoa  elas servem para criar um clima de inseguranca e medo  incentivar discursos de odio ou ainda para sujar a imagem de alguem 

por abordar temas dramaticos e apelativos  costumam atrair muita atencao das pessoas  especialmente das que estao desatentas  nao tem o costume de confirmar dados ou ainda daquelas que tem opiniao concordante com a abordagem da noticia falsa 

no ambito politico  por exemplo  as noticias falsas sao fabricadas para ma

In [13]:
# Remover stopwords
try:
    stopwords_list = stopwords.words('portuguese')
except:
    nltk.download('stopwords')
    stopwords_list = stopwords.words('portuguese')

def remove_stopwords(input_text, stopwords_list):
    words = input_text.split()
    clean_words = [word for word in words if (word not in stopwords_list) and len(word) > 1]
    return " ".join(clean_words)

text = remove_stopwords(text, stopwords_list)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [14]:
print(text)

fake news significa noticias falsas ingles sao informacoes enganosas inventadas distorcem realidade construidas formato noticia imitando texto jornalistico feitas leitor acredite informacao verdadeira noticias falsas fenomeno desinformacao cresceram estabelecimento internet criacao redes sociais plataformas onde fake news sao compartilhadas normalmente objetivo fake news criar polemica torno situacao pessoa servem criar clima inseguranca medo incentivar discursos odio ainda sujar imagem alguem abordar temas dramaticos apelativos costumam atrair muita atencao pessoas especialmente estao desatentas nao costume confirmar dados ainda daquelas opiniao concordante abordagem noticia falsa ambito politico exemplo noticias falsas sao fabricadas manchar reputacao determinado candidato influenciando derrota potenciais eleitores fake news sao extremamente perigosas alem prejudicar individualmente pessoas coletivamente conseguem distorcer percepcao realidade


In [15]:
# Radicalização
def stemming(input_text):
    porter = PorterStemmer()
    words = input_text.split()
    stemmed_words = [porter.stem(word) for word in words]
    return " ".join(stemmed_words)

text = stemming(text)


In [16]:
print(text)

fake news significa noticia falsa ingl sao informaco enganosa inventada distorcem realidad construida formato noticia imitando texto jornalistico feita leitor acredit informacao verdadeira noticia falsa fenomeno desinformacao cresceram estabelecimento internet criacao rede sociai plataforma ond fake news sao compartilhada normalment objetivo fake news criar polemica torno situacao pessoa servem criar clima inseguranca medo incentivar discurso odio ainda sujar imagem alguem abordar tema dramatico apelativo costumam atrair muita atencao pessoa especialment estao desatenta nao costum confirmar dado ainda daquela opiniao concordant abordagem noticia falsa ambito politico exemplo noticia falsa sao fabricada manchar reputacao determinado candidato influenciando derrota potenciai eleitor fake news sao extremament perigosa alem prejudicar individualment pessoa coletivament conseguem distorc percepcao realidad


In [17]:
# O TF-IDF
# Instanciar o vetorizador do sklearn
tfv = TfidfVectorizer()
# Ajustar os pesos e fazer a transformação do corpus para a representação TF-IDF
tfidf = tfv.fit_transform([text])

In [18]:
print(text)

fake news significa noticia falsa ingl sao informaco enganosa inventada distorcem realidad construida formato noticia imitando texto jornalistico feita leitor acredit informacao verdadeira noticia falsa fenomeno desinformacao cresceram estabelecimento internet criacao rede sociai plataforma ond fake news sao compartilhada normalment objetivo fake news criar polemica torno situacao pessoa servem criar clima inseguranca medo incentivar discurso odio ainda sujar imagem alguem abordar tema dramatico apelativo costumam atrair muita atencao pessoa especialment estao desatenta nao costum confirmar dado ainda daquela opiniao concordant abordagem noticia falsa ambito politico exemplo noticia falsa sao fabricada manchar reputacao determinado candidato influenciando derrota potenciai eleitor fake news sao extremament perigosa alem prejudicar individualment pessoa coletivament conseguem distorc percepcao realidad


In [19]:
tfidf = pd.DataFrame.sparse.from_spmatrix(tfidf, columns=tfv.get_feature_names_out())
print(tfidf)

   abordagem   abordar   acredit     ainda      alem    alguem    ambito  \
0   0.072169  0.072169  0.072169  0.144338  0.072169  0.072169  0.072169   

   apelativo   atencao    atrair  ...       sao    servem  significa  \
0   0.072169  0.072169  0.072169  ...  0.288675  0.072169   0.072169   

   situacao    sociai     sujar      tema     texto     torno  verdadeira  
0  0.072169  0.072169  0.072169  0.072169  0.072169  0.072169    0.072169  

[1 rows x 91 columns]
