In [3]:
import pandas as pd
import re
import nltk
import json
from nltk.corpus import stopwords
nltk.download('stopwords')


[nltk_data] Downloading package stopwords to
[nltk_data]     /home/joaotaves/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [4]:
# Função para remover stopwords

stopwords_pt = set(stopwords.words('portuguese'))
def remove_stopwords(text):
    tokens = text.split()
    tokens_cleaned = [token for token in tokens if token.lower() not in stopwords_pt]
    return ' '.join(tokens_cleaned)

# Função para remover a pontuação

def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)

In [7]:
# Limpeza CanalTech
df_ct = pd.read_json('../data/CanalTech.json')

df_ct.drop_duplicates(subset=('link'), ignore_index=True, inplace = True) # Removendo Duplicatas
df_ct.drop(columns = ['date'], inplace = True) # Tem nomes dos autores no lugar das datas
df_ct['text'].replace('\n', ' ', regex=True, inplace = True)
df_ct['text'] = df_ct['text'].apply(remove_stopwords).apply(remove_punctuation) # Removendo as stopwords e pontuação

data = df_ct.to_dict(orient='records')
with open('CanalTechLimpo.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False) # Salvando o dataframe limpo como .json

df_ct

Unnamed: 0,text,link
0,Após pressão União Europeia novas legislações ...,https://canaltech.com.br/fone-de-ouvido/airpod...
1,Beats Fit Pro apontado muitos usuários fone ou...,https://canaltech.com.br/fone-de-ouvido/airpod...
2,Apple prepara setembro pode maiores eventos re...,https://canaltech.com.br/fone-de-ouvido/airpod...
3,Apple lançou AirPods 3 fones ideias usuários b...,https://canaltech.com.br/video/analise-de-prod...
4,Apresentado final 2020 iOS iPadOS 14 compartil...,https://canaltech.com.br/fone-de-ouvido/como-u...
5,grandes qualidades AirPods Apple rápida recarg...,https://canaltech.com.br/fone-de-ouvido/como-v...
6,AirPods Pro 2 lançamentos aguardados Apple 202...,https://canaltech.com.br/fone-de-ouvido/airpod...
7,AirPods excelentes fones ouvido Bluetooth cons...,https://canaltech.com.br/tv/como-conectar-os-a...


In [4]:
# Limpeza TecMundo

df_tm = pd.read_json('TecMundo.json')
df_tm.drop(columns = ['date'], inplace = True) # O scraper nao pegou a data

df_tm['text'].replace('\nvia nexperts\n0', ' ', regex=True, inplace = True)
df_tm['text'].replace('\n', ' ', regex=True, inplace = True)

df_tm['text'] = df_tm['text'].str.extract('Compartilharam(.*)', expand=False).str.strip() # Todas as palavras antes disso nao fazem parte do texto
df_tm['text'] = df_tm['text'].str.extract('(.*)Comunicar Erro', expand=False).str.strip() # Todas as palavras depois disso nao fazem parte do texto
df_tm['text'] = df_tm['text'].apply(remove_stopwords).apply(remove_punctuation) # Removendo as stopwords e pontuação

data = df_tm.to_dict(orient='records')
with open('TecMundoLimpo.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False) # Salvando o dataframe limpo como .json

df_tm

Unnamed: 0,title,text,link
0,"Apple em promoção: descontos em iPhones, Macbo...",produtos Apple sinônimo qualidade alto investi...,https://www.tecmundo.com.br/produto/264645-app...
1,Comparativo: Galaxy Buds 2 Pro VS AirPods Pro ...,muitas pessoas fones fio itens obrigatórios en...,https://www.tecmundo.com.br/produto/262811-com...
2,Nothing Ear 2 é lançado: fone briga com AirPod...,Nothing empresa tecnologia fundada Carl Pei ac...,https://www.tecmundo.com.br/produto/262087-not...
3,5 formas de descobrir se o AirPods é original,Apple sempre marca inovadora trata tecnologia ...,https://www.tecmundo.com.br/produto/259324-5-f...
4,AirPods Lite 'baratinho' deve ser lançado em 2...,Suposta versão barata fone ouvido Apple AirPod...,https://www.tecmundo.com.br/produto/259128-air...
5,AirPods Lite: Apple pode lançar versão baratin...,Famosa linha fones ouvido fio Apple AirPods po...,https://www.tecmundo.com.br/produto/257811-air...
6,Itaú agora vende AirPods no programa iPhone pr...,Itaú atualizou programa iPhone pra Sempre Agor...,https://www.tecmundo.com.br/dispositivos-movei...
7,Como usar o AirPods Pro 2 com um celular Android?,Trazendo várias melhorias AirPods Pro 2 dispon...,https://www.tecmundo.com.br/produto/253882-usa...
8,Fone Airpods Pro 2 vs Airpods Pro (2019): veja...,últimos anos fone fio modelo true wireless gan...,https://www.tecmundo.com.br/produto/253645-fon...
9,AirPods Max: ANC é afetado após atualização de...,atualização software lançada recentemente Appl...,https://www.tecmundo.com.br/produto/253293-air...


In [5]:
# Limpeza TudoCelular
df_tc = pd.read_json('TudoCelular.json')

df_tc['text'].replace('\n', ' ', regex=True, inplace = True)
df_tc = df_tc[~df_tc['link'].str.startswith("https://www.tudocelular.com/jogos")] # Removendo noticias que nao se encaixam no tema
df_tc = df_tc[~df_tc['link'].str.startswith("https://www.tudocelular.com/google")] # Removendo noticias que nao se encaixam no tema
df_tc['text'] = df_tc['text'].apply(remove_stopwords).apply(remove_punctuation) # Removendo as stopwords e pontuação
df_tc.reset_index(inplace = True) # Resetando o index
df_tc.drop(columns = ['index'], inplace = True) # Removendo o index antigo
df_tc['date'] = df_tc['date'].str.rstrip(' 0') # Removendo o numero 0 que tinha no fim de todas as datas

data = df_tc.to_dict(orient='records')
with open('TudoCelularLimpo.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False) # Salvando o dataframe limpo como .json

df_tc

Unnamed: 0,title,author,date,text,link
0,"WWDC23: Apple anuncia ""Adaptive Audio"" e outro...",Rodrigo Silva,05 de junho de 2023,Apple aproveitou WWDC 2023 apresentar algumas ...,https://www.tudocelular.com/eventos/noticias/n...
1,AirPods coloridos: Apple trabalhou em 5 cores ...,Everson Bicudo,30 de maio de 2023,AirPods tornaram mundialmente famosos desde pr...,https://www.tudocelular.com/acessorios/noticia...
2,Polícia apreende em aeroporto mais de mil AirP...,Lucas Ribeiro,27 de abril de 2023,Autoridades alfandegárias Estados Unidos apree...,https://www.tudocelular.com/mercado/noticias/n...
3,Patente da Apple sugere AirPods com chip e sen...,Rodrigo Silva,10 de abril de 2023,nova patente registrada Apple pode pista novos...,https://www.tudocelular.com/apple/noticias/n20...
4,Patente da Apple sugere estojo de recarga com ...,Fernando Meliani,03 de abril de 2023,Escritório Patentes Estados Unidos publicou no...,https://www.tudocelular.com/curiosidade/notici...
...,...,...,...,...,...
97,AirPods Pro ganham edição limitada na China co...,Paulo Montenegro,07 de janeiro de 2021,Apesar rumores comentarem sobre próxima geraçã...,https://www.tudocelular.com/acessorios/noticia...
98,Designer cria conceito de AirPods 3 com suport...,Bruno Bertonzin,06 de janeiro de 2021,último grande lançamento fones ouvido Apple ch...,https://www.tudocelular.com/acessorios/noticia...
99,MacBook Air de 15 polegadas com Apple M3 está ...,Guilherme Souza,11 de junho de 2023,Durante última WWDC 2023 Apple anunciou lançam...,https://www.tudocelular.com/apple/noticias/n20...
100,iPad da próxima geração pode ser capaz de carr...,Guilherme Souza,11 de junho de 2023,Atualmente existem algumas maneiras carregar A...,https://www.tudocelular.com/apple/noticias/n20...


In [6]:
# Limpeza G1
df_g1 = pd.read_json('G1.json')

df_g1.drop_duplicates(subset=('text'), ignore_index=True, inplace = True) # Removendo duplicatas
df_g1.drop(3, inplace = True) # Removendo uma linha que não tinha texto nenhum
df_g1['text'] = df_g1['text'].apply(remove_stopwords).apply(remove_punctuation) # Removendo as stopwords e pontuação
df_g1.reset_index(inplace = True) # Resetando o index
df_g1.drop(columns = ['index'], inplace = True) # Removendo o index antigo

data = df_g1.to_dict(orient='records')
with open('G1Limpo.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False) # Salvando o dataframe limpo como .json

df_g1

Unnamed: 0,text,link
0,AirPods Pro referência fones ouvido bluetooth ...,https://g1.globo.com/busca/click?q=airpods&p=1...
1,Apple confirmou novos fones ouvido AirPods Pro...,https://g1.globo.com/busca/click?q=airpods&p=2...
2,Secretaria Nacional Defesa Consumidor Senacon ...,https://g1.globo.com/busca/click?q=airpods&p=3...
3,Confuso hora escolher produto internet Guia Co...,https://g1.globo.com/busca/click?q=airpods&p=5...
4,tantas opções compras online fácil ficar dúvid...,https://g1.globo.com/busca/click?q=airpods&p=6...
5,série outra academia advogado Paulo Ribeiro 32...,https://g1.globo.com/busca/click?q=airpods&p=7...
6,Apple realizou nesta segundafeira 18 evento on...,https://g1.globo.com/busca/click?q=airpods&p=8...
7,Apple anunciou nesta terçafeira 8 AirPods Max ...,https://g1.globo.com/busca/click?q=airpods&p=9...
8,Apple realizou nesta quartafeira 7 evento Cali...,https://g1.globo.com/busca/click?q=airpods&p=1...
9,Apple apresentou novos recursos sistema operac...,https://g1.globo.com/busca/click?q=airpods&p=1...


In [7]:
# Limpeza ITForum
df_it = pd.read_json('ITForum.json')

df_it['text'] = df_it['text'].str.replace('Home > Colunas', '') # Retirando 'Home > Colunas' do início dos textos
df_it['author'] = df_it['author'].str.replace(r'Daniel Galante.*', 'Daniel Galante') # Padronizando o nome do autor
df_it['author'] = df_it['author'].str.rstrip('*') # Removendo asterisco da coluna 'author'
df_it['text'] = df_it['text'].apply(remove_stopwords).apply(remove_punctuation) # Removendo as stopwords e pontuação

data = df_it.to_dict(orient='records')
with open('ITForumLimpo.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False) # Salvando o dataframe limpo como .json

df_it

  df_it['author'] = df_it['author'].str.replace(r'Daniel Galante.*', 'Daniel Galante') # Padronizando o nome do autor


Unnamed: 0,author,text,link
0,Eduardo Augusto,tema discutido últimos tempos inteligência art...,https://itforum.com.br/colunas/inteligencia-ar...
1,Eduardo Augusto,últimos meses ChatGPT tornou assuntos discutid...,https://itforum.com.br/colunas/mitos-e-verdade...
2,Eduardo Augusto,Nunca falou tanto sobre inteligência artificia...,https://itforum.com.br/colunas/o-que-esta-por-...
3,Vinicius Rainato,Google Analytics ferramenta indispensável qual...,https://itforum.com.br/colunas/beneficios-do-g...
4,Jacqueline Nakamura,quanto organização feito promover ambiente div...,https://itforum.com.br/colunas/como-construir-...
5,Flavio Xandó,Pierre Rodrigues Head Hybrid Work Solutions La...,https://itforum.com.br/colunas/papofacil-hp-e-...
6,Daniel Mendez,Desde isolamento social causado pandemia Covid...,https://itforum.com.br/colunas/5-dicas-para-au...
7,Daniel Mendez,Assim Revolução Industrial trouxe grandes muda...,https://itforum.com.br/colunas/a-nova-revoluca...
8,Luciana Coen,coluna cheiro mar natureza escrita durante IT ...,https://itforum.com.br/colunas/cios-esta-em-vo...
9,Luciana Coen,Antes inaugurar espaço tema tão relevante 3 pr...,https://itforum.com.br/colunas/esg-comecemos-p...


In [8]:
# Selecionar apenas as linhas da coluna 'text' que contêm as palavras 'AirPods' ou 'Fone de Ouvido'
selected_rows = df_tc[df_tc['text'].str.contains('Air Pods|AirPods|airpods|air pods', case=False)]

# Exibir as linhas selecionadas
print(selected_rows['text'])

0     Apple aproveitou WWDC 2023 apresentar algumas ...
1     AirPods tornaram mundialmente famosos desde pr...
2     Autoridades alfandegárias Estados Unidos apree...
3     nova patente registrada Apple pode pista novos...
4     Escritório Patentes Estados Unidos publicou no...
                            ...                        
93    Netflix pode prestes oferecer suporte recurso ...
94    AirPods ganharam versão especial recentemente ...
95    Embora tanto quanto sumida mercado Meizu conti...
97    Apesar rumores comentarem sobre próxima geraçã...
98    último grande lançamento fones ouvido Apple ch...
Name: text, Length: 85, dtype: object
