<a href="https://colab.research.google.com/github/beatrizcf2/MarketSentimentAnalyzer/blob/main/LimpezaDeDados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Entrega 1 - Extração e limpeza de dados

## Introdução

Neste projeto, propomos uma solução para extrair notícias econômicas diretamente do site da Globo utilizando técnicas de web scraping. O **web scraping** é uma técnica poderosa que nos permite automatizar a coleta de dados de páginas da web, transformando o conteúdo estruturado em informações utilizáveis para análise.

Ao extrair dados sistematicamente, podemos realizar uma análise em tempo real das principais tendências, eventos e análises que impactam os mercados financeiros e da economia de forma geral.





## Problema

O acompanhamento das notícias econômicas é essencial para o mundo dos negócios e investimentos.O processo normalmente involve a coleta manual das informações de múltiplas fontes, e além disso, a velocidade com que as notícias são publicadas e atualizadas torna desafiador manter-se atualizado com os eventos econômicos em tempo real.

Visando contornar esse problema, neste projeto utilizamos técnicas de webscrapping para extrair notícias econômicas. A fonte escolhida foi o site O Globo, dada a sua relevância para o mercado nacional e a forma em que o site é estruturado, facilitando assim a extração e coleta dos dados.

Ao automatizar este processo podemos economizar tempo e esforço, garantindo ao mesmo tempo que estamos obtendo informações atualizadas e relevantes sobre os desenvolvimentos econômicos mais recentes.


## Extração de dados

Para a extração dos dados, utilizamos as bibliotecas BeautifulSoup em conjunto com a biblioteca Requests para acessar e extrair o conteúdo das páginas web.

In [None]:
# importando as bibliotecas
import requests
from bs4 import BeautifulSoup

In [13]:
secao = 'economia'
url = f'https://www.globo.com/{secao}'

In [20]:
def get_news(url):
  page = requests.get(url)
  page.encoding = 'utf-8'
  soup = BeautifulSoup(page.text,'html.parser')
  news = soup.find_all('a', class_='feed-post-link') # extrair títulos das notícias
  return news

noticias = get_news(url)
len(noticias)


10

## Limpeza dos dados

In [21]:
def clean_news(news):
  news_dict = {}
  for noticia in news:
    news_dict[noticia.text] = noticia.get('href')
  return news_dict


news_dict = clean_news(noticias)
news_dict

{'Johnson & Johnson está disposta a pagar até US$ 6,5 bilhões para encerrar disputas judiciais': 'https://g1.globo.com/economia/negocios/noticia/2024/05/02/johnson-and-johnson-esta-disposta-a-pagar-ate-us-65-bilhoes-para-encerrar-disputas-judiciais.ghtml',
 'Em meio à febre do Ozempic, lucro da fabricante dispara quase 30% no 1º trimestre': 'https://g1.globo.com/economia/negocios/noticia/2024/05/02/lucro-da-dona-do-ozempic-e-wegovy-dispara-quase-30percent-no-1o-trimestre.ghtml',
 'Ex-presidente da Binance é condenado a quatro meses de prisão por lavagem de dinheiro': 'https://g1.globo.com/economia/negocios/noticia/2024/04/30/ex-presidente-da-binance-e-condenado-a-quatro-meses-de-prisao-por-lavagem-de-dinheiro.ghtml',
 'Assédio, agressões e perda de direitos: pesquisa mostra as angústias de mulheres no ambiente de trabalho': 'https://g1.globo.com/economia/negocios/noticia/2024/04/30/assedio-agressoes-e-perda-de-direitos-pesquisa-mostra-as-angustias-de-mulheres-no-ambiente-de-trabalho.gh

In [22]:
# generate dataframe with the data collected
import pandas as pd
df = pd.DataFrame(news_dict.items(), columns=['title', 'url'])
df


Unnamed: 0,title,url
0,Johnson & Johnson está disposta a pagar até US...,https://g1.globo.com/economia/negocios/noticia...
1,"Em meio à febre do Ozempic, lucro da fabricant...",https://g1.globo.com/economia/negocios/noticia...
2,Ex-presidente da Binance é condenado a quatro ...,https://g1.globo.com/economia/negocios/noticia...
3,"Assédio, agressões e perda de direitos: pesqui...",https://g1.globo.com/economia/negocios/noticia...
4,Justiça aceita pedido de recuperação extrajudi...,https://g1.globo.com/economia/negocios/noticia...
5,Aplicativo do McDonald's apresenta instabilida...,https://g1.globo.com/economia/noticia/2024/04/...
6,"Bilionários da Forbes: Elon Musk ganha US$ 14,...",https://g1.globo.com/economia/negocios/noticia...
7,Ações da Casas Bahia disparam quase 35% após c...,https://g1.globo.com/economia/negocios/noticia...
8,Elon Musk: por que bilionário da Tesla precisa...,https://g1.globo.com/economia/negocios/noticia...
9,Casas Bahia: o que é uma recuperação extrajudi...,https://g1.globo.com/economia/negocios/noticia...
