<h1 id='parte-3'>3. Extraíndo as informações de uma página web</h1>

<h2 id='parte-3a' style="color:blue;">a. Lendo a página web com 'requests'</h2>

<p>Como primeiro exemplo real, extrairemos a notícia de uma página do <b>InfoMoney</b> fazendo inicialmente uma requisição na url com o <b>'requests'</b>:</p>

In [12]:
url = 'https://www.infomoney.com.br/politica/10-pontos-para-entender-a-mp-905-e-por-que-ela-pode-ser-contestada-judicialmente/'
response = requests.get(url)

<p>Em <b>'response'</b> pegamos todas as informações possíveis da nossa requisição. Por agora interessa apenas o caso em que conseguimos ler o código html de forma direta e sem erro</p>

<p>O método <b>'.status_code'</b> nos indica o status da nossa requisição. 200 indica que o request foi bem sucedido</p>

In [13]:
response.status_code

200

<p>Usando o método <b>'.text'</b> podemos ver todo nosso código HTML em uma única string. Como comentado anteriormente, a string é confusa e de difícil compreensão, sendo muito conveniente o uso do <b>BeautifulSoup</b>.</p>

In [14]:
response.text

'<!doctype html>\n<html lang="pt-BR">\n<head>\n    <meta charset="UTF-8">\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\n\n\n    <title>Reforma Trabalhista de Bolsonaro: entenda a MP 905 - e por que ela pode ser contestada judicialmente</title>\n\n<!-- This site is optimized with the Yoast SEO Premium plugin v11.5 - https://yoast.com/wordpress/plugins/seo/ -->\n<meta name="description" content="Governo anuncia pacote que altera leis trabalhistas, mas princípio da isonomia pode ser ferido pela MP"/>\n<link rel="canonical" href="https://www.infomoney.com.br/politica/10-pontos-para-entender-a-mp-905-e-por-que-ela-pode-ser-contestada-judicialmente/" />\n<meta property="og:locale" content="pt_BR" />\n<meta property="og:type" content="article" />\n<meta property="og:title" content="Reforma Trabalhista de Bolsonaro: entenda a MP 905 - e por que ela pode ser contestada judicialmente" />\n<meta property="og:description" content="Governo anuncia paco

<h2 id='parte-3b' style="color:blue;">b. Organizado a resposta do request por meio do 'bs4'</h2>

<p>Por meio da função <b>BeautifulSoup</b> e usando como parâmetro <b>'response.text'</b>(nossa resposta do request) e <b>'html.parser'</b>(o tipo de dado que estamos passando) podemos organizar nosso código HTML:</p>

In [15]:
html = BeautifulSoup(response.text, "html.parser")

<p>Printando <b>'html'</b>, podemos ver que agora existe uma organização e não somente uma string gigantesca contendo todo o código HTML</p>

In [16]:
html

<!DOCTYPE doctype html>

<html lang="pt-BR">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
<title>Reforma Trabalhista de Bolsonaro: entenda a MP 905 - e por que ela pode ser contestada judicialmente</title>
<!-- This site is optimized with the Yoast SEO Premium plugin v11.5 - https://yoast.com/wordpress/plugins/seo/ -->
<meta content="Governo anuncia pacote que altera leis trabalhistas, mas princípio da isonomia pode ser ferido pela MP" name="description">
<link href="https://www.infomoney.com.br/politica/10-pontos-para-entender-a-mp-905-e-por-que-ela-pode-ser-contestada-judicialmente/" rel="canonical"/>
<meta content="pt_BR" property="og:locale">
<meta content="article" property="og:type"/>
<meta content="Reforma Trabalhista de Bolsonaro: entenda a MP 905 - e por que ela pode ser contestada judicialmente" property="og:title"/>
<meta content="Governo anuncia pacote que altera leis trabalhistas, mas princípio da is

<h2 id='parte-3c' style="color:blue;">c. Extraindo o necessário do HTML</h2>

<h3 id='parte-3c1' style="color:green;">c.1 Extraindo texto puro de uma Notícia</h3>

<p><b>url</b> = <b style="color:blue;">https://www.infomoney.com.br/politica/10-pontos-para-entender-a-mp-905-e-por-que-ela-pode-ser-contestada-judicialmente/</b></p>

<p>Nessa etapa é importante entender de que página estamos extraindo a informação. É bem provável que as páginas de notícias do <b>InfoMoney</b> apresentem um padrão que pode ser diferente de outros portais de notícias. Por isso, como primeiro passo, devemos inspecionar a página e saber como está estruturado cada parte do HTML. Continuaremos com o mesmo link usado em <b style="color:blue;">a.</b> e com <b>'html'</b> gerado em <b style="color:blue;">b.</b></p>

<img src="./imagens/infomoney-titulo.png" />

<p>Existem várias formas de chegar no resultado que queremos, uma delas seria:</p>

<ul>
    <li>O título, de tag <b>&lt;h1&gt;...&lt;/h1&gt;</b>, contém <b>class='page-title-1'</b>, ao que tudo indica ela é única, então não teremos informações a mais ao usarmos essa classe para extrair o título(Muitas vezes o próprio <b>&lt;h1&gt;...&lt;/h1&gt;</b> é utilizado apenas uma vez no código, mas vamos supor que este não é o caso aqui).</li>
    <li>O subtítulo, de tag <b>&lt;p&gt;...&lt;/p&gt;</b>, contém <b>class='article-lead'</b>, que também parece ser única no código</li>
    <li>O texto da notícia está contido dentro do <b>&lt;div&gt;...&lt;/div&gt;</b> com <b>class='col-md-9 col-lg-8 col-xl-6 m-sm-auto m-lg-0 article-content'</b>, contendo <b>['p', 'h2', 'h3']</b> dentro dele</li>
</ul>

<p>Com essas três informações é possível extrair o Título, Subtítulo e texto da notícia.

### Título:

In [17]:
# Buscando parte do código que contenha class='page-title-1'
titulo = html.find_all(attrs={'class': 'page-title-1'})

titulo

[<h1 class="page-title-1">Reforma Trabalhista de Bolsonaro: entenda a MP 905 – e por que ela pode ser contestada judicialmente</h1>]

In [18]:
# Transformando o que achamos em string
titulo = titulo[0].text

print(titulo)

Reforma Trabalhista de Bolsonaro: entenda a MP 905 – e por que ela pode ser contestada judicialmente


### Subtítulo:

In [19]:
# Buscando parte do código que contenha class='article-lead'
subtitulo = html.find_all(attrs={'class': 'article-lead'})

subtitulo

[<p class="article-lead">Governo anuncia pacote que altera leis trabalhistas, mas princípio da isonomia pode ser ferido pela MP</p>]

In [20]:
# Transformando o que achamos em string
subtitulo = subtitulo[0].text

print(subtitulo)

Governo anuncia pacote que altera leis trabalhistas, mas princípio da isonomia pode ser ferido pela MP


### Texto:

<p>Nessa etapa devemos tomar cuidado com informações que não são importantes e que estão no meio do texto, como imagens e anúncios</p>

In [21]:
# Buscando um 'div' que contenha class='col-md-9 col-lg-8 col-xl-6 m-sm-auto m-lg-0 article-content'
text_div = html.findAll('div', attrs = {'class': 'col-md-9 col-lg-8 col-xl-6 m-sm-auto m-lg-0 article-content'})

In [22]:
text_div

[<div class="col-md-9 col-lg-8 col-xl-6 m-sm-auto m-lg-0 article-content">
 <figure class="mb-5">
 <img alt="carteira de trabalho" class="attachment-large size-large wp-post-image jetpack-lazy-image" data-lazy-sizes="(max-width:320px) 145px, (max-width:425px) 220px, 500px" data-lazy-src="https://www.infomoney.com.br/wp-content/uploads/2019/11/shutterstock_1300372189.jpg?fit=1000%2C716&amp;quality=75&amp;strip=all&amp;is-pending-load=1" data-lazy-srcset="https://www.infomoney.com.br/wp-content/uploads/2019/11/shutterstock_1300372189.jpg?w=1000&amp;quality=75&amp;strip=all 1000w, https://www.infomoney.com.br/wp-content/uploads/2019/11/shutterstock_1300372189.jpg?w=300&amp;quality=75&amp;strip=all 300w, https://www.infomoney.com.br/wp-content/uploads/2019/11/shutterstock_1300372189.jpg?w=768&amp;quality=75&amp;strip=all 768w" height="716" src="https://www.infomoney.com.br/wp-content/uploads/2019/11/shutterstock_1300372189.jpg?fit=1000%2C716&amp;quality=75&amp;strip=all" srcset="data:image

<p>Conseguimos extrair tudo que está dentro do <b>&lt;div&gt;...&lt;/div&gt;</b> da notícia, agora queremos extrair todo conteúdo importante de dentro dele. Inspecionando a página, vemos que existem parágrafos(<b>p</b>) e títulos menores (<b>h2 e h3</b>), então devemos procurar por eles fazendo uma lista <b>['p', 'h2', 'h3']</b> para buscar dentro de <b>'text_div'</b>:</p>

In [22]:
# Extraindo o texto da notícia
text = text_div[0].find_all(['p','h2', 'h3'])

text

<p>Pelo print podemos ver que conseguimos extrair todo o código que contém o texto na notícia, precisamos então retirar as tags e  extrair as strings</p>

In [24]:
# Transformando o que achamos em string
text_all = []
for t in text:
    text_all.append(t.text.strip())

In [25]:
text_all

['SÃO PAULO – Instituída pelo presidente Jair Bolsonaro na última segunda-feira (11), a Medida Provisória 905/2019 altera pontos da legislação trabalhista e cria o Contrato de Trabalho Verde Amarelo, dando incentivos a empresas para contratar jovens entre 18 e 29 anos, sem experiência na carteira, pelo prazo determinado de dois anos.',
 'Para bancar a iniciativa, o governo anunciou que irá taxar o seguro-desemprego. A estimativa oficial é de 1,8 milhão de vagas de emprego em um prazo de três anos.',
 'Entre as principais condições criadas para incentivar as contratações na modalidade estão: isenção das alíquotas do Sistema S, do salário-educação e da contribuição patronal de 20%\xa0 para o FGTS. As mudanças geram um corte de até 34% dos impostos pagos sobre a folha.',
 'A MP também prevê para o Contrato Verde Amarelo a redução de 8% para 2% do valor do salário na contribuição do empregado para o Fundo do Tempo de Serviço (FGTS) e da multa de 40% para 20% – podendo ser resgatado também 

<p>Anlisando diversar noticias do <b>InfoMoney</b>, podemos ver que a última linha sempre se refere a algum anúncio do próprio site e que acaba passando no nosso filtro, então podemos retira-lá manualmente</p>

In [26]:
text_all = text_all[:len(text_all)-1]

<p>Assim, conseguimos extrair o título, subtítulo e texto da página com poucas linhas de código. Podemos usar exatamente o mesmo código para extrair outra notícia do <b>InfoMoney</b>:</p>

<p><b>url</b> = <b style="color:blue;">https://www.infomoney.com.br/mercados/com-producao-duplicada-taurus-quer-novos-mercados-para-as-suas-armas/</b></p>

In [23]:
# Request da página
url = 'https://www.infomoney.com.br/mercados/com-producao-duplicada-taurus-quer-novos-mercados-para-as-suas-armas/'
response = requests.get(url)

# HTML organizado pelo bs4
html = BeautifulSoup(response.text, "html.parser")

# Extração do título
titulo = html.find_all(attrs={'class': 'page-title-1'})
titulo = titulo[0].text

# Extração do subtítulo
subtitulo = html.find_all(attrs={'class': 'article-lead'})
subtitulo = subtitulo[0].text

# Extração do texto
text_div = html.findAll('div', attrs = {'class': 'col-md-9 col-lg-8 col-xl-6 m-sm-auto m-lg-0 article-content'})
text = text_div[0].find_all(['p','h2', 'h3'])
text_all = []
for t in text:
    text_all.append(t.text.strip())

text_all = text_all[:len(text_all)-1]

# Resultado final
print('Título: ', titulo)
print('Subtítulo: ', subtitulo)
print('Texto: \n', text_all)

Título:  Com produção duplicada, Taurus quer novos mercados para as suas armas
Subtítulo:  De janeiro a setembro deste ano, a receita líquida da companhia alcançou R$ 727,4 milhões
Texto: 
 ['(Bloomberg) — A Taurus (TASA3; TASA4) terá sua capacidade produtiva duplicada das atuais 400 mil unidades por ano para 800 mil no início de 2020 com a nova fábrica que inaugura nos Estados Unidos no próximo mês. A planta atenderá o mercado americano — o maior do mundo em consumo de armas — e canadense, mas também permitirá à empresa expandir a presença em novas regiões.', 'A companhia já exporta para mais de 100 países, embora os Estados Unidos respondam por 80% da receita. Essa fatia deve ser reduzida para entre 60% e 70%, mesmo com aumento do market share naquele país, disse Salesio Nuhs, presidente da Taurus, em entrevista por telefone.', '“Qualquer fabricante de armas do mundo terá sempre os EUA como maior mercado”, disse. Mas a Taurus quer ser “mais agressiva” no cenário global. Faz parte dos

<p>_______________________________________________________________________________________________________________________</p>

<h3 id='parte-3c2' style="color:green;">c.2. Extraindo listas</h3>

<p><b>url</b> = <b style="color:blue;">https://www.infomoney.com.br/negocios/expert-estreia-em-sc-com-debate-sobre-investimentos-na-nova-realidade-de-juros-no-brasil/</b></p>

<p>Assim como texto, não é difícil extrair listas, apenas é preciso saber onde ela se encontra na página. Como exemplo usaremos outra notícia do <b>InfoMoney</b>, mas iremos extrair apenas a lista contida nela</p>

<img src="./imagens/infomoney-lista.png" />

<p>Vamos usar as seguintes informações na nossa busca e extração:</p>

<ul>
    <li>A lista está contida em um <b>&lt;div&gt;...&lt;/div&gt;</b> com <b>class='col-md-9 col-lg-8 col-xl-6 m-sm-auto m-lg-0 article-content';</b></li>
    <li>Após extrairmos o <b>&lt;div&gt;...&lt;/div&gt;</b> desejado, queremos apenas o que está dentro de <b>&lt;ul&gt;...&lt;/ul&gt;</b> e, logo em seguida, o que está dentro de cada <b>&lt;li&gt;...&lt;/li&gt;</b>.</li>
</ul>

In [28]:
# Request da página
url = 'https://www.infomoney.com.br/negocios/expert-estreia-em-sc-com-debate-sobre-investimentos-na-nova-realidade-de-juros-no-brasil/'
response = requests.get(url)

# HTML organizado pelo bs4
html = BeautifulSoup(response.text, "html.parser")

# Extração da lista
text_div = html.findAll('div', attrs = {'class': 'col-md-9 col-lg-8 col-xl-6 m-sm-auto m-lg-0 article-content'})
lista_ul = text_div[0].find_all('ul')
lista = lista_ul[0].find_all('li')

lista_all = []
for l in lista:
    lista_all.append(l.text.strip())

lista_all

['Guilherme Benchimol, CEO do XP Inc.',
 'Gabriel Leal, sócio e diretor comercial da XP Investimentos',
 'Ricardo Amorim, economista',
 'Thiago Nigro, fundador do canal Primo Rico',
 'Karel Luketic, head de análise da XP Investimentos',
 'Zeina Latif, sócia e economista-chefe da XP Investimentos',
 'Rogério Carvalho, sócio e responsável pelo B2B do XP Inc.',
 'Thiago Salomão, analista de ações da Rico Investimentos',
 'João Braga, sócio e gestor da XP Gestão',
 'Amyr Klink, navegador brasileiro',
 'Luiz Fux, ministro do Supremo Tribunal Federal (STF)',
 'José Galló, Presidente do Conselho de Administração das Lojas Renner',
 'Demétrio Magnoli, colunista e comentarista político',
 'Luciano Hang, empresário e sócio fundador da loja Havan']

<p>_______________________________________________________________________________________________________________________</p>

<h4 id='parte-3c33' style="color:brown;">c.3.3. Extraindo tabelas</h4>

<p><b>url</b> = <b style="color:blue;">https://www.infomoney.com.br/ferramentas/cambio/</b></p>

<p>Usaremos a biblioteca <b>Pandas</b> para criar um DataFrame da tabela extraída</p>

In [28]:
import pandas as pd

<p>Para esse exemplo vamos usar a página de câmbio que está no <b>InfoMoney</b>:</p>

In [32]:
# Request da página
url = 'https://www.infomoney.com.br/ferramentas/cambio/'
response = requests.get(url)

# HTML organizado pelo bs4
html = BeautifulSoup(response.text, "html.parser")

<img src="./imagens/infomoney-tabela2.png" />

<p>Vamos usar as seguintes informações na nossa busca e extração:</p>

<ul>
    <li>A tabela está contida em um <b>&lt;div&gt;...&lt;/div&gt;</b> com <b>id='container_table'</b>. Como <b>id</b>s são únicos, não corremos o risco de pegar informações erradas;</li>
    <li>Após extrairmos o <b>&lt;div&gt;...&lt;/div&gt;</b> desejado, queremos apenas o que está dentro de <b>&lt;table&gt;...&lt;/table&gt;</b>.</li>
</ul>

In [33]:
# Extração da tabela
table_div = html.findAll(attrs = {'id': 'container_table'})
table = table_div[0].findAll('table')

table

[<table class="default-table">
 <thead>
 <tr>
 <th>Moeda</th>
 <th></th>
 <th>Compra</th>
 <th>Venda</th>
 <th>Var(%)</th>
 </tr>
 </thead>
 <tbody>
 <tr>
 <td>Peso Argentino</td>
 <td><img alt="Peso Argentino" src="https://www.infomoney.com.br/wp-content/themes/infomoney/assets/img/ar.png"/></td>
 <td>n/d</td>
 <td>n/d</td>
 <td class="negative">0,00</td>
 </tr>
 <tr>
 <td>Dólar Australiano</td>
 <td><img alt="Dólar Australiano" src="https://www.infomoney.com.br/wp-content/themes/infomoney/assets/img/au.png"/></td>
 <td>2,866</td>
 <td>2,867</td>
 <td class="positive">0,05</td>
 </tr>
 <tr>
 <td>Dólar Canadense</td>
 <td><img alt="Dólar Canadense" src="https://www.infomoney.com.br/wp-content/themes/infomoney/assets/img/ca.png"/></td>
 <td>3,181</td>
 <td>3,182</td>
 <td class="positive">0,51</td>
 </tr>
 <tr>
 <td>Franco Suíço</td>
 <td><img alt="Franco Suíço" src="https://www.infomoney.com.br/wp-content/themes/infomoney/assets/img/su.png"/></td>
 <td>4,251</td>
 <td>4,253</td>
 <td c

<p>Devemos utilizar o método <b>'.read_html()'</b> do Pandas para organizar a tabela em um DataFrame. Como a tabela está com <b>'vírgula'</b> devemos substituir por <b>'ponto'</b> usando o método <b>'.replace()'</b>. Por fim, podemos retirar a segunda coluna da base pelo próprio pandas, já que ela representa imagem de bandeiras no código HTML e não nos interessa no final.</p>

In [34]:
# Transformando <table>...</table> em um DataFrame
df = pd.read_html(str(table[0]).replace(',', '.'))[0]

# Retirando a segunda coluna
df = df.drop(df.columns[1], axis=1)

# Resultado final
df

Unnamed: 0,Moeda,Compra,Venda,Var(%)
0,Peso Argentino,n/d,n/d,0.0
1,Dólar Australiano,2.866,2.867,0.05
2,Dólar Canadense,3.181,3.182,0.51
3,Franco Suíço,4.251,4.253,0.39
4,Dólar Comercial,4.197,4.198,-0.19
5,Dólar Turismo,4.030,4.370,0.0
6,Euro,n/d,n/d,0.0
7,Libra Esterlina,5.441,5.444,0.37
8,Iene,n/d,n/d,0.0


<p>_______________________________________________________________________________________________________________________</p>

<h4 id='parte-3c34' style="color:brown;">c.4.4 Extraindo lista de links</h4>

<p><b>url</b> = <b style="color:blue;">https://www.infomoney.com.br/</b></p>

<p>Muitas vezes precisamos extrair uma lista de links, tanto para automatizar o processo de extrair texto de diversas notícias, como para baixar documentos que estejam contidos na web(pdf, csv, etc...)</p>

<p> Como explicado anteriormente, esses links são armazenados em tags usando o atributo <b>'href'</b>, então o que precisamos fazer é apenas encontrar o atributo dentro do nosso código HTML para poder extrair a lista de links desejada</p>

<p>Como exemplo, pegaremos a página inicial do <b>InfoMoney</b> e iremos extrair o link e o título de todas as notícias da página principal:</p>

In [72]:
# Request da página
url = 'https://www.infomoney.com.br/'
response = requests.get(url)

# HTML organizado pelo bs4
html = BeautifulSoup(response.text, "html.parser")

<p>Inspecionando o código fonte, podemos ver que todas as notícias possuem <b>class='hl-title hl-title-x'</b> na tag <b>&lt;span&gt;...&lt;/span&gt;</b>, onde x varia de 3 a 7. Então é só buscarmos por classes que contenham pelo menos <b>'hl-title'</b>. Essa é outra característica da busca, não precisamos colocar o nome inteiro da classe:<p>

In [73]:
# Extraindo o span de todas as notícias
span = html.find_all(attrs={'class': ['hl-title']})

# Exemplo de notícia
span[0]

<span class="hl-title hl-title-2">
<a href="https://www.infomoney.com.br/mercados/com-a-b3-fechada-indice-de-adrs-brasileiros-sobe-na-bolsa-de-nova-york/" title="Com a B3 fechada, índice de ADRs brasileiros sobe na Bolsa de Nova York">Com a B3 fechada, índice de ADRs brasileiros sobe na Bolsa de Nova York</a>
</span>

<p>Veja que no exemplo do <b>'span[0]'</b>, há a tag <b>&lt;a...&gt;</b> com os atributos <b>href</b> e <b>title</b>, exatamente o que queremos extrair</p>

<p>Em seguida, rodamos um loop por cada <b>&lt;span&gt;...&lt;/span&gt;</b> encontrado, extraímos a tag <b>&lt;a&gt;...&lt;/a&gt;</b> usando o método <b>'.find()'</b> e, por fim, extraímos o <b>href</b>(link) e o título da notícia usando o método <b>'.get()'</b>:</p>

In [74]:
titulos = []
links = []
for s in span:
    # Em cada span, extraimos a tag 'a'
    a_tag = s.find('a')
    # Com o método '.get()', conseguimos extrair o link e o titulo em a_tag
    links.append(a_tag.get('href').strip())
    titulos.append(a_tag.get('title').strip())

<p>Organizando num DataFrame, teremos:</p>

In [47]:
df = pd.DataFrame({'Titulo': titulos, 'Link': links})

In [48]:
pd.options.display.max_rows
pd.set_option('display.max_colwidth', -1)

df

Unnamed: 0,Titulo,Link
0,"Com a B3 fechada, índice de ADRs brasileiros sobe na Bolsa de Nova York",https://www.infomoney.com.br/mercados/com-a-b3-fechada-indice-de-adrs-brasileiros-sobe-na-bolsa-de-nova-york/
1,"Por que a CVC perdeu R$ 1,89 bilhão em valor em uma semana?",https://www.infomoney.com.br/mercados/por-que-a-cvc-perdeu-r-189-bilhao-em-valor-de-mercado-em-uma-semana/
2,Ambev: os grandes desafios que o novo CEO terá no comando,https://www.infomoney.com.br/mercados/ambev-os-grandes-desafios-que-o-novo-presidente-tera-no-comando-da-gigante-de-bebidas/
3,Petrobras pode virar maior produtora de petróleo do mundo até 2030,https://www.infomoney.com.br/mercados/petrobras-pode-se-tornar-maior-produtora-de-petroleo-do-mundo-ate-2030/
4,STF analisa uso de dados em definição que impacta caso Queiroz,https://www.infomoney.com.br/politica/decisao-do-stf-sobre-coaf-impacta-caso-queiroz-e-outras-934-investigacoes/
5,"Com menos recursos do FGTS, médio padrão entra na mira de construtoras",https://www.infomoney.com.br/negocios/com-menos-recursos-do-fgts-medio-padrao-entra-na-mira-de-construtoras/
6,"Reforma focará em tributação do IR, inclusive lucros e dividendos, diz secretário da Receita",https://www.infomoney.com.br/minhas-financas/reforma-focara-em-tributacao-do-ir-inclusive-lucros-e-dividendos-diz-tostes/
7,2 oportunidades para aproveitar e 5 ciladas para escapar,https://www.infomoney.com.br/consumo/black-friday-2-oportunidades-para-aproveitar-e-5-ciladas-para-escapar/
8,"Dona do Frango Assado, Pizza Hut e KFC vai abrir 415 lojas no Brasil",https://www.infomoney.com.br/negocios/dona-do-frango-assado-pizza-hut-e-kfc-vai-abrir-415-lojas-no-brasil/
9,Como a Vale enfrenta Brumadinho e por que analistas estão otimistas,https://www.infomoney.com.br/mercados/como-a-vale-esta-enfrentando-os-efeitos-de-brumadinho-e-por-que-os-analistas-estao-otimistas/
