## Cenário

Para este projeto, você assumirá o papel de engenheiro de dados que trabalha para uma empresa internacional de análise financeira. Sua empresa acompanha os preços das ações, commodities, taxas de câmbio e taxas de inflação. Seu trabalho é extrair dados financeiros de várias fontes, como sites, APIs e arquivos fornecidos por diversas empresas de análise financeira. Após coletar os dados, você extrai os dados de interesse para sua empresa e os transforma de acordo com os requisitos fornecidos a você. Uma vez que a transformação estiver completa, você carrega esses dados em um banco de dados.

## Tarefas do Projeto

Neste projeto você vai:

- Coletar dados usando APIs.
- Coletar dados usando web scraping.
- Baixar arquivos para processamento.
- Ler tipos de arquivo CSV, XML e JSON.
- Extrair dados dos tipos de arquivo mencionados acima.
- Transformar dados.
- Utilizar o módulo de registro integrado.
- Salvar os dados transformados em um formato pronto para ser carregado, que os engenheiros de dados podem usar para carregar os dados.

## Bibliotecas


In [8]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
import html5lib

## Extraindo Dados usando o Web Scraping
https://web.archive.org/web/20200318083015/https://en.wikipedia.org/wiki/List_of_largest_banks fornece informações sobre os maiores bancos do mundo com base em vários parâmetros. Faça uma raspagem dos dados da tabela 'Por capitalização de mercado' e armazene-os em um arquivo JSON.

In [17]:
url = "https://en.wikipedia.org/wiki/List_of_largest_banks"
r = requests.get(url)
html_data = r.text

**Pergunta 1**: Imprima o resultado da linha a seguir e lembre-se dela, pois será uma pergunta no questionário:

In [18]:
print(html_data[760:783])

-page-tools-pinned-disa


## Scraping dos dados

**Pergunta 2**: Usando o conteúdo e o Beautiful Soup, carregue os dados da tabela "Por capitalização de mercado" em um dataframe do Pandas. O dataframe deve ter os nomes dos bancos e a capitalização de mercado (em bilhões de dólares dos EUA) como nomes de colunas. Exiba as primeiras cinco linhas usando o comando "head".

In [20]:
soup = BeautifulSoup(html_data, 'html.parser')

In [56]:
data = pd.DataFrame(columns=["Name", "Market Cap (US$ Billion)"])
name_list = []
market_cap_list = []
for row in soup.find_all('tbody')[0].find_all('tr'):
    col = row.find_all('td')   
    #Write your code here
    if (col != []):
        Name = col[1].text
        Market_Cap = float(col[2].text)
        name_list.append(Name)
        market_cap_list.append(Market_Cap)
           
df = pd.DataFrame({"Name":name_list, "Market Cap (US$ Billion)":market_cap_list})
data = pd.concat([data,df])

  data = pd.concat([data,df])


**Pergunta 3** Exiba as primeiras cinco linhas usando a função `head`.

In [57]:
data.head()

Unnamed: 0,Name,Market Cap (US$ Billion)
0,JPMorgan Chase\n,432.92
1,Bank of America\n,231.52
2,Industrial and Commercial Bank of China\n,194.56
3,Agricultural Bank of China\n,160.68
4,HDFC Bank\n,157.91


## Carregando os Dados

Carregue o dataframe do `pandas` criado acima em um JSON chamado `bank_market_cap.json` usando a função `to_json()`.


In [58]:
#Write your code here
data.to_json("bank_market_cap.json")


## Authors
Ramesh Sannareddy, Joseph Santarcangelo and Azim Hirjani

### Other Contributors
Rav Ahuja

## Change Log
| Date (YYYY-MM-DD) | Version | Changed By        | Change Description                 |
| ----------------- | ------- | ----------------- | ---------------------------------- |
| 2022-07-12        | 0.2     | Appalabhaktula Hema | Corrected the code and markdown |
| 2020-11-25        | 0.1     | Ramesh Sannareddy | Created initial version of the lab |

Copyright © 2020 IBM Corporation.