# Web Scraping com BeautifulSoup
## Buscando os itens PAÍS E CAPITAL do conteúdo do site.

In [2]:
# Importando a biblioteca BeautifulSoup
from bs4 import BeautifulSoup

## Live coding web scraping no site:
https://www.scrapethissite.com/pages/simple/

In [8]:
# Importando a biblioteca requests para buscar o conteúdo do site
import requests

In [9]:
# Instanciando a variável html para receber o conteúdo do site através do request.
html = requests.get("https://www.scrapethissite.com/pages/simple/").text

In [12]:
# Parseando o conteúdo a variável html usando o BeautifulSoup
html_parsed = BeautifulSoup(html,"html.parser")


In [11]:
# Utilizando o método prettify para identar o conteúdo
print(html_parsed.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Countries of the World: A Simple Example | Scrape This Site | A public sandbox for learning web scraping
  </title>
  <link href="/static/images/scraper-icon.png" rel="icon" type="image/png"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="A single page that lists information about all the countries in the world. Good for those just get started with web scraping." name="description"/>
  <link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.5/css/bootstrap.min.css" integrity="sha256-MfvZlkHCEqatNoGiOXveE8FIwMzZg4W85qfrfIFBfYc= sha512-dTfge/zgoMYpP7QbHy4gWMEGsbsdZeCXz7irItjcC3sPUFtf0kuFbDz/ixG7ArTxmDjLXDmezHubeNikyKGVyQ==" rel="stylesheet"/>
  <link href="https://fonts.googleapis.com/css?family=Lato:400,700" rel="stylesheet" type="text/css"/>
  <link href="/static/css/styles.css" rel="stylesheet" type="text/css"/>
  <meta content="noindex

### Verificando a estrutura do conteúdo do site utilizando o "inspecionar página" e buscando as classes referentes aos itens desejados.
### .text() para visualizar somente o texto e em seguida .strip() para remover os espaços.
### .find() mostra apenas o primeiro item encontrado e .find_all() mostra todas as ocorrências do item

In [None]:
# Buscando o PAÍS
html_parsed.find(class_ = "country-name").text.strip()

In [15]:
# Buscando a CAPITAL
html_parsed.find(class_ = "country-capital").text.strip()

'Andorra la Vella'

In [18]:
# Criando as listas para armezenar os itens através do .zip() fazer a junção das listas e com o suporte de um dicionário, crir uma lista final.
lista_paises = html_parsed.find_all(class_ = "country-name")
lista_capitais = html_parsed.find_all(class_ = "country-capital")
lista_final = []

for pais,capital in zip(lista_paises,lista_capitais):
    dict = {"pais": pais.text.strip(),
            "capital": capital.text.strip()}
    lista_final.append(dict)

In [19]:
lista_final

[{'pais': 'Andorra', 'capital': 'Andorra la Vella'},
 {'pais': 'United Arab Emirates', 'capital': 'Abu Dhabi'},
 {'pais': 'Afghanistan', 'capital': 'Kabul'},
 {'pais': 'Antigua and Barbuda', 'capital': "St. John's"},
 {'pais': 'Anguilla', 'capital': 'The Valley'},
 {'pais': 'Albania', 'capital': 'Tirana'},
 {'pais': 'Armenia', 'capital': 'Yerevan'},
 {'pais': 'Angola', 'capital': 'Luanda'},
 {'pais': 'Antarctica', 'capital': 'None'},
 {'pais': 'Argentina', 'capital': 'Buenos Aires'},
 {'pais': 'American Samoa', 'capital': 'Pago Pago'},
 {'pais': 'Austria', 'capital': 'Vienna'},
 {'pais': 'Australia', 'capital': 'Canberra'},
 {'pais': 'Aruba', 'capital': 'Oranjestad'},
 {'pais': 'Åland', 'capital': 'Mariehamn'},
 {'pais': 'Azerbaijan', 'capital': 'Baku'},
 {'pais': 'Bosnia and Herzegovina', 'capital': 'Sarajevo'},
 {'pais': 'Barbados', 'capital': 'Bridgetown'},
 {'pais': 'Bangladesh', 'capital': 'Dhaka'},
 {'pais': 'Belgium', 'capital': 'Brussels'},
 {'pais': 'Burkina Faso', 'capital': 

In [21]:
# importando a bibblioteca pandas para salvar o arquivo
import pandas as pd

In [22]:
# Convertendo a lista final para um dataframe
df = pd.DataFrame(lista_final)

In [25]:
#Salvando a pesquisa em um arquivo .csv
df.to_csv("lista_pais_capital.csv", index= False)

In [27]:
display(df)

Unnamed: 0,pais,capital
0,Andorra,Andorra la Vella
1,United Arab Emirates,Abu Dhabi
2,Afghanistan,Kabul
3,Antigua and Barbuda,St. John's
4,Anguilla,The Valley
...,...,...
245,Yemen,Sanaa
246,Mayotte,Mamoudzou
247,South Africa,Pretoria
248,Zambia,Lusaka
