# Obtendo e manipulando dados

### Básico sobre pastas e arquivos

Este módulo fornece uma maneira para interagir com o sistema operacional. 

- Se você quer apenas ler ou escrever um arquivo veja **open()**, 
- se você quer manipular caminhos, veja o **os.path** módulo, 
- e se você quer ler todas as linhas em todos os arquivos na linha de comando veja o **fileinput** módulo. 
- Para criar arquivos e diretórios temporários veja o **tempfile** módulo, e para manipulação de arquivos e diretórios de alto nível veja o **shutil** módulo.

Vamos ver algumas operações simples.

#### os.environ 
Obter diversas informações do seu sistema e todas elas estão no formato de dicionário.

In [1]:
import os


os.environ

environ{'ELECTRON_RUN_AS_NODE': '1',
        'GJS_DEBUG_TOPICS': 'JS ERROR;JS LOG',
        'LESSOPEN': '| /usr/bin/lesspipe %s',
        'CONDA_PROMPT_MODIFIER': '(base) ',
        'USER': 'valli',
        'XDG_SESSION_TYPE': 'x11',
        'SHLVL': '1',
        'HOME': '/home/valli',
        'CONDA_SHLVL': '1',
        'OLDPWD': '/home/valli',
        'DESKTOP_SESSION': 'pop',
        'GNOME_SHELL_SESSION_MODE': 'pop',
        'GTK_MODULES': 'gail:atk-bridge:appmenu-gtk-module',
        'SYSTEMD_EXEC_PID': '2367',
        'DBUS_SESSION_BUS_ADDRESS': 'unix:path=/run/user/1000/bus',
        'COLORTERM': 'truecolor',
        '_CE_M': '',
        'GTK_IM_MODULE': 'ibus',
        'LOGNAME': 'valli',
        '_': '/home/valli/anaconda3/bin/python',
        'XDG_SESSION_CLASS': 'user',
        'USERNAME': 'valli',
        'TERM': 'xterm-color',
        'GNOME_DESKTOP_SESSION_ID': 'this-is-deprecated',
        '_CE_CONDA': '',
        'WINDOWPATH': '2',
        'PATH': '/home/valli/anaconda3

#### os.getcwd()
Obter o diretorio de trabalho atual

In [2]:
os.getcwd()

'/home/valli/repos/ensino/turma-ead-20220301'

#### os.chdir()
Mudar para um diretorio expecífico

In [3]:
os.chdir('/home/valli/')

In [4]:
os.getcwd()

'/home/valli'

#### os.mkdir()
Cria um diretorio

In [5]:
os.mkdir('aula_target')

#### os.listdir()
Listar o conteúdo de um diretorio

In [8]:
os.listdir()

['Videos',
 'Public',
 'aula_tt',
 '.sudo_as_admin_successful',
 '.bash_history',
 '.gnupg',
 'anaconda3',
 'Pictures',
 'VirtualBox VMs',
 'Templates',
 '.GlobalProtect',
 'Desktop',
 '.gitconfig',
 '.vscode',
 '.config',
 '.local',
 'novapasta',
 'repos',
 'Downloads',
 '.var',
 '.profile',
 'Documents',
 '.cache',
 'Music',
 '.bash_logout',
 '.pki',
 '.dbus',
 '.ipython',
 '.gnome',
 '.mozilla',
 '.conda',
 '.face',
 '.bashrc']

#### os.rename()
Renomer diretorio ou arquivo

In [7]:
os.rename('aula_target','aula_tt')

#### os.rmdir()
Remover o diretorio

In [9]:
os.rmdir('/home/valli/aula_tt')

#### Trabalhando com paths

In [16]:
os.path.basename('')

''

In [15]:
os.path.abspath('')

'/home/valli'

### Trabalhando com arquivos JSON (retorno de APIs)

O formato JSON é utilizado para estruturar dados em formato de texto e permitir a troca de dados entre aplicações de forma simples, leve e rápida. Por isso é tão importante saber como é estruturado e as principais diferenças com o modelo XML.

JSON, que significa JavaScript Object Notation, é uma formatação utilizada para estruturar dados em formato de texto e transmiti-los de um sistema para outro, como em aplicações cliente-servidor ou em aplicativos móveis.

A especificação JSON surgiu por volta do ano 2000. Atualmente, esse formato é suportado por diversos tipos de linguagem de programação, além de ser uma alternativa mais leve que o modelo XML.

Os dados contidos em um arquivo no formato JSON devem ser estruturados por meio de uma coleção de pares com nome e valor ou ser uma lista ordenada de valores. Seus elementos devem conter:

* chave: corresponde ao identificador do conteúdo. Por isso, deve ser uma string delimitada por aspas;
* valor: representa o conteúdo correspondente e pode conter os seguintes tipos de dados: string, array, object, number, boolean ou null.

Além da terminação .json em todos os arquivos que utilizam esse formato, os dados armazenados devem seguir uma notação específica, ou seja, precisam ser organizados com os seguintes elementos básicos:

* chaves { } para delimitar os objetos e obrigatórias para iniciar e encerrar o conteúdo;
* colchetes [ ] para indicar um array;
* dois pontos : para separar a chave e seu valor correspondente;
* vírgula , para indicar a separação entre os elementos

Fonte: https://rockcontent.com/br/blog/json/

Quase sempre, ao realizarmos acessos na Internet, acabamos por usar também uma outra biblioteca: a requests.
Como diz o site oficial: Requests é uma biblioteca HTTP para Python simples e elegante, feita para seres humanos.

Fonte: https://docs.python-requests.org/pt_BR/latest/user/quickstart.html

Para podermos entender um pouco de como acessar dados desses tipos, vamos utilizar um site que disponibiliza uma API para testes. Esse site é o http://makeup-api.herokuapp.com/

In [17]:
import json
import requests

In [18]:
brand = 'maybelline'

url ='http://makeup-api.herokuapp.com/api/v1/products.json?brand=%s' % (brand)

In [19]:
# realizar a consulta
requisicao = requests.get(url)

In [20]:
# validar o status do retorno
requisicao.status_code

200

In [21]:
type(requisicao)

requests.models.Response

In [22]:
requisicao.text

'[{"id":495,"brand":"maybelline","name":"Maybelline Face Studio Master Hi-Light Light Booster Bronzer","price":"14.99","price_sign":null,"currency":null,"image_link":"https://d3t32hsnjxo7q6.cloudfront.net/i/991799d3e70b8856686979f8ff6dcfe0_ra,w158,h184_pa,w158,h184.png","product_link":"https://well.ca/products/maybelline-face-studio-master_88837.html","website_link":"https://well.ca","description":"Maybelline Face Studio Master Hi-Light Light Boosting bronzer formula has an expert \\nbalance of shade + shimmer illuminator for natural glow. Skin goes \\nsoft-lit with zero glitz.\\n\\n\\t\\tFor Best Results: Brush over all shades in palette and gently sweep over \\ncheekbones, brow bones, and temples, or anywhere light naturally touches\\n the face.\\n\\n\\t\\t\\n\\t\\n\\n                    ","rating":5.0,"category":null,"product_type":"bronzer","tag_list":[],"created_at":"2016-10-01T18:36:15.012Z","updated_at":"2017-12-23T21:08:50.624Z","product_api_url":"http://makeup-api.herokuapp.co

In [23]:
# vamos pegar o .text, que é o retorno da API em formato string
# e vamos carregar ele em uma outra variavel no formato JSON

dados = json.loads(requisicao.text)
dados

[{'id': 495,
  'brand': 'maybelline',
  'name': 'Maybelline Face Studio Master Hi-Light Light Booster Bronzer',
  'price': '14.99',
  'price_sign': None,
  'currency': None,
  'image_link': 'https://d3t32hsnjxo7q6.cloudfront.net/i/991799d3e70b8856686979f8ff6dcfe0_ra,w158,h184_pa,w158,h184.png',
  'product_link': 'https://well.ca/products/maybelline-face-studio-master_88837.html',
  'website_link': 'https://well.ca',
  'description': 'Maybelline Face Studio Master Hi-Light Light Boosting bronzer formula has an expert \nbalance of shade + shimmer illuminator for natural glow. Skin goes \nsoft-lit with zero glitz.\n\n\t\tFor Best Results: Brush over all shades in palette and gently sweep over \ncheekbones, brow bones, and temples, or anywhere light naturally touches\n the face.\n\n\t\t\n\t\n\n                    ',
  'rating': 5.0,
  'category': None,
  'product_type': 'bronzer',
  'tag_list': [],
  'created_at': '2016-10-01T18:36:15.012Z',
  'updated_at': '2017-12-23T21:08:50.624Z',
  'p

In [25]:
import pandas as pd


df_dados = pd.json_normalize(dados)

In [26]:
df_dados

Unnamed: 0,id,brand,name,price,price_sign,currency,image_link,product_link,website_link,description,rating,category,product_type,tag_list,created_at,updated_at,product_api_url,api_featured_image,product_colors
0,495,maybelline,Maybelline Face Studio Master Hi-Light Light B...,14.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/991799...,https://well.ca/products/maybelline-face-studi...,https://well.ca,Maybelline Face Studio Master Hi-Light Light B...,5.0,,bronzer,[],2016-10-01T18:36:15.012Z,2017-12-23T21:08:50.624Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,[]
1,488,maybelline,Maybelline Fit Me Bronzer,10.29,,,https://d3t32hsnjxo7q6.cloudfront.net/i/d4f7d8...,https://well.ca/products/maybelline-fit-me-bro...,https://well.ca,Why You'll Love It\n\nLightweight pigments ble...,4.5,,bronzer,[],2016-10-01T18:36:05.584Z,2017-12-23T21:08:49.985Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#CF9978', 'colour_name': 'Medi..."
2,477,maybelline,Maybelline Facestudio Master Contour Kit,15.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/4f731d...,https://well.ca/products/maybelline-facestudio...,https://well.ca,Maybelline Facestudio Master Contour Kit is th...,,,bronzer,[],2016-10-01T18:35:40.504Z,2017-12-23T21:08:48.157Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#9B7163', 'colour_name': None}..."
3,468,maybelline,Maybelline Face Studio Master Hi-Light Light B...,14.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/462103...,https://well.ca/products/maybelline-face-studi...,https://well.ca,Maybelline Face Studio Master Hi-Light Light B...,,powder,blush,[],2016-10-01T18:35:27.706Z,2017-12-23T21:08:47.102Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,[]
4,452,maybelline,Maybelline Face Studio Master Hi-Light Light B...,14.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/e8c59b...,https://well.ca/products/maybelline-face-studi...,https://well.ca,Maybelline Face Studio Master Hi-Light Light B...,5.0,powder,blush,[],2016-10-01T18:35:07.476Z,2017-12-23T20:51:17.460Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,[]
5,439,maybelline,Maybelline Fit Me Blush,10.29,,,https://d3t32hsnjxo7q6.cloudfront.net/i/53d5f8...,https://well.ca/products/maybelline-fit-me-blu...,https://well.ca,Maybelline Fit Me Blush has lightweight pigmen...,4.8,powder,blush,[],2016-10-01T18:34:46.302Z,2017-12-23T21:08:45.097Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#FB8684', 'colour_name': 'Deep..."
6,414,maybelline,Maybelline Dream Bouncy Blush,11.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/51eacb...,https://well.ca/products/maybelline-dream-boun...,https://well.ca,"Now, blush has bounce! Freshest flush ever:• N...",4.5,cream,blush,[],2016-10-01T18:34:17.251Z,2017-12-23T21:08:40.418Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#ecc3d5', 'colour_name': 'Fres..."
7,398,maybelline,Maybelline Color Sensational Lipliner,8.29,,,https://d3t32hsnjxo7q6.cloudfront.net/i/6607c1...,https://well.ca/products/maybelline-color-sens...,https://well.ca,Keep your Maybelline lip color beautiful with ...,3.5,,lip_liner,[],2016-10-01T18:33:39.513Z,2017-12-23T21:08:35.034Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#A15638', 'colour_name': 'Nude..."
8,382,maybelline,Maybelline Dream Smooth Mousse Foundation,14.79,,,https://d3t32hsnjxo7q6.cloudfront.net/i/fb79e7...,https://well.ca/products/maybelline-dream-smoo...,https://well.ca,Why You'll Love ItUnique cream-whipped foundat...,3.8,cream,foundation,[],2016-10-01T18:33:13.645Z,2017-12-23T21:08:34.195Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,[]
9,380,maybelline,Maybelline Fit Me Shine-Free Foundation Stick,10.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/d04e7c...,https://well.ca/products/maybelline-fit-me-shi...,https://well.ca,"Get flawless, shine-free skin instantly and on...",4.7,cream,foundation,[],2016-10-01T18:33:11.836Z,2017-12-23T21:08:33.623Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#FFE4C6', 'colour_name': 'Porc..."


In [27]:
df_dados.head()

Unnamed: 0,id,brand,name,price,price_sign,currency,image_link,product_link,website_link,description,rating,category,product_type,tag_list,created_at,updated_at,product_api_url,api_featured_image,product_colors
0,495,maybelline,Maybelline Face Studio Master Hi-Light Light B...,14.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/991799...,https://well.ca/products/maybelline-face-studi...,https://well.ca,Maybelline Face Studio Master Hi-Light Light B...,5.0,,bronzer,[],2016-10-01T18:36:15.012Z,2017-12-23T21:08:50.624Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,[]
1,488,maybelline,Maybelline Fit Me Bronzer,10.29,,,https://d3t32hsnjxo7q6.cloudfront.net/i/d4f7d8...,https://well.ca/products/maybelline-fit-me-bro...,https://well.ca,Why You'll Love It\n\nLightweight pigments ble...,4.5,,bronzer,[],2016-10-01T18:36:05.584Z,2017-12-23T21:08:49.985Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#CF9978', 'colour_name': 'Medi..."
2,477,maybelline,Maybelline Facestudio Master Contour Kit,15.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/4f731d...,https://well.ca/products/maybelline-facestudio...,https://well.ca,Maybelline Facestudio Master Contour Kit is th...,,,bronzer,[],2016-10-01T18:35:40.504Z,2017-12-23T21:08:48.157Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,"[{'hex_value': '#9B7163', 'colour_name': None}..."
3,468,maybelline,Maybelline Face Studio Master Hi-Light Light B...,14.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/462103...,https://well.ca/products/maybelline-face-studi...,https://well.ca,Maybelline Face Studio Master Hi-Light Light B...,,powder,blush,[],2016-10-01T18:35:27.706Z,2017-12-23T21:08:47.102Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,[]
4,452,maybelline,Maybelline Face Studio Master Hi-Light Light B...,14.99,,,https://d3t32hsnjxo7q6.cloudfront.net/i/e8c59b...,https://well.ca/products/maybelline-face-studi...,https://well.ca,Maybelline Face Studio Master Hi-Light Light B...,5.0,powder,blush,[],2016-10-01T18:35:07.476Z,2017-12-23T20:51:17.460Z,http://makeup-api.herokuapp.com/api/v1/product...,//s3.amazonaws.com/donovanbailey/products/api_...,[]


In [28]:
df_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54 entries, 0 to 53
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  54 non-null     int64  
 1   brand               54 non-null     object 
 2   name                54 non-null     object 
 3   price               54 non-null     object 
 4   price_sign          0 non-null      object 
 5   currency            0 non-null      object 
 6   image_link          54 non-null     object 
 7   product_link        54 non-null     object 
 8   website_link        54 non-null     object 
 9   description         54 non-null     object 
 10  rating              46 non-null     float64
 11  category            31 non-null     object 
 12  product_type        54 non-null     object 
 13  tag_list            54 non-null     object 
 14  created_at          54 non-null     object 
 15  updated_at          54 non-null     object 
 16  product_ap

In [29]:
df_dados.to_excel('retorno_api.xlsx', index=False)

In [32]:
df_dados[ df_dados['rating'] == 5.0 ].to_csv('produtos_nota5.csv', sep=';')

### Coletando dados na web - Beautiful Soup

Beautiful Soup é uma biblioteca Python de extração de dados de arquivos HTML e XML. Ela funciona com o seu interpretador (parser) favorito a fim de prover maneiras mais intuitivas de navegar, buscar e modificar uma árvore de análise (parse tree). Ela geralmente economiza horas ou dias de trabalho de programadores ao redor do mundo.


https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/

Para poder interagir com essa biblioteca e ter proveito, um básico de html ajuda muito.

#### Primeiro exemplo: Buscando a lista de capitais do Brasil por Área 

In [33]:
from bs4 import BeautifulSoup

In [34]:
url = 'https://pt.wikipedia.org/wiki/Lista_de_capitais_do_Brasil_por_%C3%A1rea'
wiki_page = requests.get(url)

In [35]:
wiki_page.text

'<!DOCTYPE html>\n<html class="client-nojs" lang="pt" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Lista de capitais do Brasil por área – Wikipédia, a enciclopédia livre</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.","\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janeiro","fevereiro","março","abril","maio","junho","julho","agosto","setembro","outubro","novembro","dezembro"],"wgRequestId":"6e1f5023-b7f6-4658-9bbf-943dab53fdd9","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Lista_de_capitais_do_Brasil_por_área","wgTitle":"Lista de capitais do Brasil por área","wgCurRevisionId":59645590,"wgRevisionId":59645590,"wgArticleId":2780611,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["!Artigos com ligações inativas","Listas de m

In [36]:
soup = BeautifulSoup(wiki_page.text, 'html.parser')
soup

<!DOCTYPE html>

<html class="client-nojs" dir="ltr" lang="pt">
<head>
<meta charset="utf-8"/>
<title>Lista de capitais do Brasil por área – Wikipédia, a enciclopédia livre</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janeiro","fevereiro","março","abril","maio","junho","julho","agosto","setembro","outubro","novembro","dezembro"],"wgRequestId":"6e1f5023-b7f6-4658-9bbf-943dab53fdd9","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Lista_de_capitais_do_Brasil_por_área","wgTitle":"Lista de capitais do Brasil por área","wgCurRevisionId":59645590,"wgRevisionId":59645590,"wgArticleId":2780611,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["!Artigos com ligações inativas","Listas de municípios 

In [48]:
tabelas_existentes = soup.find_all('table', class_='wikitable sortable')
tabelas_existentes

[<table class="wikitable sortable">
 <tbody><tr style="background:#ececec;">
 <th>Posição
 </th>
 <th>Sede de governo
 </th>
 <th>Código do IBGE
 </th>
 <th>Unidade federativa
 </th>
 <th>Área (km²)
 </th></tr>
 <tr>
 <td align="center">1</td>
 <td><a href="/wiki/Porto_Velho" title="Porto Velho">Porto Velho</a></td>
 <td align="center">1100205</td>
 <td><img alt="" class="thumbborder" data-file-height="1400" data-file-width="2000" decoding="async" height="14" src="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/20px-Bandeira_de_Rond%C3%B4nia.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/30px-Bandeira_de_Rond%C3%B4nia.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/40px-Bandeira_de_Rond%C3%B4nia.svg.png 2x" width="20"/> <a href="/wiki/Rond%C3%B4nia" title="Rondônia">Rondônia</a></td>
 <td align="right">34 090,952
 </td></tr>
 <tr>
 <td align="center">2</

In [47]:
tabela_capitais = soup.find('table', class_='wikitable sortable')
tabela_capitais

<table class="wikitable sortable">
<tbody><tr style="background:#ececec;">
<th>Posição
</th>
<th>Sede de governo
</th>
<th>Código do IBGE
</th>
<th>Unidade federativa
</th>
<th>Área (km²)
</th></tr>
<tr>
<td align="center">1</td>
<td><a href="/wiki/Porto_Velho" title="Porto Velho">Porto Velho</a></td>
<td align="center">1100205</td>
<td><img alt="" class="thumbborder" data-file-height="1400" data-file-width="2000" decoding="async" height="14" src="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/20px-Bandeira_de_Rond%C3%B4nia.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/30px-Bandeira_de_Rond%C3%B4nia.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/40px-Bandeira_de_Rond%C3%B4nia.svg.png 2x" width="20"/> <a href="/wiki/Rond%C3%B4nia" title="Rondônia">Rondônia</a></td>
<td align="right">34 090,952
</td></tr>
<tr>
<td align="center">2</td>
<td><a href="/wik

In [49]:
type(tabela_capitais)

bs4.element.Tag

In [44]:
soup.find_all('tr')[2]

<tr>
<td align="center">2</td>
<td><a href="/wiki/Manaus" title="Manaus">Manaus</a></td>
<td align="center">1302603</td>
<td><img alt="" class="thumbborder" data-file-height="500" data-file-width="700" decoding="async" height="14" src="//upload.wikimedia.org/wikipedia/commons/thumb/6/6b/Bandeira_do_Amazonas.svg/20px-Bandeira_do_Amazonas.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/6/6b/Bandeira_do_Amazonas.svg/30px-Bandeira_do_Amazonas.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/6/6b/Bandeira_do_Amazonas.svg/40px-Bandeira_do_Amazonas.svg.png 2x" width="20"/> <a href="/wiki/Amazonas" title="Amazonas">Amazonas</a></td>
<td align="right">11 401,092
</td></tr>

In [45]:
soup.find_all('td')

[<td align="center">1</td>,
 <td><a href="/wiki/Porto_Velho" title="Porto Velho">Porto Velho</a></td>,
 <td align="center">1100205</td>,
 <td><img alt="" class="thumbborder" data-file-height="1400" data-file-width="2000" decoding="async" height="14" src="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/20px-Bandeira_de_Rond%C3%B4nia.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/30px-Bandeira_de_Rond%C3%B4nia.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Bandeira_de_Rond%C3%B4nia.svg/40px-Bandeira_de_Rond%C3%B4nia.svg.png 2x" width="20"/> <a href="/wiki/Rond%C3%B4nia" title="Rondônia">Rondônia</a></td>,
 <td align="right">34 090,952
 </td>,
 <td align="center">2</td>,
 <td><a href="/wiki/Manaus" title="Manaus">Manaus</a></td>,
 <td align="center">1302603</td>,
 <td><img alt="" class="thumbborder" data-file-height="500" data-file-width="700" decoding="async" height="14" src="//upload

In [57]:
lista_posicao = []
lista_estado = []
lista_cod = []
lista_capital = []
lista_area = []

for linha in tabela_capitais.findAll('tr'):
    celula = linha.findAll('td')
    if len(celula) == 5:
        lista_posicao.append(celula[0].find(text=True))
        lista_estado.append(celula[1].find(text=True))
        lista_cod.append(celula[2].find(text=True))
        lista_capital.append(celula[3].find('a').text)
        lista_area.append(celula[4].find(text=True))



In [65]:
lista_area

['34\xa0090,952\n',
 '11\xa0401,092\n',
 '8\xa0834,942\n',
 '8\xa0082,978\n',
 '6\xa0563,849\n',
 '5\xa0760,783\n',
 '5\xa0687,037\n',
 '3\xa0266,538\n',
 '2\xa0227,444\n',
 '1\xa0521,110\n',
 '1\xa0391,046\n',
 '1\xa0200,329\n',
 '1\xa0059,466\n',
 '728,841\n',
 '693,453\n',
 '674,844\n',
 '582,974\n',
 '509,320\n',
 '495,390\n',
 '434,892\n',
 '331,354\n',
 '312,353\n',
 '218,843\n',
 '210,044\n',
 '182,163\n',
 '167,401\n',
 '97,123\n']

In [60]:
df_capitais = pd.DataFrame()

In [61]:
df_capitais['Posição'] = lista_posicao
df_capitais['Sede de governo'] = lista_estado
df_capitais['Cod IBGE'] = lista_cod
df_capitais['Unidade federativa'] = lista_estado
df_capitais['Área KM2'] = lista_area

In [66]:
df_capitais['Área KM2'] = df_capitais['Área KM2'].apply(lambda x : x.replace('\n', '').replace(',', '').replace('\xa0', ''))

df_capitais

Unnamed: 0,Posição,Sede de governo,Cod IBGE,Unidade federativa,Área KM2
0,1,Porto Velho,1100205,Porto Velho,34090952
1,2,Manaus,1302603,Manaus,11401092
2,3,Rio Branco,1200401,Rio Branco,8834942
3,4,Campo Grande,5002704,Campo Grande,8082978
4,5,Macapá,1600303,Macapá,6563849
5,6,Brasília,5300108,Brasília,5760783
6,7,Boa Vista,1400100,Boa Vista,5687037
7,8,Cuiabá,5103403,Cuiabá,3266538
8,9,Palmas,1721000,Palmas,2227444
9,10,São Paulo,3550308,São Paulo,1521110


### Baixando arquivos

In [67]:
url = 'http://xkcd.com' # url inicial
os.chdir(r'/home/valli/repos/ensino/turma-ead-20220301')
os.makedirs('xkcd', exist_ok=True) # armazena as tirinhas em ./xkcd 

In [68]:
res = requests.get(url)
soup = BeautifulSoup(res.text)

In [73]:
''' enquanto url nao for com final #
    buscar pela pagina
    rodar o parser
    baixo a imagem

    busco o prox item
    atualizar variavel url 
'''

' enquanto url nao for com final #\n    buscar pela pagina\n    rodar o parser\n    baixo a imagem\n\n    busco o prox item\n    atualizar variavel url \n'

In [74]:
soup.select('#comic img')

[<img alt="Instructions" src="//imgs.xkcd.com/comics/instructions.png" srcset="//imgs.xkcd.com/comics/instructions_2x.png 2x" style="image-orientation:none" title="Happy little turtles"/>]

In [78]:
while not url.endswith('#'):
    print(f'Baixando a pagina {url}')
    res = requests.get(url)
    soup = BeautifulSoup(res.text)

    #buscar url da img
    tirinha = soup.select('#comic img')

    if tirinha == []:
        print('Nao encontrei a imagem')
    else:
        urltirinha = 'http:' + tirinha[0].get('src')
        print(f'Baixando a imagem {urltirinha}')
        res = requests.get(urltirinha)
        res.raise_for_status()

    with open(os.path.join('xkcd', os.path.basename(urltirinha)), 'wb') as imgfile:
        for chunk in res.iter_content(100000):
            imgfile.write(chunk)
            
    #qual a prox tirinha
    prox_tirinha = soup.select('a[rel="prev"]')[0].get('href')
    url = 'http://xkcd.com' + prox_tirinha

print('Concluído')

    

Baixando a pagina http://xkcd.com
Baixando a imagem http://imgs.xkcd.com/comics/instructions.png
Baixando a pagina http://xkcd.com/2600/
Baixando a imagem http://imgs.xkcd.com/comics/rejected_question_categories.png
Baixando a pagina http://xkcd.com/2599/
Baixando a imagem http://imgs.xkcd.com/comics/spacecraft_debris_odds_ratio.png
Baixando a pagina http://xkcd.com/2598/
Baixando a imagem http://imgs.xkcd.com/comics/graphic_designers.png
Baixando a pagina http://xkcd.com/2597/
Baixando a imagem http://imgs.xkcd.com/comics/salary_negotiation.png
Baixando a pagina http://xkcd.com/2596/
Baixando a imagem http://imgs.xkcd.com/comics/galaxies.png
Baixando a pagina http://xkcd.com/2595/
Baixando a imagem http://imgs.xkcd.com/comics/advanced_techniques.png
Baixando a pagina http://xkcd.com/2594/
Baixando a imagem http://imgs.xkcd.com/comics/consensus_time.png
Baixando a pagina http://xkcd.com/2593/
Baixando a imagem http://imgs.xkcd.com/comics/deviled_eggs.png
Baixando a pagina http://xkcd.c

KeyboardInterrupt: 