# Web scraping com Python

Este notebook demonstra como voc√™ pode usar a linguagem de programa√ß√£o Python para extrair informa√ß√µes de uma p√°gina da web. O objetivo hoje: raspar a tabela principal [a primeira p√°gina da lista de cartas WARN (notifica√ß√£o de ajuste de trabalho e reciclagem) de Maryland](https://www.dllr.state.md.us/employment/warn.shtml) e, se houver tempo, gravar os dados em um CSV.

Se voc√™ √© relativamente novo no Python, pode ser √∫til manter [este notebook de dicas da sintaxe do Python](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb) aberto em outra guia enquanto voc√™ trabalha neste caderno.

### √çndice

- [Using Jupyter notebooks](#Usando-o-Jupyter-notebooks)
- [What _is_ a web page, anyway?](#O-que-√©-uma-p√°gina-da-Web,-afinal?)
- [Inspect the source](#Inspecione-a-fonte)
- [Import libraries](#Importar-bibliotecas)
- [Request the page](#Solicite-a-p√°gina)
- [Turn your HTML into soup](#Transforme-seu-HTML-em-sopa)
- [Targeting and extracting data](#Segmenta√ß√£o-e-extra√ß√£o-de-dados)
- [Write the results to file](#Escreva-os-resultados-no-arquivo)

### Usando o Jupyter notebooks

Existem v√°rias maneiras de escrever e executar o c√≥digo Python no seu computador. Uma maneira - o m√©todo que estamos usando hoje - √© usar [Jupyter notebooks](https://jupyter.org/), que s√£o executados no seu navegador e permitem intercalar a documenta√ß√£o com o seu c√≥digo. Eles s√£o √∫teis para agrupar seu c√≥digo com uma explica√ß√£o leg√≠vel por humanos do que est√° acontecendo em cada etapa. Confira alguns exemplos do [L.A. Times](https://github.com/datadesk/notebooks) e [BuzzFeed News](https://github.com/BuzzFeedNews/everything#data-and-analyses).

**Para adicionar uma nova c√©lula ao seu notebook**: Clique no bot√£o + no menu.

**Para executar uma c√©lula de c√≥digo**: Selecione a c√©lula e clique no bot√£o "Executar" no menu ou pressione Shift + Enter.

**Uma pegadinha comum**: O notebook n√£o "sabe" sobre o c√≥digo que voc√™ escreveu at√© ter um _executar (run)_ a c√©lula em que est√° o c√≥digo. Por exemplo, se voc√™ definir uma vari√°vel chamada `my_name` em uma c√©lula, e depois, quando voc√™ tenta acessar essa vari√°vel em outra c√©lula, mas obt√©m um erro que diz `NameError: name 'my_name' is not defined`, a solu√ß√£o mais prov√°vel √© executar (ou executar novamente) a c√©lula na qual voc√™ definiu `my_name`.

### O que √© uma p√°gina da Web, afinal?

Geralmente, uma p√°gina da web consiste em v√°rios arquivos de texto formatados especificamente armazenados em um computador (um _servidor_) que provavelmente est√° em um rack em um gigantesco data center em algum lugar.

Principalmente voc√™ estar√° lidando com arquivos `.html` (HyperText Markup Language - Linguagem de marca√ß√£o de hipertexto) que podem incluir refer√™ncias a arquivos `.css` (Cascading Style Sheet - Planilha em estilo cascata), que determinam a apar√™ncia da p√°gina, e/ou arquivos `.js` (JavaScript), que adicionam interatividade e outros arquivos de texto especialmente formatados.

Hoje, vamos nos concentrar no HTML, que estrutura a p√°gina.

A maioria dos elementos HTML √© representada por um par de tags - uma tag de abertura e uma tag de fechamento.

Uma tabela, por exemplo, come√ßa com `<table>` e termina com `</table>`. A primeira tag informa ao navegador: "Ei! Eu tenho uma mesa aqui! Renderize-a como uma mesa." A tag de fechamento (observe a barra!) Informa ao navegador: "Ei! Estou pronto com essa tabela, obrigado." Dentro da tabela est√£o aninhadas mais tags HTML que representam linhas (`<tr>`) e c√©lulas (`<td>`).

Os elementos HTML podem ter qualquer n√∫mero de atributos, como classes --

`<table class="cool-table">`

-- estilos --

`<table style="width:95%;">`

-- hiperlinks para outras p√°ginas --

`<a href="https://ire.org">Click here to visit IRE's website</a>`

-- e IDs --

`<table id="cool-table">`

-- isso ser√° √∫til saber quando estamos raspando.

### Inspecione a fonte

Voc√™ pode olhar o HTML que comp√µe uma p√°gina da Web com o comando _Inspecionar Elemento_ em um navegador da web. N√≥s gostamos do Chrome e Firefox para isso; hoje, usaremos o Chrome.

Voc√™ pode inspecionar elementos espec√≠ficos da p√°gina clicando com o bot√£o direito do mouse na p√°gina e selecionando "Inspecionar" or "Inspecionar Elemento" no menu pop-up que aparece. Passe o mouse sobre os elementos de interesse na aba "Inspetor" para destac√°-los na p√°gina.

Para examinar todo o c√≥digo-fonte que comp√µe uma p√°gina, voc√™ pode clicar em "Ver c√≥digo-fonte da p√°gina". No Chrome, um atalho √© pressionar `Ctrl+U` em um PC ou `‚åò+Opt+U` em um Mac. (Tamb√©m est√° na barra de menus: Exibir> Desenvolvedor> Exibir fonte da p√°gina.)

Voc√™ receber√° uma p√°gina mostrando todo o c√≥digo HTML que comp√µe essa p√°gina. Ignore 99% e tente localizar o (s) elemento (s) que deseja explorar (use `Ctrl+F` em um PC e `‚åò+F` no Mac para procurar).

Abra um navegador Chrome e inspecione a tabela na [primeira p√°gina da lista de cartas WARN (notifica√ß√£o de ajuste de trabalho e reciclagem) de Maryland](https://www.dllr.state.md.us/employment/warn.shtml). Encontre a tabela que queremos raspar.

√â a √∫nica tabela na p√°gina? Caso contr√°rio, ela possui algum atributo que permita segment√°-la?

### Instala√ß√£o
Uma biblioteca de terceiros instalada separadamente do Python, como √© o caso do pandas, pode ser instalada de v√°rias formas - a depender de como voc√™ usa o Python. Veja mais [aqui](https://pandas.pydata.org/docs/getting_started/install.html)

No terminal um modo muito comum √© usar o pip: `pip install beautifulsoup4`
`pip install requests`

### Importar bibliotecas

O passo um √© _importar_ duas bibliotecas Python de terceiros que nos ajudar√£o a raspar esta p√°gina:
- `requests` √© o padr√£o de fato para fazer solicita√ß√µes HTTP, semelhante ao que acontece quando voc√™ digita um URL em uma janela do navegador e pressiona enter.
- `bs4`, ou BeautifulSoup, √© uma biblioteca popular para analisar HTML em uma estrutura de dados com a qual o Python pode trabalhar.

Essas bibliotecas s√£o instaladas separadamente do Python por projeto - ([leia mais sobre nossas recomenda√ß√µes para configurar projetos Python aqui](https://docs.google.com/document/d/1cYmpfZEZ8r-09Q6Go917cKVcQk_d0P61gm0q8DAdIdg/edit#heading=h.od2v1nkge5t1)).

Execute esta c√©lula (voc√™ s√≥ precisar√° fazer isso uma vez):

In [3]:
import requests
import bs4

### Solicite a p√°gina

Em seguida, usaremos o m√©todo `get()` da biblioteca `requests` (que acabamos de importar) para acessar a p√°gina da web.

Enquanto estamos nisso, vamos atribuir todas as coisas que retornam a uma nova vari√°vel usando `=`.

O nome da vari√°vel √© arbitr√°rio, mas geralmente √© bom escolher algo que descreva o valor para o qual est√° apontando.

Observe que o URL que estamos pegando est√° entre aspas, tornando-o uma string que o Python interpretar√° como texto (em oposi√ß√£o a n√∫meros, booleanos, etc.). Voc√™ pode ler mais sobre tipos de dados Python e atribui√ß√£o de vari√°veis [aqui](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).

Execute estas duas c√©lulas:

In [4]:
URL = 'http://www.dllr.state.md.us/employment/warn.shtml'

In [5]:
warn_page = requests.get(URL)

Parece que nada aconteceu, o que √© (geralmente) um bom sinal.

Se voc√™ quiser ter certeza de que sua solicita√ß√£o foi bem-sucedida, verifique o atributo `status_code` do objeto Python retornado:

In [None]:
warn_page.status_code

Um c√≥digo `200` significa que tudo est√° bem. `404` significa que a p√°gina n√£o foi encontrada etc. ([Aqui est√° uma de nossas listas favoritas de c√≥digos de status HTTP](https://http.cat/) ([ou aqui, se voc√™ prefere cachorros](https://httpstatusdogs.com/)).)

O objeto que est√° sendo armazenado como a vari√°vel `warn_page` voltou com muitas informa√ß√µes potencialmente √∫teis que podemos acessar. Hoje, estamos mais interessados no atributo `.text` -- o HTML que comp√µe a p√°gina da web, como se tiv√©ssemos visto a fonte da p√°gina. Vamos dar uma olhada:

In [None]:
warn_page.text

### ‚úçÔ∏è Fa√ßa voc√™ mesmo

Use os blocos de c√≥digo abaixo para experimentar solicitando p√°ginas da Web e verificando o HTML que √© retornado.

Algumas ideias para voc√™ come√ßar:
- `'http://ire.org'`
- `'https://web.archive.org/web/20031202214318/http://www.tdcj.state.tx.us:80/stat/finalmeals.htm'`
- `'https://www.nrc.gov/reactors/operating/list-power-reactor-units.html'`

### Transforme seu HTML em sopa

O HTML no atributo`.text` √© um objeto da solicita√ß√£o e √© apenas uma string - um grande peda√ßo de texto.

Antes de come√ßarmos a direcionar e extrair partes de dados no HTML, precisamos transformar esse peda√ßo de texto em uma estrutura de dados com a qual o Python possa trabalhar. √â a√≠ que a biblioteca [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) (`bs4`) entra.

Criaremos uma nova inst√¢ncia de um objeto `BeautifulSoup`, que vive sob o n√≠vel superior da biblioteca `bs4` que importamos anteriormente. Precisamos de duas coisas:
- O HTML que gostar√≠amos de analisar -- `warn_page.text`
- Uma sequ√™ncia com o nome do tipo de analisador (parser) a ser usado -- `html.parser` √© o default e geralmente suficiente, mas [existem outras op√ß√µes de parser](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser)

Salvaremos o HTML analisado como uma nova vari√°vel, `soup`.

In [None]:
soup = bs4.BeautifulSoup(warn_page.text, 'html.parser')

Nada aconteceu, o que √© bom! Voc√™ pode dar uma olhada no que `soup` √©, mas parece muito com `warn_page.text`:

In [None]:
soup

Se voc√™ quiser ter certeza, pode usar a fun√ß√£o Python `type()` para verificar com que tipo de objeto voc√™ est√° lidando:

In [None]:
# o tipo `str` significa uma string, ou texto
type(warn_page.text)

In [None]:
# o tipo `bs4.BeautifulSoup` significa que n√≥s tivemos sucesso ao criar o objeto
type(soup)

### ‚úçÔ∏è Fa√ßa voc√™ mesmo

Use os blocos de c√≥digo abaixo para experimentar a busca de HTML e transform√°-lo em sopa (se voc√™ buscou algumas p√°ginas anteriormente e as salvou como vari√°veis, seria um bom come√ßo).

### Segmenta√ß√£o e extra√ß√£o de dados

Agora que temos o objeto BeautifulSoup carregado, podemos procurar os elementos HTML espec√≠ficos que cont√™m os dados de que precisamos. Nossa estrat√©gia geral:
1. Encontre a tabela principal com os dados que queremos pegar
2. Obtenha uma lista de linhas (o elemento `tr`, que significa "table row") naquela tabela
3. Use um Python `for loop` para percorrer cada linha da tabela e encontrar os dados dentro dela (`td`, ou "table data")

Para fazer isso, usaremos dois m√©todos `bs4`:
- [`find()`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find), que retorna o primeiro elemento que corresponde aos crit√©rios que voc√™ deseja
- [`find_all()`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all), que retona uma _lista_ de elementos que correspondem aos crit√©rios. ([Veja como as listas Python funcionam](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb).)

#### Encontre a tabela

Para come√ßar, precisamos encontrar a tabela. Existem v√°rias maneiras de conseguir isso, mas porque esta √© a √∫nica tabela na p√°gina (ver fonte e pressione `Ctrl+F` para procurar por `<table` para confirmar), podemos simplesmente dizer: "Olhe atrav√©s do objeto `soup` e encontre a tag da tabela ".

Traduzido, o c√≥digo √©: `soup.find('table')`. Enquanto estamos nisso, salve os resultados dessa pesquisa em uma nova vari√°vel, `table`.

Execute essas c√©lulas:

In [None]:
table = soup.find('table')

In [None]:
table

#### Encontre as linhas na tabela

Pr√≥ximo, use o m√©todo `find_all()` para detalhar e obter uma lista de linhas na tabela:

In [None]:
rows = table.find_all('tr')

In [None]:
rows

Para ver quantos itens est√£o nessa lista - em outras palavras, quantas linhas est√£o na tabela - voc√™ pode usar a fun√ß√£o `len()`:

In [None]:
len(rows)

#### Fa√ßa um loop pelas linhas e extraia os dados

Em seguida, podemos usar um [`for` loop](https://github.com/abraji/cursos_NICAR20/blob/master/python_ire/Python%20101.ipynb) para percorrer a lista de linhas e come√ßar a coletar dados de cada uma.

Atualiza√ß√£o r√°pida sobre a sintaxe do _for loop_: Comece com a palavra `for` (min√∫sculo), um nome de vari√°vel para cada item da lista em que voc√™ est√° repetindo, e a palavra `in` (min√∫sculo), ent√£o o nome da lista que cont√©m os itens (`rows`, no nosso caso), depois o sinal dois pontos, depois um bloco de c√≥digo recuado que descreve o que estamos fazendo com cada item da lista.

Cada dado da linha ser√° armazenado em uma tag `td`, que significa "table data." Ent√£o, dentro do loop - no bloco recuado - usaremos o m√©todo `find_all()` para obter uma lista de todas as tags `td` dentro da linha. E a partir da√≠, podemos acessar o conte√∫do dentro de cada tag.

Nosso objetivo √© terminar com uma _lista_ de dados para cada linha que eventualmente gravaremos em um arquivo. Normalmente, voc√™ provavelmente faria o trabalho de repetir e inspecionar os resultados, passo a passo, em uma c√©lula de c√≥digo. Mas para mostrar o pensamento de como voc√™ pode abordar isso (e praticar a sintaxe), come√ßaremos apenas imprimindo cada linha e construindo a partir da√≠. (`print('='*80)` imprimir√° uma linha de 80 sinais de igual - uma maneira de nos ajudar a ver exatamente com o que estamos trabalhando em cada linha.)

In [None]:
for row in rows:
    print(row)
    print('='*80)

Observe que o primeiro item impresso √© a linha do cabe√ßalho com os r√≥tulos da coluna. Voc√™ √© livre para manter esses cabe√ßalhos, se quiser, mas normalmente pulo essa linha e defino minha pr√≥pria lista de nomes de colunas.

(Outra coisa a considerar: em p√°ginas da Web melhor constru√≠das, as c√©lulas na linha do cabe√ßalho ser√£o representadas por tags `th` ("table header"), n√£o tags `td` ("table data"). O pr√≥ximo passo do nosso loop `for` √©, "Procurar todas as tags `td` na linha," isso ser√° algo com o qual voc√™ precisar√° lidar.)

Podemos pular a primeira linha usando _fatiamento de lista_: adicionando colchetes ap√≥s o nome da lista com algumas instru√ß√µes sobre quais itens da lista queremos selecionar.

Aqui, a sintaxe seria: `rows[1:]`, que significa, pegue tudo na lista `rows` come√ßando com o item na posi√ß√£o 1 (o segundo item) at√© o final da lista. Como muitas linguagens de programa√ß√£o, o Python come√ßa a contar em 0, ent√£o o resultado deixa o primeiro item da lista - ou seja, o item na posi√ß√£o 0, ou seja, os cabe√ßalhos.

In [None]:
for row in rows[1:]:
    print(row)
    print('='*80)

Agora estamos cozinhando com g√°s. Vamos come√ßar a extrair os dados em cada linha. Comece usando `find_all()` para pegar uma lista de tags `td`:

In [None]:
for row in rows[1:]:
    cells = row.find_all('td')
    print(cells)
    print('='*80)

Agora temos, para cada linha, uma _lista_ de tags `td`. O pr√≥ximo passo √© olhar para a tabela e come√ßar a pegar valores espec√≠ficos com base em sua posi√ß√£o na lista e atribu√≠-los a nomes de vari√°veis leg√≠veis por humanos.

Lembran√ßa r√°pida da sintaxe da lista: Para acessar um item espec√≠fico em uma lista, use colchetes `[]` e o n√∫mero do √≠ndice do item que voc√™ deseja acessar. Por exemplo, para obter a primeira c√©lula da linha - a data em que cada relat√≥rio WARN foi emitido -- use `[0]`.

In [None]:
for row in rows[1:]:
    cells = row.find_all('td')
    warn_date = cells[0]
    print(warn_date)
    print('='*80)

Isso est√° retornando todo o objeto `Tag` -- n√≥s apenas queremos o conte√∫do dentro dele. Voc√™ pode acessar o atributo `.text` da tag para inserir o texto:

In [None]:
for row in rows[1:]:
    cells = row.find_all('td')
    warn_date = cells[0].text    
    print(warn_date)

Na pr√≥xima c√©lula (`[1]`), o atributo `.text` fornecer√° o c√≥digo NAICS. Na terceira c√©lula (`[2]`) voc√™ receber√° o nome da empresa. Etc.

Tamb√©m √© geralmente uma boa pr√°tica reduzir o espa√ßo em branco externo para cada valor, e voc√™ pode usar o m√©todo de string interno do Python `strip()` para fazer isso enquanto voc√™ caminha pela linha.

O que nos leva at√© aqui:

In [None]:
for row in rows[1:]:
    cells = row.find_all('td')
    warn_date = cells[0].text.strip()
    naics_code = cells[1].text.strip()
    biz = cells[2].text.strip()
    print(warn_date, naics_code, biz)

### ‚úçÔ∏è Fa√ßa voc√™ mesmo

Agora que voc√™ chegou at√© aqui, veja se consegue isolar os outros dados em cada linha.

In [None]:
for row in rows[1:]:
    cells = row.find_all('td')
    warn_date = cells[0].text.strip()
    naics_code = cells[1].text.strip()
    biz = cells[2].text.strip()
    
    # address
    
    # wia_code
    
    # total_employees
    
    # effective_date
    
    # type_code

    # print()

### Escreva os resultados no arquivo

Agora que direcionamos nossas listas de dados para cada linha, podemos usar o recurso interno do Python, o m√≥dulo [`csv`](https://docs.python.org/3/library/csv.html) para escrever cada lista em um arquivo CSV.

Primeiro, importe o m√≥dulo csv.

In [6]:
import csv

Agora defina uma lista de cabe√ßalhos para corresponder aos dados (cada cabe√ßalho de coluna ser√° uma string) - execute esta c√©lula:

In [7]:
HEADERS = ['warn_date', 'naics_code', 'biz', 'address', 'wia_code',
           'total_employees', 'effective_date', 'type_code']

Agora, usando algo chamado um bloco `with`, abra um novo arquivo CSV para gravar e escreva algum c√≥digo para fazer o seguinte:
- Crie um objeto `csv.writer`
- Escreva a lista de cabe√ßalhos usando o m√©todo `writerow()` do objeto `csv.writer` 
- Volte para o `for` loop que voc√™ acabou de escrever e, em vez de apenas imprimir o conte√∫do de cada c√©lula, crie uma lista de itens e use o m√©todo `writerow()` do objeto `csv.writer` para escrever sua lista de dados em arquivo

In [None]:
# crie um arquivo chamado 'warn-data.csv' no modo de escrita ('w') 
# especifique que novas linhas s√£o encerradas por uma sequ√™ncia vazia (isso lida com um problema espec√≠fico do PC)
# e use a palavra-chave `as` para nomear o manipulador de arquivo aberto (o nome da vari√°vel `outfile` pode ser qualquer outro)
with open('warn-data.csv', 'w', newline='') as outfile:
    # v√° para o m√≥dulo csv que importamos e crie um novo objeto .writer anexado ao arquivo aberto
    # e salve-o em uma vari√°vel
    writer = csv.writer(outfile)

    # escreva a lista de cabe√ßalhos
    writer.writerow(HEADERS)
    
    # cole no loop for que voc√™ escreveu anteriormente aqui - cuidado com a identa√ß√£o!
    # deve estar nesse n√≠vel de indenta√ß√£o =>
    # for row in rows[1:]:
    #     cells = row.find_all('td')
    #     etc. ...
    # mas no final, em vez de `print(warn_date, naics_code, ...etc.)`
    # fa√ßa algo como
    # data_out = [warn_date, naics_code, ...etc.]
    # `writer.writerow(data_out)`

Se voc√™ procurar na pasta, ver√° um novo arquivo: `warn-data.csv`. Hooray!

üéâ üéâ üéâ

### ‚úçÔ∏è Fa√ßa voc√™ mesmo

Juntando tudo:
- Encontre um site que voc√™ deseja copiar
- Use `requests` buscar o HTML
- Use `bs4` para analisar o HTML e isolar os dados nos quais voc√™ est√° interessado
- Use `csv` para gravar os dados no arquivo

### Extra credit problems

1. **Remover espa√ßo em branco interno:** Ao examinar os dados, voc√™ provavelmente notou que alguns dos valores t√™m algum espa√ßo em branco interno desnecess√°rio, que voc√™ pode corrigir antes de gravar cada linha no arquivo. O Python n√£o possui um m√©todo de string interno para remover o espa√ßo em branco interno, infelizmente, mas [procurando no Google](https://www.google.com/search?q=python+remove+internal+whitespace) vimos uma estrat√©gia comum: usar o m√©todo `split()` para separar palavras individuais, na sequ√™ncia `join()` (una) a lista resultante em um √∫nico espa√ßo. Como um exemplo:

```python
my_text = 'hello     world      how are      you?'

# split() vai transformar isso em uma lista de palavras
my_text_words = my_text.split()
# ['hello', 'world', 'how', 'are', 'you?']

# juntar-se em um √∫nico espa√ßo
my_text_clean = ' '.join(my_text_words)
print(my_text_clean)
# prints 'hello world how are you?'

# ou, como uma linha
my_text_clean = ' '.join(my_text.split())
```

2. **Buscar v√°rios anos:** A tabela que raspamos possui WARN de aviso para o ano atual, mas a ag√™ncia tamb√©m mant√©m p√°ginas com avisos de aviso para anos anteriores-- h√° uma lista deles em uma se√ß√£o [na parte inferior da p√°gina](https://www.dllr.state.md.us/employment/warn.shtml). Veja se voc√™ pode descobrir como fazer um loop em v√°rias p√°ginas e juntar o conte√∫do de cada uma em um √∫nico CSV.


3. **Construa uma tabela de pesquisa:** Cada c√≥digo num√©rico na coluna "WIA Code" corresponde a uma √°rea local. Veja se voc√™ consegue descobrir como criar um dicion√°rio de pesquisa que mapeie os n√∫meros para seus locais e, ao percorrer a tabela de dados, substitua o valor num√©rico nessa coluna pelo nome da √°rea local. Aqui est√° uma dica:

```python
    lookup_dict = {
        '1': 'hello',
        '2': 'world'
    }

    print(lookup_dict.get('1'))
    # prints 'hello'

    print(lookup_dict.get('3'))
    # prints None

```


4. **Corrigir erros de codifica√ß√£o (acentua√ß√£o):** Voc√™ deve ter notado alguns problemas de codifica√ß√£o -- ex., `Nestl√©` est√° sendo renderizado como `Nestl√É¬©`. Isso ocorre devido a um problema de codifica√ß√£o -- o `warn_page.text` n√£o est√° codificado como`utf-8`. Ao usar `decode()` e `encode()`, veja se voc√™ pode consertar isso. (Dica! Parece que o estado de Maryland √© um grande f√£ de `latin-1`.)