* Este notebook é baseado no módulo facilitado por[Gabriela Cavalcante](https://github.com/gabicavalcante) no curso [Python para Inovação Cívica](https://escoladedados.org/courses/python-para-inovacao-civica/) da Escola de Dados. O material foi editado por Anicely Santos.*

# **Extraindo dados HTML com Python**

Antes de mais nada, se você caiu aqui de paraquedas e não sabe bem como funciona o Python ou a biblioteca Pandas, [comece seus primeiros passos aqui](https://escoladedados.org/tutoriais/primeiros-passos-com-python-e-pandas-para-analise-de-dados/). Esse tutorial mostrará duas maneiras de coletar dados disponíveis na web: utilizando o pacote `requests-html` e a função `read_html` do Pandas.

Esse notebook cobre os seguintes assuntos:

*   O que é web scraping
*   Arquivos HTML
*   Pacote requests-html
 *  Instalando o pacote
 *  Conectando com uma URL
*   Extraindo dados dos parlamentares do Rio de Janeiro
*   Utilizando Pandas
*   Extraindo dados dos parlamentares de Pernambuco



# O que é web scraping

Web scraping basicamente é o processo de raspar ou extrair dados da web. Esse processo pode ser simples, como os métodos que veremos aqui), mas também pode ser um pouco mais complexo, envolvendo por exemplo sistemas com CAPTCHA, requisições mais complexas para o site e etc. Como este é um tutorial introdutório, optamos por mostrar alguns exemplos básicos.

Geralmente, essa técnica é usada quando os dados que precisamos ainda não estão disponíveis de maneira aberta (em um CSV, por exemplo) para manipulação. Então, antes de raspar dados de algum site, certifique-se que a informação já não está disponível em dados abertos e estruturados.



# Arquivos HTML

Um HTML (Hypertext Markup Language) é um arquivo simples de texto que utiliza tags para ajudar os navegadores a processar página Web. Em outras palavras, o HTML é como a estrutura de uma página web.

Veja um exemplo de um código HTML:

```html
<html>
<body>
    <script></script>
    <style>
    </style>

    <div id='pessoas'>
        <h2>Pessoas:</h2>
    </div>
    <a href='#' id="novaPessoa">Nova pessoa</a>

    <div id='resultados'>
        <h2>Resumo:</h2>
    </div>
    <script src="observacao.js"></script>
    <script src="insercao.js"></script>
</body>
</html>

```

Como você pode ver, as tags (que estão entre os sinais `< >`) abrem e fecham, quando há uma barra após o `<`.

Por exemplo: `<body>` abre a tag do corpo da página HTML e `</body>` a fecha. Tudo que estiver entre isso é considerado como parte do conteúdo HTML.

Se você quiser ver o código HTML das páginas que navega, pressione simultaneamente as teclas `ctrl` + `Shift` + `i`. Assim, aparecerá no seu navegador as ferramentas do desenvolvedor. 

Nesse tutorial, como tabalharemos com dados que estão tabulados, trabalharemos principalmente com as tags `table` (tabela), `th` (table header ou cabeçalho), `tr` (table row ou linhas da tabela) e `td` (table data cell ou as células com os dados da tabela). Juntas, elas conseguem construir a estrutura básica de uma tabela: linhas e colunas.

Para entender melhor uma estrutura HTML, [dê uma olhada nesse artigo](https://pt.wikipedia.org/wiki/HTML).

# Pacote requests-html

O pacote `requests-html` serve para extrair dados HTML de maneira simples. Com ele, você consegue pegar conteúdos de páginas web, independente de estarem ou não em uma estrutura tabular. 

Por sorte, os dados que queremos estão nesse formato, o que facilita muito o processo, mas se não estivesse, essa biblioteca conseguiria dar conta pois ela utiliza tanto tags HTML como [seletores CSS](https://developer.mozilla.org/en-US/docs/Web/CSS) para fazer a extração. Para entender detalhes sobre a biblioteca, [consulte a documentação](https://docs.python-requests.org/projects/requests-html/en/latest/).

Nosso objetivo será extrair dados de parlamentares do Rio de Janeiro que estão na Wikipedia. 





**Instalando a biblioteca**

Essa é uma biblioteca de terceiros e por esse motivo precisamos instala-la antes de fazer a importação. Para fazer a instação de qualquer biblioteca basta usar o instalador Python chamado `pip install` seguido do nome da biblioteca. 

Rode a célula a seguir para realizar essa importação: 

In [None]:
!pip install requests-html

Após instalado, reinicie o ambiente de execução clicando em `RESTART RUNTIME` na mensagem que aparece no final do instalação. 

**Conectando com a URL**

Agora podemos importar a biblioteca e então conseguir pegar os dados que precisamos. Dessa biblioteca que instalamos, iremos utilizar o pacote HTMLSession. <p>Rode a célula a seguir para fazer essa importação:

In [2]:
from requests_html import HTMLSession

Vamos salvar o endereço do site que queremos dentro de uma url, dessa maneira temos um texto mais curto para trabalhar durante todo o código.

# Extraindo dados da agenda do gov RJ

In [13]:
import pandas as pd

In [3]:
url = ('http://www.rj.gov.br/Agenda.aspx')

In [4]:
session = HTMLSession()

In [5]:
r = session.get(url)

In [None]:
agenda = r.html.find('.noticias-wrap')

In [None]:
agenda[3].text

In [None]:
#agenda[0].text.split('\n')

In [12]:
tamanho = len(agenda)
tamanho

239

In [14]:
compromisso = []
for a in agenda[:tamanho]:
  linha = {}

  linha['dia'] = a.find('h1')[0].text
  linha['descricao'] = a.find('p')[0].full_text

  compromisso.append(linha)

df = pd.DataFrame(compromisso)

In [15]:
df.head()

Unnamed: 0,dia,descricao
0,16/09/2021 10:00,
1,15/09/2021 17:00,Entrega do certificado com valores da concessã...
2,15/09/2021 16:00,Entrega do certificado com valores da concessã...
3,15/09/2021 14:30,Entrega do certificado com valores da concessã...
4,15/09/2021 10:00,


# parlamentares RJ

In [None]:
url = ('https://pt.wikipedia.org/wiki/Lista_de_parlamentares_do_Rio_de_Janeiro')


O pacote HTMLSession para começar a trabalhar, precisa iniciar uma sessão. Dessa maneira conseguimos fazer "pedidos de informação" ao navegador.

In [None]:
session = HTMLSession()

Com a sessão iniciada, podemos começar a fazer pedidos ao navegador e ele nos retorna a extração do HTML da página. Vamos dizer a sessão que esses pedidos acontecerão para o site que indicamos na variável `url`. Salvaremos essa informação na variável `r`.

In [None]:
r = session.get(url)

Para saber se a solicitação deu certo, precisa apresentar o status 200. Se você não conhece os status de requisição HTTP, [vale conferir este artigo](https://developer.mozilla.org/pt-BR/docs/Web/HTTP/Status). 

Rode a célula a seguir para saber se deu tudo certo

In [None]:
r

<Response [200]>

Ótimo! Já conseguimos estabelecer uma conexão. Agora podemos fazer inumeras operação utilizando essa solicitação contida na variável `r`. Esse é o grande trunfo de utilizar variáveis.

# Extraindo os dados de parlamentares do Rio de Janeiro

Como falado anteriormente, a biblioteca funciona utilizando tags HTML, que são passada com argumentos dentro dos métodos. Por exemplo, suponhamos que queremos saber o conteudo das tabelas, podemos usar o método `find()` para isso. Como previamente sabemos que é na tag `table` que está o conteúdo que queremos, vamos passar ela como argumento entre aspas, dentro do parênteses.

In [None]:
r.html.find('table')

[<Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('nowraplinks', 'collapsible', 'autocollapse', 'navbox-inner') style='border-spacing:0;background:transparent;color:inherit'>,
 <Element 'table' class=('nowraplinks', 'collapsible', 'autocollapse', 'navbox-inner') style='border-spacing:0;background:transparent;color:inherit'>,
 <Element 'table' class=('nowraplinks', 'collapsible', 'show', 'navbox-inner') style='border-spacing:0;background:transparent;color:inherit'>]

 Salvaremos essas informações na variável `tables`.

In [None]:
tables = r.html.find('table')

Antes de usar a variável para o objetivo principal de extrair dados, vamos conhecer alguns métodos dessa biblioteca. 

Você viu que ao usar o `find` procurando pela tag `table`, o método encontrou várias tags com esse nome. Suponhamos que você queira que ele traga apenas uma, basta passar o parâmetro `first` como `True`. Por padrão está `False`, por isso que ele trás como resultado todas as tags que ele encontra com o nome que foi indicado para busca.

In [None]:
r.html.find('table', first=True)

<Element 'table' class=('wikitable',) style='font-size: 85%;'>

É possivel fazer uma busca mais específica, fazendo busca por palavras dentro das tags. No nosso caso, procuraremos alguma tag `table` que contenha a palavra *deputado*. Para ajudar na busca, se for o nome que está em uma coluna (como no nosso exemplo), é importante passar o nome da mesma maneira que está escrito, respeitando a diferenciação entre maiúsculas e minúsculas.

In [None]:
r.html.find('table', containing='Deputados')

[<Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('wikitable',) style='font-size: 85%;'>,
 <Element 'table' class=('wikitable',) style='font-size: 85%;'>]

Caso você precise encontrar textos, utilize o método `search`, passando o caracter inicial e o final do texto que você procura.

Nesse exemplo estamos procurando algum texto que esteja entre parênteses. As chaves no meio é obrigatório e simboliza o texto que ainda não sabemos qual é, mas que será encontrado entre parenteses. 

In [None]:
r.html.search('({})')

<Result ('1891–1960',) {}>

O conteúdo que substituiu as chaves foram `1891-1960` que segundo a busca é um conteúdo que originalmente está entre parênteses.

Voltando a utilização da variável `tables` que criamos, os resultados são salvos em uma lista. Os dados dentro de uma lista são organizados por índice que inicia a contagem a partir do 0. 

Para pegar apenas um resultado dentro de uma lista, basta passar o nome da variável que contém a lista, seguido do índice entre colchetes. Como queremos pegar a tabela com dados dos deputados federais, a página da wikipedia indica que é a tabela 6, logo o índice 5 da lista.

Incluiremos o `.text` para conseguir visualizar melhor o conteúdo. 

In [None]:
tables[5].text

"Deputados federais eleitos\nNaturalidade\nMandatos\nAno da eleição\nSimão Sessim\nRio de Janeiro, RJ\n10\n1978, 1982, 1986, 1990, 1994, 1998, 2002, 2006, 2010, 2014\nMiro Teixeira\nRio de Janeiro, RJ\n9\n1978, 1986, 1990, 1994, 1998, 2002, 2006, 2010, 2014\nArolde de Oliveira\nSão Luís Gonzaga, RS\n8\n1986, 1990, 1994, 1998, 2002, 2006, 2010, 2014\nDaso Coimbra\nRio de Janeiro, RJ\n7\n1962, 1966, 1970, 1974, 1978, 1982, 1986\nJair Bolsonaro[nota 21]\nGlicério, SP\n7\n1990, 1994, 1998, 2002, 2006, 2010, 2014\nJandira Feghali\nCuritiba, PR\n7\n1990, 1994, 1998, 2002, 2010, 2014, 2018\nJosé Maurício\nCampos dos Goytacases, RJ\n6\n1974, 1978, 1982, 1986, 1990, 1994\nRubem Medina\nRio de Janeiro, RJ\n6\n1978, 1982, 1986, 1990, 1994, 1998\nRoberto Jefferson\nPetrópolis, RJ\n6\n1982, 1986, 1990, 1994, 1998, 2002\nRodrigo Maia\nSantiago, CHI\n6\n1998, 2002, 2006, 2010, 2014, 2018\nBrígido Tinoco\nNiterói, RJ\n5\n1945, 1950, 1958, 1970, 1974\nGetúlio de Moura\nItaguaí, RJ\n5\n1945, 1950, 1954,

Vamos salvar esse conteúdo dentro de uma variável chamada `table_rj`.

In [None]:
table_rj = tables[5]

Estamos vendo que o conteúdo não está em uma estrutura legível, precisamos melhorar. Vamos começar pegando cada linha dessa tabela. Uma linha em HTML é composta por um conjunto de tags `tr`. Novamente usaremos o `find()` para encontrar os `tr`, salvando o conteúdo na variável `rows`.

In [None]:
rows = table_rj.find('tr')
rows

[<Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 'tr' >,
 <Element 

Estamos vendo vários `tr`, mas não sabemos o conteúdo que a tag armazena. Como a variável `rows` está armazenando uma lista, passaremos um índice da lista junto a variável e para visualizar o conteúdo utilizaremos o `.text`. 

In [None]:
rows[0].text

'Deputados federais eleitos\nNaturalidade\nMandatos\nAno da eleição'

Podemos perceber que o índice 0 contém o cabeçalho da tabela, separado por barras. O método `split` consegue separar o conteúdo e tirar a barra.

In [None]:
rows[0].text.split('\n')

['Deputados federais eleitos', 'Naturalidade', 'Mandatos', 'Ano da eleição']

Legal, não?! Que tal então encontrar todos os cabeçalhos? esse conteúdo é armazenado dentro da tag `th`. Usaremos nosso amigo `find` para encontrar o conteúdo e salvar dentro da variável `headers`.

In [None]:
headers = rows[0].find('th')

#para visualizar o conteúdo
headers

[<Element 'th' style='background-color:#CCCCCC' width='190'>,
 <Element 'th' style='background-color:#CCCCCC' width='190'>,
 <Element 'th' style='background-color:#CCCCCC' width='80'>,
 <Element 'th' style='background-color:#CCCCCC' width='470'>]

Vamos salvar esse conteúdo dentro de uma lista vazia chamada `lista_cabeçalho`, usando o laço `for`.

In [None]:
lista_cabecalho = []

for header in headers:
  lista_cabecalho.append(header.text)

lista_cabecalho

['Deputados federais eleitos', 'Naturalidade', 'Mandatos', 'Ano da eleição']

Da mesma forma, iremos extrair todo o conteúdo das linhas para preencher a tabela. Primeiro criaremos uma lista vazia chamada `dados`.

In [None]:
dados = []

Dessa vez procuraremos pela tag `td`, que armazena o conteúdo que precisamos. Para isso faremos um `for` dentro de um outro `for` para conseguir extrair o conteúdo. Calma, vai dar tudo certo! 

In [None]:
#Primeira etapa
for row in rows [1:]:
  itens = row.find('td')

  r = []

#Segunda Etapa
  for item in itens:
    r.append(item.text)

    dados.append(r)

Vamos entender o que aconteceu aqui:

Na **primeira etapa** estamos pedindo para ele ir linha a linha, começando do índice 1 (`rows[1:]`), encontrando todos as tags `td` e salvando o conteúdo na variável `itens`.

Pedimos para ele começar do índice 1 por já saber que no índice 0 contém o cabeçalho, os dois pontos (`:`) significa dizer que "é para ele ir até o final na busca". Se isso soar confuso para você, volte no [tutorial sobre a sintaxe do Python](https://colab.research.google.com/github/escola-de-dados/notebooks-python-pandas/blob/master/Python.ipynb?hl=pt-BR) e reveja a parte de strings.

Antes de iniciar a segunda etapa, criamos uma nova lista que chamamos de `r` para armazenar novos conteúdos.

Bom, na **segunda etapa** continuamos dentro do `for` e criamos um outro `for` para extrair o conteúdo que está dentro das tags `td`, guardada na variável `itens`. Em seguida, pedimos que esse conteúdo se apresente como um texto entendível, aplicando o `.text`. Só então começamos a popular a lista `r`, através do `append()`.

Por fim, depois dos dados todos organizadinhos, populamos a nossa lista oficial chamada `dados` com todo o conteúdo da lista `r`.

Mas será que tudo isso deu certo? Só tem um jeito de saber: chamando a lista `dados`.

In [None]:
dados

Perfeito! Extraimos todo o conteúdo, porém ainda não está de uma maneira legal de visualizaçãoo. É hora de evocar a automágica do Pandas! 
Vamos importar a biblioteca Pandas e salvar tudo em um bonito DataFrame.

In [None]:
import pandas as pd

Agora vamos criar um DataFrame chamado `deputados_rj`. A maneira mais básica de criar um DataFrame é passando o conteúdo que você quer que seja incluso. No nosso caso passaremos o conteúdo que está armazenado na variável `dados` e indicaremos o nome de cada coluna, passando a variável `lista_cabecalho`.



In [None]:
deputados_rj = pd.DataFrame(dados, columns = lista_cabecalho)

Veja, agora ficou ótimo!

In [None]:
deputados_rj

Unnamed: 0,Deputados federais eleitos,Naturalidade,Mandatos,Ano da eleição
0,Simão Sessim,"Rio de Janeiro, RJ",10,"1978, 1982, 1986, 1990, 1994, 1998, 2002, 2006..."
1,Simão Sessim,"Rio de Janeiro, RJ",10,"1978, 1982, 1986, 1990, 1994, 1998, 2002, 2006..."
2,Simão Sessim,"Rio de Janeiro, RJ",10,"1978, 1982, 1986, 1990, 1994, 1998, 2002, 2006..."
3,Simão Sessim,"Rio de Janeiro, RJ",10,"1978, 1982, 1986, 1990, 1994, 1998, 2002, 2006..."
4,Miro Teixeira,"Rio de Janeiro, RJ",9,"1978, 1986, 1990, 1994, 1998, 2002, 2006, 2010..."
...,...,...,...,...
1411,Wagner Montes[14][nota 39],"Duque de Caxias, RJ",1,2018
1412,Wladimir Garotinho[nota 40],"Campos dos Goytacazes, RJ",1,2018
1413,Wladimir Garotinho[nota 40],"Campos dos Goytacazes, RJ",1,2018
1414,Wladimir Garotinho[nota 40],"Campos dos Goytacazes, RJ",1,2018


Agora você pode fazer várias manipulações usando a biblioteca Pandas e/ou salvar em um csv usando `read_csv`.

In [None]:
deputados_rj.to_csv('meu_arquivo.csv')

# Utilizando o Pandas

Existe um jeito bem mais simples de fazer tudo que fizemos anteriormente. O problema é que dessa maneira não temos tanta liberdade para navegar pela estrutura do navgador, como tivemos usando a biblioteca `requests-html`. Isso acontece o Pandas possui vários componentes por trás dos métodos e funções para facilitar a sua vida.

A biblioteca Pandas possui diversas funções para carga de arquivos com nomes bastante intuitivos, sendo sempre `read` seguido do tipo de arquivo que você deseja carregar, por exemplo, `read_csv`, `read_excel`, entre outros. Vamos conhecer agora o método `read_html`.

 

 O `read_html` consegue carregar tanto um arquivo HTML como uma URL (link de um site), detectando "sozinho" as tabelas que existem na página ou aquivo e retorna uma lista com essas tabelas HTML, organizadas dentro de um DataFrame (tabela) Pandas.  

# Extraindo dados de parlamentares de Pernambuco

Iremos extrair outra lista de deputados federais eleitos, agora do estado de Pernambuco. Lembrando que esses dados você podem ser baixados com ainda mais informações no site do [Tribunal Superior Eleitoral](https://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1). O método usado aqui é unicamente para fins didáticos. 

Como já importamos a biblioteca anteriormente, não precisamos fazer novamente. Mas se você começou a ler a partir dessa etapa, inicie importando a biblioteca.

Começaremos armazenando a URL em uma variável:

In [None]:
url = 'https://pt.wikipedia.org/wiki/Lista_de_parlamentares_de_Pernambuco'

Passaremos a variável como argumento da função e armazenaremos as informações extraidas pelo `read_html` para variável `df`.

In [None]:
df = pd.read_html(url)

Vamos ver quantas tabelas tem nessa página usando método `len()`. Esse método trás como resultado o tamanho de uma lista.

In [None]:
print(f'Número de Dataframes: {len(df)}')

Número de Dataframes: 4


Sabemos que nessa página possui 4 tabelas, mas qual é a que queremos? Você pode usar o método `info()` para descobrir, testando cada índice do Dataframe na variável `df`, entre colchetes.

In [None]:
df[1].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 186 entries, 0 to 185
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Deputados federais eleitos  186 non-null    object
 1   Naturalidade                186 non-null    object
 2   Mandatos                    186 non-null    int64 
 3   Ano da eleição              186 non-null    object
dtypes: int64(1), object(3)
memory usage: 5.9+ KB


Descobrimos então que a tabela que queremos é de índice 1. Vamos salvar esse resultado na variável `deputados_pe`.

In [None]:
deputados_pe = df[1]
deputados_pe

Unnamed: 0,Deputados federais eleitos,Naturalidade,Mandatos,Ano da eleição
0,Inocêncio Oliveira,"Serra Talhada, PE",10,"1974, 1978, 1982, 1986, 1990, 1994, 1998, 2002..."
1,Osvaldo Coelho,"Juazeiro, BA",8,"1966, 1978, 1982, 1986, 1990, 1994, 1998, 2002"
2,Ricardo Fiuza[nota 11],"Fortaleza, CE",8,"1970, 1974, 1978, 1982, 1986, 1990, 1998, 2002"
3,Gonzaga Patriota,"Sertânia, PE",8,"1986, 1994, 1998, 2002, 2006, 2010, 2014, 2018"
4,José Mendonça Bezerra,"Belo Jardim, PE",7,"1982, 1986, 1990, 1994, 1998, 2002, 2006"
...,...,...,...,...
181,João Campos[5][6][nota 35],"Recife, PE",1,2018
182,Marília Arraes,"Recife, PE",1,2018
183,Ossesio Silva,"Rio de Janeiro, RJ",1,2018
184,Sílvio Costa Filho,"Recife, PE",1,2018


Super rápido e simples! <br>
Agora você pode usar os métodos Pandas para manipular o DataFrame como preferir, por exemplo trazerendo os 5 primeiros resultados do DataFrame usando o `head()`...

In [None]:
deputados_pe.head()

...ou usando o `groupby` para descobrindo onde nasceu a maioria dos deputados eleitos. 


In [None]:
deputados_pe.groupby('Naturalidade')['Ano da eleição'].count().sort_values(ascending=False)

Naturalidade
Recife, PE                   80
Caruaru, PE                   6
Nazaré da Mata, PE            5
Limoeiro, PE                  4
Rio de Janeiro, RJ            4
                             ..
Igarassu, PE                  1
Guarabira, PB                 1
Glória do Goitá, PE           1
São Bento do Norte, RN        1
Afogados da Ingazeira, PE     1
Name: Ano da eleição, Length: 66, dtype: int64

Enfim, as possibilidades são inúmeras, use sua curiosidade e criatividade e caso deseje, salve os resultados no final em um csv.