# Hemeroteca Digital Brasileira, Fundação Biblioteca Nacional, Brasil

Nesse notebook, vamos limpar e apresentar os dados disponibilizados pela BNP em seu sítio de dados abertos. Buscaremos compreender o escopo do acervo digitalizado e disponibilizado e ao mesmo tempo apresentar suas características gerais.

- Link: [http://memoria.bn.br/hdb/](http://memoria.bn.br/hdb/)
- Tipos de materiais: Periódicos, Almanaques, Anais.
- Recorte temporal: 1740-2023
- Recorte espacial: (majoritariamente) Brasil
- Ferramenta de suporte: [pyHDB](https://ericbrasiln.github.io/pyHDB/)

## Dados Abertos da Biblioteca Nacional do Brasil

No sítio da Fundação Biblioteca Nacional, encontramos uma seção específica para os [dados abertos](https://www.gov.br/bn/pt-br/acesso-a-informacao-2/dados-abertos/dados-abertos). A instituição, como parte do poder executivo federal está subordinada à legislação que rege a política de dados abertos do governo federal:

>A política de Dados Abertos do poder executivo federal foi instituída pelo Decreto nº 8.777, de 11 de maio de 2016, e a ação tem por objetivo geral promover a abertura de dados do Governo, amparada pelos princípios da publicidade, transparência e eficiência, buscando tornar possível a completa disseminação de dados contendo informações de interesse público. O resultado esperado pela abertura é a efetiva participação social na res pública, elemento essencial que a legitima. 

>Como objetivos específicos do Plano de Dados Abertos, podemos destacar:

>- O controle social: decorrente da disseminação da informação;
>- Aprimoramento da máquina estatal: a abertura de dados possibilitará a construção de mais eficientes processos e soluções;
>- Inovação: a veracidade dos dados e sua abertura universal possibilitará à sociedade elaborar propostas inovadoras no campo privado.  

>O espírito que permeia a política de dados abertos é a transparência absoluta e, neste sentido, todos dados são públicos salvo exceções devidamente justificadas. 

Entretanto, ss dados referentes a periódicos disponibilizados atualmente pela Fundação Biblioteca Nacional correspondem apenas ao acervo digitalizado e incorporado nos anos de 2019 e 2020.

Os dados, em formato `csv`, podem ser baixados na [página de acesso à informação do site da Fundação Biblioteca Nacional](https://www.gov.br/bn/pt-br/acesso-a-informacao-2/dados-abertos/dados-abertos).

## Coleta dos dados

O primeiro passo foi realizar o download dos ficheiros `csv` disponibilizados pela Fundação Biblioteca Nacional (se referem aos acervo de periódicos digitalizados e incorporados à BNDigital): [2019](../BND-BR/bnd-br_periodicos_2019.csv) e [2020](../BND-BR/bnd-br_periodicos_2020.csv).

Diante da impossibilidade de acessar os dados gerais da HDB, realizei análise manual na interface gráfica de busca no dia 01 de junho de 2023, buscando o escopo geral dos dados disponíveis.

Inicialmente, inseri o parâmetro <Período> e o primeiro recorde temporal disponível: <1740 - 1779>. Um único item para <Local>: *Lisboa, POR* e um <Periódico>: *Folheto de Lisboa : Entre Douro e Minho (Lisboa, POR)*. O príodo seguinte, 1760 - 1769, também possui um periódico de Lisboa, o *Hebdomadario Lisbonense (Lisboa, POR)*. 

O último item no parâmetro período é <2020 - 2023>, onde encontramos periódicos do Rio de Janeiro (3), São Paulo (3) e Santa Catarina (7).

| Período | Local | Periódico |
| ------- | ----- | --------- |
| 1740 - 1779 | Lisboa, POR |  Folheto de Lisboa : Entre Douro e Minho (Lisboa, POR) |
| 1760 - 1769 | Lisboa, POR |  Hebdomadario Lisbonense (Lisboa, POR) |
| 2020 - 2023 | RJ | Conjuntura Econômica (RJ) |
| 2020 - 2023 | RJ | Revista do Instituto Histórico e Geographico do Brazil (RJ) |
| 2020 - 2023 | RJ | Revista Saúde em Debate (RJ) |
| 2020 - 2023 | SP | A Tribuna (SP) |
| 2020 - 2023 | SP | AT Revista (SP) |
| 2020 - 2023 | SP | Jornal do Boqueirão (SP) |
| 2020 - 2023 | SC | Cooperalfa (SC) |
| 2020 - 2023 | SC | Correio do Norte (SC) |
| 2020 - 2023 | SC | Cruzeiro do Vale (SC) |
| 2020 - 2023 | SC | Folha de Coqueiros (SC) |
| 2020 - 2023 | SC | Jornal do Zinga (SC) |
| 2020 - 2023 | SC | Jornal Metas (SC) |
| 2020 - 2023 | SC | Revista do CEMJ (SC) |

Ou seja, o acesso aos dados dos periódicos disponibilizados pela interface da HDB não se dá de forma estruturada, como no caso da BNP-PT. No caso da BND-PT, conseguimos acessar um ficheiro csv com os dados completos de todos os periódicos digitalizados, contando com informações como local de publicação, ano, editora, idioma, entre outros.  

Para construirmos um dataset nesse mesmo modelo para o acervo da HDB, precisaríamos ou da disponibilização diretamente pela Fundação Biblioteca Nacional,[^1] ou da criação de um *scrapper* para acessar a interface gráfica e coletar os dados. Esse objetivo não está no escopo da pesquisa.

Contudo, podemos realizar uma análise manual dos dados disponíveis na interface gráfica. Foi registrada a quantidade de periódicos por década, e a quantidade de periódicos por local de publicação. Essa estratégia busca apenas um panorama geral do acervo, sem aprofundamento na análise dos dados.

Na tabela abaixo, podemos visualizar a quantidade de periódicos por década, e a quantidade de periódicos por local de publicação.

[^1]: Realizei contato com *Setor de Gestão de Programas e Inovação - SGPI/BNDigital* solicitando informações sobre o acesso a esses dados. Até o momento da atualização desse documento, ainda não havia obtido resposta.

| Período     |Quantidade de locais | Quantidade de periódicos |
| ----------- | ------------------- | ------------------------ |
| 1740 - 1749 | 1  | 1    |   
| 1760 - 1769 | 1  | 1    |
| 1800 - 1809 | 2  | 3    |
| 1810 - 1819 | 8  | 21   |
| 1820 - 1829 | 14 | 130  |
| 1830 - 1839 | 22 | 336  |
| 1840 - 1849 | 21 | 383  |
| 1850 - 1859 | 25 | 450  |
| 1860 - 1869 | 27 | 624  |
| 1870 - 1879 | 28 | 981  |
| 1880 - 1889 | 28 | 1595 |
| 1890 - 1899 | 27 | 1368 |
| 1900 - 1909 | 28 | 917  |
| 1910 - 1919 | 32 | 936  |
| 1920 - 1929 | 29 | 819  |
| 1930 - 1939 | 28 | 678  |
| 1940 - 1949 | 28 | 409  |
| 1950 - 1959 | 27 | 388  |
| 1960 - 1969 | 20 | 274  |
| 1970 - 1979 | 19 | 236  |
| 1980 - 1989 | 20 | 197  |
| 1990 - 1999 | 13 | 102  |
| 2000 - 2009 | 10 | 69   |
| 2010 - 2019 | 5  | 19   |
| 2020 - 2023 | 3  | 13   |
| n.i.        | 14 | 57   |

## Apresentação dos dados

Temos dois conjuntos de dados referentes à HDB: A) os `csv` de periódicos digitalizados e incorporados ao acervo nos anos de 2029 e 2020 e B) um `csv` com a contagem de itens por década e por local de publicação disponíveis na interface gráfica da HDB no dia 01 de junho de 2023, construído manualmente.

Ambos serão analisados com a biblioteca `pandas` do Python.

In [1]:
# importando a biblioteca pandas
import pandas as pd

### A) Periódicos digitalizados e incorporados ao acervo nos anos de 2029 e 2020

Vamos criar um dataframe com os dados do `csv` de periódicos digitalizados e incorporados ao acervo no ano de 2019.

In [2]:
# importar dataset e criar dataframe
df_2019 = pd.read_csv('bnd-br_periodicos_2019.csv', sep=',', encoding='latin1')

As colunas do dataframe são:

In [3]:
# listar as colunas do dataframe
df_2019.columns.tolist()

['Título',
 'Material',
 'Cód. título',
 'Números de chamada local',
 'Objeto Digital']

Vamos realizar a contagem de itens na coluna `Título` para verificarmos a quantidades de periódicos digitalizados e incorporados ao acervo no ano de 2019.

In [4]:
# contar itens na coluna «Título»
df_2019['Título'].count()


1004

Vamos repetir o processo para o `csv` de periódicos digitalizados e incorporados ao acervo no ano de 2020.

In [5]:
# importar dataset e criar dataframe
df_2020 = pd.read_csv('bnd-br_periodicos_2020.csv', sep=',', encoding='latin1')


In [6]:
# listar as colunas do dataframe
df_2020.columns

Index(['Título', 'Material', 'Cód. título', 'Números de chamada local',
       'Objeto Digital'],
      dtype='object')

In [7]:
# contar itens na coluna «Título»
df_2020['Título'].count()

699

Portanto, nos anos de 2019 e 2020, foram digitalizados e incorporados ao acervo 1004 e 699 periódicos respectivamente. Infelizmente, esses dados não nos possibilitam uma análise mais completa do acervo da HDB.

## B) Contagem de itens por década e por local de publicação disponíveis na interface gráfica da HDB no dia 01 de junho de 2023

O `csv` [periodicos_dec](periodicos_dec.csv) contém a contagem de itens por década e por local de publicação disponíveis na interface gráfica da HDB no dia 01 de junho de 2023. É importante destacar que a coleta desses dados foi realizada manualmente, e que a interface gráfica da HDB não disponibiliza os dados de forma estruturada. Uma descrição detalhada do método utilizado pode ser encontrada no tópico [Coleta de dados](#coleta-de-dados).

Primeiro, vamos criar um dataframe com os dados do `csv` [periodicos_dec](periodicos_dec.csv).

In [8]:
# importar dataset e criar dataframe
df = pd.read_csv('periodicos_dec.csv', sep=',', encoding='utf-8')

In [9]:
# visualizar o dataframe
df

Unnamed: 0,período,quantidade de locais,quantidade de periódicos
0,1740 - 1749,1,1
1,1760 - 1769,1,1
2,1800 - 1809,2,3
3,1810 - 1819,8,21
4,1820 - 1829,14,130
5,1830 - 1839,22,336
6,1840 - 1849,21,383
7,1850 - 1859,25,450
8,1860 - 1869,27,624
9,1870 - 1879,28,981


Buscando compreender melhor os dados, vamos gerar visualizações gráficas com a biblioteca `plotly`.

In [10]:
# importar a biblioteca plotly
import plotly.express as px

Combinado as bibliotecas `pandas` e `plotly`, vamos gerar um gráfico de barras com a quantidade de periódicos por década. Definimos que o eixo x será a coluna `período` e o eixo y será a coluna `quantidade de periódicos` do nosso dataframe.

In [11]:
# criar gráfico de barras com a quantidade de itens por década
fig = px.bar(df, x='período', y=' quantidade de periódicos', color='período', title='HDB - Quantidade de itens por década')
# renomear eixos
fig.update_layout(xaxis_title='Década', yaxis_title='Quantidade de Periódicos')
# incluir valores nos topos das barras
fig.update_traces(texttemplate='%{value}', textposition='outside')
# definir o tamanho da figura
fig.update_layout(height=800, width=1200)
# exibir o gráfico
fig.show()

In [12]:
# salvar como html
fig.write_html("periodicos_dec.html")
# savar como imagem
fig.write_image("periodicos_dec.png")

Percebemos o acentuado crescimento de periódicos digitalizados no século XIX e o declínio em meados do século XX. Entre 1860 e 1940, todas as décadas possuem mais de 600 títulos digitalizados. As décacdas de 1880 e 1890 concentram 1595 e 1368 respectivamente. Vamos olhar os percentuais de periódicos por década, para entendermos mais claramente a concentração dos itens do acervo em um determinado recorte temporal.

In [13]:
# calcular a porcentagem de itens por década
df['porcentagem'] = df[' quantidade de periódicos'] / df[' quantidade de periódicos'].sum() * 100
# classificar o dataframe pela coluna «porcentagem»
df = df.sort_values(by='porcentagem', ascending=False)
# visualizar o dataframe
df

Unnamed: 0,período,quantidade de locais,quantidade de periódicos,porcentagem
10,1880 - 1889,28,1595,14.490779
11,1890 - 1899,27,1368,12.428455
9,1870 - 1879,28,981,8.91251
13,1910 - 1919,32,936,8.503679
12,1900 - 1909,28,917,8.331062
14,1920 - 1929,29,819,7.44072
15,1930 - 1939,28,678,6.159717
8,1860 - 1869,27,624,5.66912
7,1850 - 1859,25,450,4.088307
16,1940 - 1949,28,409,3.715817


In [14]:
# criar gráfico de pizza com a porcentagem de itens por década
fig_pizza = px.pie(df, values='porcentagem', names='período', title='HDB - Porcentagem de itens por década')
# definir o tamanho da figura
fig_pizza.update_layout(height=800, width=1200)
# exibir o gráfico
fig_pizza.show()

In [15]:
# salvar como html
fig_pizza.write_html("periodicos_dec_pizza.html")
# salvar como imagem
fig_pizza.write_image("periodicos_dec_pizza.png")

In [16]:
# somar os três itens mais altos da coluna «porcentagem» e criar um novo dataframe
df_top3 = df.nlargest(3, 'porcentagem')
# visualizar o dataframe
df_top3

Unnamed: 0,período,quantidade de locais,quantidade de periódicos,porcentagem
10,1880 - 1889,28,1595,14.490779
11,1890 - 1899,27,1368,12.428455
9,1870 - 1879,28,981,8.91251


In [17]:
# Soma da porcentagem dos três itens mais altos
df_top3['porcentagem'].sum()

35.83174343599528

In [18]:
# soma da quantidade de itens dos três itens mais altos
df_top3[' quantidade de periódicos'].sum()

3944

As duas últimas células mostram que os três principais períodos (1870 - 1879, 1880 - 1889 e 1890 - 1899) reúnem 35,83% de todos os periódicos digitalizados disponíveis na interface gráfica da HDB no dia 01 de junho de 2023. Um total de 3.944 periódicos.