# Análise dos dados da Biblioteca Nacional Digital de Portugal

Nesse notebook, vamos limpar e analisar os dados disponibilizados pela BNP em seu sítio de dados abertos. Buscaremos compreender o escopo do acervo digitalizado e disponibilizado e ao mesmo tempo analisar suas características e como impactam na pesquisa e uso do acervo.

In [1]:
# Importar bibliotecas
import pandas as pd
import plotly.express as px

In [2]:
# importar dataset e criar dataframe
#dataset_path ="/home/ebn/Documentos/Github/hemdig-framework/repositorios/BND-PT/bnd-pt_livre.csv" #str(input('Insira o caminho do dataset: ')) #/home/ebn/Documentos/Github/hemdig-framework/repositorios/BND-PT/bnd-pt.csv
#df = pd.read_csv(dataset_path, sep=',', encoding='utf-8')

file_encoding = 'utf8'        # set file_encoding to the file encoding (utf8, latin1, etc.)
input_fd = open("/home/ebn/Documentos/Github/hemdig-framework/repositorios/BND-PT/bnd-pt_livre.csv", encoding=file_encoding, errors = 'backslashreplace')
df = pd.read_csv(input_fd, sep=',', encoding='utf-8')

Sobre o código anterior, ver a [resposta no StackOverflow](https://stackoverflow.com/a/51763708/12751702)

## Visão geral dos dados

Primeiras 10 linhas do *dataframe*:

In [3]:
df.head()

Unnamed: 0,BNP record ID,Material type,ISBN,Legal deposit number,Language of Text,Language of Original Work,Title,Subtitle,Original title,Edition,...,Name of Publisher,Date of Publication,Extent of Item,Dimensions,Series,Volume,Universal Decimal Classification,Authors,Image,Persistent URL
0,544,Book,,,por,,A Suma Oriental de Tomé Pires e o livro de Fra...,,,,...,por Ordem da Universidade,1978,"X, 503 p.",22 cm,Acta Universitatis Conimbrigensis,,"910.4(469+5)""15"" ; 821.134.3-992""15""","Pires, Tomé ; Rodrigues, Francisco ; Cortesão,...",https://purl.pt/37597/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/544
1,619,Book,,,por,,"Timor, do século XVI ao século XX",[catálogo da exposição] no ano do IV Centenári...,,,...,B. N. L.,1980,"66, [1] p.",29 cm,,,"011(594.75)""15/19""","Portugal, Biblioteca Nacional de Lisboa",https://purl.pt/206/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/619
2,3024,Book,,,por,,Macau,letras e artes do século XVI ao século XX,,,...,Biblioteca Nacional de Lisboa,1979,"VI, 68, [1] p.",23 cm,,,908.512.318(01) ; 017.1(469) IBL ; 061.4,"Casa de Macau ; Portugal, Biblioteca Nacional ...",https://purl.pt/28923/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/3024
3,6187,Book,,,por,,Estatutos,,,,...,G. L. T. Carreiros,1979,11 p.,15 cm,,,796/799,Grupo Lawn Tennis de Carreiros,https://purl.pt/38809/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/6187
4,6849,Book,,,por,,Documentos remettidos da India ou Livros das M...,,,,...,Academia Real das Sciências,1880,10 v.,30 cm,Monumentos inéditos para a história das conqui...,"7, 8, 9, 12, 18, 20, 21, 22",946.9(548.96),"Pato, Bulhão ; Rego, António da Silva ; Portug...",https://purl.pt/26875/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/6849


O *dataframe* é composto pelas seguintes colunas:

In [39]:
# mostrar colunas em lista
df.columns.tolist()


['BNP record ID',
 'Material type',
 'ISBN',
 'Legal deposit number',
 'Language of Text',
 'Language of Original Work',
 'Title',
 'Subtitle',
 'Original title',
 'Edition',
 'Place of publicattion',
 'Name of Publisher',
 'Date of Publication',
 'Extent of Item',
 'Dimensions',
 'Series',
 'Volume',
 'Universal Decimal Classification',
 'Authors',
 'Image',
 'Persistent URL']

### Tipos de Materiais

Primeiro vamos analisar que tipos de materiais compõem o acervo digitalizado e disponibilizado pela BNP.

In [40]:
#listar tipos de materiais
df['Material type'].unique().tolist()

['Book',
 'Iconographic material',
 nan,
 'Periodical',
 'Cartographic material',
 'Notated music',
 'Manuscript',
 'Electronic resource',
 'Multimedia']

Encontramos oito tipos de materiais: Livro, Material Iconográfico, Periódico, Material Cartográfico, Partitura, Manuscrito, Fonte eletrônica, Multimeios.

Sua contagem pode ser vista no  dataframe e gráfico abaixo:

In [7]:
# criar dataframe com os tipos de materiais e a quantidade de cada um
df_material = df['Material type'].value_counts().rename_axis('Material type').reset_index(name='counts')
df_material

Unnamed: 0,Material type,counts
0,Book,9008
1,Iconographic material,7953
2,Manuscript,2781
3,Cartographic material,2283
4,Periodical,1359
5,Notated music,948
6,Multimedia,52
7,Electronic resource,35


In [8]:
# criar gráfico de barras com os dados de tipos de materiais
fig = px.bar(df_material, x='Material type', y='counts', title='Tipos de materiais')

In [9]:
fig.show()

Vamos analisar os tipos de materiais por ano de publicação.

In [42]:
# criar dataframe com os tipos de materiais e o ano de publicação e a quantidade de cada um
df_material_ano = df.groupby(['Material type', 'Date of Publication']).size().reset_index(name='counts')
df_material_ano

Unnamed: 0,Material type,Date of Publication,counts
0,Book,,3
1,Book,14,3
2,Book,1440,1
3,Book,1454,1
4,Book,1463,1
...,...,...,...
2226,Periodical,1964,1
2227,Periodical,1975,1
2228,Periodical,1987,1
2229,Periodical,1989,1


In [43]:
# criar gráfico de barras com os dados de tipos de materiais e ano de publicação
fig = px.bar(df_material_ano, x='Material type', y='counts', color='Date of Publication', title='Tipos de materiais e ano de publicação')
fig.show()

In [10]:
#criar df apenas com coluna "Periodical"
df_periodical = df[df['Material type'] == 'Periodical']

In [11]:
df_periodical.head()


Unnamed: 0,BNP record ID,Material type,ISBN,Legal deposit number,Language of Text,Language of Original Work,Title,Subtitle,Original title,Edition,...,Name of Publisher,Date of Publication,Extent of Item,Dimensions,Series,Volume,Universal Decimal Classification,Authors,Image,Persistent URL
52,40112,Periodical,,,por,,Porbase,Base Nacional de Dados Bibliográficos,,,...,Biblioteca Nacional,1987,,30 cm,,,002.6:681.3(469)(05),"Portugal, Biblioteca Nacional",https://purl.pt/23861/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/40112
147,57737,Periodical,,,por,,O Pinto Calçudo,,,,...,Alunos da Escola Masculina de Vila Real de San...,1958,,27 cm,,,372.22(469.601.26 VRSA)(05),"Borges, José Maria S. Baptista ; Marques, Carl...",https://purl.pt/36015/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/57737
159,63466,Periodical,,,por,,O João Ratão,,,,...,Caixa Escolar Nossa Senhora de Fátima,1961,,20 cm,,,372(469.601)(05),Caixa Escolar Nossa Senhora de Fátima ; Escola...,https://purl.pt/36019/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/63466
230,90413,Periodical,,,por,,Alma Nacional,,,,...,A. J. Almeida,1910,,26 cm,,,,"Almeida, António José de",https://purl.pt/16522/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/90413
231,90414,Periodical,,,por,,A Águia,revista quinzenal ilustrada de literatura e cr...,,,...,Tércio Miranda,1910,,31 cm,,,070,"Pinto, Álvaro ; Pascoais, Teixeira de ; Carnei...",https://purl.pt/12152/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/90414


## Analisando os dados sobre periódicos

In [12]:
# contar idiomas dos periodicos
df_periodical['Language of Text'].value_counts()

por    1343
eng       6
fre       5
spa       2
mul       1
chi       1
ger       1
Name: Language of Text, dtype: int64

In [14]:
# criar gráfico de barras com os dados de idiomas dos periódicos
fig_02 = px.bar(df_periodical, x='Language of Text', title='Idiomas dos periódicos')
fig_02.show()

In [15]:
#contar datas de publicação
df_periodical['Date of Publication'].value_counts()

1894    41
1897    40
1891    40
1896    40
1885    39
        ..
1862     1
1855     1
1832     1
191      1
1941     1
Name: Date of Publication, Length: 154, dtype: int64

In [19]:
# criar dataframe com as datas de publicação e a quantidade de cada uma organizadas cronologicamente
df_date = df_periodical['Date of Publication'].value_counts().rename_axis('Date of Publication').reset_index(name='counts')
# sort dataframe by column "Date of Publication"
df_date = df_date.sort_values(by=['Date of Publication'])
df_date

Unnamed: 0,Date of Publication,counts
123,1641,1
132,1730,1
105,1743,1
127,1752,1
110,1779,1
...,...,...
116,1964,1
118,1975,1
121,1987,1
122,1989,1


In [22]:
# Criar scatter plot com os dados de datas de publicação com as datas de publicação no eixo Y
fig_03 = px.scatter(df_date, x='Date of Publication', y='counts', title='Datas de publicação dos periódicos')
fig_03.show()

In [31]:
# na coluna name of publisher, substituir os valores ""[s.n.]", "s.n.]" e "[s.n." por "Sem editora"
df_periodical['Name of Publisher'] = df_periodical['Name of Publisher'].replace(['[s.n.]', 's.n.]', '[s.n.', 's.n.'], 'Sem editora')




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [32]:
# contar editoras
df_periodical['Name of Publisher'].value_counts()

Sem editora                    171
Paulo da Fonseca                17
J. Garcia de Lima               13
Typ. Occidental                 11
Imprensa Minerva                 9
                              ... 
Tasso Lopes                      1
Typographia do Lacobrigense      1
Typ. Franco-Portugueza           1
P. A. Marchal e Milcent          1
Tip. Minerva Indiana             1
Name: Name of Publisher, Length: 993, dtype: int64

In [33]:
# criar dataframe com as editoras e a quantidade de cada uma
df_publisher = df_periodical['Name of Publisher'].value_counts().rename_axis('Name of Publisher').reset_index(name='counts')
df_publisher

Unnamed: 0,Name of Publisher,counts
0,Sem editora,171
1,Paulo da Fonseca,17
2,J. Garcia de Lima,13
3,Typ. Occidental,11
4,Imprensa Minerva,9
...,...,...
988,Tasso Lopes,1
989,Typographia do Lacobrigense,1
990,Typ. Franco-Portugueza,1
991,P. A. Marchal e Milcent,1


In [34]:
# criar um gráfico de barras com os 50 primeiros valores de editoras
fig_04 = px.bar(df_publisher.head(50), x='Name of Publisher', y='counts', title='Editoras dos periódicos')
fig_04.show()

In [37]:
# criar um gráfico de barras com as primeiras 20 editoras, excluíndo a primeira.
fig_05 = px.bar(df_publisher[1:21], x='Name of Publisher', y='counts', title='Editoras dos periódicos')
fig_05.show()