# Análise dos dados da Biblioteca Nacional Digital de Portugal

Nesse notebook, vamos limpar e analisar os dados disponibilizados pela BNP em seu sítio de dados abertos. Buscaremos compreender o escopo do acervo digitalizado e disponibilizado e ao mesmo tempo analisar suas características e como impactam na pesquisa e uso do acervo.

In [2]:
# Importar bibliotecas
import pandas as pd
import plotly.express as px

In [33]:
# importar dataset e criar dataframe
#dataset_path ="/home/ebn/Documentos/Github/hemdig-framework/repositorios/BND-PT/bnd-pt_livre.csv" #str(input('Insira o caminho do dataset: ')) #/home/ebn/Documentos/Github/hemdig-framework/repositorios/BND-PT/bnd-pt.csv
#df = pd.read_csv(dataset_path, sep=',', encoding='utf-8')

file_encoding = 'utf8'        # set file_encoding to the file encoding (utf8, latin1, etc.)
input_fd = open("/home/ebn/Documentos/Github/hemdig-framework/repositorios/BND-PT/bnd-pt_livre.csv", encoding=file_encoding, errors = 'backslashreplace')
df = pd.read_csv(input_fd, sep=',', encoding='utf-8')

Sobre o código anterior, ver a [resposta no StackOverflow](https://stackoverflow.com/a/51763708/12751702)

In [34]:
df.head()

Unnamed: 0,BNP record ID,Material type,ISBN,Legal deposit number,Language of Text,Language of Original Work,Title,Subtitle,Original title,Edition,...,Name of Publisher,Date of Publication,Extent of Item,Dimensions,Series,Volume,Universal Decimal Classification,Authors,Image,Persistent URL
0,544,Book,,,por,,A Suma Oriental de Tomé Pires e o livro de Fra...,,,,...,por Ordem da Universidade,1978,"X, 503 p.",22 cm,Acta Universitatis Conimbrigensis,,"910.4(469+5)""15"" ; 821.134.3-992""15""","Pires, Tomé ; Rodrigues, Francisco ; Cortesão,...",https://purl.pt/37597/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/544
1,619,Book,,,por,,"Timor, do século XVI ao século XX",[catálogo da exposição] no ano do IV Centenári...,,,...,B. N. L.,1980,"66, [1] p.",29 cm,,,"011(594.75)""15/19""","Portugal, Biblioteca Nacional de Lisboa",https://purl.pt/206/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/619
2,3024,Book,,,por,,Macau,letras e artes do século XVI ao século XX,,,...,Biblioteca Nacional de Lisboa,1979,"VI, 68, [1] p.",23 cm,,,908.512.318(01) ; 017.1(469) IBL ; 061.4,"Casa de Macau ; Portugal, Biblioteca Nacional ...",https://purl.pt/28923/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/3024
3,6187,Book,,,por,,Estatutos,,,,...,G. L. T. Carreiros,1979,11 p.,15 cm,,,796/799,Grupo Lawn Tennis de Carreiros,https://purl.pt/38809/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/6187
4,6849,Book,,,por,,Documentos remettidos da India ou Livros das M...,,,,...,Academia Real das Sciências,1880,10 v.,30 cm,Monumentos inéditos para a história das conqui...,"7, 8, 9, 12, 18, 20, 21, 22",946.9(548.96),"Pato, Bulhão ; Rego, António da Silva ; Portug...",https://purl.pt/26875/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/6849


In [35]:
df.columns

Index(['BNP record ID', 'Material type', 'ISBN', 'Legal deposit number',
       'Language of Text', 'Language of Original Work', 'Title', 'Subtitle',
       'Original title', 'Edition', 'Place of publicattion',
       'Name of Publisher', 'Date of Publication', 'Extent of Item',
       'Dimensions', 'Series', 'Volume', 'Universal Decimal Classification',
       'Authors', 'Image', 'Persistent URL'],
      dtype='object')

In [37]:
#listar tipos de materiais
df['Material type'].unique()

array(['Book', 'Iconographic material', nan, 'Periodical',
       'Cartographic material', 'Notated music', 'Manuscript',
       'Electronic resource', 'Multimedia'], dtype=object)

In [38]:
# contar tipos de materiais
df['Material type'].value_counts()

Book                     9008
Iconographic material    7953
Manuscript               2781
Cartographic material    2283
Periodical               1359
Notated music             948
Multimedia                 52
Electronic resource        35
Name: Material type, dtype: int64

In [40]:
#criar df apenas com coluna "Periodical"
df_periodical = df[df['Material type'] == 'Periodical']

In [41]:
df_periodical.head()


Unnamed: 0,BNP record ID,Material type,ISBN,Legal deposit number,Language of Text,Language of Original Work,Title,Subtitle,Original title,Edition,...,Name of Publisher,Date of Publication,Extent of Item,Dimensions,Series,Volume,Universal Decimal Classification,Authors,Image,Persistent URL
52,40112,Periodical,,,por,,Porbase,Base Nacional de Dados Bibliográficos,,,...,Biblioteca Nacional,1987,,30 cm,,,002.6:681.3(469)(05),"Portugal, Biblioteca Nacional",https://purl.pt/23861/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/40112
147,57737,Periodical,,,por,,O Pinto Calçudo,,,,...,Alunos da Escola Masculina de Vila Real de San...,1958,,27 cm,,,372.22(469.601.26 VRSA)(05),"Borges, José Maria S. Baptista ; Marques, Carl...",https://purl.pt/36015/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/57737
159,63466,Periodical,,,por,,O João Ratão,,,,...,Caixa Escolar Nossa Senhora de Fátima,1961,,20 cm,,,372(469.601)(05),Caixa Escolar Nossa Senhora de Fátima ; Escola...,https://purl.pt/36019/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/63466
230,90413,Periodical,,,por,,Alma Nacional,,,,...,A. J. Almeida,1910,,26 cm,,,,"Almeida, António José de",https://purl.pt/16522/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/90413
231,90414,Periodical,,,por,,A Águia,revista quinzenal ilustrada de literatura e cr...,,,...,Tércio Miranda,1910,,31 cm,,,070,"Pinto, Álvaro ; Pascoais, Teixeira de ; Carnei...",https://purl.pt/12152/service/media/cover/low,http://id.bnportugal.gov.pt/bib/catbnp/90414


In [42]:
# contar idiomas dos periodicos
df_periodical['Language of Text'].value_counts()

por    1343
eng       6
fre       5
spa       2
mul       1
chi       1
ger       1
Name: Language of Text, dtype: int64

In [43]:
#contar datas de publicação
df_periodical['Date of Publication'].value_counts()

1894    41
1897    40
1891    40
1896    40
1885    39
        ..
1862     1
1855     1
1832     1
191      1
1941     1
Name: Date of Publication, Length: 154, dtype: int64