#  Hemeroteca Digital de Lisboa

Nesse notebook, vamos limpar e apresentar os dados coletados na HML. Buscaremos compreender o escopo do acervo digitalizado e ao mesmo tempo apresentar suas características gerais.

:warning: Os dados da HML são escassos, visto que seu sítio não apresenta uma política de dados abertos. Os dados apresentados e analisados aqui são fruto de uma coleta realizada pelo [scraper_hml](scrapper.ipynb) e representam um esforço da pesquisa, mas que não são suficientes para uma análise mais profunda, apresentando dados incompletos e insuficientes para uma análise mais profunda.

:warning: Atualmente está em desenvolvimento uma nova verão da HML, e sua versão beta pode ser acessada [aqui](https://hemerotecadigital.lisboa.pt/) . A nova versão apresenta uma interface mais moderna e intuitiva, com mais recursos de filtros e busca. No entanto, a nova versão ainda não foi oficialmente lançada e não contém todo o acervo digitalizado da HML. Portanto, a análise aqui apresentada se refere à versão atual da HML, que pode ser acessada [aqui](http://hemerotecadigital.cm-lisboa.pt/).

- Link: [https://hemerotecadigital.cm-lisboa.pt/](https://hemerotecadigital.cm-lisboa.pt/)
- Escopo: Periódicos, Jornais, Revistas, Almanaques.
- Recorte temporal: 
- Recorte espacial: Portugal.


## Coleta de dados

Os dados foram coletados utilizando o [scraper_hml](scrapper.ipynb), que é um scraper desenvolvido em Python utilizando a biblioteca [BeautifulSoup](). O scraper foi desenvolvido para coletar os dados de todos os periódicos disponíveis na HML, e os dados coletados foram salvos em um arquivo CSV.

Os dados coletados são:

- **Título**: Título do periódico
- **Autoria**: Autoria do periódico
- **Período**: Período disponível do periódico
- **Link**: Link para o periódico
- **Fichas Históricas**: Link para as fichas históricas do periódico
- **Quantidade de PDF**: Quantidade de PDFs disponíveis do periódico
- **Links dos PDFs**: Lista com links para os PDFs disponíveis do periódico

## Apresentação dos dados

Primeiramente, vamos importar as bibliotecas necessárias para a análise.

In [1]:
# importar pandas e plotly
import pandas as pd
import plotly.express as px

Vamos ler o arquivo CSV com os dados coletados e apresentar os dados em um DataFrame.

In [2]:
# abrir arquivo csv e criar dataframe
df = pd.read_csv('hemeroteca_lisboa.csv')


In [3]:
# visualizar as primeiras linhas do dataframe
df.head()

Unnamed: 0,Título,Anos,Local,Fichas Históricas,Quantidade de PDF,Links dos PDFs
0,Academia Portuguesa,['1933'],Sem local,Sem Ficha Histórica,11,['https://hemerotecadigital.cm-lisboa.pt/Perio...
1,O Académico: publicação bi-semanal redigida po...,[],Sem local,Sem Ficha Histórica,1,['https://hemerotecadigital.cm-lisboa.pt/Perio...
2,O academico: revista quinzenal litteraria,['1878'],Sem local,https://hemerotecadigital.cm-lisboa.pt/Periodi...,6,['https://hemerotecadigital.cm-lisboa.pt/Perio...
3,O Académico: semanário ilustrado,['1902-1903'],Sem local,https://hemerotecadigital.cm-lisboa.pt/Periodi...,8,['https://hemerotecadigital.cm-lisboa.pt/Perio...
4,AccaoColonial_NComemorativo,['1934'],Sem local,Sem Ficha Histórica,1,['https://hemerotecadigital.cm-lisboa.pt/Perio...


In [4]:
# mostrar colunas do dataframe
df.columns.tolist()

['Título',
 'Anos',
 'Local',
 'Fichas Históricas',
 'Quantidade de PDF',
 'Links dos PDFs']

### Quantidade de itens no acervo

In [6]:
# contar valores únicos da coluna 'Título' e mostrar a soma
df['Título'].nunique()

349

### Local

Mostrar itens que possuem identificação de local


In [8]:
# contar cada valor na coluna 'Local'
df['Local'].value_counts()

Sem local                  260
Lisboa                      57
Coimbra                      9
Rio de Janeiro               6
Porto                        5
Paris                        3
Lisboa e Rio de Janeiro      1
Praia                        1
Lourenço Marques             1
Nova Goa                     1
Washington                   1
Luanda                       1
Díli                         1
Bolama                       1
Macau                        1
Madrid                       1
Name: Local, dtype: int64

### Fichas Históricas

Quantidade de itens no acervo que contam com fichas históricas

In [14]:
df['Fichas Históricas'].value_counts()

Sem Ficha Histórica                                                                                                                   147
https://hemerotecadigital.cm-lisboa.pt/Periodicos/OPaquetedoTejo/../../FichasHistoricas/PaquetedoTejo.pdf                               1
https://hemerotecadigital.cm-lisboa.pt/Periodicos/NovaSilva/1907/../../../FichasHistoricas/NOVASILVA.pdf                                1
https://hemerotecadigital.cm-lisboa.pt/OBRAS/Ocidente/http://hemerotecadigital.cm-lisboa.pt/FichasHistoricas/Ocidente.pdf               1
https://hemerotecadigital.cm-lisboa.pt/Periodicos/OrdemNova/../../FichasHistoricas/Ordem_Nova.pdf                                       1
                                                                                                                                     ... 
https://hemerotecadigital.cm-lisboa.pt/Periodicos/OElenco/../../FichasHistoricas/OElenco.pdf                                            1
https://hemerotecadigital.cm-lisbo

In [13]:
# itens sem ficha histórica
df['Fichas Históricas'].value_counts()['Sem Ficha Histórica']

147

In [16]:
# cálculo de itens com ficha histórica
com_ficha = df['Título'].nunique()-df['Fichas Históricas'].value_counts()['Sem Ficha Histórica']
com_ficha

202

In [17]:
# porcentagem de itens com ficha histórica
porcentagem = com_ficha/df['Título'].nunique()*100
porcentagem

57.879656160458445