# Análise dos dados de periódicos da Hemerotéca Digital Brasileira da Biblioteca Nacional

Os dados foram disponibilizados para pesquisa pela equipe da BNDigital em formato xml. O arquivo foi exportado da base do sistema de periódicos digitalizados e se encontra no padrão MARCXML (MAchine-Readable Cataloging XML). O arquivo pode ser acessado [aqui](/repositorios/BND-BR/data/exp_per_marcxml.xml).

Agradeço a Vinicius Pontes Martins do Setor de Gestão de Programas e Inovação (SGPI) da BNDigital pela disponibilização dos dados.

## Analisando e Filtrando o xml

Aqui vamos realizar realizar o *parse* dos dados contidos no arquivo xml e filtrar os dados que serão utilizados para análise.

Utilizaremos a biblioteca `xml.etree.ElementTree` para realizar o *parse* do arquivo xml. A biblioteca é nativa do Python e não necessita de instalação.

In [None]:
# importar bibliotecas
import xml.etree.ElementTree as ET

In [None]:
# ler arquivo xml
tree = ET.parse('./data/exp_per_marcxml.xml')

Após realizarmos o *parse* do ficheiro, podemos contar quantos registros exixtem na àrvore de elementos:

In [None]:
# contar número de registros
root = tree.getroot()
print(len(root))

### Subcampos utilizados

Após a leitura do arquivos, selecionei sete subcampos para análise (serão listadas a tag e o subcampo de acordo com a estrutura do xml):

- tag 245; subcampo a: Título do periódico
- tag 245; subcampo b: Subtítulo do periódico
- tag 260; subcampo a: Local de publicação
- tag 260; subcampo b: Editora
- tag 260; subcampo c: Período de publicação
- tag 310; subcampo a: Periodicidade da publicação
- tag 546; subcampo a: Idioma da publicação

A seleção desses elementos buscou possibilitar a comparação com os dados disponibilizados pela BND-PT, conforme descrito no [notebook](..///BND-PT/escopo.ipynb).


Vamos criar um ficheiro csv com os dados selecionados. Para isso, vamos utilizar a biblioteca `csv` do Python. 

Primeiro criamos uma função para encontrar os subcampos desejados:

In [None]:
# função para encontrar o valor de um campo
def find_value(record, tag,code):
    return record.find(f"./datafield[@tag='{tag}']/subfield[@code='{code}']")

Em seguida, criamos o ficheiro csv e escrevemos os dados:

In [None]:
# criar um csv com os dados selecionados
import csv

with open('./data/complete_data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f, delimiter=',', quotechar='"', quoting=csv.QUOTE_ALL)
    writer.writerow(['title', 'subtitle', 'place', 'period', 'editor', 'periodicity', 'language'])
    for record in root:
        title = find_value(record, '245', 'a')
        subtitle = find_value(record, '245', 'b')
        place = find_value(record, '260', 'a')
        period = find_value(record, '260', 'c')
        editor = find_value(record, '260', 'b')
        periodicity = find_value(record, '310', 'a')
        language = find_value(record, '546', 'a')
        if title is not None:
            title = title.text
        if subtitle is not None:
            subtitle = subtitle.text
        if place is not None:
            place = place.text
        if period is not None:
            period = period.text
        if editor is not None:
            editor = editor.text
        if periodicity is not None:
            periodicity = periodicity.text
        if language is not None:
            language = language.text
        writer.writerow([title, subtitle, place, period, editor, periodicity, language])

## Apresentação dos dados

A partir do ficheiro csv gerado na célula anterior, vamos apresentar os dados da HDB buscando uma compreensão geral do seu acervo de periódicos digitalizados.

Os dados serão analisados com a biblioteca `pandas` e apresentados com a biblioteca `plotly`.

In [1]:
# importar bibliotecas
import pandas as pd
import plotly.express as px

## Dados gerais do acervo

Vamos criar um dataframe com os dados do csv e apresentar sua estrutura e informações gerais.

In [2]:
# importar dataset e criar dataframe
df = pd.read_csv('./data/complete_data.csv', encoding='utf-8')

Para termos uma ideia geral do dataframe, vamos ver as primeiras 10 linhas do *dataframe*:

In [3]:
df.head()

Unnamed: 0,title,subtitle,place,period,editor,periodicity,language
0,O Abolicionista Paraense,,"Belém, PA",1883-,Typ. da Provincia do Para,Semanal,por
1,O Abolicionista,propriedade de uma associação,"São Luis, MA",1885,Typ. do Abolicionista,,por
2,O Academico,"periodico scientifico, litterario e especialme...","Rio de Janeiro, RJ",1855-,"Typ. Fluminense, de D.L. dos Santos",,por
3,A Actualidade,orgao do Partido Liberal,"Ouro Preto, MG",1878-[1882],Typ. de Jose Egydio da Silca Campos,3 vezes por semana,
4,A Actualidade,"periodico imparcial, litterario, critico e not...",Maranhão,1900-,Typ. de Antonio Pereira Ramos d'Almeida e C. S...,3 vezes por mês,por


O *dataframe* é composto pelas seguintes colunas:

In [4]:
# mostrar colunas em lista
df.columns.tolist()

['title', 'subtitle', 'place', 'period', 'editor', 'periodicity', 'language']

In [5]:
# contar número de registros
df.count()

title          7685
subtitle       3666
place          7608
period         7265
editor         5675
periodicity    5901
language       6614
dtype: int64

Percebemos que o dataframe conta com 7685 periódicos. Os dados das demais colunas variam, e as colunas período e local de publicação são as mais completas.

### Idiomas

Vamos contar os idiomas dos periódicos digitalizados, mas primeiro vamos limpar os dados da coluna 'language'.

In [6]:
# limpar dados de idioma
# lista de termos para substituir
replace_por = ['Texto em português', 'Texto em portugues', 'Português', 'Em português', 'Texto em português e alguns textos em francês']
replace_spa = ['Texto em espanhol', 'esp']
replace_fre = ['Texto em frances']

# substituir termos
df['language'] = df['language'].replace(replace_por, 'por')
df['language'] = df['language'].replace(replace_spa, 'spa')
df['language'] = df['language'].replace(replace_fre, 'fre')

Vamos avaliar quantos registros não possuem idioma definido:

In [7]:
# contar quantos registros não possuem idioma
df['language'].isnull().sum()

1071

In [8]:
# calcular a porcentagem de registros sem idioma
df['language'].isnull().sum() / len(df) * 100

13.936239427456082

Dos 7685 registros, 1071 não possuem idioma definido no dataframe, o que corresponde a 13,93% do total.

Vamos incluir o valor 'Não definido' para os registros sem idioma definido:

In [9]:
# incluir valor 'não definido' para registros sem idioma
df['language'] = df['language'].fillna('não definido')

Agora uma contagem dos idiomas dos periódicos será mais precisa:

In [10]:
# criar dataframe com a contagem de idiomas
df_lang = df['language'].value_counts().rename_axis('Idioma').reset_index(name='quantidade')
df_lang

Unnamed: 0,Idioma,quantidade
0,por,6462
1,não definido,1071
2,ger,61
3,ita,33
4,fre,27
5,spa,17
6,eng,10
7,ara,2
8,syr,1
9,yid,1


Em termos de porcentagem, podemos ver que o idioma predominante é o português, com 84% dos periódicos. Em seguida, temos os periódicos sem idioma definido, 13,9%, seguidos de alemão, italiano, francês, espanhol e inglês, cada um com menos de 1% cada.

In [11]:
# porcentagem de idiomas
df['language'].value_counts(normalize=True)


por             0.840859
não definido    0.139362
ger             0.007938
ita             0.004294
fre             0.003513
spa             0.002212
eng             0.001301
ara             0.000260
syr             0.000130
yid             0.000130
Name: language, dtype: float64

Podemos visualizar de forma mais clara esses dados com um gráfico de barras:

In [12]:
# criar gráfico de barras com os dados de idiomas dos periódicos
fig1 = px.bar(df_lang, x='Idioma', y='quantidade', color='Idioma', title='Idiomas dos periódicos')
fig1.update_xaxes(tickangle=45, tickfont=dict(size=10))
fig1.show()
# salvar gráfico
fig1.write_image('./charts/fig1.png')

### Período de publicação

Vamos analisar os dados referentes aos períodos de publicação dos periódicos digitalizados. Esses dados possuem algumas características que tornam sua análise mais complexa. 

Primeiro, percebemos que existe uma falta de padronização dos dados. Alguns registros possuem apenas o ano de início, outros possuem o ano de início e fim, e esses dados são escritos de formas variadas.

Portanto, primeiramente vou efetuar uma limpeza e padronização dos dados. Para isso, vou excluir caracteres especiais e buscar padronizar os dados para o formato 'yyyy-yyyy'.

Assim, acredito minimizar os erros de análise e facilitar a visualização dos dados.

In [13]:
#  limpar dados do período de publicação usando regex
# excluir [, ], (, ), :
df['period'] = df['period'].replace(to_replace=r'[\[\]\(\):\?]', value='', regex=True)
#substituir ' - ' por '-'
df['period'] = df['period'].replace(to_replace=r' - ', value='-', regex=True)
#substituir ' a ' por '-'
df['period'] = df['period'].replace(to_replace=r' a ', value='-', regex=True)

Para tornar a análise e visualização mais eficiente, vou criar novas colunas para o ano de início e fim dos periódicos. 

Caso o registro não possua o ano de fim, vou considerar o ano de início como ano de fim.

In [14]:
# criar coluna com o ano de início da publicação
# se iniciar com dígito, pegar os 4 primeiros caracteres, senão, pegar do 2º ao 5º caractere
df['start_year'] = df['period'].str.extract(r'(\d{4})', expand=False).fillna(df['period'].str[1:5])

In [15]:
# criar coluna com o ano de término da publicação a partir da coluna period
# pegar 4 últimos dígitos que aparecem na coluna period usando regex
df['end_year'] = df['period'].str.extract(r'(\d{4})$', expand=False)

In [16]:
# se 'end_year' for nulo, pegar o ano de início da publicação
df['end_year'] = df['end_year'].fillna(df['start_year'])

Uma última limpeza final, para excluir possíveis caracteres que não sejam dígitos nas colunas de ano de início e fim e inserior o número 0 para os registros que não possuem ano de início e/ou fim.

In [17]:
#converte as colunas para string
df['start_year'] = df['start_year'].astype(str)
df['end_year'] = df['end_year'].astype(str)

# Substitui todos os caracteres que não são dígitos por uma string vazia
df['start_year'] = df['start_year'].replace(to_replace=r'\D', value='', regex=True)
df['end_year'] = df['end_year'].replace(to_replace=r'\D', value='', regex=True)

# substitui os valores vazios por 0
df['start_year'] = df['start_year'].replace(to_replace=r'^\s*$', value='0', regex=True)
df['end_year'] = df['end_year'].replace(to_replace=r'^\s*$', value='0', regex=True)

# converte as colunas para int
df['start_year'] = df['start_year'].astype(int)
df['end_year'] = df['end_year'].astype(int)


Vamos conferir a quantidade de registros por ano de início e fim, lembrando que o número 0 representa os registros que não possuem ano de início e/ou fim:

Primeiro, criar um dataframe com a contagem dos registros por ano de início:

In [20]:
# contar início da publicação
df_bdate = df['start_year'].value_counts().rename_axis('Ano').reset_index(name='quantidade')
# organizar por ano
df_bdate = df_bdate.sort_values(by=['Ano'])

Vamos avaliar os dados iniciais do dataframe para encontrar possíveis erros:

In [21]:
df_bdate.head(10)

Unnamed: 0,Ano,quantidade
0,0,425
181,9,2
200,83,1
210,87,1
199,88,1
196,95,1
208,1521,1
206,1691,1
203,1741,1
201,1763,1


Percemos que 5 registros possuem registros que fogem do oadrão `YYYY` e, sendo estatisticamente insignificantes, serão excluídos do dataframe.

In [22]:
# excluir registros com ano entre 2 e 999
df_bdate = df_bdate[(df_bdate['Ano'] < 1) | (df_bdate['Ano'] > 999)]

Faremos o mesmo para final do dataframe:

In [23]:
df_bdate.tail(10)

Unnamed: 0,Ano,quantidade
162,2005,6
186,2006,2
195,2007,1
187,2010,2
209,2011,1
177,2012,3
183,2014,2
213,2017,1
198,2021,1
211,2022,1


Não há erros no fim. Podemos prosseguir para a visualização dos dados.

In [24]:
# excluir registros menor que 1000
df_bdate = df_bdate[df_bdate['Ano'] > 999]

# Criar scatter plot com os dados de datas de publicação com as datas de publicação no eixo Y
fig2 = px.scatter(df_bdate, x='Ano', y='quantidade', title='Datas de início de publicação')
# adcionar mais anos no eixo x
fig2.update_xaxes(range=[1500, 2023])
fig2.show()
# salvar gráfico
fig2.write_image('./charts/fig2.png')


Realizaremos os mesmo procedimentos para a coluna do ano de fim:

In [25]:
# contar fim da publicação
df_edate = df['end_year'].value_counts().rename_axis('Ano').reset_index(name='quantidade')
# organizar por ano
df_edate = df_edate.sort_values(by=['Ano'])

In [26]:
df_edate.head(10)

Unnamed: 0,Ano,quantidade
0,0,425
186,9,2
202,83,1
215,87,1
218,88,1
208,95,1
210,1521,1
217,1694,1
216,1741,1
214,1767,1


In [27]:
df_edate.tail(10)

Unnamed: 0,Ano,quantidade
188,2016,2
181,2017,3
180,2018,3
206,2019,1
207,2020,1
193,2021,2
179,2022,3
196,2023,2
205,4949,1
201,9924,1


In [28]:
# excluir registros com ano entre 2 e 999 e acima de 2023
df_edate = df_edate[(df_edate['Ano'] < 1) | (df_edate['Ano'] > 999)]
df_edate = df_edate[df_edate['Ano'] < 2023]

In [30]:
# criar scatter plot com os dados de datas de publicação com as datas de publicação no eixo Y
fig3 = px.scatter(df_edate, x='Ano', y='quantidade', title='Datas de término de publicação')
# adcionar mais anos no eixo x
fig3.update_xaxes(range=[1500, 2023])
# limitar eixo y a 200
fig3.update_yaxes(range=[0, 200])
fig3.show()
# salvar gráfico
fig3.write_image('./charts/fig3.png')

In [34]:
# criar um scatter plot com os dados de datas de início e fim de publicação
fig4 = px.scatter(df_bdate, x='Ano', y='quantidade', title='Datas de início e término de publicação')
# adicionar df_edate ao gráfico
fig4.add_scatter(x=df_edate['Ano'], y=df_edate['quantidade'], mode='lines', name='Término de publicação')
# adcionar mais anos no eixo x
fig4.update_xaxes(range=[1500, 2023])
# limitar eixo y entre 0 e 200
fig4.update_yaxes(range=[0, 200])
# mostrar legenda para df_bdate
fig4.update_layout(legend=dict(yanchor="top", y=0.99, xanchor="left", x=0.01))
fig4.show()
# salvar gráfico
fig4.write_image('./charts/fig4.png')


Vamos avaliar quantos registros possuem o mesmo ano de início e fim:

In [35]:
# contar quando início e fim da publicação são iguais
df[df['start_year'] == df['end_year']].count()

title          5694
subtitle       2874
place          5626
period         5274
editor         4155
periodicity    4507
language       5694
start_year     5694
end_year       5694
dtype: int64

Em 5694 registros, o ano de início da publicação é o mesmo do ano de término, indicando que 7265 periódicos que possuem data registrada no *dataframe*, apenas 1569 possuem data de início e término diferentes. Isso corresponde a uma porcentagem de 21,6% dos periódicos.

Vamos criar uma nova coluna contando a quantidade de anos presentes no acervo de cada periódico:

In [36]:
# calcular a diferença entre início e fim da publicação
df['diff'] = df['end_year'] - df['start_year']


In [37]:
# listar periódicos com maiores diferenças entre início e fim da publicação
df.sort_values(by='diff', ascending=False).head(20)

Unnamed: 0,title,subtitle,place,period,editor,periodicity,language,start_year,end_year,diff
5880,O Povo,orgam do Partido Popular,"Pitangui, MG",19924,,Semanal,não definido,1992,9924,7932
4303,O Abaete : jornal noticioso a servico do progr...,,"Abaeté, MG",1948-4949,[s.n.],,por,1948,4949,3001
2489,Diário de Pernambuco,,"Recife, PE",1825-1984,Diário de Pernambuco,Diária,não definido,1825,1984,159
2286,Correio Official de Goyaz,,"Goiás, GO",1837-1943,Typ. Provincial,Desconhecida,por,1837,1943,106
3659,Jornal do Commercio,,"Manaus, AM",1904-2007,Empresa Jornal do Commercio,Diária,não definido,1904,2007,103
3473,Imprensa e Lei,,Lisboa [Portugal],1854-1956,,Indeterminada,por,1854,1956,102
1307,Almanak do Ministerio da Marinha,,"Rio de Janeiro, RJ",1858-1960,,Anual,por,1858,1960,102
6990,Revista do Clube de Engenharia,,"Rio de Janeiro, RJ",1887-1989,O Clube,,por,1887,1989,102
770,A Nova Era,,"Aracaju, SE",1889-1990,[s.n.],Desconhecida,por,1889,1990,101
2597,Documentos,Acta dos festejos civicos com que o povo de So...,"Sobral, CE",1822-1922,,,não definido,1822,1922,100


Percebemos que os dois primeiro registros possuem contagem acima de 250 anos, o que representa um erro no dataframe. Na análise a seguir, vamos levar em conta apenas registros com no máximo 500 anos de publicação.

Vamos visualizar os periódicos com mais de 50 anos de publicação presentes no acervo:

In [42]:
# a coluna diff deve ter entre 50 e 200 anos
df_diff = df[(df['diff'] > 50) & (df['diff'] < 500)]
# organizar por diferença
df_diff = df_diff.sort_values(by='diff', ascending=False)
# excluir linhas com títulos, locais e anos de início iguais
df_diff = df_diff.drop_duplicates(subset=['title', 'place', 'start_year'], keep='first')


In [46]:
# criar gráfico
fig5 = px.bar(df_diff, x='title', y='diff', title='Periódicos com maiores diferenças entre início e fim da publicação', text='place')
# formatar eixo x
fig5.update_xaxes(tickangle=45, tickfont=dict(size=8))
#aumentar tamanho do gráfico
fig5.update_layout(height=800, width=1200)
fig5.show()
# salvar gráfico
fig5.write_image('./charts/fig5.png')

In [44]:
# contar 'place' iguais no df_diff com mais de 10 anos de diferença
df_diff[df_diff['diff'] > 2]['place'].value_counts()

Rio de Janeiro, RJ                   21
Recife, PE                            3
Juiz de Fora, MG                      2
São Paulo, SP                         2
Blumenau, SC                          2
Manaus, AM                            2
Curitiba, PR                          1
Porto Alegre, RS                      1
Olinda, PE                            1
Rio Grande, RS                        1
Laguna, SC                            1
Brasília, DF                          1
Paraná                                1
Lages, SC                             1
São Leopoldo, RS                      1
Desterro [Florianópolis, SC]          1
São Paulo                             1
São Luis, MA                          1
Santa Catarina                        1
Pará, PA                              1
Leopoldina, MG                        1
Goiás, GO                             1
Uberaba, MG                           1
Garibaldi, RS                         1
Canoinhas, SC                         1


In [49]:
# criar gráfico com locais mais de 10 anos de diferença
df_diff_place = df_diff[df_diff['diff'] > 10]['place'].value_counts().rename_axis('Local').reset_index(name='quantidade')
# organizar por quantidade
df_diff_place = df_diff_place.sort_values(by='quantidade', ascending=False)
# criar gráfico
fig6 = px.bar(df_diff_place, x='Local', y='quantidade', title='Locais com maior número de publicações com mais de 10 anos de diferença entre início e fim da publicação', text='Local')
# formatar eixo x
fig6.update_xaxes(tickangle=45, tickfont=dict(size=8))
# aumentar tamanho do gráfico
fig6.update_layout(height=800, width=1200)
fig6.show()
# salvar gráfico
fig6.write_image('./charts/fig6.png')

Existem 21 periódicos com mais de 10 anos de publicação na cidade do Rio de Janeiro. Em seguida, temos Recife, com 3 periódicos, seguido de São Paulo, Juiz de Fora, Blumenau e Manaus, com 2 periódicos cada. Temos 27 cidades com 1 periódico cada na sequência.

### Periodicidade

In [50]:
# contar periodicidade
df['periodicity'].value_counts()

Desconhecida                  2085
Semanal                       1505
Mensal                         425
Indeterminada                  354
Quinzenal                      308
Diária                         258
2 vezes por semana             257
Anual                          170
Irregular                       94
2 vezes por mês                 72
Bissemanal                      61
3 vezes por semana              59
3 vezes por mês                 31
Número único                    29
Duas vezes por semana           28
Trimestral                      28
Bimensal                        26
Bimestral                       17
4 vezes por mes                  8
semanal: nos domingos            8
Varia                            8
Bi-mensal                        7
Trimensal                        7
Semisemanal                      5
Semestral                        5
Três vezes por semana            4
6 vezes por mês                  3
sábados                          3
N. especial         

É possível perceber que os dados referentes à periodicidade dos periódicos também não estão padronizados. Vamos minimizar as diferenças entre as formas de registro dos dados para facilitar a análise.

In [53]:
# padronizar valores na coluna 'periodicity'
# substituir 2 por Duas
df['periodicity'] = df['periodicity'].replace(to_replace=r'2', value='Duas', regex=True)
# substituir 3 por Três
df['periodicity'] = df['periodicity'].replace(to_replace=r'3', value='Três', regex=True)
# substituir 4 por Quatro
df['periodicity'] = df['periodicity'].replace(to_replace=r'4', value='Quatro', regex=True)
# substituir ' mes' por ' mês' 
df['periodicity'] = df['periodicity'].replace(to_replace=r' mes', value=' mês', regex=True)
# substituir Bi-mensal por Bimensal
df['periodicity'] = df['periodicity'].replace(to_replace=r'Bi-mensal', value='Bimensal', regex=True)
# substituir ' veses' por ' vezes'
df['periodicity'] = df['periodicity'].replace(to_replace=r' veses', value=' vezes', regex=True)
# colocar todos os valores em minúsculo
df['periodicity'] = df['periodicity'].str.lower()

Agora, vejamos a porcentagem de registros com periodicidade definida:

In [54]:
# contar porcentagem de periodicidade
df['periodicity'].value_counts(normalize=True)

desconhecida                     0.353330
semanal                          0.255042
mensal                           0.072022
indeterminada                    0.059990
quinzenal                        0.052195
duas vezes por semana            0.048297
diária                           0.043721
anual                            0.028809
irregular                        0.015930
duas vezes por mês               0.012371
três vezes por semana            0.010676
bissemanal                       0.010337
bimensal                         0.005592
três vezes por mês               0.005253
número único                     0.004914
trimestral                       0.004745
bimestral                        0.002881
varia                            0.001356
semanal: nos domingos            0.001356
quatro vezes por mês             0.001356
trimensal                        0.001186
semisemanal                      0.000847
semestral                        0.000847
6 vezes por mês                  0

E visualizar os dados com um gráfico de pizza:

In [55]:
# Criar dataframe com valores de periodicidade maiores que 1%
df_periodicity = df['periodicity'].value_counts(normalize=True)
df_periodicity = df_periodicity[df_periodicity > 0.01]


In [67]:
# gráfico de pizza
fig7 = px.pie(df_periodicity, values='periodicity', names=df_periodicity.index, title='Porcentagem de periodicidade')
fig7.show()
# salvar gráfico
fig7.write_image('./charts/fig7.png')

Se excluirmos os registros sem periodicidade conhecida (que correspondem a 36,7%), percebemos que parte significativa do acervo, 41.9%, é composto por periódicos semanais. Em seguida, representando 11.8% do acervo temos periódicos mensais. Periódicos diários correspondem a apenas 7.17% do acervo.

Caso consideremos todo o acervo, incluindo periódicos com periodicidade desconhecida, as publicações semanais correspondem a 26.5%, mensais a 7.48% e diárias a 4.54%.

### Locais de publicação

In [57]:
# contar locais de publicação
df['place'].value_counts()

Rio de Janeiro, RJ      2185
São Paulo, SP            294
Florianópolis, SC        239
Recife, PE               207
Bahia [Salvador, BA]     192
                        ... 
Lageado, MT                1
Joinvelle                  1
Tiradentes, MG             1
Duque de Caxias, RJ        1
Urussanga                  1
Name: place, Length: 672, dtype: int64

Vamos contar quantos registros não possuem local de publicação definido e em  seguida, incluir o valor 'indeterminado' para esses registros:

In [58]:
# contar place is null
df[df['place'].isnull()].count()

title          77
subtitle       39
place           0
period         42
editor         20
periodicity    50
language       77
start_year     77
end_year       77
diff           77
dtype: int64

In [59]:
# adicionar 'indeterminado' nos locais nulos
df['place'] = df['place'].fillna('indeterminado')

Vamos criar um dataframe com os dados de cidades

In [65]:
# criar df com locais
df_place = df['place'].value_counts()
df_place = df_place.rename_axis('Cidades').reset_index(name='Quantidade')
# colocar Local em minúsculo
df_place['Cidades'] = df_place['Cidades'].str.lower()
# substituir [s.l.] por indeterminado
df_place['Cidades'] = df_place['Cidades'].replace(to_replace=r'\[s.l.\]', value='indeterminado', regex=True)
df_place

Unnamed: 0,Cidades,Quantidade
0,"rio de janeiro, rj",2185
1,"são paulo, sp",294
2,"florianópolis, sc",239
3,"recife, pe",207
4,"bahia [salvador, ba]",192
...,...,...
668,"santa cruz do sul ,rs",1
669,"demétrio ribeiro [joão neiva, es]",1
670,jaguarana,1
671,"águas de sao pedro, sp",1


In [70]:
# criar gráfico de barras com os 20 locais com mais registros
fig8 = px.bar(df_place.head(20), x='Cidades', y='Quantidade', title=' 20 Cidades com mais registros', text='Cidades')
# formatar eixo x
fig8.update_xaxes(tickangle=45, tickfont=dict(size=8))
# aumentar tamanho do gráfico
fig8.update_layout(height=800, width=1200)
fig8.show()
# salvar gráfico
fig8.write_image('./charts/fig8.png')

Vamos transformar esses dados em porcentagem e considerar apenas cidades com mais de 1% do total de registros:

In [83]:
#Criar gráfico de pizza com a porcentagem de periodicidade acima de 0.01
df_place = df['place'].value_counts(normalize=True)
df_place = df_place[df_place > 0.01]
df_place = df_place.rename_axis('Cidades').reset_index(name='Porcentagem')
# transformar porcentagem em número
df_place['Porcentagem'] = df_place['Porcentagem'] * 100
# mostrar apenas 3 casas decimais
df_place['Porcentagem'] = df_place['Porcentagem'].round(2)
df_place


Unnamed: 0,Cidades,Porcentagem
0,"Rio de Janeiro, RJ",28.43
1,"São Paulo, SP",3.83
2,"Florianópolis, SC",3.11
3,"Recife, PE",2.69
4,"Bahia [Salvador, BA]",2.5
5,"Maceió, AL",2.41
6,"Curitiba, PR",1.85
7,"Manaus, AM",1.69
8,[S.l.],1.68
9,"Aracaju, SE",1.55


In [94]:
# gráfico de pizza
fig9 = px.pie(df_place, values='Porcentagem', names=df_place['Cidades'], title='Cidades com mais de 1% dos registros')
# valor absoluto no gráfico de pizza ao invés de porcentagem e acrescentar o caractere %
fig9.update_traces(textinfo='value', textfont_size=12, texttemplate='%{value:.2f}%')
fig9.show()
# salvar gráfico
fig9.write_image('./charts/fig9.png')

A cidade do Rio de Janeiro corresponde a 28,43% do total e 47,1% entre as cidades com pelo menos 1%. A cidade de São Paulo vem em seguida, mas com apenas 3,82% do total e 6,6% entre as cidades com pelo menos 1%. A diferença entre São Paulo e as seguintes é pequena: Florianópolis com 3,1%; Recife com 2,69%; Salvador com 2,49% e Maceió com 2,40%

In [96]:
# criar coluna com estado, pegando apenas o padrão ', dd' na coluna 'Local'
df_place['Estado'] = df_place['Cidades'].str.extract(r',\s(\w\w)')
# remover ', ' da coluna 'Estado'
df_place['Estado'] = df_place['Estado'].str.replace(', ', '')
#colocar estado em maiúsculo
df_place['Estado'] = df_place['Estado'].str.upper()
df_place


Unnamed: 0,Cidades,Porcentagem,Estado
0,"Rio de Janeiro, RJ",28.43,RJ
1,"São Paulo, SP",3.83,SP
2,"Florianópolis, SC",3.11,SC
3,"Recife, PE",2.69,PE
4,"Bahia [Salvador, BA]",2.5,BA
5,"Maceió, AL",2.41,AL
6,"Curitiba, PR",1.85,PR
7,"Manaus, AM",1.69,AM
8,[S.l.],1.68,
9,"Aracaju, SE",1.55,SE


In [97]:
# criar dataframe com os estados e a quantidade de registros
df_place_state = df_place['Estado'].value_counts().rename_axis('Estado').reset_index(name='quantidade de cidades')
df_place_state

Unnamed: 0,Estado,quantidade de cidades
0,SC,2
1,RJ,1
2,SP,1
3,PE,1
4,BA,1
5,AL,1
6,PR,1
7,AM,1
8,SE,1
9,MA,1


In [98]:
# grafico de barras com a quantidade de registros por estado
fig9 = px.bar(df_place_state, x='Estado', y='quantidade de cidades', title='Quantidade de cidades por estado', text='quantidade de cidades')
# formatar eixo x
fig9.update_xaxes(tickangle=45, tickfont=dict(size=8))
# aumentar tamanho do gráfico
fig9.update_layout(height=800, width=1200)
fig9.show()


### Editoras

:warning: ainda é preciso limpar os dados da coluna 'editor'

In [None]:
# contar editor
df['editor'].value_counts()