# Estatísticas de domínios comuns no censo de Diários Oficiais

Agora temos uma funcionalidade no site do [Censo](https://censo.ok.org.br/) que permite baixar os dados do mapeamento.
A partir desses dados, podemos encontrar o domínio base dos diários oficiais e identificar
potenciais fontes para os _spiders_ do Querido Diário.

Para reproduzir esse notebook:
1. Acesse a página do [andamento do censo](https://censo.ok.org.br/andamento/#view) e faça o download dos dados
2. Coloque o arquivo na pasta `notebooks/`

In [1]:
from urllib.parse import urlparse
import pandas as pd


pd.set_option('display.max_rows', None)
df = pd.read_csv('base_mapeamento.csv', sep=';')

In [2]:
df.head()

Unnamed: 0,municipio,IBGE,IBGE7,UF,regiao,populacao_2010,eh_capital,fonte_1,fonte_2,fonte_3,fonte_4,is_online,data_inicial,tipo_arquivo,validacao,navegacao,observacoes
0,Anadia (AL),270020.0,2700201.0,AL,Região Nordeste,17424.0,False,http://www.diariomunicipal.com.br/ama/pesquisar,,,,1.0,,PDF texto,True,,O Diário Oficial de Anadia-AL está no portal d...
1,Arapiraca (AL),270030.0,2700300.0,AL,Região Nordeste,214006.0,False,http://www.diariomunicipal.com.br/ama/pesquisar,,,,1.0,,PDF texto,True,,"Tal qual outros municípios alagoanos, o DO de ..."
2,Atalaia (AL),270040.0,2700409.0,AL,Região Nordeste,44322.0,False,http://www.diariomunicipal.com.br/ama/pesquisar,,,,1.0,,PDF texto,True,,O Diário Oficial de Atalaia-AL está no portal ...
3,Batalha (AL),270070.0,2700706.0,AL,Região Nordeste,17076.0,False,http://www.diariomunicipal.com.br/ama/pesquisar,,,,1.0,,PDF texto,True,,O Diário Oficial de Batalha-AL está no portal ...
4,Belém (AL),270080.0,2700805.0,AL,Região Nordeste,4551.0,False,http://www.diariomunicipal.com.br/ama/pesquisa...,,,,1.0,,,True,,O Diário Oficial de Belém-AL está no portal do...


In [3]:
df = df[df['fonte_1'].notna()]
df['dominio_base'] = df['fonte_1'].apply(lambda url: urlparse(url).netloc)

## Domínios com maior população acumulada

In [4]:
dominios_por_populacao = df.groupby(["dominio_base"])['populacao_2010'].sum()
dominios_por_populacao.reset_index().sort_values(['populacao_2010'], ascending=False).set_index(['dominio_base'])

Unnamed: 0_level_0,populacao_2010
dominio_base,Unnamed: 1_level_1
www.docidadesp.imprensaoficial.com.br,11253503.0
doweb.rio.rj.gov.br,6320446.0
www.buriti.df.gov.br,2570160.0
pesquisa.doe.seplag.ce.gov.br,2452185.0
portal6.pbh.gov.br,2375151.0
imprensaoficialmunicipal.com.br,2125161.0
legisladocexterno.curitiba.pr.gov.br,1751907.0
dome.recife.pe.gov.br,1537704.0
www2.portoalegre.rs.gov.br,1409351.0
www.goiania.go.gov.br,1302001.0


## População por domínios por região

In [5]:
dominios_por_populacao = df.groupby(["dominio_base", "regiao"])['populacao_2010'].sum()
dominios_por_populacao.reset_index().sort_values(['populacao_2010'], ascending=False).set_index(['regiao'])

Unnamed: 0_level_0,dominio_base,populacao_2010
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1
Região Sudeste,www.docidadesp.imprensaoficial.com.br,11253503.0
Região Sudeste,doweb.rio.rj.gov.br,6320446.0
Região Centro-Oeste,www.buriti.df.gov.br,2570160.0
Região Nordeste,pesquisa.doe.seplag.ce.gov.br,2452185.0
Região Sudeste,portal6.pbh.gov.br,2375151.0
Região Sudeste,imprensaoficialmunicipal.com.br,2091433.0
Região Sul,legisladocexterno.curitiba.pr.gov.br,1751907.0
Região Nordeste,dome.recife.pe.gov.br,1537704.0
Região Sul,www2.portoalegre.rs.gov.br,1409351.0
Região Centro-Oeste,www.goiania.go.gov.br,1302001.0


## População por domínios por estado

In [6]:
dominios_por_populacao = df.groupby(["dominio_base", "UF"])['populacao_2010'].sum()
dominios_por_populacao.reset_index().sort_values(['populacao_2010'], ascending=False).set_index(['UF'])

Unnamed: 0_level_0,dominio_base,populacao_2010
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
SP,www.docidadesp.imprensaoficial.com.br,11253503.0
RJ,doweb.rio.rj.gov.br,6320446.0
DF,www.buriti.df.gov.br,2570160.0
CE,pesquisa.doe.seplag.ce.gov.br,2452185.0
MG,portal6.pbh.gov.br,2375151.0
SP,imprensaoficialmunicipal.com.br,2083272.0
PR,legisladocexterno.curitiba.pr.gov.br,1751907.0
PE,dome.recife.pe.gov.br,1537704.0
RS,www2.portoalegre.rs.gov.br,1409351.0
GO,www.goiania.go.gov.br,1302001.0


In [7]:
df["dominio_base"].describe()

count                                 371
unique                                197
top       imprensaoficialmunicipal.com.br
freq                                   85
Name: dominio_base, dtype: object

## Número de cidades com o mesmo domínio

In [9]:
df.value_counts(subset=["dominio_base", "regiao", "UF"], ascending=False)[:10]

dominio_base                         regiao               UF
imprensaoficialmunicipal.com.br      Região Sudeste       SP    82
diariomunicipal.sc.gov.br            Região Sul           SC    34
doem.org.br                          Região Nordeste      BA    16
www.diariomunicipal.sc.gov.br        Região Sul           SC     9
www.diariomunicipal.com.br           Região Nordeste      AL     6
                                                          PE     5
plenussistemas.dioenet.com.br        Região Sul           PR     3
www.imprensaoficialmunicipal.com.br  Região Sudeste       SP     3
www.indap.org.br                     Região Nordeste      BA     3
                                     Região Centro-Oeste  GO     2
dtype: int64