Este notebook √© um vers√£o da an√°lise deste artigo
http://trasel.com.br/usando-sql-lite-para-encontrar-os-desertos-de-noticias-no-brasil/
usando Pandas.

Vamos utilizar alguns m√≥dulos do Python para essa an√°lise.
Estes vem da biblioteca padr√£o (ou seja, n√£o necessitam ser instalados):

In [1]:
import ftplib
import os
import sqlite3
import zipfile

Os dois pr√≥ximos pacotes necessitam ser instalados, mas s√£o muito populares para an√°lise de dados.
Para instal√°-los, execute
```bash
$ pip install pandas requests xlrd
```

ou, se voc√™ estiver usando anaconda e variantes,

```bash
$ conda install pandas requests xlrd
```

(`xlrd` √© um pacote utilizado pelo `pandas` para abrir planilhas do Excel)

In [2]:
import pandas as pd
import requests

## Baixando os dados

Precisamos baixar dois arquivos:
- O banco de dados do Atlas da Not√≠cia: https://github.com/voltdatalab/Atlas-Analytics/blob/master/db/atlas.db
- A planilha de todos os munic√≠pios brasileiros fornecida pelo IBGE: ftp://geoftp.ibge.gov.br/organizacao_do_territorio/estrutura_territorial/divisao_territorial/2015/dtb_2015.zip

O banco de dados pode ser baixado usando `requests` (√∫til para lidar com o que est√° dispon√≠vel via protocolo `HTTP(S)`),
e vamos tamb√©m fazer uma checagem para verificar se j√° temos o arquivo baixado (e assim evitar baixar ele toda vez que reexecutarmos o notebook):

In [3]:
if not os.path.exists(os.path.join('inputs', 'atlas.db')):
    os.makedirs('inputs', exist_ok=True)
    with requests.get("https://github.com/voltdatalab/Atlas-Analytics/raw/master/db/atlas.db") as r:
        with open('inputs/atlas.db', 'wb') as f:
            f.write(r.content)

O banco de dados est√° dispon√≠vel agora para uso em `inputs/atlas.db`.

A planilha do IBGE √© um pouco mais complicada,
j√° que √© dispon√≠vel via protocolo `FTP`,
menos utilizado hoje em dia.
Vamos tamb√©m aproveitar para extrair a planilha do arquivo zipado.

In [4]:
if not os.path.exists(os.path.join('inputs', 'dtb_2015', 'RELATORIO_DTB_BRASIL_MUNICIPIO.xls')):
    municipio_zip = os.path.join('inputs', 'dtb_2015.zip')
    ftp = ftplib.FTP("geoftp.ibge.gov.br")
    ftp.login()
    with open(municipio_zip, 'wb') as f:
        ftp.cwd("organizacao_do_territorio/estrutura_territorial/divisao_territorial/2015")
        ftp.retrbinary("RETR dtb_2015.zip", f.write)
    ftp.close()

    with zipfile.ZipFile(municipio_zip) as municipios:
        municipios.extract('dtb_2015/RELATORIO_DTB_BRASIL_MUNICIPIO.xls', path='inputs')

A planilha est√° dispon√≠vel para uso em `inputs/dtb_2015/RELATORIO_DTB_BRASIL_MUNICIPIO.xls`.

Vamos carregar a planilha usando `pandas`,
que facilita a manipula√ß√£o de dados tabulares (chamados de `DataFrame`, similar aos dispon√≠veis em `R`).
O par√¢metro `index_col` permite que usemos a coluna `Nome_Munic√≠pio` como √≠ndice,
e tamb√©m vamos aproveitar para converter os nomes para letras mai√∫sculas:

In [5]:
municipios_ibge = pd.read_excel('inputs/dtb_2015/RELATORIO_DTB_BRASIL_MUNICIPIO.xls',
                                index_col="Nome_Munic√≠pio")
municipios_ibge.index = municipios_ibge.index.str.upper()
municipios_ibge

Unnamed: 0_level_0,UF,Nome_UF,Mesorregi√£o Geogr√°fica,Nome_Mesorregi√£o,Microrregi√£o Geogr√°fica,Nome_Microrregi√£o,Munic√≠pio,C√≥digo Munic√≠pio Completo
Nome_Munic√≠pio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
ALTA FLORESTA D'OESTE,11,Rond√¥nia,2,Leste Rondoniense,6,Cacoal,15,1100015
ALTO ALEGRE DOS PARECIS,11,Rond√¥nia,2,Leste Rondoniense,6,Cacoal,379,1100379
ALTO PARA√çSO,11,Rond√¥nia,2,Leste Rondoniense,3,Ariquemes,403,1100403
ALVORADA D'OESTE,11,Rond√¥nia,2,Leste Rondoniense,5,Alvorada D'Oeste,346,1100346
ARIQUEMES,11,Rond√¥nia,2,Leste Rondoniense,3,Ariquemes,23,1100023
BURITIS,11,Rond√¥nia,1,Madeira-Guapor√©,1,Porto Velho,452,1100452
CABIXI,11,Rond√¥nia,2,Leste Rondoniense,8,Colorado do Oeste,31,1100031
CACAUL√ÇNDIA,11,Rond√¥nia,2,Leste Rondoniense,3,Ariquemes,601,1100601
CACOAL,11,Rond√¥nia,2,Leste Rondoniense,6,Cacoal,49,1100049
CAMPO NOVO DE ROND√îNIA,11,Rond√¥nia,1,Madeira-Guapor√©,1,Porto Velho,700,1100700


Por padr√£o o `pandas` evita imprimir todos os dados, mas podemos ver que temos 5570 linhas de dados (uma por munic√≠pio).

O pr√≥ximo passo √© carregar o banco de dados do Atlas.
`pandas` permite carregar dados usando SQL,
e nesse caso vamos usar a funcionalidade para ler de um banco de dados SQLite.

In [6]:
cnx = sqlite3.connect('inputs/atlas.db')
atlas = pd.read_sql_query("SELECT * from atlas", cnx, index_col="cidade")
cnx.close()

Existem outras maneiras para carregar esses dados,
mas essa √© a mais simples para `SQLite`. Mais detalhes nos seguintes links:
- https://pandas.pydata.org/pandas-docs/stable/io.html#reading-tables
- https://pandas.pydata.org/pandas-docs/stable/io.html#sqlite-fallback

Finalmente temos nossos dados carregados em dois `DataFrame`: `atlas` e `municipios_ibge`.
Para fazer a opera√ß√£o de `LEFT JOIN` podemos usar o m√©todo `join`, que por padr√£o √© um `LEFT JOIN`.

In [7]:
joined = municipios_ibge.join(atlas)

Como eu sabia que o `LEFT JOIN` √© o padr√£o? Podemos consultar a ajuda do `pandas` para verificar (veja o par√¢metro `how`):

In [8]:
help(atlas.join)

Help on method join in module pandas.core.frame:

join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False) method of pandas.core.frame.DataFrame instance
    Join columns with other DataFrame either on index or on a key
    column. Efficiently Join multiple DataFrame objects by index at once by
    passing a list.
    
    Parameters
    ----------
    other : DataFrame, Series with name field set, or list of DataFrame
        Index should be similar to one of the columns in this one. If a
        Series is passed, its name attribute must be set, and that will be
        used as the column name in the resulting joined DataFrame
    on : column name, tuple/list of column names, or array-like
        Column(s) in the caller to join on the index in other,
        otherwise joins index-on-index. If multiples
        columns given, the passed DataFrame must have a MultiIndex. Can
        pass an array as the join key if not already contained in the
        calling DataFrame. Lik

Outro m√©todo √∫til de `pandas` √© `head`,
para visualizar rapidamente os dados sem imprimir todas as linhas da tabela:

In [9]:
joined.head(5)

Unnamed: 0,UF,Nome_UF,Mesorregi√£o Geogr√°fica,Nome_Mesorregi√£o,Microrregi√£o Geogr√°fica,Nome_Microrregi√£o,Munic√≠pio,C√≥digo Munic√≠pio Completo,id,meio,nome,regiao_metropolitana,uf,estado,regiao,pais,fonte
ABADIA DE GOI√ÅS,52,Goi√°s,3,Centro Goiano,10,Goi√¢nia,50,5200050,,,,,,,,,
ABADIA DOS DOURADOS,31,Minas Gerais,5,Tri√¢ngulo Mineiro/Alto Parana√≠ba,19,Patroc√≠nio,104,3100104,,,,,,,,,
ABADI√ÇNIA,52,Goi√°s,4,Leste Goiano,12,Entorno de Bras√≠lia,100,5200100,,,,,,,,,
ABAETETUBA,15,Par√°,4,Nordeste Paraense,11,Camet√°,107,1500107,,,,,,,,,
ABAET√â,31,Minas Gerais,6,Central Mineira,24,Tr√™s Marias,203,3100203,id808,Jornal,NOSSO JORNAL,n/d,MG,Minas Gerais,Sudeste,Brasil,Secom/PR


Mas s√≥ de visualizar os dados ainda n√£o √© claro se temos cidades que n√£o tem ve√≠culos de comunica√ß√£o.
Uma pista que temos √© que vemos campos como `id`, `meio` e `nome` com conte√∫do `NaN`,
que significa `Not a Number` mas tamb√©m indica que ao juntar os dados eles n√£o puderam ser preenchidos porque estamos indispon√≠veis na fonte original (nesse caso, o Atlas).
No caso do post original era um campo `NULL`,
e por isso havia uma instru√ß√£o `WHERE atlas.cidade IS NULL;` no fim do comando.

Para gerar uma lista de todos os munic√≠pios sem ve√≠culos de comunica√ß√£o podemos achar todos os locais da tabela onde temos o valor `NaN`.



In [10]:
missing = joined.loc[joined.isna().any(1)]['Nome_UF']
missing

ABADIA DE GOI√ÅS                         Goi√°s
ABADIA DOS DOURADOS              Minas Gerais
ABADI√ÇNIA                               Goi√°s
ABAETETUBA                               Par√°
ABAIARA                                 Cear√°
ABAR√â                                   Bahia
ABATI√Å                                 Paran√°
ABA√çRA                                  Bahia
ABDON BATISTA                  Santa Catarina
ABEL FIGUEIREDO                          Par√°
ABREU E LIMA                       Pernambuco
ABREUL√ÇNDIA                         Tocantins
ACAIACA                          Minas Gerais
ACAJUTIBA                               Bahia
ACARAPE                                 Cear√°
ACARA√ö                                  Cear√°
ACARI                     Rio Grande do Norte
ACAR√Å                                    Par√°
ACAU√É                                   Piau√≠
ACEGU√Å                      Rio Grande do Sul
ACORIZAL                          Mato Grosso
ACREL√ÇNDIA   

E nesse ponto temos uma lista com o mesmo tamanho da lista original do post.
Yay!
Podemos salv√°-la para um CSV usando o m√©todo `.to_csv()`:

In [11]:
missing.to_csv("output.csv")

E eis um link para baixar o CSV gerado: [link](output.csv)

## E se usarmos RIGHT JOIN?

No post original h√° uma discuss√£o sobre os diferentes tipos de `JOIN` dispon√≠veis em SQL.
No caso anterior foi usado `LEFT JOIN`,
mas o que acontece se usarmos um `RIGHT JOIN`?

In [12]:
joined = municipios_ibge.join(atlas, how='right')

In [13]:
missing = joined.loc[joined.isna().any(1)].index
missing.unique()

Index(['ALVORADA D`OESTE', 'AMAMBA√ç', 'ANTONIO PRADO', 'BIGUA√á√ö',
       'CAMPOS DE JORD√ÉO', 'ELIAS FAUSANTO', 'ESPIG√ÉO D`OESTE',
       'ESTANCIA VELHA', 'GETULIO VARGAS', 'HERVAL D`OESTE', 'HERVAL D¬¥OESTE',
       'IJUI', 'LUIS EDUARDO MAGALH√ÉES', 'MACAPA', 'MOGI-MIRIM',
       'NOVA VEN√äCIA', 'N√ÉO INFORMADO NO SITE DA ANJ', 'PARATI',
       'PASANTOS BONS', 'PI√áARRAS', 'POXOR√âO', 'RESTINGA SECA', 'REVALDO',
       'SANTA BARBARA DO SUL', 'SANTA B√ÅRBARA D`OESTE',
       'SANTANA DO LIVRAMENTO', 'SANTO ANTONIO DA PATRULHA',
       'SANTO ANTONIO DAS MISS√ïES', 'SANTO AUGUSANTO', 'SANTO CRISANTO',
       'SERAFINA CORREIA', 'S√ÉO JERONIMO', 'TEOT√îNIA', '√ÅGUAS CLARAS'],
      dtype='object')

Nesse caso temos uma lista das cidades que est√£o presentes no Atlas,
mas n√£o est√£o presentes na planilha do IBGE.
De cara um valor se destaca: `N√ÉO INFORMADO NO SITE DA ANJ`,
que √© bastante autodescritivo.
Mas os outros nomes parecem v√°lidos,
ent√£o o que est√° acontecendo?

Muitos tem a ver com crase e acento agudo sendo usados como aspas simples (vide 'HERVAL D`OESTE' e 'HERVAL D¬¥OESTE'):

In [14]:
municipios_ibge[municipios_ibge.index.str.contains("HERVAL D")]

Unnamed: 0_level_0,UF,Nome_UF,Mesorregi√£o Geogr√°fica,Nome_Mesorregi√£o,Microrregi√£o Geogr√°fica,Nome_Microrregi√£o,Munic√≠pio,C√≥digo Munic√≠pio Completo
Nome_Munic√≠pio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HERVAL D'OESTE,42,Santa Catarina,1,Oeste Catarinense,4,Joa√ßaba,6702,4206702


Dois casos espec√≠ficos me chamaram bastante a aten√ß√£o: `'SANTO AUGUSANTO'` e `'SANTO CRISANTO'`.
Suspeito que deveriam ser `Santo Augusto` e `Santo Cristo`,
duas cidades no interior do RS (e pr√≥ximas da minha cidade natal).
Vamos primeiro conferir o que o Atlas diz sobre 'SANTO AUGUSANTO':

In [15]:
atlas.loc["SANTO AUGUSANTO"]

id                                 id5310
meio                               Jornal
nome                            O CELEIRO
regiao_metropolitana                  n/d
uf                                     RS
estado                  Rio Grande do Sul
regiao                                Sul
pais                               Brasil
fonte                           Adjori-Rs
Name: SANTO AUGUSANTO, dtype: object

["O Celeiro"](http://www.jornaloceleiro.com.br/) realmente √© um jornal da cidade de Santo Augusto - RS.
E a entrada correta no Atlas deveria ser com esse munic√≠pio:

In [16]:
municipios_ibge.loc["SANTO AUGUSTO"]

UF                                               43
Nome_UF                           Rio Grande do Sul
Mesorregi√£o Geogr√°fica                            1
Nome_Mesorregi√£o             Noroeste Rio-grandense
Microrregi√£o Geogr√°fica                           8
Nome_Microrregi√£o                              Iju√≠
Munic√≠pio                                     17806
C√≥digo Munic√≠pio Completo                   4317806
Name: SANTO AUGUSTO, dtype: object

Do mesmo modo, √© o que acontece com `SANTO CRISANTO` e `SANTO CRISTO`:

In [17]:
atlas.loc[atlas.index.str.contains("CRISANTO")]

Unnamed: 0_level_0,id,meio,nome,regiao_metropolitana,uf,estado,regiao,pais,fonte
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
SANTO CRISANTO,id5311,Jornal,CORREIO SEMANAL,n/d,RS,Rio Grande do Sul,Sul,Brasil,Adjori-Rs
SANTO CRISANTO,id5312,Jornal,TRIBUNA LIVRE,n/d,RS,Rio Grande do Sul,Sul,Brasil,Adjori-Rs


In [18]:
municipios_ibge.loc["SANTO CRISTO"]

UF                                               43
Nome_UF                           Rio Grande do Sul
Mesorregi√£o Geogr√°fica                            1
Nome_Mesorregi√£o             Noroeste Rio-grandense
Microrregi√£o Geogr√°fica                           1
Nome_Microrregi√£o                        Santa Rosa
Munic√≠pio                                     17905
C√≥digo Munic√≠pio Completo                   4317905
Name: SANTO CRISTO, dtype: object

Em ambos os casos a fonte √© a AJDORI-RS.
Podemos encontrar qual a fonte das cidades n√£o encontradas na planilha do IBGE:

In [19]:
fontes = atlas.loc[missing.unique()]['fonte']
fontes.unique()

array(['Secom/PR', 'Adjori-Rs', 'Central de Di√°rios', 'Adjori-SP',
       'Adjori-Sc', 'Atlas da Not√≠cia', 'ANJ'], dtype=object)

E tamb√©m podemos verificar quantos 'erros' vem de cada fonte:

In [20]:
fontes.value_counts()

Secom/PR              33
Adjori-Rs             16
Central de Di√°rios     4
Atlas da Not√≠cia       2
Adjori-SP              1
Adjori-Sc              1
ANJ                    1
Name: fonte, dtype: int64

Idealmente as fontes desses dados deveriam seguir o nome padr√£o do IBGE,
mas as chances dessa base ter sido gerada manualmente √© grande e n√£o √© dif√≠cil ver como um erro de digita√ß√£o pode ter ocorrido.

## Corrigindo os outros problemas (coletivamente üòÄ)

Como isso aqui √© um Jupyter Notebook,
voc√™ pode continuar verificando os outros problemas.
D√° pra fazer o que eu fiz com os exemplos anteriores,
mas a√≠ vai mais um para o caso de `Santana do Livramento` e um jeito de achar partes do nome da cidade:

In [21]:
atlas.loc[atlas.index.str.contains("LIVRAMENTO")]

Unnamed: 0_level_0,id,meio,nome,regiao_metropolitana,uf,estado,regiao,pais,fonte
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
SANTANA DO LIVRAMENTO,id2678,Jornal,A PLATEIA,n/d,RS,Rio Grande do Sul,Sul,Brasil,Secom/PR
SANTANA DO LIVRAMENTO,id5303,Jornal,CORREIO DO PAMPA,n/d,RS,Rio Grande do Sul,Sul,Brasil,Adjori-Rs
SANTANA DO LIVRAMENTO,id5738,Jornal,A PLAT√âIA,n/d,RS,Rio Grande do Sul,Sul,Brasil,Central de Di√°rios


In [22]:
municipios_ibge.loc[municipios_ibge.index.str.contains("LIVRAMENTO")]

Unnamed: 0_level_0,UF,Nome_UF,Mesorregi√£o Geogr√°fica,Nome_Mesorregi√£o,Microrregi√£o Geogr√°fica,Nome_Microrregi√£o,Munic√≠pio,C√≥digo Munic√≠pio Completo
Nome_Munic√≠pio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
LIVRAMENTO,25,Para√≠ba,2,Borborema,10,Cariri Ocidental,8505,2508505
LIVRAMENTO DE NOSSA SENHORA,29,Bahia,6,Centro Sul Baiano,25,Livramento do Brumado,19504,2919504
SANT'ANA DO LIVRAMENTO,43,Rio Grande do Sul,6,Sudoeste Rio-grandense,30,Campanha Central,17103,4317103
NOSSA SENHORA DO LIVRAMENTO,51,Mato Grosso,4,Centro-Sul Mato-grossense,17,Cuiab√°,6109,5106109


Eu tentei procurar no site do Atlas sobre como corrigir os erros na base deles,
mas aparentemente os scripts que geram o banco de dados vem de outro lugar que n√£o est√° no reposit√≥rio de um jeito reproduz√≠vel (s√≥ os dados em CSV est√£o dispon√≠veis) e n√£o pude abrir um pull request no GitHub.
Abri um issue em https://github.com/voltdatalab/Atlas-Analytics/issues
para tentar descobrir qual o melhor jeito de corrigir.