# Técnicas Avançadas de **Captura e Tratamento** de Dados

## Prof. Bernardo Alves Furtado

### MBA em Big Data, Business Analytics e Gestão de Negócios. @**IDP**

3 a 21 agosto  -- 21 horas/aula

---

# Conteúdo (preliminar)
1. Introdução. Armadilhas. Aperitivo. Exercícios. Dados estruturados e não-estruturados.
2. Formatos: tabulares, hierárquicos. Captura. Web. Api. Twitter. Exercícios.
3. Persistência. TXT, JSON, pickle, SQL. Captura internet e XML. Exercícios
4. Captura massiva. Exercícios DOU.
5. Tratamento. Texto. Filtrando texto. NOÇÕES de REGEX. Regular expressions. `import re`
6. Tratamento. Pandas. Pandas. Exercícios. Checagem básica. Missing data. Outliers.
7. Captura, tratamento, análise e resultado. Exercício.

---

In [None]:
print('...')

#  Apresentação

Bernardo Alves Furtado

1. Ipea. CNPq.
2. PhD. Geociências. Economica -- Utrecht. Cedeplar
3. Mestrado em 'Tratamento da Informação Espacial'. Regional Science
4. Spatial Analyst
5. Modeleiro... Python. Agent-based models

[CV Bernardo Alves Furtado](https://sites.google.com/view/bernardo-alves-furtado)

[ResearchGate. Produção acadêmica completa](https://www.researchgate.net/profile/Bernardo-Furtado-2)

[Plano Ensino. Bibliografia. Aulas. Código. Disponíveis GitHub](https://github.com/BAFurtado/MBA_IDP_CapturaTratamento)

**github.com/BAFurtado/MBA_IDP_CapturaTratamento**

@furtadobb

---

In [None]:
print('...')

# Armadilhas

### Source: @lmonasterio -- Coordenador Dados ENAP. Ipea e comentários

### Manchetes possíveis. Caso acreditássemos imediatamente nos dados...

1. "48 pessoas têm o CPF 111.111.111-11: veja se você os conhece"

2. "SILV e SLIVA estão entre os sobrenomes mais comuns no Brasil"

---

1. Qual erro está ocorrendo?

2. Como seria possível identificar esse erro?

In [None]:
print('...')

3. "Descubra o nome da menina de 8 anos que já tem carteira de trabalho."

4. “Turma de 1900 dá as caras” Subtítulo: “Centenas de brasileiros nascidos na virada do século finalmente saem de casa para se vacinar. Conheça suas histórias: ”

E esses dois?
___

In [None]:
print('...')

5. “Escândalo em Minas Gerais! Empresas sem CNPJ conseguem obter licenciamento ambiental”

6. Conheça quem são os brasileiros que nasceram no dia 30 de fevereiro e nunca fizeram aniversário

7. Homem mais alto do mundo é brasileiro. Conheça João da Silv, 18 metros de altura.

8. Brasil já aplicou 120 variantes da Coronavac. Conheça a CornaVAC, CronaVAC, CrnVAC, CoronaButantan, entre outras.

9. "Brasil tem a pessoa vacinada mais idosa do mundo, com 221 anos de idade"

Recomendação: [SHIKIDA, C. D.; MONASTERIO, L.; NERY, P. F. Guia brasileiro de análise de dados: armadilhas & soluções. Brasília, DF: ENAP, 2021.](https://repositorio.enap.gov.br/bitstream/1/6039/1/Guia%20BR%20de%20Ana%CC%81lise%20de%20Dados.pdf)

In [None]:
print('...')

### Exemplos de erros

1. Erros de digitação (typos)
2. Erros de separação: ponto ou vírgula, para números, por exemplo.
3. Informação ausente (missing)
4. Datas. Datas. Datas.

In [None]:
print('...')

---
# Aperitivo I. Ilustração

In [None]:
# To use it on your drive folder... Needs folder changing.
# from google.colab import drive
# drive.mount('/content/drive')

In [None]:
import pandas as pd
exemplo1 = pd.read_csv('https://github.com/BAFurtado/MBA_IDP_CapturaTratamento/blob/main/data/exemplo1.csv?raw=true')

1. Talvez primeiro comando: ```describe```?

In [None]:
exemplo1.describe()

Será que a tabela só tem essa coluna?

In [None]:
exemplo1.columns

In [None]:
exemplo1.head()

Talvez, então, `info()`

In [None]:
exemplo1.info()

### Estratégias? Simples.

1. Dados textuais.

In [None]:
exemplo1.nome = exemplo1.nome.str.lower()
exemplo1

In [None]:
# Be careful. Check that's what you really want
exemplo1.nome = exemplo1.nome.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
exemplo1.nome = exemplo1.nome.str.lower()
exemplo1

**Pandas datetime** is your friend

In [None]:
exemplo1.dob = pd.to_datetime(exemplo1.dob)
exemplo1

In [None]:
exemplo1.info()

**Sobraram ainda <span style="color:blue">DUAS ARMADILHAS</span> nas datas! Quem identifica?**

---

## E para a altura?

In [None]:
#  pandas.DataFrame.loc[condition, column_label] = new_value
exemplo1.loc[exemplo1['altura'] > 3, 'altura'] = exemplo1.altura / 100
exemplo1

---
### <span style="color:red">Não recomendo</span> uso de apply, mas...

Realiza a operação linha por linha.

É custoso em tempo, pois não é vetorizado.

In [None]:
def correct_height(col):
    if col > 3:
        col /= 100
    return col

e2 = pd.read_csv('https://github.com/BAFurtado/MBA_IDP_CapturaTratamento/blob/main/data/exemplo1.csv?raw=true')
e2.altura = e2.altura.apply(correct_height)
e2

---
### Captura 101. Acesso imediato

In [None]:
tabelas = pd.read_html('http://economia.uol.com.br')

**Não tivemos erro. Vamos investigar os achados**

In [None]:
type(tabelas)

In [None]:
len(tabelas)

In [None]:
type(tabelas[0])

In [None]:
tabelas[0].info()

In [None]:
for each in tabelas:
    print(each.head())

---
### Observações I

1. Usando `info()` percebemos que a informação não é numérica: 'object'
2. Notem que para o caso brasileiro, moeda está em real.

In [None]:
tabelas = pd.read_html('https://economia.uol.com.br', decimal=',', thousands='.')
moedas = tabelas[0]
moedas.columns = ['moeda', 'variacao', 'valor_reais']
print(moedas.head())

In [None]:
# source: https://pbpython.com/currency-cleanup.html
def clean_currency(x):
    """ If the value is a string, then remove currency symbol and delimiters
    otherwise, the value is numeric and can be converted
    """
    if isinstance(x, str):
        return x.replace('R$', '').replace('.', '').replace(',', '.')
    return x

In [None]:
moedas.valor_reais = moedas.valor_reais.apply(clean_currency).astype(float)
print(moedas)
print(moedas.valor_reais.dtype)

---
### Observações II

1. O código `str.replace` só pode ser feito uma vez.
2. Note a ordem correta do `replace`!
2. Não é muito robusto, portanto.
3. Idealmente, é preferível ler a tabela já com as opções corretas:
```
sep=';'
decimal=','
thousands='.'
```

---
### Persistência -- caso básico

In [None]:
exemplo1.to_csv('tab_exemplo1_formatada.csv', sep=';', index=False)

---
### Observações III

1. Não há espaços ou acentos no nome, que é explicativo.
2. Formato CSV, com separador ponto-e-vírgula, é relativamente eficiente, acessível para humanos e ...
3. Abre direto no EXCEL brasileiro
4. Sempre eu utilizo `index=False` de modo que colunas de `index` não se acumulem ou abrir
e salvar o arquivo inúmeras vezes...

### Take-away

* **Mantemos o processo completo: da leitura do arquivo na fonte ao tratamento e salvamento**

* **Desse modo, diferentemente de alterações realizadas no EXCEL, por exemplo,
mantivemos a <span style="color:blue">REPRODUCIBILIDADE</span> da análise.
Agregando transparência ao processo.**

---
# Exercício. Básico.

1. Leia a tabela disponível em:

https://github.com/BAFurtado/MBA_IDP_CapturaTratamento/blob/main/data/exemplo2.csv

2. Não se esqueça de adicionar: `?raw=True` ao fim do endereço para importar diretamente a tabela e não a própria página
3. Não se esqueça de importar o `pandas` antes de tentar ler a tabela.
4. Verifique se os nomes das colunas contém espaços.
Ou altere o nome das colunas, ou utilize `tabela['nome da coluna']`.
Nesses casos, `tabela.nome da coluna` não vai funcionar...
5. Padronize os nomes, como feito para o exemplo1
6. Corrija os valores de impostos pagos.
7. Utilize a função `clean_currency()` utilizada acima.
Não se esqueça de aplicar imediatamente após o `apply` a porção `.astype(float)`
8. Utilize o `describe()` ou outro comando nos impostos corrigidos e identifique a média de impostos pagos.
9. Utilize `sum(coluna)` para o valor total de impostos pagos.
10. O que mais é possível notar de estranho neste exemplo simples?
Alguém está familiarizado com o comando `value_counts()` do pandas? Ele pode ajudar a identificar se há valores repetidos (uma de vários jeitos possíveis).


In [None]:
# Valores esperados.
v, tt = '41.364,28', '206.821,40'
print(f'Valor médio impostos pagos: {v}.')
print(f'Total: {tt}.')

---
# Dados estruturados.

### Definição: *"Structured  data  is  data  that  depends  on  a  data  model  and  resides  in  a  fixed  field within a record.* (...)

### *"The  world  isn’t  made  up  of  structured  data,  though"* (CIELEN, MEYSMAN, 2016, p.4)

---
* Note. Nem dados do IBGE. Do censo, por vezes, são assim, assim, tão estruturados...

* https://twitter.com/furtadobb/status/1287762378550108161 (série de erros encontrados ao lidar com dados do Censo 2010)

    Oito erros distintos

* source resultado final: https://www.ipea.gov.br/portal/index.php?option=com_content&view=article&id=37073

---
# Não estruturados

* Depende do contexto
* Pode ser mutável, variável, condicional
* *Natural language*: ... tudo (twitter, notícias, e-mails, qualquer informação textual)

**Observação IV**

Ainda que seus dados sejam estruturados, há necessidade de se manter crítico em relação a eles. Sempre.

---
### Big Data. Data for Data Science.

Provavelmente serão estruturadas, *reliable*:

1. https://Data.gov The home of the US Government’s open data
2. https://data.europa.eu/en The home of the European Commission’s open data
3. https://Data.worldbank.org  Open data initiative from the World Bank
4. https://www.aiddata.org/datasets  Open data for international development
6. https://Open.fda.gov Open data from the US Food and Drug Administration

adapted from (CIELEN, MEYSMAN, 2016)

### Caso brasileiro.

1. https://ftp.ibge.gov.br/
2. https://basedosdados.org/
3. http://www2.datasus.gov.br/DATASUS/index.php
4. https://dados.gov.br/
5. https://www3.bcb.gov.br/sgspub/localizarseries/localizarSeries.do?method=prepararTelaLocalizarSeries

### Recentes.

1. 'https://queridodiario.ok.org.br/api/gazettes/': **Vamos investigar na seção de APIs**
2. https://www.gov.br/receitafederal/pt-br/assuntos/noticias/2021/junho/receita-federal-institui-o-cadastro-imobiliario-brasileiro-2013-cib

---
# Exemplo típico. Censo 2010. IBGE. `read_fwf` fixed-width-format

source: https://github.com/BAFurtado/censo2010/blob/master/read_amostra.py

### Automated
1. Download
2. Unzip
3. Identifica arquivo interesse
4. Identifica variável de interesse
5. Faz a expansão da amostra
6. Salva em arquivo Pandas (estruturado)

### Gerencia erros, omissões, sub-folders

In [None]:
# Na prática
path = r"ftp.ibge.gov.br"
folder = r'Censos/Censo_Demografico_2010/Resultados_Gerais_da_Amostra/Microdados/'
file = 'AC.zip'

# Ilustração real dados com delimitação fixa
# Download e UNZIP

---
# via FTP

In [None]:
import ftplib
import os

In [None]:
ftp = ftplib.FTP(path)
ftp.login('anonymous', 'censo2010')
ftp.cwd(folder)
files = ftp.nlst()
print(files[:5])

In [None]:
with open(os.path.join('data', file), 'wb') as f:
    ftp.retrbinary('RETR ' + file, f.write)

## Usando requests (só como exemplo, não adequado para FTP)

In [None]:
filepath = r'https://ftp.ibge.gov.br/Censos/Censo_Demografico_2010/Resultados_Gerais_da_Amostra/Microdados/AC.zip'

In [None]:
import requests, zipfile, io
# verify = False, não vai ser mais permitido no Chrome, no futuro.
# vantagem, nesse caso, é que o arquivo ZIP já pode ser extraído imediatamente de `response`
response = requests.get(filepath, verify=False)
print(response.ok)

## Unzipping with python

In [None]:
z = zipfile.ZipFile(io.BytesIO(response.content))
z.extractall(r'data/')

## Unzipping quando foi usado o FTP

In [None]:
file_interest = 'data/AC/Amostra_Domicilios_12.txt'
if not os.path.exists(file_interest):
    with zipfile.ZipFile(os.path.join('data', 'AC.zip'), 'r') as zip_ref:
        zip_ref.extractall('data')


![info](https://github.com/BAFurtado/MBA_IDP_CapturaTratamento/blob/main/data/documentacao_IBGE.png?raw=True)

## ARMADILHA GIGANTE

Para o python, a contagem começa em 0. Sempre. Portanto, a posição inicial do IBGE é reduzida de 1

## Faça o teste
![Códigos UFs](https://github.com/BAFurtado/MBA_IDP_CapturaTratamento/blob/main/data/assert.png?raw=True)

### Note a colspecs. A coluna inicial é 0 (e não 1, como indica a documentação).
### A segunda informação é a posição inicial, adicionada do seu tamanho INT + DEC, quando houver.

---
* v0220: Computador com internet
* 1: Sim
* 2: Não
* Branco (domicílios coletivos, sem computador...) Veja documentação.
---

In [None]:
# Nomes das colunas
cols = ['uf', 'codmun', 'peso', 'v0220']

# Converte pesos já na leitura
def convert_to_decimals(x):
    """ Auxiliary function for the text reading of weights on text files from IBGE
    """
    return float(x[:3] + '.' + x[3:])

# Aplica read_fwf
p = pd.read_fwf('data/AC/Amostra_Domicilios_12.txt',
                colspecs=[(0, 2), (2, 7), (28, 44), (100, 101)],
                header=None,
                names=cols,
                converters={'uf': str, 'codmun': str, 'peso': convert_to_decimals, 'v0220': str})

# Output
p.head()

In [None]:
def check():
    try:
        assert sum(p['uf'] != '12') == 0
        assert all(p['uf'] == '12')
        print('All is good!')
    except AssertionError:
        print('Go back and check')

check()

In [None]:
# Percentual de domicílios com computador e acesso a internet Acre 2010
p.groupby('v0220').agg({'peso': 'sum'})/p.peso.sum()


---
# Apresentação alunos. Expectativas. Projetos. Interesses. Feedback


