<a href="https://colab.research.google.com/github/flavio-mota/COM923/blob/main/COM923%20-%20Entendimento%20dos%20Dados/COM923_Entendimento_dos_Dados_Parte_II.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <span style="color:#336699">Mineração de Dados Aplicada - Entendimento dos Dados - Parte II</span>
<hr style="border:2px solid #0077b9;">

<br/>

<div style="text-align: center;font-size: 90%;">
    Autores:<br/>
    Flávio Belizário da Silva Mota¹<br/>
    Vanessa Cristina Oliveira de Souza²
    <br/><br/>
    ¹Instituto Nacional de Pesquisas Espaciais (INPE) <br/>
    ²Universidade Federal de Itajubá (UNIFEI)
    <br/>
    <br/>
    Contato: <a href="mailto:flavio.belizario.mota@gmail.com">flavio.belizario.mota@gmail.com</a>
    <br/>
    09/09/2022
    <br>
</div>

<br/>

<div style="text-align: justify;  margin-left: 25%; margin-right: 25%;">
<b>Objetivo.</b> Esse caderno Jupyter tem como objetivo apresentar diferentes estratégias para coleta de dados de diferentes formatos e fontes de dados. Serão abordadas a coleta de dados JSON, XML, HTML e integrações com o banco de dados PostgreSQL.
</div>

## Acessando os dados
<hr style="border:2px solid #0077b9;">

Acessar dados é o primeiro passo da análise de dados. No Python especificamente, a grande maioria das implementações emprega <code>pandas</code> para gerenciar a entrada e saída de dados, embora existam várias bibliotecas e ferramentas que possam ser empregadas para esse fim.<br/><br/>
Entrada e saída de dados geralmente se enquadram em algumas categorias principais: leitura de arquivos-texto e outros formatos diretamente em disco, bancos de dados e fontes de dados da rede, como APIs e páginas web. 

### Acessando dados de uma página web

  Uma das formas de conseguirmos informações é através de páginas da web. A biblioteca <code>pandas</code> possui uma função embutida <code>read_html</code> que, utilizando algumas outras bilbiotecas, tenta compreender de forma automática tabelas em arquivos HTML e as armazena em objetos <code>DataFrame</code>. Para exemplificar, vamos considerar o site da agência governamental FDIC dos Estados Unidos que mostra falências de bancos: <a>https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/</a>.<br/><br/>
Podemos importar a biblioteca e utilizar a função embutida, armazenando o resultado em uma variável que deverá conter as tabelas encontradas:

In [10]:
# importando a pandas
import pandas as pd

# utilizando a função para encontrar as tabelas em páginas HTML e armazenar numa estrutura DataFrame
tabelas = pd.read_html('https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/')
len(tabelas)

1

Ao verificar o tamanho do objeto <code>tabelas</code>, vemos que só existe um objeto. Sendo assim, vamos acessar a posição 0 para ter acesso ao DataFrame com os dados coletados:

In [11]:
falencias = tabelas[0]
falencias.head()

Unnamed: 0,Bank NameBank,CityCity,StateSt,CertCert,Acquiring InstitutionAI,Closing DateClosing,FundFund
0,Almena State Bank,Almena,KS,15426,Equity Bank,"October 23, 2020",10538
1,First City Bank of Florida,Fort Walton Beach,FL,16748,"United Fidelity Bank, fsb","October 16, 2020",10537
2,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020",10536
3,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020",10535
4,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019",10534


### Acessando dados XML

O XML (eXtensible Markup Language) é um formato muito comum de dados estruturados que aceita a criação de hierarquias e aninhamento com metadados. HTML e XML são parecidos, mas o XML é mais genérico. Podemos utilizar uma biblioteca chamada <code>lxml</code> para manipular esse tipo de arquivo. Nesse exemplo, vamos coletar os dados de um catálogo de plantas: <a>http://www-db.deis.unibo.it/courses/TW/DOCS/w3schools/xml/plant_catalog.xml</a>.<br/><br/>
Utilizando a biblioteca, faremos um parse do documento XML e vamos obter uma referência para o nó raiz do arquivo:

In [16]:
from lxml import objectify

url = 'http://www-db.deis.unibo.it/courses/TW/DOCS/w3schools/xml/plant_catalog.xml'
parsed = objectify.parse(url)
root = parsed.getroot()

Depois de obter a raiz do arquivo, podemos acessar o gerador PLANT que produz cada elemento do XML que armazena uma planta. Para cada registro, podemos preencher um dicionário de nomes de tags e valores dos dados:

In [22]:
dados = []

for elt in root.PLANT:
  el_dado = {}
  for child in elt.getchildren():
    el_dado[child.tag] = child.pyval
  dados.append(el_dado)

Por fim, podemos converter nosso dicionário em um <code>DataFrame</code>:

In [24]:
plantas = pd.DataFrame(dados)
plantas.head()

Unnamed: 0,COMMON,BOTANICAL,ZONE,LIGHT,PRICE,AVAILABILITY
0,Bloodroot,Sanguinaria canadensis,4,Mostly Shady,$2.44,31599
1,Columbine,Aquilegia canadensis,3,Mostly Shady,$9.37,30699
2,Marsh Marigold,Caltha palustris,4,Mostly Sunny,$6.81,51799
3,Cowslip,Caltha palustris,4,Mostly Shady,$9.90,30699
4,Dutchman's-Breeches,Dicentra cucullaria,3,Mostly Shady,$6.44,12099


### Acessando dados de APIs web

Muitos sites têm APIs públicas que oferecem feeds de dados usando JSON ou outro formato de retorno. Existem diversas formas de acessas essas APIs com Python, sendo uma das maneiras mais fáceis o uso do pacote <code>requests</code>.<br/><br/>

Nesse exemplo vamos consultar a API do GitHub e retornar as últimas 30 <i>issues</i> do repositório da biblioteca <code>pandas</code>.

In [25]:
import requests

url = 'https://api.github.com/repos/pandas-dev/pandas/issues'

resp = requests.get(url)
resp

<Response [200]>

O retorno indica que a requisição obteve uma resposta de sucesso. Dentro do objeto <code>Response</code> existem objetos JSON convertidos para objetos nativos do Python, então podemos acessá-los da seguinte maneira:

In [26]:
dados = resp.json()

Cada elemento dentro de <code>dados</code> é um dicionário contendo todos os dados encontrados na página de issues do GitHub. Podemos transformar essa variável diretamente para uma estrutura <code>DataFrame</code>:

In [29]:
issues = pd.DataFrame(dados, columns=['number', 'title', 'labels', 'state'])
issues

Unnamed: 0,number,title,labels,state
0,48453,"API: find_common_type([dt64tz1, dt64tz2]) -> UTC","[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
1,48452,DOC: Fix typo,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
2,48451,Backport PR #48444 on branch 1.4.x (CI: Pin ip...,[],open
3,48450,Manual Backport PR #48427 on branch 1.5.x (BLD...,[],open
4,48449,Backport PR #48444 on branch 1.5.x (CI: Pin ip...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
5,48448,BUG: Multiples of QuarterOffset not respected ...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
6,48447,ENH: Support masked ExtensionTypes when using ...,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
7,48446,BUG: Index.equals raising with index of tuples...,"[{'id': 2822342, 'node_id': 'MDU6TGFiZWwyODIyM...",open
8,48445,Backport PR #48380 on branch 1.5.x (DOC: Clari...,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open
9,48443,BUG: Fix pyarrow groupby tests,[],open


### Acessando um banco de dados

Em um ambiente de negócios, a maior parte dos dados talvez não esteja armazenada em arquivos de texto ou muito menos tenham uma API que possibilite a consulta desses dados. Bancos de dados relacionais baseados em SQL são amplamente utilizados e são importantes fontes de dados para o cientista de dados. Um exemplo de banco de dados SQL de código aberto mais populares é o [PostgreSQL](https://www.postgresql.org), que é amplamente usado em empresas para armazenar dados críticos e transacionais em geral.<br/><br/>

O Python possuiu diversas bibliotecas que facilitam o processo de integração com bancos de dados relacionais (PyODBC, psycopg2, MySQLdb, pymssql, etc).Entretanto, trabalhar com bancos de dados no ambiente Colab pode não ser tão simples, uma vez que se trata de uma máquina virtual com limite de espaço e com curto ciclo de vida. Ainda assim, é possível criar uma instância de um banco Postgres no colab, carregar dados, trabalhar com consultas e exportar o banco ao final. É o que faremos nesse exemplo.<br/><br/>

Primeiramente, precisamos instalar e configurar uma instância do PostgreSQL nessa máquina do colab:

In [30]:
# Instalando o servidor postgresql
!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql
!sudo service postgresql start

# Configurando a senha `postgres` para o usuário `postgres`
!sudo -u postgres psql -U postgres -c "ALTER USER postgres PASSWORD 'postgres';"

# Configurando um banco de dados com o nome `teste` para ser utilizado
!sudo -u postgres psql -U postgres -c 'DROP DATABASE IF EXISTS teste;'
!sudo -u postgres psql -U postgres -c 'CREATE DATABASE teste;'

debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 76, <> line 10.)
debconf: falling back to frontend: Readline
debconf: unable to initialize frontend: Readline
debconf: (This frontend requires a controlling tty.)
debconf: falling back to frontend: Teletype
dpkg-preconfigure: unable to re-open stdin: 
Selecting previously unselected package cron.
(Reading database ... 155685 files and directories currently installed.)
Preparing to unpack .../0-cron_3.0pl1-128.1ubuntu1.2_amd64.deb ...
Unpacking cron (3.0pl1-128.1ubuntu1.2) ...
Selecting previously unselected package logrotate.
Preparing to unpack .../1-logrotate_3.11.0-0.1ubuntu1_amd64.deb ...
Unpacking logrotate (3.11.0-0.1ubuntu1) ...
Selecting previously unselected package netbase.
Preparing to unpack .../2-netbase_5.4_all.deb ...
Unpacking netbase (5.4) ...
Selecting previously unselected

Agora que o banco está criado e rodando, vamos configurar algumas variáveis de ambiente:

In [31]:
%env DATABASE_NAME=teste
%env DATABASE_HOST=localhost
%env DATABASE_PORT=5432
%env DATABASE_USER=postgres
%env DATABASE_PASS=postgres
%env DATABASE_URL=postgresql://postgres:postgres@localhost:5432/teste

env: DATABASE_NAME=teste
env: DATABASE_HOST=localhost
env: DATABASE_PORT=5432
env: DATABASE_USER=postgres
env: DATABASE_PASS=postgres
env: DATABASE_URL=postgresql://postgres:postgres@localhost:5432/teste


Agora que configuramos nosso servidor Postgres, vamos utilizar um script pronto para criar uma tabela e popular os dados dessa tabela. Os dados desse exemplo são os dados de qualidade do ar disponíveis no <a href="https://archive.ics.uci.edu/ml/datasets/Air+Quality">repositório da UCI</a>. Os comandos a seguir realizam de forma automática esse processo:

In [32]:
!curl -s -OL https://raw.githubusercontent.com/flavio-mota/COM923/main/COM923%20-%20Entendimento%20dos%20Dados/AirQualityUCI.sql

!PGPASSWORD=$DATABASE_PASS psql -q -h $DATABASE_HOST -p $DATABASE_PORT -U $DATABASE_USER -d $DATABASE_NAME -f AirQualityUCI.sql

Agora que o banco foi criado e populado, podemos executar alguns comandos SQL. Para isso, temos que importar o comando mágico %sql:

In [33]:
%load_ext sql

Através do comando mágico %sql conseguimos rodar consultas no nosso banco de dados diretamente pelo notebook:

In [34]:
selecao = %sql SELECT * FROM public.AirQualityUCI LIMIT 10
selecao

10 rows affected.


date,time,co,pt08s1,nmhc,c6h6,pt08s2,nox,pt08s3,no2,pt08s4,pt08s5,t,rh,ah
2004-03-10,18:00:00,2.6,1360,150.0,11.9,1046,166.0,1056,113.0,1692,1268,13.6,48.9,0.7578
2004-03-10,19:00:00,2.0,1292,112.0,9.4,955,103.0,1174,92.0,1559,972,13.3,47.7,0.7255
2004-03-10,20:00:00,2.2,1402,88.0,9.0,939,131.0,1140,114.0,1555,1074,11.9,54.0,0.7502
2004-03-10,21:00:00,2.2,1376,80.0,9.2,948,172.0,1092,122.0,1584,1203,11.0,60.0,0.7867
2004-03-10,22:00:00,1.6,1272,51.0,6.5,836,131.0,1205,116.0,1490,1110,11.2,59.6,0.7888
2004-03-10,23:00:00,1.2,1197,38.0,4.7,750,89.0,1337,96.0,1393,949,11.2,59.2,0.7848
2004-03-11,00:00:00,1.2,1185,31.0,3.6,690,62.0,1462,77.0,1333,733,11.3,56.8,0.7603
2004-03-11,01:00:00,1.0,1136,31.0,3.3,672,62.0,1453,76.0,1333,730,10.7,60.0,0.7702
2004-03-11,02:00:00,0.9,1094,24.0,2.3,609,45.0,1579,60.0,1276,620,10.7,59.7,0.7648
2004-03-11,03:00:00,0.6,1010,19.0,1.7,561,-200.0,1705,-200.0,1235,501,10.3,60.2,0.7517


É possível carregar o resultado de consultas diretamente em uma estrutura <code>DataFrame</code>. Para isso, basta informar a consulta SQL a ser executada e a conexão na qual ela será executada:

In [36]:
import os
conexao = os.environ['DATABASE_URL']
sql = 'SELECT * FROM public.AirQualityUCI LIMIT 100'

df_ar = pd.read_sql(sql, conexao)
df_ar

Também é possível salvar uma estrutura <code>DataFrame</code> no banco. Nesse exemplo vamos salvar o resultado da consulta anterior em uma nova tabela chamada 'qualidade_ar_100':

In [38]:
df_ar.to_sql('qualidade_ar_100', conexao)
%sql SELECT * FROM qualidade_ar_100 LIMIT 10;

Assim, conseguimos não apenas trabalhar com os dados utilizando os recursos da biblioteca <code>pandas</code>, mas também persistir qualquer alteração que sejam feitas.<br/><br/>

Entretanto, o banco com o qual estamos trabalhando não é eterno. Só podemos acessar o servidor enquanto o ambiente colab estiver conectado. Uma vez que a conexão é encerada, a máquina virtual é reciclada e tudo que foi configurado se perde. Então, é importante que ao final, possamos salvar nosso trabalho. Para isso, podemos fazer um backup do banco de dados com o seguinte comando:

In [40]:
!PGPASSWORD=$DATABASE_PASS pg_dump -h $DATABASE_HOST -p $DATABASE_PORT -U $DATABASE_USER teste > backup.sql

Uma vez gerado o backup, podemos salvá-lo na nossa máquina e utilizar futuramente em outro banco ou mesmo aqui no colab.

## Referências

Python para Análise de Dados - Wes McKiney. Novatec, São Paulo, 2021.<br/>
[Biblioteca pandas](https://pandas.pydata.org/)<br/>
[Biblioteca lxml](https://lxml.de/)<br/>
[TensorFlow + PostgreSQL](https://www.tensorflow.org/io/tutorials/postgresql)