# Utilizando bancos de dados do LabContas com python

[LabContas](https://acesso1.tcu.gov.br/comunidade/analisedados/Wiki/LabContas.aspx) é o nome dado à plataforma do TCU que agrega os principais bancos de dados governamentais úteis para o controle externo.

A listagem dos bancos de dados encontra-se na wiki da [comunidade de práticas](www.tcu.gov.br/analisededados) em análise de dados para o controle: https://acesso1.tcu.gov.br/comunidade/analisedados/Lists/Labcontas/BD.aspx

O acesso ao LabContas requer cadastramento prévio dos usuários autorizados. Detalhes em: https://acesso1.tcu.gov.br/comunidade/analisedados/Wiki/LabContas/Procedimentos%20de%20Acesso.aspx

### Conexão por DSN

DSN, ou *Data Source Name*, é uma configuração de fonte de dados ODBC que permite definir todos os parâmetros de uma conexão a um banco de dados, simplificando conexões posteriores. No entanto, esse DSN precisa ser definido, um única vez, em toda máquina que irá acessar os bancos de dados do LabContas.

O nome padrão para o DSN do servidor SQL Server srv-bd-int-2 é "LABCONTAS".

Esse DSN precisa ser configurado na sua estação de trabalho. Veja o [tutorial para acesso aos bancos de dados do LabContas](https://acesso1.tcu.gov.br/comunidade/analisedados/Lists/Discussao%20da%20Comunidade/Flat.aspx?RootFolder=%2Fcomunidade%2Fanalisedados%2FLists%2FDiscussao%20da%20Comunidade%2FTutorial%20para%20acesso%20aos%20bancos%20de%20dados%20do%20LabContas%20utilizando%20python&FolderCTID=0x01200200C205A54BDA37614E878437B03E2ABFC3)

O DSN **LABCONTAS** já encontra-se definido no ambiente virtual do LabContas.

Esse DSN também encontra-se disponível no ambiente do servidor jupyter, em http://srv-rstudio:8000/.
Detalhes do jupyter no TCU encontram-se na WikiCE: https://contas.tcu.gov.br/wikice/index.php/Jupyter_Notebook

In [1]:
# Acesso aos bancos de dados do LabContas por meio da biblioteca python: sqlalchemy
# SQLalchemy permite abstrair as particularidades de um SGBD, como MS SQL Server, Oracle, MySQL ou outros.
import sqlalchemy as sa
import pandas as pd

In [2]:
# Conexão por meio de uma fonte nomeada DSN (Data Source Name).
# Esse é o meio recomendado para acessar uma conexão ODBC.
# Caso não possa configurar um DSN na sua máquina, veja no anexo abaixo como acessar diretamente,
# fornecendo todos os parâmetros da conexão, sem DSN

# connection string: "dialect+driver://<user>:<pass>@<DSNname>"
# Aqui, usa-se o nome DSN padrão para a fonte de dados do LabContas, que precisa ser configurado em cada máquina
engine = sa.create_engine("mssql+pyodbc://@LABCONTAS")

In [3]:
# Conexão ao servidor
con = engine.connect()

In [4]:
# Selecionar um banco de dados
# ex: DB_ENEM
engine.execute("USE BD_ENEM")

<sqlalchemy.engine.result.ResultProxy at 0x8de9ac8>

In [5]:
# Consulta para identificar as tabelas existentes no banco de dados
engine.table_names()

['enem',
 'enem_tcu_2009',
 'enem_tcu_2010',
 'enem_tcu_2011',
 'enem_tcu_2012',
 'enem_tcu_2013',
 'enem_tcu_2014',
 'enem_tcu_2015']

In [6]:
# A opção mais simples de consulta a uma tabela, sem usar o SQLalchemy, consiste em escrever
# diretamente a query SQL na função read_sql() do pandas.
# Lembrem de limitar o número de resultados retornados, se não precisarem dos dados completos,
# reduzindo assim o tempo de espera pelos resultados
df = pd.read_sql(sql="SELECT TOP 5 * FROM BD_ENEM.dbo.enem", con=con)
df.T

Unnamed: 0,0,1,2,3,4
ANO,2009,2009,2009,2009,2009
CO_INSCRICAO,200920496384,200920485270,200920611194,200920612533,200920601210
NOTA_AREA_CONHECIMENTO_1,596,0,0,558.9,738.5
NOTA_AREA_CONHECIMENTO_2,592.7,0,0,448.8,711.3
NOTA_AREA_CONHECIMENTO_3,552.2,0,0,556.1,645.9
NOTA_AREA_CONHECIMENTO_4,577,0,0,495.2,776.2
DS_MOTIVO_ELIMINACAO_AREA_1,,,,,
DS_MOTIVO_ELIMINACAO_AREA_2,,,,,
DS_MOTIVO_ELIMINACAO_AREA_3,,,,,
DS_MOTIVO_ELIMINACAO_AREA_4,,,,,


In [7]:
# Mas usar o SQLalchemy traz algumas vantagens, como abstrair as particularidades do SGBD 
# (MS SQL Server, Oracle, MySQL, PostGres ou outros)

# Extrair metadados de uma tabela
# Cria um objeto MetaData para receber os dados
metadata = sa.MetaData()

# Exemplo utilizando o banco BD_ENEM e a tabela enem
tabela_enem = sa.Table('enem', metadata, autoload=True, autoload_with=engine, schema='BD_ENEM.dbo')

In [8]:
# Visualizando os detalhes da estrutura
# Nome das colunas
tabela_enem.columns.keys()

['ANO',
 'CO_INSCRICAO',
 'NOTA_AREA_CONHECIMENTO_1',
 'NOTA_AREA_CONHECIMENTO_2',
 'NOTA_AREA_CONHECIMENTO_3',
 'NOTA_AREA_CONHECIMENTO_4',
 'DS_MOTIVO_ELIMINACAO_AREA_1',
 'DS_MOTIVO_ELIMINACAO_AREA_2',
 'DS_MOTIVO_ELIMINACAO_AREA_3',
 'DS_MOTIVO_ELIMINACAO_AREA_4',
 'NOTA_REDACAO',
 'CPF',
 'NOME_ALUNO',
 'DT_NASCIMENTO',
 'NOME_MAE',
 'CO_IDENTIFICACAO_GRU',
 'SG_UF_ENDERECO',
 'CO_MUNICIPIO_ENDERECO',
 'NO_MUNICIPIO_ENDERECO',
 'SG_UF_NASCIMENTO',
 'CO_MUNICIPIO_NASCIMENTO',
 'NO_MUNICIPIO_NASCIMENTO',
 'IN_DIREITO_CARENCIA']

In [9]:
# Constrói uma seleção de itens da tabela enem
consulta = sa.select([tabela_enem]).limit(3)

In [10]:
# Verifica a consulta SQL gerada pelo SQLalchemy para realizar a seleção, com base nos metadados extraidos do banco
print(consulta)

SELECT "BD_ENEM.dbo".enem."ANO", "BD_ENEM.dbo".enem."CO_INSCRICAO", "BD_ENEM.dbo".enem."NOTA_AREA_CONHECIMENTO_1", "BD_ENEM.dbo".enem."NOTA_AREA_CONHECIMENTO_2", "BD_ENEM.dbo".enem."NOTA_AREA_CONHECIMENTO_3", "BD_ENEM.dbo".enem."NOTA_AREA_CONHECIMENTO_4", "BD_ENEM.dbo".enem."DS_MOTIVO_ELIMINACAO_AREA_1", "BD_ENEM.dbo".enem."DS_MOTIVO_ELIMINACAO_AREA_2", "BD_ENEM.dbo".enem."DS_MOTIVO_ELIMINACAO_AREA_3", "BD_ENEM.dbo".enem."DS_MOTIVO_ELIMINACAO_AREA_4", "BD_ENEM.dbo".enem."NOTA_REDACAO", "BD_ENEM.dbo".enem."CPF", "BD_ENEM.dbo".enem."NOME_ALUNO", "BD_ENEM.dbo".enem."DT_NASCIMENTO", "BD_ENEM.dbo".enem."NOME_MAE", "BD_ENEM.dbo".enem."CO_IDENTIFICACAO_GRU", "BD_ENEM.dbo".enem."SG_UF_ENDERECO", "BD_ENEM.dbo".enem."CO_MUNICIPIO_ENDERECO", "BD_ENEM.dbo".enem."NO_MUNICIPIO_ENDERECO", "BD_ENEM.dbo".enem."SG_UF_NASCIMENTO", "BD_ENEM.dbo".enem."CO_MUNICIPIO_NASCIMENTO", "BD_ENEM.dbo".enem."NO_MUNICIPIO_NASCIMENTO", "BD_ENEM.dbo".enem."IN_DIREITO_CARENCIA" 
FROM "BD_ENEM.dbo".enem
 LIMIT :param_1


In [11]:
# Executa a consulta e exibe os resultados
resultados = con.execute(consulta).fetchall()
resultados

[(2009, '200920496384', 596.0, 592.7000122070312, 552.2000122070312, 577.0, None, None, None, None, 650.0, '04257476540', 'ANTONIO BRUNO DA SILVA COSTA', datetime.date(1990, 6, 14), 'DORALICE DANTAS DA SILVA', '', 'BA', 2910057, None, None, 0, '', ''),
 (2009, '200920485270', 0.0, 0.0, 0.0, 0.0, None, None, None, None, 0.0, '05748894777', 'FLAVIA SOARES RANGEL', datetime.date(1985, 2, 13), 'MARILZA SOARES RANGEL', '', 'ES', 3205200, None, None, 0, '', ''),
 (2009, '200920611194', 0.0, 0.0, 0.0, 0.0, None, None, None, None, 0.0, '10075689413', 'DIEGO SAMPAIO TELES DE BRITO', datetime.date(1990, 11, 30), 'VANIA CLAUDIA SAMPAIO TELES BRITO', '', 'PE', 2611606, None, None, 0, '', '')]

In [12]:
# o resultado acima é uma lista de tuplas, que podemos facilmente converter em dataframe
# cria um dataframe com os resultados
df = pd.DataFrame(resultados)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,2009,200920496384,596.0,592.700012,552.200012,577.0,,,,,...,1990-06-14,DORALICE DANTAS DA SILVA,,BA,2910057,,,0,,
1,2009,200920485270,0.0,0.0,0.0,0.0,,,,,...,1985-02-13,MARILZA SOARES RANGEL,,ES,3205200,,,0,,
2,2009,200920611194,0.0,0.0,0.0,0.0,,,,,...,1990-11-30,VANIA CLAUDIA SAMPAIO TELES BRITO,,PE,2611606,,,0,,


In [13]:
# lembrar de fechar a conexão ao banco de dados
con.close()

## Consultas com operações: filtragem, ordenação e agrupamento

In [None]:
# To be continued...

### Anexos

#### I - Como conectar-se ao LabContas sem utilizar um DSN (*Data Source Name*)

Não havendo um DSN pré-configurado na máquina que irá realizar a consulta ao LabContas, é possível , ainda assim, conectar-se diretamente utilizando o nome do servidor SQL (srv-bd-int-2). Ainda assim, requer conhecer o nome do *driver* instalado na sua máquina para acessar o SQL Server.

In [14]:
import sqlalchemy as sa

In [15]:
# A forma de conexão abaixo prescinde o uso de DSN (Data Source Name), 
# mas ainda requer que se conheça o nome do driver SQL instalado em sua máquina

# configurações básicas para acesso ao servidor SQL Server (srv-bd-int-2) do LabContas
dialect = 'mssql'
dbapi = 'pyodbc' # requer pyodbc já instalado: conda install pyodbc

#server = 'srv-bd-int-2'
# Aqui usaremos o "nome real do servidor SQL Server" do LabContas (srv-bd-labc-1c) 
# e não o seu sinônimo (srv-bd-int-2). 
# O Kerberos não funciona bem com sinônimos de nome de servidor
server = 'srv-bd-labc-1c.tcu.gov.br,1433'

# eventualmente, pode ser necessário redefinir o nome do driver, 
# em função do que já estiver instalado na sua máquina

driver = 'SQL+Server'
# No ambiente virtual do LabContas, o nome do driver é 'SQLSERVER' e não "SQL Server".
# Assim, é necessário ajustar esse parâmetro em função do ambiente de execução: 
# estação de trabalho ou ambiente virtual do LabContas
#driver = 'SQLSERVER'

# Outras possíveis opções comuns de nome de driver para SQL Server
#driver = 'ODBC+Driver+11+for+SQL+Server'
#driver = 'ODBC+Driver+13+for+SQL+Server'
#driver = 'ODBC+Driver+17+for+SQL+Server'

# defina abaixo o nome do banco de dado e tabela que deseja acessar
database = 'BD_RECEITA'
table = 'CONTADOR'

connect_string = '{dialect}+{dbapi}://{server}/{database}?driver={driver}'
connect_string = connect_string.format(dialect=dialect,
                                       dbapi=dbapi,
                                       server=server,
                                       database=database,
                                       driver=driver)
# print(connect_string)

engine = sa.create_engine(connect_string)

In [16]:
# conexão
con = engine.connect()

In [17]:
metadata = sa.MetaData()

# Reflexão da tabela no servidor para um objeto Table do SQLalchemy.
# Isso permite importar as características da tabela (colunas, tipos de dados, etc.)
tabela = sa.Table(table, metadata, autoload=True, autoload_with=engine, 
                schema='{database}.dbo'.format(database=database))

# Constrói o texto de consulta básica de todos os campos da tabela, limitando os resultados
stmt = sa.select([tabela]).limit(1)

# Executa a consulta construída acima e exibe os resultados
results = con.execute(stmt).fetchall()
results

[('00005415000158', 'PF', None, '81127235834', 'ROBERTO DONIZETE DA SILVA', Decimal('1'), 'R', 'RUA', 'SANTA BEATRIZ', '137   ', None, 'VILA PRUDENTE', 'SAO PAULO', 'SP', Decimal('3153070'), Decimal('11'), Decimal('63412060'), None, Decimal('121359'), 'SP')]

In [18]:
con.close()

#### II - Como baixar data sets para exercitar comandos e práticas de análise

In [None]:
# Exemplos de "toy data sets" para se exercitar 
import seaborn as sns
sns.get_dataset_names()

# ['anscombe', 'attention', 'brain_networks', 'car_crashes', 'dots', 'exercise', 'flights', 'fmri',
# 'gammas', 'iris', 'planets', 'tips', 'titanic']

In [None]:
df = sns.load_dataset('iris')
df.sample(8)