<img width="200" style="float:right" src="https://github.com/danielscarvalho/Insper-DS-Dicas/blob/master/Insper-Logo.png?raw=true">

# Computação para Ciências dos Dados

<sub><a href="https://www.insper.edu.br/pos-graduacao/programas-avancados/data-science-e-decisao/">PÓS-
GRADUAÇÃO EM DATA SCIENCE E DECISÃO</a></sub>

## Dica do Dia: 032

Praticamente todas as empresas e instituições têm bancos de dados relacionais (RDBMS) que utilizam a linguagem SQL para manipular os dados estruturados dos sistemas da organização.

SQL é uma linguagem de quarta geração extremamente poderosa.

Empresas médias e grandes têm entre 10TB e mais de 100TB ou 200TB de dados. Por isso é importante realizar as consultas SQL (query) e trazer para o data frame Pandas os dados necessários para análise e modelagem.

Vamos explorar um pouco o SQL do banco de dados PostgreSQL. A linguagem SQL é sempre EMBUTIDA em Python, Java, Go, etc.

O PostgreSQL é um sistema de gerenciamento de banco de dados relacional (RDBMS) de código aberto, amplamente reconhecido por sua robustez, confiabilidade e conformidade com padrões SQL. Ele suporta uma vasta gama de tipos de dados, incluindo JSON para dados não estruturados, e oferece recursos avançados como transações ACID, índices sofisticados, extensibilidade e alta escalabilidade. Utilizado em aplicações que vão desde pequenos projetos até grandes sistemas corporativos, o PostgreSQL é altamente personalizável, permitindo aos desenvolvedores criar funções, triggers e extensões personalizadas. Sua comunidade ativa e documentação extensa o tornam uma escolha popular para desenvolvedores que buscam um banco de dados poderoso e flexível.

O Neon é um serviço de banco de dados serverless baseado em PostgreSQL, projetado para oferecer escalabilidade e facilidade de uso na nuvem. Diferentemente de instâncias tradicionais de PostgreSQL, o Neon separa computação e armazenamento, permitindo que os recursos computacionais sejam ativados ou desativados sob demanda, o que reduz custos e melhora a eficiência. Ele suporta recursos como branching de banco de dados, ideal para ambientes de desenvolvimento e testes, e autoscaling, que ajusta automaticamente os recursos com base na carga de trabalho. O Neon é especialmente voltado para desenvolvedores que desejam a potência do PostgreSQL sem a complexidade de gerenciar infraestrutura, oferecendo uma experiência simplificada e integração nativa com aplicações modernas.

O PostgreSQL, quando utilizado no serviço serverless Neon, é extremamente útil para ciência de dados devido à sua capacidade de lidar com grandes volumes de dados estruturados e não estruturados, combinada com a escalabilidade e praticidade do modelo serverless. O PostgreSQL suporta tipos de dados complexos, como JSON e arrays, permitindo o armazenamento e consulta eficiente de dados semi-estruturados comuns em pipelines de dados. No Neon, os cientistas de dados se beneficiam do recurso de branching, que facilita a criação de cópias instantâneas do banco para experimentação e testes sem afetar os dados originais, e do autoscaling, que ajusta os recursos automaticamente para consultas analíticas pesadas. Além disso, a integração com ferramentas de visualização e orquestração de dados, como Python ou Airflow, e a eliminação de gerenciamento de infraestrutura tornam o Neon com PostgreSQL uma solução prática e poderosa para análises exploratórias, modelagem de dados e construção de pipelines de machine learning.



Instalar o driver do banco de dados PostgreSQL:

In [None]:
!conda install psycopg2 -y

Criar um banco de dados PostgreSQL temporário, por 1 horas, online em nuvem:

https://neon.new/

Obter o caminho URI e chave de acesso, carregar em uma variável:

In [1]:
DBURI="postgresql://neondb_owner:npg_dE6TmI4UlfOW@ep-bold-poetry-agv9y8j3.c-2.eu-central-1.aws.neon.tech/neondb?channel_binding=require&sslmode=require"

Impotar o DRIVER (LIB) do banco de dados PostgreSQL:

In [2]:
import psycopg2

Para testar, conectar e fazer uma consulta (QUERY) com a data, hora e a versão do banco de dados em nuvem:

Note que é conveniente para escrever código SQL, utilizar o string block do Python `"""` *Triple Quotes*... os dados do banco de dados vem em listas de tuplas...

In [3]:
connection = psycopg2.connect(DBURI)
# connection = psycopg2.connect(database="dbname", user="username", password="pass", host="hostname", port=5432)

cursor = connection.cursor()

cursor.execute("""SELECT CURRENT_DATE DATE, 
                         CURRENT_TIME TIME, 
                         version() VERSION;""")

# Fetch all rows from database
record = cursor.fetchall()

display(record)

cursor.close()
connection.close()

[(datetime.date(2025, 10, 3),
  datetime.time(2, 55, 48, 27507, tzinfo=datetime.timezone.utc),
  'PostgreSQL 17.5 (84bec44) on aarch64-unknown-linux-gnu, compiled by gcc (Debian 12.2.0-14+deb12u1) 12.2.0, 64-bit')]

Obtendo dados em CSV e carregando em um data frame Pandas:

In [4]:
import pandas as pd

In [5]:
CLIENTS_CSV="https://github.com/danielscarvalho/data/blob/master/Clients.csv?raw=true"

clients_df = pd.read_csv(CLIENTS_CSV)

In [6]:
clients_df.sample(5)

Unnamed: 0,Seq,Value,Cost,Type,Category,Reference,Sub,Dec,Ticket
596,597,0.66954,241.625132,E,Prata,52.675883,24,Gamma,1441
28,29,0.034511,870.172439,D,Prata,946.79053,52,,1460
529,530,0.328595,678.455414,E,Silver,994.40798,-36,,1579
768,769,0.023143,209.324871,C,Prata,411.423963,62,,1613
820,821,0.168743,578.247456,C,Silver,588.411748,-25,Gamma,1665


Importando o SQL Alpchemy, ferramenta (LIB) Python para ajudar com processamento SQL

In [7]:
from sqlalchemy import create_engine

dbengine = create_engine(DBURI)

Usando o próprio Pandas para salvar os dados no banco de dados em nuvem PostgreSQL, para isso é necessário importar create_engine do sqlalchmy, para criar a tabela e carregar os dados...

In [8]:
clients_df.to_sql('clients', con=dbengine, if_exists='replace', index=False)

1000

Abora podemos analisar os dados usando SQL com os dados de clientes carregados em uma tabela do PostgreSQL em nuvem:

In [9]:
connection = psycopg2.connect(DBURI)

cursor = connection.cursor()

#cursor.execute('select * from clients limit 10')
cursor.execute("""SELECT * 
                    FROM clients as c 
                   WHERE c."Type"='A' 
                     AND c."Category"='Gold'""")

record = cursor.fetchall()

pd.DataFrame(record)

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,1,0.993191,704.15186,A,Gold,399.122283,-70,Gamma,1432
1,117,0.679963,994.750913,A,Gold,929.055293,-49,,1548


O resultado da query vem como uma lista de tuplas, como uma matriz, dados tabulates (cartesianos):

In [10]:
record

[(1,
  0.993190858335105,
  704.151859720177,
  'A',
  'Gold',
  399.122282809757,
  -70,
  'Gamma',
  1432),
 (117,
  0.679963109769396,
  994.75091345587,
  'A',
  'Gold',
  929.055292998049,
  -49,
  None,
  1548)]

O banco de dados relacional RDBMS pode ter terabytes de dados, que podem ser explorados via SQL com queries bem sofisticadas, e baixamos para nosso ambiente local apenas o SMALL DATA para análise no Pandas:

In [11]:
connection = psycopg2.connect(DBURI)

cursor = connection.cursor()

QUERY_SQL = """SELECT "Type", "Dec", count(1) AS Qtd 
                 FROM clients 
                GROUP BY "Type", "Dec" 
                ORDER BY Qtd
            """
cursor.execute(QUERY_SQL)

record = cursor.fetchall()

pd.DataFrame(record)

Unnamed: 0,0,1,2
0,A,Gamma,1
1,A,,2
2,C,Alpha,3
3,B,Alpha,3
4,E,Alpha,5
5,C,Beta,18
6,C,Gamma,20
7,B,Beta,28
8,E,Beta,30
9,B,Gamma,30


Podemos 'espiar' a estrutura de dados do banco de dados consultando com SQL o dicionário de dados da base:

In [12]:
QUERY_SQL="""SELECT *
         FROM information_schema.columns
        WHERE table_name = 'clients';"""

In [13]:
connection = psycopg2.connect(DBURI)

cursor = connection.cursor()

cursor.execute(QUERY_SQL)

record = cursor.fetchall()

pd.DataFrame(record)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,34,35,36,37,38,39,40,41,42,43
0,neondb,public,clients,Seq,1,,YES,bigint,,,...,NO,,,,,,NO,NEVER,,YES
1,neondb,public,clients,Value,2,,YES,double precision,,,...,NO,,,,,,NO,NEVER,,YES
2,neondb,public,clients,Cost,3,,YES,double precision,,,...,NO,,,,,,NO,NEVER,,YES
3,neondb,public,clients,Reference,6,,YES,double precision,,,...,NO,,,,,,NO,NEVER,,YES
4,neondb,public,clients,Sub,7,,YES,bigint,,,...,NO,,,,,,NO,NEVER,,YES
5,neondb,public,clients,Ticket,9,,YES,bigint,,,...,NO,,,,,,NO,NEVER,,YES
6,neondb,public,clients,Type,4,,YES,text,,1073742000.0,...,NO,,,,,,NO,NEVER,,YES
7,neondb,public,clients,Category,5,,YES,text,,1073742000.0,...,NO,,,,,,NO,NEVER,,YES
8,neondb,public,clients,Dec,8,,YES,text,,1073742000.0,...,NO,,,,,,NO,NEVER,,YES


É interesante colocar o seu string de conexão com o banco de dados PostgreSQL em uma vairável de ambiente, assim ela não fica exposta no seu código fonte no Jupyter notebook:

In [None]:
import os
import psycopg2

# Load the environment variable
database_url = os.getenv('DATABASE_URL')

# Connect to the PostgreSQL database
conn = psycopg2.connect(database_url)

with conn.cursor() as cur:
    cur.execute("SELECT version()")
    print(cur.fetchone())

# Close the connection
conn.close()

Referências:

- https://neon.tech/
- https://pt.wikipedia.org/wiki/PostgreSQL
- https://www.postgresql.org/
- https://books.goalkicker.com/PostgreSQLBook/
- https://books.goalkicker.com/SQLBook/