<img width="200" style="float:right" src="https://github.com/danielscarvalho/Insper-DS-Dicas/blob/master/Insper-Logo.png?raw=true">

# Computação para Ciências dos Dados

<sub><a href="https://www.insper.edu.br/pos-graduacao/programas-avancados/data-science-e-decisao/">PÓS-
GRADUAÇÃO EM DATA SCIENCE E DECISÃO</a></sub>

## Dica do Dia: 032

Particamente todas as empresas e instituições tem bancos de dados relacionais (RDBMS) que utilizam a linguaem SQL para manipular os dados.
SQL é uma linguagem de quarta geração extremamente poderosa.

Empresas médias e grande tem entre 10TB para mais de 100TB ou 200TB de dados. Por isso é importante realizar as consulta SQL (query) e trazer para o data frame Pandas os dados necessários para análise e modelagem.

Vamos explorar um pouco o SQL do banco de dados PostgreSQL. A linguágem SQL é sempre EMBUTIDA em Python, Java, Go, etc...

Instalar o driver do banco de dados PostgreSQL:

In [None]:
!conda install psycopg2 -y

Criar um banco de dados PostgreSQL temporário, por 1 horas, online em nuvem:

https://www.instagres.com/

Obter o caminho URI e chave de acesso, carregar em uma variável:

In [1]:
DBURI="postgresql://neondb_owner:fa3b3Qh4Vwxxa7Z7z@ep-silent-violet-a26temai.eu-central-1.aws.neon.tech/neondb?sslmode=require"

Impotar o DRIVER (LIB) do banco de dados PostgreSQL:

In [2]:
import psycopg2

Para testar, conectar e fazer uma consulta (QUERY) com a data, hora e a versão do banco de dados em nuvem:

Note que é conveniente para escrever código SQL, utilizar o string block do Python `"""` *Triple Quotes*... os dados do banco de dados vem em listas de tuplas...

In [4]:
connection = psycopg2.connect(DBURI)
# connection = psycopg2.connect(database="dbname", user="username", password="pass", host="hostname", port=5432)

cursor = connection.cursor()

cursor.execute("""SELECT CURRENT_DATE DATE, 
                         CURRENT_TIME TIME, 
                         version() VERSION;""")

# Fetch all rows from database
record = cursor.fetchall()

display(record)

cursor.close()
connection.close()

[(datetime.date(2025, 4, 22),
  datetime.time(1, 9, 58, 787732, tzinfo=datetime.timezone.utc),
  'PostgreSQL 16.8 on x86_64-pc-linux-gnu, compiled by gcc (Debian 10.2.1-6) 10.2.1 20210110, 64-bit')]

Obtendo dados em CSV e carregando em um data frame Pandas:

In [10]:
import pandas as pd

In [39]:
CLIENTS_CSV="https://github.com/danielscarvalho/data/blob/master/Clients.csv?raw=true"

clients_df = pd.read_csv(CLIENTS_CSV)

In [40]:
clients_df.sample(5)

Unnamed: 0,Seq,Value,Cost,Type,Category,Reference,Sub,Dec,Ticket
808,809,0.200528,216.319449,C,Prata,712.983053,-3,,1653
992,993,0.825873,506.29103,B,Prata,347.732314,7,,1593
544,545,0.833263,92.977984,E,Prata,174.614501,95,,1594
474,475,0.7918,860.876067,E,Silver,342.256571,47,Gamma,1524
126,127,0.649067,519.915077,E,Silver,772.685762,-98,Gamma,1558


Importando o SQL Alpchemy, ferramenta (LIB) Python para ajudar com processamento SQL

In [41]:
from sqlalchemy import create_engine

dbengine = create_engine(DBURI)

Usando o próprio Pandas para salvar os dados no banco de dados em nuvem PostgreSQL, para isso é necessário importar create_engine do sqlalchmy, para criar a tabela e carregar os dados...

In [42]:
clients_df.to_sql('clients', con=dbengine, if_exists='replace', index=False)

1000

Abora podemos analisar os dados usando SQL com os dados de clientes carregados em uma tabela do PostgreSQL em nuvem:

In [26]:
connection = psycopg2.connect(DBURI)

cursor = connection.cursor()

#cursor.execute('select * from clients limit 10')
cursor.execute("""SELECT * 
                    FROM clients as c 
                   WHERE c."Type"='A' 
                     AND c."Category"='Gold'""")

record = cursor.fetchall()

pd.DataFrame(record)

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,1,0.993191,704.15186,A,Gold,399.122283,-70,Gamma,1432
1,117,0.679963,994.750913,A,Gold,929.055293,-49,,1548


O resultado da query vem como uma lista de tuplas, como uma matriz, dados tabulates (cartesianos):

In [14]:
record

[(1,
  0.993190858335105,
  704.151859720177,
  'A',
  'Gold',
  399.122282809757,
  -70,
  'Gamma',
  1432),
 (117,
  0.679963109769396,
  994.75091345587,
  'A',
  'Gold',
  929.055292998049,
  -49,
  None,
  1548)]

O banco de dados relacional RDBMS pode ter terabytes de dados, que podem ser explorados via SQL com queries bem sofisticadas, e baixamos para nosso ambiente local apenas o SMALL DATA para análise no Pandas:

In [36]:
connection = psycopg2.connect(DBURI)

cursor = connection.cursor()

QUERY_SQL = """SELECT "Type", "Dec", count(1) AS Qtd 
                 FROM clients 
                GROUP BY "Type", "Dec" 
                ORDER BY Qtd
            """
cursor.execute(QUERY_SQL)

record = cursor.fetchall()

pd.DataFrame(record)

Unnamed: 0,0,1,2
0,A,Gamma,1
1,A,,2
2,C,Alpha,3
3,B,Alpha,3
4,E,Alpha,5
5,C,Beta,18
6,C,Gamma,20
7,B,Beta,28
8,E,Beta,30
9,B,Gamma,30


Podemos 'espiar' a estrutura de dados do banco de dados consultando com SQL o dicionário de dados da base:

In [16]:
QUERY_SQL="""SELECT *
         FROM information_schema.columns
        WHERE table_name = 'clients';"""

In [18]:
connection = psycopg2.connect(DBURI)

cursor = connection.cursor()

cursor.execute(QUERY_SQL)

record = cursor.fetchall()

pd.DataFrame(record)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,34,35,36,37,38,39,40,41,42,43
0,neondb,public,clients,Seq,1,,YES,bigint,,,...,NO,,,,,,NO,NEVER,,YES
1,neondb,public,clients,Value,2,,YES,double precision,,,...,NO,,,,,,NO,NEVER,,YES
2,neondb,public,clients,Cost,3,,YES,double precision,,,...,NO,,,,,,NO,NEVER,,YES
3,neondb,public,clients,Reference,6,,YES,double precision,,,...,NO,,,,,,NO,NEVER,,YES
4,neondb,public,clients,Sub,7,,YES,bigint,,,...,NO,,,,,,NO,NEVER,,YES
5,neondb,public,clients,Ticket,9,,YES,bigint,,,...,NO,,,,,,NO,NEVER,,YES
6,neondb,public,clients,Type,4,,YES,text,,1073742000.0,...,NO,,,,,,NO,NEVER,,YES
7,neondb,public,clients,Category,5,,YES,text,,1073742000.0,...,NO,,,,,,NO,NEVER,,YES
8,neondb,public,clients,Dec,8,,YES,text,,1073742000.0,...,NO,,,,,,NO,NEVER,,YES


É interesante colocar o seu string de conexão com o banco de dados PostgreSQL em uma vairável de ambiente, assim ela não fica exposta no seu código fonte no Jupyter notebook:

In [None]:
import os
import psycopg2

# Load the environment variable
database_url = os.getenv('DATABASE_URL')

# Connect to the PostgreSQL database
conn = psycopg2.connect(database_url)

with conn.cursor() as cur:
    cur.execute("SELECT version()")
    print(cur.fetchone())

# Close the connection
conn.close()

Referências:

- https://neon.tech/
- https://pt.wikipedia.org/wiki/PostgreSQL
- https://www.postgresql.org/