# CURSO DATA SCIENCE

## Módulo 1: Extração de Dados

### Aula 2 - Acessando Bancos de Dados Relacionais com o Psycopg2

#### Esquema do BD Utilizado

## Importando as Bibliotecas Necessárias

In [3]:
pip install psycopg2

Collecting psycopg2
  Downloading psycopg2-2.9.11-cp312-cp312-win_amd64.whl.metadata (5.1 kB)
Downloading psycopg2-2.9.11-cp312-cp312-win_amd64.whl (2.7 MB)
   ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
   ---------------------------------------- 2.7/2.7 MB 26.1 MB/s eta 0:00:00
Installing collected packages: psycopg2
Successfully installed psycopg2-2.9.11
Note: you may need to restart the kernel to use updated packages.


In [4]:
import numpy as np
import pandas as pd
import psycopg2

## Conectando com o PostgreSQL

In [5]:
conn_str = "host={} dbname={} user={} password={} port={}".format('localhost', 'sefaz', 'postgres', '123456', '5432')

In [6]:
conn_str

'host=localhost dbname=sefaz user=postgres password=123456 port=5432'

In [7]:
conn = psycopg2.connect(conn_str)

In [8]:
# Nível zero de isolmaneto: READ UNCOMMITTED
# Veja mais na documentação para outros níveis de isolamento: https://www.psycopg.org/docs/connection.html
# Para saber mais sobre nível de isolamento: https://docs.microsoft.com/pt-br/sql/connect/jdbc/understanding-isolation-levels?view=sql-server-ver15
conn.set_isolation_level(0)

## Manipulando PostgreSQL no DataFrame

### Executando Consultas no DataFrame

In [9]:
# Iremos colocar a tabela ESTABELECIMENTO dentro do DataFrame
df = pd.read_sql('select * from estabelecimento', con=conn)

  df = pd.read_sql('select * from estabelecimento', con=conn)


In [10]:
# Visualizando tabela no DataFrame
df

Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento
0,1,Amika Coffee House,Rua Ana Bilhar,1136.0,B,60160110,Meireles,Fortaleza,Ce,(85)3031-0351,1
1,2,Torra Café,Rua Marcos Macêdo,827.0,,60150190,Aldeota,Fortaleza,Ce,,1
2,3,Urbici Café,R. Barbosa de Freitas,951.0,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2
3,4,Blend Coffee House,R. Sabino Pires,,,60150090,Aldeota,Fortaleza,Ce,(85) 3121-6455,3


In [11]:
# Imprimindo as colunas presentes no DataFrame
df.columns

Index(['res_id', 'res_nom_estabelecimento', 'res_endereco', 'res_numero',
       'res_complemento', 'res_cep', 'res_bairro', 'res_cidade', 'res_uf',
       'res_telefone', 'res_tip_estabelecimento'],
      dtype='object')

In [12]:
# Checando informações gerais da tabela
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   res_id                   4 non-null      int64 
 1   res_nom_estabelecimento  4 non-null      object
 2   res_endereco             4 non-null      object
 3   res_numero               4 non-null      object
 4   res_complemento          4 non-null      object
 5   res_cep                  4 non-null      object
 6   res_bairro               4 non-null      object
 7   res_cidade               4 non-null      object
 8   res_uf                   4 non-null      object
 9   res_telefone             4 non-null      object
 10  res_tip_estabelecimento  4 non-null      int64 
dtypes: int64(2), object(9)
memory usage: 484.0+ bytes


In [13]:
# Olhando a dimensionalidade do DataFrame (linhas x colunas)
df.shape

(4, 11)

In [14]:
# Checando uma coluna específica do DataFrame
df["res_bairro"]

0    Meireles
1     Aldeota
2     Aldeota
3     Aldeota
Name: res_bairro, dtype: object

In [15]:
# Checando uma coluna específica do DataFrame com uma visualização melhor :)
df[df["res_bairro"] == "Aldeota"]

Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento
1,2,Torra Café,Rua Marcos Macêdo,827.0,,60150190,Aldeota,Fortaleza,Ce,,1
2,3,Urbici Café,R. Barbosa de Freitas,951.0,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2
3,4,Blend Coffee House,R. Sabino Pires,,,60150090,Aldeota,Fortaleza,Ce,(85) 3121-6455,3


In [16]:
# Obtendo os valores unitários de uma coluna específica
df["res_bairro"].unique()

array(['Meireles', 'Aldeota'], dtype=object)

In [17]:
# Fazendo busca por valor e retornando sua quantidade
# Usamos o index [0] para retornar apenas a quantidade de linhas em que nosso valor aparece
df[df["res_nom_estabelecimento"] == "Amika Coffee House"].shape[0]

1

In [18]:
# checando as n primeiras instâncias do DataFrame
n = 3
df.head(n)

Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento
0,1,Amika Coffee House,Rua Ana Bilhar,1136,B,60160110,Meireles,Fortaleza,Ce,(85)3031-0351,1
1,2,Torra Café,Rua Marcos Macêdo,827,,60150190,Aldeota,Fortaleza,Ce,,1
2,3,Urbici Café,R. Barbosa de Freitas,951,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2


In [20]:
# checando as n últimas instâncias do DataFrame
n = 2
df.tail(n)

Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento
2,3,Urbici Café,R. Barbosa de Freitas,951.0,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2
3,4,Blend Coffee House,R. Sabino Pires,,,60150090,Aldeota,Fortaleza,Ce,(85) 3121-6455,3


In [21]:
# Efetuando busca condicional
condition = (df["res_bairro"] == "Aldeota") & (df["res_numero"] != "")
df[condition]

Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento
1,2,Torra Café,Rua Marcos Macêdo,827,,60150190,Aldeota,Fortaleza,Ce,,1
2,3,Urbici Café,R. Barbosa de Freitas,951,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2


In [23]:
# Visualizando apenas as colunas de interesse da busca anterior
columns_of_interest = ["res_nom_estabelecimento", "res_endereco", "res_numero"]
df[condition][columns_of_interest]

Unnamed: 0,res_nom_estabelecimento,res_endereco,res_numero
1,Torra Café,Rua Marcos Macêdo,827
2,Urbici Café,R. Barbosa de Freitas,951


In [57]:
# Checando a dimensionalidade da consulta
# Caso deseje retornar apenas a quantidade de linhas, inserir [0] ao final de shape
df[condition][columns_of_interest].shape

(2, 3)

### Funções Agregadas

In [24]:
# obter desvio padrão de uma coluna
np.std(df["res_id"])

1.118033988749895

In [25]:
# obter média de uma coluna
np.mean(df["res_id"])

2.5

In [26]:
# obter mediana de uma coluna
np.median(df["res_id"])

2.5

In [27]:
# obter o máximo de uma coluna
np.max(df["res_id"])

4

In [28]:
# obter o mínimo de uma coluna
np.min(df["res_id"])

1

### Junção de Tabelas

In [29]:
# Iremos colocar a tabela TIPO_ESTABELECIMENTO dentro do DataFrame
df2 = pd.read_sql('select * from TIPO_ESTABELECIMENTO', con=conn)

  df2 = pd.read_sql('select * from TIPO_ESTABELECIMENTO', con=conn)


In [30]:
df2

Unnamed: 0,res_tip_estabelecimento,tipo
0,1,Comercial
1,2,Privado
2,3,Empresarial


In [31]:
df2.shape

(3, 2)

In [32]:
# Faremos o JOIN das duas tabelas através da coluna "RES_TIP_ESTABELECIMENTO" e armazenaremos o resultado em um novo DF
df3 = pd.merge(df, df2, on = "res_tip_estabelecimento")

In [33]:
df3

Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento,tipo
0,1,Amika Coffee House,Rua Ana Bilhar,1136.0,B,60160110,Meireles,Fortaleza,Ce,(85)3031-0351,1,Comercial
1,2,Torra Café,Rua Marcos Macêdo,827.0,,60150190,Aldeota,Fortaleza,Ce,,1,Comercial
2,3,Urbici Café,R. Barbosa de Freitas,951.0,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2,Privado
3,4,Blend Coffee House,R. Sabino Pires,,,60150090,Aldeota,Fortaleza,Ce,(85) 3121-6455,3,Empresarial


In [34]:
df3.shape

(4, 12)

## Cursor

In [35]:
# Inicializando um cursor
cursor = conn.cursor()
cursor.execute("select * from ESTABELECIMENTO")
rows = cursor.fetchall()

In [36]:
print(rows)

[(1, 'Amika Coffee House', 'Rua Ana Bilhar', '1136', 'B', '60160110', 'Meireles', 'Fortaleza', 'Ce', '(85)3031-0351', 1), (2, 'Torra Café', 'Rua Marcos Macêdo', '827', '', '60150190', 'Aldeota', 'Fortaleza', 'Ce', '', 1), (3, 'Urbici Café', 'R. Barbosa de Freitas', '951', 'Loja 01', '60170021', 'Aldeota', 'Fortaleza', 'Ce', '', 2), (4, 'Blend Coffee House', 'R. Sabino Pires', '', '', '60150090', 'Aldeota', 'Fortaleza', 'Ce', '(85) 3121-6455', 3)]


In [37]:
# Vamos inserir uma nova instância na tabela ESTABELECIMENTO
cursor.execute("INSERT INTO estabelecimento VALUES(5,'Ânimo Café', 'Av Pontes Vieira', '417', '', '60013523', 'São João do Tauape', 'Fortaleza', 'Ce', '',3 )")

In [38]:
# Verificando inserção
pd.read_sql('select * from estabelecimento', con=conn)

  pd.read_sql('select * from estabelecimento', con=conn)


Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento
0,1,Amika Coffee House,Rua Ana Bilhar,1136.0,B,60160110,Meireles,Fortaleza,Ce,(85)3031-0351,1
1,2,Torra Café,Rua Marcos Macêdo,827.0,,60150190,Aldeota,Fortaleza,Ce,,1
2,3,Urbici Café,R. Barbosa de Freitas,951.0,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2
3,4,Blend Coffee House,R. Sabino Pires,,,60150090,Aldeota,Fortaleza,Ce,(85) 3121-6455,3
4,5,Ânimo Café,Av Pontes Vieira,417.0,,60013523,São João do Tauape,Fortaleza,Ce,,3


In [39]:
# Removendo instância
cursor.execute("DELETE FROM estabelecimento WHERE RES_NOM_ESTABELECIMENTO = 'Ânimo Café'")

In [40]:
# Verificando remoção
pd.read_sql('select * from estabelecimento', con=conn)

  pd.read_sql('select * from estabelecimento', con=conn)


Unnamed: 0,res_id,res_nom_estabelecimento,res_endereco,res_numero,res_complemento,res_cep,res_bairro,res_cidade,res_uf,res_telefone,res_tip_estabelecimento
0,1,Amika Coffee House,Rua Ana Bilhar,1136.0,B,60160110,Meireles,Fortaleza,Ce,(85)3031-0351,1
1,2,Torra Café,Rua Marcos Macêdo,827.0,,60150190,Aldeota,Fortaleza,Ce,,1
2,3,Urbici Café,R. Barbosa de Freitas,951.0,Loja 01,60170021,Aldeota,Fortaleza,Ce,,2
3,4,Blend Coffee House,R. Sabino Pires,,,60150090,Aldeota,Fortaleza,Ce,(85) 3121-6455,3


### Fechando a Conexão com o PostgreSQL

In [41]:
conn.commit()

In [42]:
cursor.close()

In [43]:
conn.close()