In [3]:
import pandas as pd
import sqlalchemy


In [2]:
sqlalchemy.__version__


'1.4.39'

Se a versão da SQLAlchemy for 2.0.16 ou uma versão mais atual, você deve atualizá-la para uma versão inferior a 2.0 com o seguinte código:
Após a instalação bem-sucedida, é importante reiniciar o ambiente de execução do Google Colab para garantir que as alterações sejam aplicadas.

Para fazer isso, clique no menu superior em "Ambiente de execução" e selecione a opção "Reiniciar ambiente de execução". Depois de reiniciar, você pode executar as células novamente e prosseguir com os próximos códigos.

Está tudo certo com a versão da SQLAlchemy aí? Se sim, vamos para a aula!

In [11]:
from sqlalchemy import create_engine, MetaData, Table, Column, inspect

In [6]:
engine = create_engine('sqlite:///:memory:', echo=True)

Nesse caso, usaremos o SQLite, um banco de dados que vem naturalmente instalado no Google Colab. Nesse trecho de código o memory indica que estamos usando um banco de dados local.
Nosso banco foi criado, já podemos começar a utilizá-lo.

O próximo desafio é pegar o arquivo CSV e colocar dentro desse banco.

Bancos de dados são sistemas que permitem o armazenamento, organização e recuperação de informações de forma estruturada e eficiente. Eles são amplamente utilizados em muitas áreas, desde gerenciamento de negócios à pesquisa científica. Um banco de dados bem projetado pode melhorar significativamente a eficiência e a precisão das operações de uma organização.

Existem bancos de dados relacionais e não-relacionais. Os bancos de dados relacionais representam e armazenam dados em tabelas. Já os não-relacionais, também conhecidos como bancos de dados NoSQL (Not Only SQL - Não SQL), usam uma variedade de estruturas de dados, como documentos, grafos ou pares de chave-valor.

Python oferece vários pacotes e bibliotecas para trabalhar com bancos de dados, incluindo SQLite, MySQL, PostgreSQL, Oracle, MongoDB, entre outros. Um dos pacotes mais comuns usados para trabalhar com bancos de dados relacionais em Python é o pacote sqlite3 que oferece suporte a bancos de dados SQLite. Este banco de dados é leve e incorporado que não exige um servidor separado para ser executado que já vem nativamente instalado no Google Colab.

Para trabalhar com esse banco podemos utilizar a SQLAlchemy, uma biblioteca de mapeamento objeto-relacional (ORM), que possibilita interagir com bancos de dados relacionais usando código Python. Ela fornece uma camada de abstração que permite aos desenvolvedores trabalhar com objetos Python em vez de lidar diretamente com as complexidades da linguagem SQL (Structured Query Language - Linguagem de consulta estruturada).

Uma das principais vantagens do uso de SQLAchemy é a capacidade de criar código mais legível e fácil de manter. Com SQLAlchemy, as operações do banco de dados são executadas usando métodos em objetos Python, tornando o código mais claro e menos propenso a erros.

Além disso, a SQLAlchemy oferece suporte a consultas complexas em bancos de dados, permitindo que pessoas desenvolvedoras extraiam facilmente informações relevantes de grandes conjuntos de dados. Isso é especialmente útil em aplicações que precisam lidar com grandes quantidades de dados.

Você pode encontrar mais detalhes sobre a biblioteca SQLAchemy na documentação.
https://www.sqlalchemy.org/

In [7]:
#Código omitido

url = 'data/clientes_banco.csv'
dados = pd.read_csv(url)


In [8]:
dados

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


São várias informações dos clientes da instituição financeira.

Para colocá-las no nosso banco de dados utilizaremos a função dados.to_sql(), que deixará o dataframe no formato do banco. Dentro do parênteses, colocamos duas aspas simples e definimos o nome da tabela que será criada. Nesse caso será 'clientes'.

Na mesma linha inserimos uma vírgula e escrevemos a variável engine, que é o motor do banco. Por fim, escrevemos o parâmetro index=False.

In [10]:
dados.to_sql('clientes', engine, index=False)

2023-12-23 14:55:03,773 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-12-23 14:55:03,800 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("clientes")
2023-12-23 14:55:03,801 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:55:03,803 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("clientes")
2023-12-23 14:55:03,804 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:55:03,806 INFO sqlalchemy.engine.Engine 
CREATE TABLE clientes (
	"ID_Cliente" BIGINT, 
	"Idade" BIGINT, 
	"Grau_escolaridade" TEXT, 
	"Estado_civil" TEXT, 
	"Tamanho_familia" BIGINT, 
	"Categoria_de_renda" TEXT, 
	"Ocupacao" TEXT, 
	"Anos_empregado" BIGINT, 
	"Rendimento_anual" FLOAT, 
	"Tem_carro" BIGINT, 
	"Moradia" TEXT
)


2023-12-23 14:55:03,807 INFO sqlalchemy.engine.Engine [no key 0.00096s] ()
2023-12-23 14:55:10,489 INFO sqlalchemy.engine.Engine INSERT INTO clientes ("ID_Cliente", "Idade", "Grau_escolaridade", "Estado_civil", "Tamanho_familia", "Categoria_de_renda", "Ocupacao", "Anos_emp

438463

Pronto, passamos os arquivos para o to_sql().

Mas, como sabemos se a tabela foi realmente criada no banco de dados?

Lembra que anteriormente importamos uma função chamada Função Inspect? Vamos utilizá-la novamente para inspecionar o banco de dados.

Criamos uma variável chamada inspector. Inserimos o símbolo de igual seguido da função inspect(). Dentro dela, vamos passar o engine e executar a célula.

Dessa forma, conseguimos verificar o que temos no banco de dados e inspecionar algumas informações.

In [12]:
#Código omitido

inspector = inspect(engine)

In [13]:
print(inspector.get_table_names())

2023-12-23 14:55:56,716 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2023-12-23 14:55:56,717 INFO sqlalchemy.engine.Engine [raw sql] ()
['clientes', 'data/clientes']


Essa é a tabela clientes que criamos anteriormente. Isso significa que deu certo.

A seguir descobriremos como fazer consultas SQL.


In [15]:
query = 'SELECT  * FROM clientes WHERE Categoria_de_renda="Empregado"'
empregados = pd.read_sql(query, engine)

2023-12-23 14:57:04,453 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("SELECT  * FROM clientes WHERE Categoria_de_renda=""Empregado""")
2023-12-23 14:57:04,454 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:57:04,456 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("SELECT  * FROM clientes WHERE Categoria_de_renda=""Empregado""")
2023-12-23 14:57:04,457 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:57:04,458 INFO sqlalchemy.engine.Engine SELECT  * FROM clientes WHERE Categoria_de_renda="Empregado"
2023-12-23 14:57:04,459 INFO sqlalchemy.engine.Engine [raw sql] ()


In [16]:
empregados

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


In [17]:
empregados.to_sql('empregados', con=engine, index=False)

2023-12-23 14:57:41,421 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-12-23 14:57:41,455 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("empregados")
2023-12-23 14:57:41,456 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:57:41,457 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("empregados")
2023-12-23 14:57:41,458 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:57:41,461 INFO sqlalchemy.engine.Engine 
CREATE TABLE empregados (
	"ID_Cliente" BIGINT, 
	"Idade" BIGINT, 
	"Grau_escolaridade" TEXT, 
	"Estado_civil" TEXT, 
	"Tamanho_familia" BIGINT, 
	"Categoria_de_renda" TEXT, 
	"Ocupacao" TEXT, 
	"Anos_empregado" BIGINT, 
	"Rendimento_anual" FLOAT, 
	"Tem_carro" BIGINT, 
	"Moradia" TEXT
)


2023-12-23 14:57:41,461 INFO sqlalchemy.engine.Engine [no key 0.00084s] ()
2023-12-23 14:57:44,387 INFO sqlalchemy.engine.Engine INSERT INTO empregados ("ID_Cliente", "Idade", "Grau_escolaridade", "Estado_civil", "Tamanho_familia", "Categoria_de_renda", "Ocupacao", "

226059

In [18]:
pd.read_sql_table('empregados', engine)

2023-12-23 14:57:55,428 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-12-23 14:57:55,429 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("empregados")
2023-12-23 14:57:55,430 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:57:55,431 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2023-12-23 14:57:55,432 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:57:55,433 INFO sqlalchemy.engine.Engine PRAGMA main.table_xinfo("empregados")
2023-12-23 14:57:55,434 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:57:55,437 INFO sqlalchemy.engine.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = ? AND type = 'table'
2023-12-23 14:57:55,437 INFO sqlalchemy.engine.Engine [raw sql] ('empregados',)
2023-12-23 14:57:55,441 INFO sqlalchemy.engine.Engine PRAGMA main.foreign_key_list("empregados")
2023-12-23 14:57:55,442 INFO sqlalchemy.engine.Engine [raw sql] ()
202

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


In [19]:
pd.read_sql_table('empregados', engine, columns=['ID_Cliente', 'Grau_escolaridade', 'Rendimento_anual'])

2023-12-23 14:58:12,866 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-12-23 14:58:12,867 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("empregados")
2023-12-23 14:58:12,869 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:58:12,870 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2023-12-23 14:58:12,871 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:58:12,872 INFO sqlalchemy.engine.Engine PRAGMA main.table_xinfo("empregados")
2023-12-23 14:58:12,873 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 14:58:12,875 INFO sqlalchemy.engine.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = ? AND type = 'table'
2023-12-23 14:58:12,876 INFO sqlalchemy.engine.Engine [raw sql] ('empregados',)
2023-12-23 14:58:12,878 INFO sqlalchemy.engine.Engine PRAGMA main.foreign_key_list("empregados")
2023-12-23 14:58:12,878 INFO sqlalchemy.engine.Engine [raw sql] ()
202

Unnamed: 0,ID_Cliente,Grau_escolaridade,Rendimento_anual
0,5008804,Ensino superior,427500.0
1,5008805,Ensino superior,427500.0
2,5008806,Ensino médio,112500.0
3,5008815,Ensino superior,270000.0
4,5112956,Ensino superior,270000.0
...,...,...,...
226054,6837905,Ensino médio,355050.0
226055,6837906,Ensino médio,355050.0
226056,6839936,Ensino médio,135000.0
226057,6840222,Ensino médio,103500.0


A partir disso o time de dados já pode fazer algumas análises.

Mas, e se algum cliente não estiver mais cadastrado na instituição financeira ou tiver seu rendimento anual atualizado?

Como realizar alterações nesses dados?


In [20]:
query = 'DELETE from clientes WHERE Id_Cliente=5008804' 

In [21]:
with engine.connect() as conn:
    conn.execute(query)

2023-12-23 15:07:27,311 INFO sqlalchemy.engine.Engine DELETE from clientes WHERE Id_Cliente=5008804
2023-12-23 15:07:27,312 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:07:27,390 INFO sqlalchemy.engine.Engine COMMIT


In [23]:
pd.read_sql_table('clientes',engine)

2023-12-23 15:07:50,380 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-12-23 15:07:50,381 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("clientes")
2023-12-23 15:07:50,382 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:07:50,384 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2023-12-23 15:07:50,385 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:07:50,387 INFO sqlalchemy.engine.Engine PRAGMA main.table_xinfo("clientes")
2023-12-23 15:07:50,387 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:07:50,390 INFO sqlalchemy.engine.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = ? AND type = 'table'
2023-12-23 15:07:50,391 INFO sqlalchemy.engine.Engine [raw sql] ('clientes',)
2023-12-23 15:07:50,393 INFO sqlalchemy.engine.Engine PRAGMA main.foreign_key_list("clientes")
2023-12-23 15:07:50,394 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


In [24]:
query = 'UPDATE clientes SET Grau_escolaridade="Ensino superior" WHERE ID_Cliente=5008808'
with engine.connect() as conn:
    conn.execute(query)

2023-12-23 15:08:34,741 INFO sqlalchemy.engine.Engine UPDATE clientes SET Grau_escolaridade="Ensino superior" WHERE ID_Cliente=5008808
2023-12-23 15:08:34,743 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:08:34,805 INFO sqlalchemy.engine.Engine COMMIT


In [25]:
pd.read_sql_table('clientes', engine)

2023-12-23 15:08:37,521 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-12-23 15:08:37,522 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("clientes")
2023-12-23 15:08:37,523 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:08:37,524 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2023-12-23 15:08:37,526 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:08:37,527 INFO sqlalchemy.engine.Engine PRAGMA main.table_xinfo("clientes")
2023-12-23 15:08:37,528 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 15:08:37,530 INFO sqlalchemy.engine.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = ? AND type = 'table'
2023-12-23 15:08:37,531 INFO sqlalchemy.engine.Engine [raw sql] ('clientes',)
2023-12-23 15:08:37,532 INFO sqlalchemy.engine.Engine PRAGMA main.foreign_key_list("clientes")
2023-12-23 15:08:37,533 INFO sqlalchemy.engine.Engine [raw sql] ()
2023-12-23 

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino superior,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


Analisando a tabela, conseguimos identificar que o cliente 5008808 agora consta com o grau de escolaridade como Ensino superior. Deu tudo certo!
Criar um banco de dados local;
Escrever em um banco de dados;
Realizar a leitura em uma consulta SQL;
Atualizar um banco de dados.