<h1>Pandas I/O: trabalhando com diferentes formatos de arquivos</h1>

[Parte 3](https://cursos.alura.com.br/course/pandas-io-trabalhando-diferentes-formatos-arquivos/task/133671)


Como visto no curso [Alura](https://cursos.alura.com.br/course/pandas-io-trabalhando-diferentes-formatos-arquivos) com os objetivos de:
* Entenda o que são arquivos do tipo CSV, XLSX, JSON, HTML e XML
* Compreenda como trabalhar com diferentes tipos de dados, tanto na entrada como na saída (input/output)
* Leia dados provenientes do Google Planilhas
* Obtenha tabelas a partir de páginas web
* Crie um banco de dados local
* Escreva em um banco de dados local
* Realize consultas SQL

Será utilizado os arquivos do [github](https://github.com/alura-cursos/Pandas)

<h2>SETUP</h2>

vamos utilizar duas bibliotecas: pandas e SQLAlchemy. 


In [2]:
import pandas as pd
import sqlalchemy

## Para checar a versão da biblioteca SQLAlchemy, use o seguinte código:
sqlalchemy.__version__

## Se a versão da SQLAlchemy for 2.0.16 ou uma versão mais atual, 
## você deve atualizá-la para uma versão inferior a 2.0 com o seguinte código:

# pip install --upgrade 'sqlalchemy<2.0'


'1.4.39'

# 05) BANCO DE DADOS  - SQL

O time de dados de uma Instituição Financeira possui um arquivo CSV que contém os dados de todos os clientes cadastrados. Porém, o que eles querem é pegar esse arquivo, colocar em um banco de dados local e a partir dele realizar consultas SQL. Assim será possível analisar dados, obter insights e tomar decisões estratégicas.

A linguagem trabalhada em banco de dados é a <b>SQL</b>, uma sigla que vem do inglês "Strictured Quert Language" e significa Linguagem de Consulta Estruturada.


<h2>Criando um banco de dados local</h2>

In [3]:
import sqlalchemy
# Agora, precisamos fazer algumas importações.
# A primeira importação será create_engine, que serve para criar o motor, a conexão com o banco de dados que o fará funcionar.
from sqlalchemy import create_engine, MetaData, Table, inspect

# MetaData>>> Essa é uma classe que representa os meta dados do banco de dados, isso inclui informações sobre as tabelas, colunas e outros objetos.
# Table>>> que representa uma tabela em um banco de dados e é usada para manipular dados em uma tabela específica.
# inspect>>> que permite inspecionar a estrutura do banco de dados. Em seguida, executamos a célula.

In [4]:
# Agora, vamos criar o banco de dados. 
# Para isso, criamos uma variável chamada engine. 

# Dela, chamamos o create_engine(). 
# Dentro das chaves abrimos aspas simples e escrevemos o banco de dados que será utilizado, 'sqlite:///:memory:'.

import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table, inspect
engine = create_engine('sqlite:///:memory:')

#CRIADO!

<h2>Escrevendo em um banco de dados local</h2>

In [5]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'
import pandas as pd
dados = pd.read_csv(url)
dados.head()


Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio


In [8]:
# Para colocá-las no nosso banco de dados utilizaremos a função dados.to_sql(), 
# que deixará o dataframe no formato do banco. 
# Dentro do parênteses, colocamos duas aspas simples e definimos o nome da tabela que será criada. Nesse caso será 'clientes'.

dados.to_sql('clientes', engine, index=False)

ValueError: Table 'clientes' already exists.

In [10]:
# Criamos uma variável chamada inspector. 
# Inserimos o símbolo de igual seguido da função inspect(). Dentro dela, vamos passar o engine e executar a célula.

# Dessa forma, conseguimos verificar o que temos no banco de dados e inspecionar algumas informações.

inspector = inspect(engine)
print(inspector.get_table_names())

['clientes']


<h2>Lendo uma CONSULTA SQL</h2>

In [23]:
# Para isso, criamos uma variável chamada query. Inserimos o símbolo de igual e duas aspas simples.

query = 'SELECT * FROM clientes WHERE Categoria_de_renda="Empregado"'
empregados = pd.read_sql(query, engine)

In [24]:
empregados

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


In [25]:
# Salvá-la como uma nova tabela escrevemos empregados.to_sql()

empregados.to_sql('empregados', con=engine, index=False)

# Utilizamos o read_sql para lermos uma consulta, mas e se quisermos ler uma tabela inteira como a que acabamos de salvar?


### LER A TABELA INTEIRA ###
pd.read_sql_table('empregados', engine)


Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


In [26]:
## Além disso, também podemos inserir outros parâmetros, como especificar quais colunas queremos que sejam lidas.

## Depois de engine, adicionamos o parâmetro colums=[]. Dentro de colchetes adicionamos aspas simples e dentro delas adicionamos as colunas que queremos visualizar, sendo: 
## 'ID_cliente', 'Grau_escolaridade', 'Rendimento_anual'.

pd.read_sql_table('empregados', engine, columns=['ID_Cliente', 'Grau_escolaridade', 'Rendimento_anual'])

Unnamed: 0,ID_Cliente,Grau_escolaridade,Rendimento_anual
0,5008804,Ensino superior,427500.0
1,5008805,Ensino superior,427500.0
2,5008806,Ensino médio,112500.0
3,5008815,Ensino superior,270000.0
4,5112956,Ensino superior,270000.0
...,...,...,...
226054,6837905,Ensino médio,355050.0
226055,6837906,Ensino médio,355050.0
226056,6839936,Ensino médio,135000.0
226057,6840222,Ensino médio,103500.0


<h2>Atualizando um banco de dados</h2>


In [27]:
query = 'SELECT * FROM clientes'
pd.read_sql(query, engine) 

# Suponhamos que a pessoa de ID 5008804 cancelou sua conta na instituição financeira. Isso significa que ela não faz mais parte do quadro de clientes.


### APAGANDO UM DADO  (DELETE)


query = 'DELETE FROM clientes WHERE ID_Cliente=5008804'
with engine.connect() as conn:
    conn.execute(query)

## Com isso estamos usando um método chamado connect para estabelecer uma conexão com o banco de dados. 
## Estamos pedindo para executar a query com o método execute que quando chamado, executa a instrução SQL diretamente no banco de dados, usando a conexão estabelecida.
    

In [28]:
### ATUALIZAR UM DADO AO INVES DE APAGAR  (UPDATE)

query = 'UPDATE clientes SET Grau_escolaridade="Ensino superior" WHERE ID_Cliente=5008808'
with engine.connect() as conn:
    conn.execute(query)
    
pd.read_sql_table('clientes', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino superior,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


<h2>DESAFIO: MANIPULANDO UM BANCO DE DADOS </h2>
Usando o arquivo CSV com os dados de [CLIENTES](https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv) , faça:

* Criar o banco de dados local com a biblioteca SQLAlchemy.
* Escrever os dados do arquivo CSV neste banco de dados local.
* Realizar três atualizações no banco de dados:
   * Atualizar o registro do cliente de ID 6840104 que teve o rendimento anual alterado para 300000.
   * Excluir o registro do cliente de ID 5008809, pois essa pessoa não possui mais conta na instituição financeira.
   * Criar um novo registro de cliente seguindo as especificações abaixo:
      *  ID_Cliente: 6850985
      *  Idade: 33
      *  Grau_escolaridade: Doutorado
      *  Estado_civil: Solteiro
      *  Tamanho_familia: 1
      *  Categoria_de_renda: Empregado
      *  Ocupacao: TI
      *  Anos_empregado: 2
      *  Rendimento_anual: 290000
      *  Tem_carro: 0
      *  Moradia: Casa/apartamento próprio
      
<b>Dica Importante:</b> <i>Para adicionar um(a) novo(a) cliente à tabela, utilize a cláusula INSERT INTO seguida do nome da tabela e depois especifique entre parênteses os nomes das colunas da tabela. Utilize a cláusula VALUES e, em seguida, passe entre parênteses os novos valores para esse novo registro. Certifique-se de que os valores estejam na ordem correta e no formato adequado para cada coluna.</i>

In [29]:
import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table, inspect
engine = create_engine('sqlite:///:memory:')

import pandas as pd
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'
dados = pd.read_csv(url)
dados.to_sql('clientes', engine, index=False)

pd.read_sql_table('clientes', engine)


Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


In [30]:
query = 'UPDATE clientes SET Rendimento_anual=300000.0 WHERE ID_Cliente=6840104'
with engine.connect() as conn:
    conn.execute(query)

In [31]:
query = 'DELETE FROM clientes WHERE ID_Cliente=5008809'
with engine.connect() as conn:
    conn.execute(query)

In [32]:
query = 'INSERT INTO clientes (ID_Cliente, Idade, Grau_escolaridade, Estado_civil, ' \
        'Tamanho_familia, Categoria_de_renda, Ocupacao, Anos_empregado, ' \
        'Rendimento_anual, Tem_carro, Moradia) ' \
        'VALUES (6850985, 33, "Doutorado", "Solteiro", 1, "Empregado", "TI", ' \
        '2, 290000, 0, "Casa/apartamento próprio")'

with engine.connect() as conn:
    conn.execute(query)

In [33]:
pd.read_sql_table('clientes', engine)


Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio
438461,6842885,51,Ensino médio,Casado,2,Empregado,Vendas,3,121500.0,0,Casa/apartamento próprio
