# Integração Python-SQL

Até agora vimos como construir *queries* dentro de um ambiente SQL (através do cliente *DBeaver*). Embora a utilização de um cliente seja fundamental para explorar o banco de dados e construir *queries* de forma mais rápida, ele não contém ferramentas analíticas (tabelas, funções matemáticas complexas, gráficos, modelos, etc).

Para acessar funções analíticas podemos utilizar outras ferramentas como **clientes** do nosso banco de dados: desde o Excel até Python e Tableau. Na aula de hoje veremos como conectar o Python ao nosso servidor MySQL e extrair dados para análise.

Vamos utilizar a biblioteca **pymysql** para realizar essa conexão. Além disso utilizaremos a biblioteca **sqlalchemy** para executar queries em nosso banco.

## PyMySQL + SQLAlchemy

In [None]:
!pip install pymysql

In [None]:
from sqlalchemy import create_engine

Primeiro precisamos especificar os **parâmetros de conexão** ao nosso banco de dados:

In [None]:
user = "root"
password = "swpmlu23-"
url_banco = "localhost"
nome_db = "bank"
conn_str = f"mysql+pymysql://{user}:{password}@{url_banco}/{nome_db}"
print(conn_str)

Agora vamos utilizar o string de conexão `conn_str` para criar um objeto `engine`:

In [None]:
engine = create_engine(conn_str)
print(engine)

Para executar um query basta utilizarmos o método `.execute()` de um `Engine`:

In [None]:
results = engine.execute("SELECT * FROM account")
print(results)

O resultado do método é um **cursor**: ele ainda não contém os resultados de nosso query. Para extrair-los utilizaremos o método `.fetchall()`:

In [None]:
dados = results.fetchall()
dados

## Utilizando Pandas

O resultado do método `.fetchall()` é uma lista. Embora listas sejam facilmente transformadas em `DataFrames`, podemos economizar esforços utilizando a função `read_sql_query()` da biblioteca Pandas.

In [None]:
import pandas as pd

Para utilizarmos está função precisaremos do nosso `Engine`, criado através da **SQLAlchemy** na primeira parte da aula.

In [None]:
tb_account = pd.read_sql_query("SELECT * FROM account", engine)
tb_account.head()

Os queries que vimos acima são *one-liners*: simples o suficiente para serem escritos em uma linha de código. Conforme a complexidade de nossos queries aumenta, devemos utilizar *strings multi-line* ou arquivos `.sql` para guardar nossos queries:

In [None]:
query_loan = '''
'''
tb_district_loan = pd.read_sql_query(query_loan, engine)
tb_district_loan.head()

Outra forma de estruturar nossos queries é salvando-os em arquivos externos `.sql` - dessa forma mantemos separados Python e SQL de uma forma simples:

In [None]:
fd = open('queries/QUERY_DISTRICT_LOAN.sql', 'r')
sqlFile = fd.read()
fd.close()
print(sqlFile)

In [None]:
tb_district_loan = pd.read_sql_query(sqlFile, engine)
tb_district_loan.head()

# Action Queries

Action queries (o **C**, **U** e **D** em **CRUD**) são queries que realizam alterações em nosso DB:

1) **CREATE** nos permite criar tabelas e DBs através dos queries:
    * **CREATE TABLE *nome_tabela* (*coluna_1* *tipo*, *coluna_2* *tipo*, *...*)** para criar tabelas;
    * **CREATE DATABASE *nome_db*** para criar DBs;
    * **INSERT INTO *nome_tabela* VALUES (*valor1*, *valor2*, *...*)** para inserir uma nova linha na tabela *nome_tabela* com valores igual à *valor1*, *valor2*, *...*
1) **UPDATE** nos permite alterar uma estrutura existente em nosso DB;
    * **ALTER TABLE *nome_tabela* ADD PRIMARY KEY *nome_coluna*** para criar uma chave primaria em uma tabela existente; 
    * **ALTER TABLE *nome_tabela* ADD FOREIGN KEY (*nome_coluna*) REFERENCES *nome_outra_tabela*(*nome_coluna_2*)** para criar um relação entre as tabelas *nome_tabela* e *nome_outra_tabela* através das colunas *nome_coluna* e *nome_coluna_2*;
    * **UPDATE *nome_tabela* SET *coluna_1* = *valor1*, *coluna_2* = *valor2* ... WHERE *condição*** para alterar os valores das colunas *coluna_1*, *coluna_2*, *...*, em todas as linhas onde *condição* é verdadeira.
1) **DELETE** nos permite excluir objetos do nosso DB;
    * **DROP DATABASE IF EXISTS *nome_db*** para excluir o DB *nome_db* caso ele exista;
    * **DROP TABLE IF EXISTS *nome_db.nome_tabela*** para excluir a tabela *nome_tabela* do DB *nome_db*;
    * **DROP TABLE IF EXISTS *nome_db.nome_tabela* CASCADE** para excluir a tabela *nome_tabela* do DB *nome_db* e todas as tabelas que dependam de *nome_tabela*;
    * **DELETE FROM *nome_tabela* WHERE *condição*** para excluir todas as linhas ta tabela *nome_tabela* onde *condição* seja verdadeira.

    Vamos criar parte do nosso DB da Ironhack que criamos no sábado utilizando os queries acima:

In [None]:
engine.execute("DROP DATABASE ironhack")

In [None]:
engine.execute("CREATE DATABASE ironhack")

Com o DB criado, vamos criar as tabelas `aluno`, `turma` e `matricula`:

In [None]:
query_aluno = '''
    CREATE TABLE ironhack.aluno (
        id_aluno int NOT NULL PRIMARY KEY,
        nome varchar(255) NOT NULL,
        email varchar(255)
    )
'''

query_turma = '''
    CREATE TABLE ironhack.turma (
        id_turma int NOT NULL PRIMARY KEY,
        area varchar(255) NOT NULL,
        tipo varchar(255) NOT NULL,
        campus varchar(255) NOT NULL,
        data_inicio date NOT NULL
    )
'''

query_matricula = '''
    CREATE TABLE ironhack.matricula (
        id_matricula int NOT NULL PRIMARY KEY,
        id_aluno int NOT NULL,
        id_turma int NOT NULL,
        data_matricula date NOT NULL,
        FOREIGN KEY (id_turma) REFERENCES ironhack.turma(id_turma)
    )
'''

Vamos utilizar os queries acima para criar as três tabelas em nosso DB:

In [None]:
engine.execute(query_aluno)
engine.execute(query_turma)
engine.execute(query_matricula)

No DB acima não declaramos a relação entre a tabela `matricula` e a tabela `aluno`. Vamos utilizar o **ALTER TABLE** para adicionar essa relação:

In [None]:
query_fk = '''
    ALTER TABLE ironhack.matricula
    ADD FOREIGN KEY (id_aluno)
    REFERENCES ironhack.aluno(id_aluno)
'''

engine.execute(query_fk)

Agora vamos criar os dados de nossa escola:

In [None]:
lista_alunos = [
    (1, 'Guilherme', 'guilherme_93@gmail.com'),
    (2, 'Guilherme', 'guilherme_71@gmail.com'),
    (3, 'Alexa', 'alexa@gmail.com'),
    (4, 'Breno', 'breno@gmail.com'),
    (5, 'Thomas', 'thomas@gmail.com'),
    (6, 'Matheus', 'matheus@gmail.com'),
    (7, 'José', 'jose@gmail.com'),
    (8, 'Maria', 'maria@gmail.com'),
    (9, 'Madalena', 'madalena@gmail.com'),
    (10, 'Miguel', 'miguel@gmail.com'),
    (11, 'Berenice', 'berenice@gmail.com')
]

In [None]:
lista_turmas = [
    (99, 'DA', 'PT', 'SAO_RMT'),
    (54, 'WD', 'FT', 'SAO_RMT'),
    (112, 'DA', 'FT', 'MEX_RMT')
]

In [None]:
lista_matriculas = [
    (1, 1, 99),
    (2, 2, 99),
    (3, 3, 99),
    (4, 4, 99),
    (5, 5, 99),
    (6, 6, 99),
    (7, 5, 54),
    (8, 7, 54),
    (9, 8, 54),
    (10, 9, 54),
    (11, 10, 112),
    (11, 11, 112),
]

Como nossas tabelas tem relações de **depêndencia**, representandas pelas `FOREIGN KEYS`, precisamos começar inserindo os valores nas tabelas **independentes** (em nosso caso, as tabelas `aluno` e `turma`).

Vamos redefinir nosso `engine` para conectarmos o novo DB:

In [None]:
user = "root"
password = "swpmlu23-"
url_banco = "localhost"
nome_db = "ironhack"
conn_str = f"mysql+pymysql://{user}:{password}@{url_banco}/{nome_db}"
engine = create_engine(conn_str)

Poderíamos usar um query simples de `INSERT` junto com um loop para inserirmos os dados diretamente através do engine. Mas a biblioteca SQLAlchemy nos fornece um caminho mais simples e eficientes através do objeto `MetaData`:

In [None]:
from sqlalchemy import MetaData

In [None]:
meta = MetaData(bind=engine)
meta.reflect()

Vamos utilizar o objeto `meta` para acessar *simbolicamente* a nossa tabela `aluno`:

In [None]:
tb_db_alunos = meta.tables['aluno']

A partir do novo objeto `tb_db_alunos` podemos utilizar o método `.insert().values()` para inserir em massa os nossos dados na tabela.

In [None]:
load_alunos = tb_db_alunos.insert().values(lista_alunos)
engine.execute(load_alunos)