# √çNDICES e PARTICIONAMENTO

Na aula anterior estudamos os conceitos de **depend√™ncias funcionais** e **normaliza√ß√£o**. O conhecimento das formas normais propicia verificar a possibilidade de realizar altera√ß√µes no design das bases de dados, com o objetivo de **evitar repeti√ß√µes** e **recuperar informa√ß√µes de forma f√°cil**.

Entretanto, mesmo obedecendo (ou n√£o) √†s formas normais, em certas situa√ß√µes a performance de nossas queries em produ√ß√£o se torna sofr√≠vel. Nesta aula, veremos alguns recursos que podemos utilizar para melhorar o desempenho das consultas produzidas.

Este √© um tema bastante relevante. Um engenheiro sem o devido conhecimento pode recomendar, por exemplo, a compra de mais servidores (f√≠sicos ou na AWS), quando a aplica√ß√£o dos conceitos vistos nesta aula poderiam gerar ganhos de m√∫ltiplas vezes no tempo de execu√ß√£o de queries!

## Instala√ß√£o da base

Vamos utilizar a base de dados sint√©tica dispon√≠vel no Blackboard. Execute o script `script_elet_001.sql` para criar a base de dados. Este script apenas faz a **DDL**, os dados ger√£o gerados de forma aleat√≥ria neste notebook.

## Import das bibliotecas

Vamos realizar o import das bibliotecas.

In [None]:
import mysql.connector
import os
import random
from functools import partial
from datetime import datetime, timedelta
from dotenv import load_dotenv
from IPython.display import clear_output

E vamos criar nosso HELPER de conex√£o com o banco! Perceba que, uma vez configurado o `.env` n√£o precisaremos mais informar usu√°rios, senhas e URLs!

In [None]:
load_dotenv(override=True)

def get_connection_helper():

    def run_db_query(connection, query, args=None, verbose=True):
        with connection.cursor() as cursor:
            if verbose:
                print("Executando query:")
            cursor.execute(query, args)
            for result in cursor:
                if verbose:
                    print(result)

    connection = mysql.connector.connect(
        host=os.getenv("MD_DB_SERVER"),
        user=os.getenv("MD_DB_USERNAME"),
        password=os.getenv("MD_DB_PASSWORD"),
        database="eletrobeer",
    )
    return connection, partial(run_db_query, connection)


connection, db = get_connection_helper()

## Gerar dados para a base

Vamos gerar alguns valores aleat√≥rios e inserir na base de dados `eletrobeer`.

Primeiro, defina a quantidade de linhas a serem inseridas:

In [None]:
QTDE_PED = 4000000

Vamos definir algumas fun√ß√µes auxiliares

In [None]:
def get_random_date():
    start_date = datetime(2015, 1, 1)
    end_date = datetime(2022, 12, 31)

    delta = end_date - start_date
    random_date = start_date + timedelta(days=random.randint(0, delta.days))

    return  random_date.strftime("%Y-%m-%d")

def get_cidade_uf():
    cidades = [
        ["S√£o Paulo", "SP"],
        ["Campinas", "SP"],
        ["Ribeir√£o Preto", "SP"],
        ["S√£o Roque", "SP"],
        ["Rio de Janeiro", "RJ"],
        ["Maca√©", "RJ"],
        ["Angra dos Reis", "RJ"],
    ]

    cidade, uf = random.choice(cidades)
    return cidade, uf

def insert_pedidos(connection, pedidos):
    cursor = connection.cursor()
    sql = """INSERT INTO eletrobeer.pedido
    (id_pedido, id_cliente, data_criacao, qtde_itens, valor_total, cidade_entrega, uf_entrega)
    VALUES (%s, %s, %s, %s, %s, %s, %s)"""
    cursor.executemany(sql, pedidos)
    cursor.close()

Garantir que a tabela `pedido` est√° vazia

In [None]:
db("DELETE FROM eletrobeer.pedido")

Ent√£o, geramos os dados aleat√≥rios.

**<span style="color:red">Aten√ß√£o</span>**: Este processo pode demorar alguns minutos! A cada aproximadamente 5 segundos, `BATCH_SIZE` inser√ß√µes devem ser realizadas, com o retorno da mensagem `Completou 200000`, `Completou 400000` e assim por diante!

**Dica:** enquanto executa a pr√≥xima c√©lula, apenas por curiosidade, leia o seguinte material https://dev.mysql.com/doc/refman/8.0/en/optimizing-innodb-bulk-data-loading.html.

In [21]:
BATCH_SIZE = 200000

pedidos = []

for id_pedido in range(1, QTDE_PED + 1):
    id_cliente = random.randint(1000, 10000)
    qtde_itens = random.randint(1, 200)
    data_criacao = get_random_date()
    valor_total = random.uniform(15.0, 300000)
    cidade, uf = get_cidade_uf()

    pedido = (id_pedido, id_cliente, data_criacao, qtde_itens, valor_total, cidade, uf)
    pedidos.append(pedido)

    if len(pedidos) == BATCH_SIZE:
        insert_pedidos(connection, pedidos)
        pedidos = []

    if id_pedido % BATCH_SIZE == 0:
        clear_output()
        print(f"Completou {id_pedido}")

if pedidos:
    insert_pedidos(connection, pedidos)

connection.commit()

Completou 4000000


E vamos fazer `commit` para garantir que os dados foram salvos!

In [22]:
connection.commit()

## Consultando a base

Vamos fazer algumas consultas. Como nosso objetivo √© avaliar a performance das queries, precisamos analisar o tempo que cada query necessita para executar.

Uma op√ß√£o √© fazer o c√°lculo direto no Python:

In [26]:
import time

start_time = time.time() # get current time

db("SELECT COUNT(*) FROM pedido")

end_time = time.time() # get current time again

time_spent = end_time - start_time # calculate time spent

print("Time spent:", time_spent, "seconds")

Executando query:
(4000000,)
Time spent: 0.12476587295532227 seconds


Entretanto, desta forma estamos considerando o tempo total, incluindo o tempo gasto pelas fun√ß√µes do pr√≥prio Python. Talvez n√£o seja um tempo significativo, mas como poderia ser, melhor evitar e considerar o tempo isolado: apenas o que foi gasto de fato para a query executar (ap√≥s ter sido recebida pelo RDBMS MySQL).

Para isto, vamos ativar **profiling**:

In [27]:
db("SET profiling = 1;", verbose=False)

**Obs**: quando quiser desativar, utilize

```mysql
SET profiling = 0;
```

Ent√£o podemos executar algum **SQL**

In [28]:
db("SELECT COUNT(*) FROM pedido")

Executando query:
(4000000,)


E ver, no segundo elemento de cada tupla, qual o tempo gasto para a query ser executada.

In [29]:
db("SHOW PROFILES;")

Executando query:
(1, 0.136473, 'SELECT COUNT(*) FROM pedido')


Ent√£o, podemos executar novas queries e ver o seu tempo consumido:

**Dica**: aqui, `verbose=False` executar√° a query, mas n√£o exibir√° o resultado na sa√≠da. Podemos fazer assim quando nosso interesse √© em apenas ter o tempo da query e n√£o o resultado

In [30]:
sql = "SELECT COUNT(*) as QTDE_LINHAS FROM pedido"

db(sql, verbose=False)
db("SHOW PROFILES;")

Executando query:
(1, 0.136473, 'SELECT COUNT(*) FROM pedido')
(2, 0.12779075, 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido')


Utilize `SET PROFILING_HISTORY_SIZE = ???;`, trocando `???` pelo **n√∫mero de queries** que quer ver no resultado dos profiles, para limitar a exibi√ß√£o as √∫ltimas **n√∫mero de queries**.

In [31]:
db("SET PROFILING_HISTORY_SIZE = 2;", verbose=False)
db("SHOW PROFILES;")

Executando query:
(2, 0.12779075, 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido')
(3, 8.325e-05, 'SET PROFILING_HISTORY_SIZE = 2')


Vamos deixar configurado para `5`. Voc√™ pode alterar quando quiser!

In [33]:
db("SET PROFILING_HISTORY_SIZE = 5;", verbose=False)
db("SHOW PROFILES;")

Executando query:
(2, 0.12779075, 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido')
(3, 8.325e-05, 'SET PROFILING_HISTORY_SIZE = 2')
(4, 8.5e-05, 'SET PROFILING_HISTORY_SIZE = 5')
(5, 8.65e-05, 'SET PROFILING_HISTORY_SIZE = 5')


### Explorando novos exemplos

Vamos executar algumas consultas e verificar seus tempos de execu√ß√£o.

**Dica**: leia cada query e tente entender o que ela faz!

In [36]:
sql1 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = "S√£o Paulo";"""

sql2 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = "Rio de Janeiro";"""

sql3 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega IN ("Rio de Janeiro", "S√£o Paulo");"""

sql4 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE "S√£o%";"""

sql5 = r"""SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE "%de%";"""

db(sql1)
db(sql2)
db(sql3)
db(sql4)
db(sql5)

db("SHOW PROFILES;")

Executando query:
(570284,)
Executando query:
(573741,)
Executando query:
(1144025,)
Executando query:
(1140871,)
Executando query:
(573741,)
Executando query:
(12, 0.67303475, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = "S√£o Paulo"')
(13, 0.63816175, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = "Rio de Janeiro"')
(14, 0.848322, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega IN ("Rio de Janeiro", "S√£o Paulo")')
(15, 0.64524675, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE "S√£o%"')
(16, 0.77813275, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE "%de%"')


### MEGADADOS?!

Podemos perceber que esta base tem (deveria ter!!!) 4 milh√µes de linhas.

In [35]:
sql = "SELECT COUNT(*) as QTDE_LINHAS FROM pedido"

db(sql)

Executando query:
(4000000,)


No resultados do `SHOW PROFILES`, vemos que o tempo √© quase zero. Mas n√£o se engane, estamos mantendo um ambiente controlado, com apenas uma tabela e realizando queries simples o suficiente para entendermos o que est√° acontecendo.

Em uma situa√ß√£o do mercado profissional, prepare-se para trabalhar com milh√µes ou bilh√µes de linhas em dezenas ou centenas de tabelas, construindo queries de centenas e at√© milhares de linhas que rodam milhares ou milh√µes de vezes! As situa√ß√µes de depend√™ncia entre m√∫ltiplas colunas e tabelas gerar√° muitas situa√ß√µes onde os conceitos da aula poder√£o ser aplicados.

**Dica**: No MySQL Workbench, d√™ bot√£o direito na tabela / Table Inspector. Abra o explorer e confira o tamanho do arquivo contido no **Data path**! Novamente, em uma situa√ß√£o de mercado, espere gigabytes!

### √çndices

√çndices s√£o estruturas de dados que facilitam a localiza√ß√£o de informa√ß√£o no banco de dados.

**Obs**: Link para simular `BTREE` https://www.cs.usfca.edu/~galles/visualization/BTree.html

Para criar um √≠ndice, vamos utilizar a sintaxe:
```mysql
CREATE INDEX index_name [index_type] 
 ON tbl_name (index_col_name,...)
```

Por exemplo:

```mysql
-- Por padr√£o, o index ser√° BTREE
CREATE INDEX pedido_cidade_entrega_IDX
 ON eletrobeer.pedido (cidade_entrega);
```

√â importante lembrar que nem todos os engines suportam √≠ndice **HASH**. A engine padr√£o da vers√£o que utilizamos (**InnoDB**) n√£o suporta!

In [37]:
db("SHOW ENGINES;")

Executando query:
('ARCHIVE', 'YES', 'Archive storage engine', 'NO', 'NO', 'NO')
('BLACKHOLE', 'YES', '/dev/null storage engine (anything you write to it disappears)', 'NO', 'NO', 'NO')
('MRG_MYISAM', 'YES', 'Collection of identical MyISAM tables', 'NO', 'NO', 'NO')
('FEDERATED', 'NO', 'Federated MySQL storage engine', None, None, None)
('MyISAM', 'YES', 'MyISAM storage engine', 'NO', 'NO', 'NO')
('PERFORMANCE_SCHEMA', 'YES', 'Performance Schema', 'NO', 'NO', 'NO')
('InnoDB', 'DEFAULT', 'Supports transactions, row-level locking, and foreign keys', 'YES', 'YES', 'YES')
('MEMORY', 'YES', 'Hash based, stored in memory, useful for temporary tables', 'NO', 'NO', 'NO')
('CSV', 'YES', 'CSV storage engine', 'NO', 'NO', 'NO')


Vamos criar um √≠ndice na coluna `cidade_entrega` e repetir as queries.

Mas antes, vamos consultar se existe algum √≠ndice atualmente nesta tabela!

In [40]:
db("SHOW INDEX FROM pedido;")

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 3981339, None, None, '', 'BTREE', '', '', 'YES', None)


Perceba que j√° existe um √≠ndice. Por que ele est√° a√≠ se ainda n√£o criamos nenhum?!

<div class="alert alert-success">

Sua resposta AQUI!

</div>

<a href="#" title="O √≠ndice foi criado para a coluna que √© chave prim√°ria! Isto √© feito por padr√£o, uma vez que a chave acaba sendo utilizada em diversas consultas e joins.">Pare o  mouse aqui para ver a resposta</a>

Ent√£o criamos o √≠ndice

In [41]:
db("CREATE INDEX pedido_cidade_entrega_IDX ON eletrobeer.pedido (cidade_entrega);")

Executando query:


E conferimos novamente os √≠ndices existentes

In [42]:
db("SHOW INDEX FROM pedido;")

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 3981339, None, None, '', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_cidade_entrega_IDX', 1, 'cidade_entrega', 'A', 6, None, None, 'YES', 'BTREE', '', '', 'YES', None)


Caso queira ver o t√≠tulo das coluas, execute o `SHOW INDEX FROM pedido;` direto no MySQL WorkBench!

Agora repetimos as queries. Compare o tempo necess√°rios para suas execu√ß√µes.

In [44]:
sql1 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = "S√£o Paulo";"""

sql2 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = "Rio de Janeiro";"""

sql3 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega IN ("Rio de Janeiro", "S√£o Paulo");"""

sql4 = """SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE "S√£o%";"""

sql5 = r"""SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE "%de%";"""

db(sql1)
db(sql2)
db(sql3)
db(sql4)
db(sql5)

db("SHOW PROFILES;")

Executando query:
(570284,)
Executando query:
(573741,)
Executando query:
(1144025,)
Executando query:
(1140871,)
Executando query:
(573741,)
Executando query:
(32, 0.09908075, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = "S√£o Paulo"')
(33, 0.1102825, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = "Rio de Janeiro"')
(34, 0.47046575, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega IN ("Rio de Janeiro", "S√£o Paulo")')
(35, 0.27963425, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE "S√£o%"')
(36, 0.54209425, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE "%de%"')


Compare o tempo **antes** *versus* **depois** da cria√ß√£o do √≠ndice. Apesar de n√£o estamos analisando uma amostra de tamanho 1 (CDados manda oi!), √© esperado que obtenha uma melhora de m√∫ltiplas vezes em algumas queries, mas em outras nem tanto. Voc√™ consegue explicar o por que?!

**Dica**: https://dev.mysql.com/doc/refman/8.0/en/index-btree-hash.html#btree-index-characteristics

<div class="alert alert-success">

Sua resposta AQUI!

</div>

#### Testando com outros campos e queries!

Vamos testar com com outros campos e queries!

In [None]:
db("SET PROFILING_HISTORY_SIZE = 4;", verbose=False)

In [45]:
sql1 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens = 8;"""

sql2 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens < 5;"""

sql3 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens BETWEEN 5 AND 20;"""

sql4 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens IN (8, 15, 20, 45);"""

db(sql1)
db(sql2)
db(sql3)
db(sql4)

db("SHOW PROFILES;")

Executando query:
(20355,)
Executando query:
(79772,)
Executando query:
(319132,)
Executando query:
(80197,)
Executando query:
(36, 0.54209425, 'SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE "%de%"')
(37, 0.56859875, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens = 8')
(38, 0.50448775, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens < 5')
(39, 0.51983125, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens BETWEEN 5 AND 20')
(40, 0.521384, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens IN (8, 15, 20, 45)')


Conferindo os √≠ndices atuais

In [46]:
db("SHOW INDEX FROM pedido;")

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 3981339, None, None, '', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_cidade_entrega_IDX', 1, 'cidade_entrega', 'A', 6, None, None, 'YES', 'BTREE', '', '', 'YES', None)


Crie um index **BTREE** baseado na coluna `qtde_itens`

In [None]:
db("-- SUA QUERY PARA CRIAR O INDEX AQUI!!!")

Conferindo os √≠ndices

In [48]:
db("SHOW INDEX FROM pedido;")

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 3981339, None, None, '', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_cidade_entrega_IDX', 1, 'cidade_entrega', 'A', 6, None, None, 'YES', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_qtde_itens_IDX', 1, 'qtde_itens', 'A', 201, None, None, 'YES', 'BTREE', '', '', 'YES', None)


Repetindo as consultas

In [49]:
sql1 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens = 8;"""

sql2 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens < 5;"""

sql3 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens BETWEEN 5 AND 20;"""

sql4 = """SELECT count(*) FROM pedido p
WHERE p.qtde_itens IN (8, 15, 20, 45);"""

db(sql1)
db(sql2)
db(sql3)
db(sql4)

db("SHOW PROFILES;")

Executando query:
(20355,)
Executando query:
(79772,)
Executando query:
(319132,)
Executando query:
(80197,)
Executando query:
(43, 0.00088925, 'SHOW INDEX FROM pedido')
(44, 0.00364725, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens = 8')
(45, 0.01301925, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens < 5')
(46, 0.04391525, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens BETWEEN 5 AND 20')
(47, 0.01509425, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens IN (8, 15, 20, 45)')


Compare o tempo **antes** *versus* **depois** da cria√ß√£o do √≠ndice. Emocionante, n√£o?!

<div class="alert alert-success">

Sua resposta AQUI!

</div>

## Particionamento

Particionar √© dividir as tabelas de um banco de dados em partes menores.

Permite distribuir o banco de dados em v√°rios n√≥s ou HDs diferentes, aumentando o desempenho em situa√ß√µes de acesso concorrente intenso (que n√£o √© o nosso caso).

Leia mais em https://dev.mysql.com/doc/refman/8.0/en/partitioning-pruning.html

Veja um exemplo de particionamento:

In [50]:
sql1 = """
SELECT 
    YEAR(p.data_criacao), AVG(valor_total) AS media
FROM
    pedido p
WHERE YEAR(p.data_criacao) > 2020
GROUP BY YEAR(p.data_criacao)
ORDER BY YEAR(p.data_criacao) ASC;"""

db(sql1)

db("SHOW PROFILES;")

Executando query:
(2021, Decimal('150041.850999'))
(2022, Decimal('150095.671397'))
Executando query:
(44, 0.00364725, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens = 8')
(45, 0.01301925, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens < 5')
(46, 0.04391525, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens BETWEEN 5 AND 20')
(47, 0.01509425, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens IN (8, 15, 20, 45)')
(48, 0.85413575, 'SELECT \n    YEAR(p.data_criacao), AVG(valor_total) AS media\nFROM\n    pedido p\nWHERE YEAR(p.data_criacao) > 2020\nGROUP BY YEAR(p.data_criacao)\nORDER BY YEAR(p.data_criacao) ASC')


Para separar por ano, precisaremos fazer com que a `data_criacao` seja parte da chave prim√°ria.

In [51]:
sql = """
ALTER TABLE pedido
DROP PRIMARY KEY;"""

db(sql)

Executando query:


In [52]:
sql = """
ALTER TABLE pedido
ADD PRIMARY KEY (id_pedido, data_criacao);"""

db(sql)

Executando query:


Ent√£o, separamos a tabela `pedido` em quatro parti√ß√µes

In [None]:
sql = """
ALTER TABLE pedido
PARTITION BY RANGE(YEAR(data_criacao))
(
    PARTITION p0 VALUES LESS THAN (2016),
    PARTITION p1 VALUES LESS THAN (2018),
    PARTITION p2 VALUES LESS THAN (2020),
    PARTITION p3 VALUES LESS THAN MAXVALUE
);"""

db(sql)

Executando a query novamente

In [None]:
sql1 = """
SELECT 
    YEAR(p.data_criacao), AVG(valor_total) AS media
FROM
    pedido p
WHERE YEAR(p.data_criacao) > 2020
GROUP BY YEAR(p.data_criacao)
ORDER BY YEAR(p.data_criacao) ASC;"""

db(sql1)

db("SHOW PROFILES;")

Anote abaixo suas considera√ß√µes sobre particionar tabelas!

<div class="alert alert-info">

Suas observa√ß√µes AQUI!

</div>

## Exerc√≠cios

**Exerc√≠cio 1**: Explique por que uma hash table √©:

**a)** Boa para buscas por valor exato?

<div class="alert alert-success">

Sua resposta AQUI!

</div>

**b)** Ruim para buscas por faixas de valor?

**Dicas**:
- Tente pensar por alguns minutos como as hash tables funcionam
- Se travar, pe√ßa ajuda aos professores ou pergunte ao ChatGPT.

<div class="alert alert-success">

Sua resposta AQUI!

</div>

<a href="#gab_ex1">Click para ver a resposta</a>

**Exerc√≠cio 2**: Por que os √≠ndices de bancos de dados relacionais utilizam `B-tree` e suas variantes ao inv√©s de uma √°rvore bin√°ria balanceada?

<div class="alert alert-success">

Sua resposta AQUI!

</div>

**Exerc√≠cio 3**: O professor demonstrou a constru√ß√£o de uma `B-tree`. Pesquise o que s√£o as `B+-trees` e responda:

**Obs:**
- O `+` representa um **plus**. J√° o `-` √© s√≥ um tra√ßo separador!
- Voc√™ pode simular a vers√£o **plus** aqui https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html

**a)** Qual a diferen√ßa entre a `B-tree` e a vers√£o plus?!

<div class="alert alert-success">

Sua resposta AQUI!

</div>

**b)** O MySQL utiliza `B-tree` ou `B+-trees`?

<div class="alert alert-success">

Sua resposta AQUI!

</div>

**Exerc√≠cio 4**: Explique por que uma B-tree √©:

**a)** Razo√°vel para buscas por valor exato?

<div class="alert alert-success">

Sua resposta AQUI!

</div>

**b)** Boa para buscas por faixa de valor?

<div class="alert alert-success">

Sua resposta AQUI!

</div>

**Exerc√≠cio 5**: Pense em situa√ß√µes onde o **particionamento vertical** √© ben√©fico, e onde √© problem√°tico.

<div class="alert alert-success">

Sua resposta AQUI!

</div>

**Exerc√≠cio 6**: Pense em situa√ß√µes onde o **particionamento horizontal** √© ben√©fico, e onde √© problem√°tico.

<div class="alert alert-success">

Sua resposta AQUI!

</div>

## Conex√£o

Vamos fechar a conex√£o e finalizamos por hoje!

In [None]:
connection.close()

## Refer√™ncias
- OLIVEIRA, C. H. P, SQL: Curso Pr√°tico, Novatec, 2002 CAP 4
- SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. DATABASE SYSTEM CONCEPTS, SEVENTH EDITION CAP 4.6
- https://jasimabasheer.com/posts/btrees

## Gabarito

**<div id="gab_ex1">Exerc√≠cio 1</div>**
<div class="alert alert-warning">

**a)** Complexide de busca O(1) üòç

**b)** N√£o mant√©m rela√ß√£o de ordem üò≠
    
</div>