# √çNDICES e PARTICIONAMENTO

Na aula anterior estudamos os conceitos de **depend√™ncias funcionais** e **normaliza√ß√£o**. O conhecimento das formas normais propicia verificar a possibilidade de realizar altera√ß√µes no design das bases de dados, com o objetivo de **evitar repeti√ß√µes** e **recuperar informa√ß√µes de forma f√°cil**.

Entretanto, mesmo obedecendo (ou n√£o) √†s formas normais, em certas situa√ß√µes a performance de nossas queries em produ√ß√£o se torna sofr√≠vel. Nesta aula, veremos alguns recursos que podemos utilizar para melhorar o desempenho das consultas produzidas.

Este √© um tema bastante relevante. Um engenheiro sem o devido conhecimento pode recomendar, por exemplo, a compra de mais servidores (f√≠sicos ou na AWS), quando a aplica√ß√£o dos conceitos vistos nesta aula poderiam gerar ganhos de m√∫ltiplas vezes no tempo de execu√ß√£o de queries!

## Instala√ß√£o da base

Vamos utilizar a base de dados sint√©tica dispon√≠vel no Blackboard. Execute o script `script_elet_001.sql` para criar a base de dados. Este script apenas faz a **DDL**, os dados ger√£o gerados de forma aleat√≥ria neste notebook.

## Import das bibliotecas

Vamos realizar o import das bibliotecas.

In [1]:
import mysql.connector
import os
import random
from functools import partial
from datetime import datetime, timedelta
from dotenv import load_dotenv

E vamos criar nosso HELPER de conex√£o com o banco! Perceba que, uma vez configurado o `.env` n√£o precisaremos mais informar usu√°rios, senhas e URLs!

In [2]:
load_dotenv(override=True)

def get_connection_helper():

    def run_db_query(connection, query, args=None, verbose=True):
        with connection.cursor() as cursor:
            if verbose:
                print('Executando query:')
            cursor.execute(query, args)
            for result in cursor:
                if verbose:
                    print(result)

    connection = mysql.connector.connect(
        host=os.getenv('MD_DB_SERVER'),
        user=os.getenv('MD_DB_USERNAME'),
        password=os.getenv('MD_DB_PASSWORD'),
        database='eletrobeer',
    )
    return connection, partial(run_db_query, connection)


connection, db = get_connection_helper()

## Gerar dados para a base

Vamos gerar alguns valores aleat√≥rios e inserir na base de dados `eletrobeer`.

Primeiro, defina a quantidade de linhas a serem inseridas:

In [3]:
qtde_ped = 2000000

Vamos definir algumas fun√ß√µes auxiliares

In [4]:
def get_random_date():
    start_date = datetime(2015, 1, 1)
    end_date = datetime(2022, 12, 31)

    delta = end_date - start_date
    random_date = start_date + timedelta(days=random.randint(0, delta.days))

    return  random_date.strftime('%Y-%m-%d')

def get_cidade_uf():
    cidades = [
        ['S√£o Paulo', 'SP'],
        ['Campinas', 'SP'],
        ['Ribeir√£o Preto', 'SP'],
        ['S√£o Roque', 'SP'],
        ['Rio de Janeiro', 'RJ'],
        ['Maca√©', 'RJ'],
        ['Angra dos Reis', 'RJ'],
    ]

    cidade, uf = random.choice(cidades)
    return cidade, uf

Garantir que a tabela `pedido` est√° vazia

In [5]:
db('DELETE FROM eletrobeer.pedido')

Executando query:


Ent√£o, geramos os dados aleat√≥rios.

**<span style="color:red">Aten√ß√£o</span>**: Este processo pode demorar alguns minutos! A cada aproximadamente 5 segundos, 50 mil inser√ß√µes devem ser realizadas, com o retorno da mensagem `Completed 50000`, `Completed 100000` e assim por diante!

In [6]:
for id_pedido in range(1, qtde_ped+1):

    id_cliente = random.randint(1000, 10000)
    qtde_itens = random.randint(1, 200)
    data_criacao = get_random_date()
    valor_total = random.uniform(15.0, 300000)

    cidade, uf = get_cidade_uf()

    sql = f"""INSERT INTO eletrobeer.pedido
    (id_pedido, id_cliente, data_criacao, qtde_itens, valor_total, cidade_entrega, uf_entrega)
    VALUES({id_pedido}, {id_cliente}, '{data_criacao}', {qtde_itens}, {valor_total:.2f}, '{cidade}', '{uf}');\n"""

    if id_pedido % 50000 == 0:
        print(f'Completed {id_pedido}')
    db(sql, verbose=False)

Completed 50000
Completed 100000
Completed 150000
Completed 200000
Completed 250000
Completed 300000
Completed 350000
Completed 400000
Completed 450000
Completed 500000
Completed 550000
Completed 600000
Completed 650000
Completed 700000
Completed 750000
Completed 800000
Completed 850000
Completed 900000
Completed 950000
Completed 1000000
Completed 1050000
Completed 1100000
Completed 1150000
Completed 1200000
Completed 1250000
Completed 1300000
Completed 1350000
Completed 1400000
Completed 1450000
Completed 1500000
Completed 1550000
Completed 1600000
Completed 1650000
Completed 1700000
Completed 1750000
Completed 1800000
Completed 1850000
Completed 1900000
Completed 1950000
Completed 2000000


E vamos fazer `commit` para garantir que os dados foram salvos!

In [7]:
connection.commit()

## Consultando a base

Vamos fazer algumas consultas. Como nosso objetivo √© avaliar a performance das queries, precisamos analisar o tempo que cada query necessita para executar.

Uma op√ß√£o √© fazer o c√°lculo direto no Python:

In [8]:
import time

start_time = time.time() # get current time

db('select count(*) from pedido')

end_time = time.time() # get current time again

time_spent = end_time - start_time # calculate time spent

print("Time spent:", time_spent, "seconds")

Executando query:
(2000000,)
Time spent: 3.2945210933685303 seconds


Entretanto, desta forma estamos considerando o tempo total, incluindo o tempo gasto pelas fun√ß√µes do pr√≥prio Python. Talvez n√£o seja um tempo significativo, mas como poderia ser, melhor evitar e considerar o tempo isolado: apenas o que foi gasto de fato para a query executar (ap√≥s ter sido recebida pelo RDBMS MySQL).

Para isto, vamos ativar **profiling**:

In [9]:
db('SET profiling = 1;', verbose=False)

**Obs**: quando quiser desativar, utilize

```mysql
SET profiling = 0;
```

Ent√£o podemos executar algum **SQL**

In [10]:
db('select count(*) from pedido')

Executando query:
(2000000,)


E ver, no segundo elemento de cada tupla, qual o tempo gasto para a query ser executada.

In [11]:
db('SHOW PROFILES;')

Executando query:
(1, 0.70122875, 'select count(*) from pedido')


Ent√£o, podemos executar novas queries e ver o seu tempo consumido:

**Dica**: aqui, `verbose=False` executar√° a query, mas n√£o exibir√° o resultado na sa√≠da. Podemos fazer assim quando nosso interesse √© em apenas ter o tempo da query e n√£o o resultado

In [12]:
sql = 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido'

db(sql, verbose=False)
db('SHOW PROFILES;')

Executando query:
(1, 0.70122875, 'select count(*) from pedido')
(2, 3.674671, 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido')


Utilize `SET PROFILING_HISTORY_SIZE = ???;`, trocando `???` pelo **n√∫mero de queries** que quer ver no resultado dos profiles, para limitar a exibi√ß√£o as √∫ltimas **n√∫mero de queries**.

In [13]:
db('SET PROFILING_HISTORY_SIZE = 2;', verbose=False)
db('SHOW PROFILES;')

Executando query:
(2, 3.674671, 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido')
(3, 0.00023025, 'SET PROFILING_HISTORY_SIZE = 2')


Vamos deixar configurado para `5`. Voc√™ pode alterar quando quiser!

In [14]:
db('SET PROFILING_HISTORY_SIZE = 5;', verbose=False)
db('SHOW PROFILES;')

Executando query:
(2, 3.674671, 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido')
(3, 0.00023025, 'SET PROFILING_HISTORY_SIZE = 2')
(4, 0.000151, 'SET PROFILING_HISTORY_SIZE = 5')


### Explorando novos exemplos

Vamos executar algumas consultas e verificar seus tempos de execu√ß√£o.

**Dica**: leia cada query e tente entender o que ela faz!

In [15]:
sql1 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = 'S√£o Paulo';'''

sql2 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = 'Rio de Janeiro';'''

sql3 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega IN ('Rio de Janeiro', 'S√£o Paulo');'''

sql4 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE 'S√£o%';'''

sql5 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE '%de%';'''

db(sql1)
db(sql2)
db(sql3)
db(sql4)
db(sql5)

db('SHOW PROFILES;')

Executando query:
(285001,)
Executando query:
(286632,)
Executando query:
(571633,)
Executando query:
(571067,)
Executando query:
(286632,)
Executando query:
(5, 0.96492075, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = 'S√£o Paulo'")
(6, 1.13494175, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = 'Rio de Janeiro'")
(7, 1.4252415, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega IN ('Rio de Janeiro', 'S√£o Paulo')")
(8, 1.13623875, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE 'S√£o%'")
(9, 1.4216345, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE '%de%'")


### MEGADADOS?!

Podemos perceber que esta base tem (deveria ter!!!) 2 milh√µes de linhas.

In [16]:
sql = 'SELECT COUNT(*) as QTDE_LINHAS FROM pedido'

db(sql)

Executando query:
(2000000,)


No resultados do `SHOW PROFILES`, vemos que o tempo √© quase zero. Mas n√£o se engane, estamos mantendo um ambiente controlado, com apenas uma tabela e realizando queries simples o suficiente para entendermos o que est√° acontecendo.

Em uma situa√ß√£o do mercado profissional, prepare-se para trabalhar com milh√µes ou bilh√µes de linhas em dezenas ou centenas de tabelas, construindo queries de centenas e at√© milhares de linhas que rodam milhares ou milh√µes de vezes! As situa√ß√µes de depend√™ncia entre m√∫ltiplas colunas e tabelas gerar√° muitas situa√ß√µes onde os conceitos da aula poder√£o ser aplicados.

**Dica**: No MySQL Workbench, d√™ bot√£o direito na tabela / Table Inspector. Abra o explorer e confira o tamanho do arquivo contido no **Data path**! Novamente, em uma situa√ß√£o de mercado, espere gigabytes!

### √çndices

√çndices s√£o estruturas de dados que facilitam a localiza√ß√£o de informa√ß√£o no banco de dados.

**Obs**: Link para simular `BTREE` https://www.cs.usfca.edu/~galles/visualization/BTree.html

Para criar um √≠ndice, vamos utilizar a sintaxe:
```mysql
CREATE INDEX index_name [index_type] 
 ON tbl_name (index_col_name,...)
```

Por exemplo:

```mysql
-- Por padr√£o, o index ser√° BTREE
CREATE INDEX pedido_cidade_entrega_IDX
 ON eletrobeer.pedido (cidade_entrega);
```

√â importante lembrar que nem todos os engines suportam √≠ndice **HASH**. A engine padr√£o da vers√£o que utilizamos (**InnoDB**) n√£o suporta!

In [17]:
db('SHOW ENGINES;')

Executando query:
('MEMORY', 'YES', 'Hash based, stored in memory, useful for temporary tables', 'NO', 'NO', 'NO')
('MRG_MYISAM', 'YES', 'Collection of identical MyISAM tables', 'NO', 'NO', 'NO')
('CSV', 'YES', 'CSV storage engine', 'NO', 'NO', 'NO')
('FEDERATED', 'NO', 'Federated MySQL storage engine', None, None, None)
('PERFORMANCE_SCHEMA', 'YES', 'Performance Schema', 'NO', 'NO', 'NO')
('MyISAM', 'YES', 'MyISAM storage engine', 'NO', 'NO', 'NO')
('InnoDB', 'DEFAULT', 'Supports transactions, row-level locking, and foreign keys', 'YES', 'YES', 'YES')
('ndbinfo', 'NO', 'MySQL Cluster system information storage engine', None, None, None)
('BLACKHOLE', 'YES', '/dev/null storage engine (anything you write to it disappears)', 'NO', 'NO', 'NO')
('ARCHIVE', 'YES', 'Archive storage engine', 'NO', 'NO', 'NO')
('ndbcluster', 'NO', 'Clustered, fault-tolerant tables', None, None, None)


Vamos criar um √≠ndice na coluna `cidade_entrega` e repetir as queries.

Mas antes, vamos consultar se existe algum √≠ndice atualmente nesta tabela!

In [18]:
db('SHOW INDEX FROM pedido;')

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 0, None, None, '', 'BTREE', '', '', 'YES', None)


Perceba que j√° existe um √≠ndice. Por que ele est√° a√≠ se ainda n√£o criamos nenhum?!

<div class="alert alert-success">

N√£o criamos nenhum √≠ndice, por√©m a chave prim√°ria √© um √≠ndice! O MySQL cria automaticamente um √≠ndice para a chave prim√°ria!

</div>

<a href="#" title="O √≠ndice foi criado para a coluna que √© chave prim√°ria! Isto √© feito por padr√£o, uma vez que a chave acaba sendo utilizada em diversas consultas e joins.">Pare o  mouse aqui para ver a resposta</a>

Ent√£o criamos o √≠ndice

In [19]:
db('CREATE INDEX pedido_cidade_entrega_IDX ON eletrobeer.pedido (cidade_entrega);')

Executando query:


E conferimos novamente os √≠ndices existentes

In [20]:
db('SHOW INDEX FROM pedido;')

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 0, None, None, '', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_cidade_entrega_IDX', 1, 'cidade_entrega', 'A', 6, None, None, 'YES', 'BTREE', '', '', 'YES', None)


Caso queira ver o t√≠tulo das coluas, execute o `SHOW INDEX FROM pedido;` direto no MySQL WorkBench!

Agora repetimos as queries. Compare o tempo necess√°rios para suas execu√ß√µes.

In [21]:
sql1 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = 'S√£o Paulo';'''

sql2 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega = 'Rio de Janeiro';'''

sql3 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega IN ('Rio de Janeiro', 'S√£o Paulo');'''

sql4 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE 'S√£o%';'''

sql5 = '''SELECT count(*) FROM pedido p
WHERE p.cidade_entrega LIKE '%de%';'''

db(sql1)
db(sql2)
db(sql3)
db(sql4)
db(sql5)

db('SHOW PROFILES;')

Executando query:
(285001,)
Executando query:
(286632,)
Executando query:
(571633,)
Executando query:
(571067,)
Executando query:
(286632,)
Executando query:
(15, 0.159971, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = 'S√£o Paulo'")
(16, 0.30329775, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega = 'Rio de Janeiro'")
(17, 0.63720875, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega IN ('Rio de Janeiro', 'S√£o Paulo')")
(18, 0.4534095, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE 'S√£o%'")
(19, 1.03095925, "SELECT count(*) FROM pedido p\nWHERE p.cidade_entrega LIKE '%de%'")


Compare o tempo **antes** *versus* **depois** da cria√ß√£o do √≠ndice. Apesar de n√£o estamos analisando uma amostra de tamanho 1 (CDados manda oi!), √© esperado que obtenha uma melhora de m√∫ltiplas vezes em algumas queries, mas em outras nem tanto. Voc√™ consegue explicar o por que?!

**Dica**: https://dev.mysql.com/doc/refman/8.0/en/index-btree-hash.html#btree-index-characteristics

<div class="alert alert-success">

O tempo de execu√ß√£o da query depois da cria√ß√£o do √≠ndice √© menor, pois o MySQL n√£o precisa mais percorrer todas as linhas da tabela para encontrar os registros que atendem a uma condi√ß√£o. O √≠ndice permite que o MySQL encontre os registros que atendem a condi√ß√£o de forma mais r√°pida.

</div>

#### Testando com outros campos e queries!

Vamos testar com com outros campos e queries!

In [22]:
db('SET PROFILING_HISTORY_SIZE = 4;', verbose=False)

In [23]:
sql1 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens = 8;'''

sql2 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens < 5;'''

sql3 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens BETWEEN 5 AND 20;'''

sql4 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens IN (8, 15, 20, 45);'''

db(sql1)
db(sql2)
db(sql3)
db(sql4)

db('SHOW PROFILES;')

Executando query:
(10253,)
Executando query:
(39339,)
Executando query:
(159755,)
Executando query:
(39868,)
Executando query:
(21, 1.063924, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens = 8')
(22, 1.03327025, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens < 5')
(23, 1.019335, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens BETWEEN 5 AND 20')
(24, 1.1013235, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens IN (8, 15, 20, 45)')


Conferindo os √≠ndices atuais

In [24]:
db('SHOW INDEX FROM pedido;')

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 0, None, None, '', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_cidade_entrega_IDX', 1, 'cidade_entrega', 'A', 6, None, None, 'YES', 'BTREE', '', '', 'YES', None)


Crie um index **BTREE** baseado na coluna `qtde_itens`

In [26]:
db('CREATE INDEX pedido_qtde_itens_IDX ON eletrobeer.pedido (qtde_itens);')


Executando query:


Conferindo os √≠ndices

In [27]:
db('SHOW INDEX FROM pedido;')

Executando query:
('pedido', 0, 'PRIMARY', 1, 'id_pedido', 'A', 0, None, None, '', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_cidade_entrega_IDX', 1, 'cidade_entrega', 'A', 6, None, None, 'YES', 'BTREE', '', '', 'YES', None)
('pedido', 1, 'pedido_qtde_itens_IDX', 1, 'qtde_itens', 'A', 201, None, None, 'YES', 'BTREE', '', '', 'YES', None)


Repetindo as consultas

In [28]:
sql1 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens = 8;'''

sql2 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens < 5;'''

sql3 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens BETWEEN 5 AND 20;'''

sql4 = '''SELECT count(*) FROM pedido p
WHERE p.qtde_itens IN (8, 15, 20, 45);'''

db(sql1)
db(sql2)
db(sql3)
db(sql4)

db('SHOW PROFILES;')

Executando query:
(10253,)
Executando query:
(39339,)
Executando query:
(159755,)
Executando query:
(39868,)
Executando query:
(29, 0.00240625, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens = 8')
(30, 0.0078415, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens < 5')
(31, 0.04965775, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens BETWEEN 5 AND 20')
(32, 0.01308275, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens IN (8, 15, 20, 45)')


Compare o tempo **antes** *versus* **depois** da cria√ß√£o do √≠ndice. Emocionante, n√£o?!

<div class="alert alert-success">

O tempo √© ainda menor, alguns milissegundos! 1 segundo j√° era bom, mas 0.002 segundos √© melhor ainda!

</div>

## Particionamento

Particionar √© dividir as tabelas de um banco de dados em partes menores.

Permite distribuir o banco de dados em v√°rios n√≥s ou HDs diferentes, aumentando o desempenho em situa√ß√µes de acesso concorrente intenso (que n√£o √© o nosso caso).

Leia mais em https://dev.mysql.com/doc/refman/8.0/en/partitioning-pruning.html

Veja um exemplo de particionamento:

In [29]:
sql1 = '''
SELECT 
    YEAR(p.data_criacao), AVG(valor_total) AS media
FROM
    pedido p
WHERE YEAR(p.data_criacao) > 2020
GROUP BY YEAR(p.data_criacao)
ORDER BY YEAR(p.data_criacao) ASC;'''

db(sql1)

db('SHOW PROFILES;')

Executando query:
(2021, Decimal('149998.600151'))
(2022, Decimal('149734.612460'))
Executando query:
(30, 0.0078415, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens < 5')
(31, 0.04965775, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens BETWEEN 5 AND 20')
(32, 0.01308275, 'SELECT count(*) FROM pedido p\nWHERE p.qtde_itens IN (8, 15, 20, 45)')
(33, 1.7045005, 'SELECT \n    YEAR(p.data_criacao), AVG(valor_total) AS media\nFROM\n    pedido p\nWHERE YEAR(p.data_criacao) > 2020\nGROUP BY YEAR(p.data_criacao)\nORDER BY YEAR(p.data_criacao) ASC')


Para separar por ano, precisaremos fazer com que a `data_criacao` seja parte da chave prim√°ria.

In [30]:
sql = '''
ALTER TABLE pedido
DROP PRIMARY KEY;'''

db(sql)

Executando query:


In [31]:
sql = '''
ALTER TABLE pedido
ADD PRIMARY KEY (id_pedido, data_criacao);'''

db(sql)

Executando query:


Ent√£o, separamos a tabela `pedido` em quatro parti√ß√µes

In [32]:
sql = '''
ALTER TABLE pedido
PARTITION BY RANGE(YEAR(data_criacao))
(
    PARTITION p0 VALUES LESS THAN (2016),
    PARTITION p1 VALUES LESS THAN (2018),
    PARTITION p2 VALUES LESS THAN (2020),
    PARTITION p3 VALUES LESS THAN MAXVALUE
);'''

db(sql)

Executando query:


Executando a query novamente

In [33]:
sql1 = '''
SELECT 
    YEAR(p.data_criacao), AVG(valor_total) AS media
FROM
    pedido p
WHERE YEAR(p.data_criacao) > 2020
GROUP BY YEAR(p.data_criacao)
ORDER BY YEAR(p.data_criacao) ASC;'''

db(sql1)

db('SHOW PROFILES;')

Executando query:
(2021, Decimal('149998.600151'))
(2022, Decimal('149734.612460'))
Executando query:
(34, 28.664237, 'ALTER TABLE pedido\nDROP PRIMARY KEY')
(35, 37.127268, 'ALTER TABLE pedido\nADD PRIMARY KEY (id_pedido, data_criacao)')
(36, 56.580409, 'ALTER TABLE pedido\nPARTITION BY RANGE(YEAR(data_criacao))\n(\n    PARTITION p0 VALUES LESS THAN (2016),\n    PARTITION p1 VALUES LESS THAN (2018),\n    PARTITION p2 VALUES LESS THAN (2020),\n    PARTITION p3 VALUES LESS THAN MAXVALUE\n)')
(37, 2.53373875, 'SELECT \n    YEAR(p.data_criacao), AVG(valor_total) AS media\nFROM\n    pedido p\nWHERE YEAR(p.data_criacao) > 2020\nGROUP BY YEAR(p.data_criacao)\nORDER BY YEAR(p.data_criacao) ASC')


Anote abaixo suas considera√ß√µes sobre particionar tabelas!

<div class="alert alert-info">

Suas observa√ß√µes AQUI!

</div>

## Exerc√≠cios

**Exerc√≠cio 1**: Explique por que uma hash table √©:

**a)** Boa para buscas por valor exato?

<div class="alert alert-success">

A hash table √© boa para buscas por valor exato, pois a busca √© feita diretamente na posi√ß√£o da mem√≥ria onde o valor est√° armazenado. Portanto, a complexidade da busca √© $O(1)$.

</div>

**b)** Ruim para buscas por faixas de valor?

**Dicas**:
- Tente pensar por alguns minutos como as hash tables funcionam
- Se travar, pe√ßa ajuda aos professores ou pergunte ao ChatGPT (link alternativo https://chatbot.theb.ai/)

<div class="alert alert-success">

A hash table √© ruim para buscas por faixas de valor, pois n√£o possui uma rela√ß√£o de ordem entre os valores armazenados. Assim, n√£o √© poss√≠vel percorrer os valores em uma ordem espec√≠fica, j√° que os valores s√£o armazenados em posi√ß√µes de mem√≥ria aleat√≥rias.

</div>

<a href="#gab_ex1">Click para ver a resposta</a>

**Exerc√≠cio 2**: Por que os bancos de dados relacionais utilizam `B-tree` e suas variantes ao inv√©s de uma √°rvore bin√°ria balanceada?

<div class="alert alert-success">

Os bancos de dados relacionais utilizam `B-tree` e suas variantes ao inv√©s de uma √°rvore bin√°ria balanceada, pois a √°rvore bin√°ria balanceada n√£o √© eficiente para consultas em disco, j√° que n√£o foi projetada para isso, ou seja, n√£o foi projetada para minimizar o n√∫mero de acessos a disco.

</div>

**Exerc√≠cio 3**: O professor demonstrou a constru√ß√£o de uma `B-tree`. Pesquise o que s√£o as `B+-trees` e responda:

**Obs:**
- O `+` representa um **plus**. J√° o `-` √© s√≥ um tra√ßo separador!
- Voc√™ pode simular a vers√£o **plus** aqui https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html

**a)** Qual a diferen√ßa entre a `B-tree` e a vers√£o plus?!

<div class="alert alert-success">

A diferen√ßa entre a `B-tree` e a vers√£o plus √© que na vers√£o plus, os dados est√£o armazenados apenas nas folhas da √°rvore, enquanto que na `B-tree` os dados podem estar armazenados em qualquer n√≥ da √°rvore.

</div>

**b)** O MySQL utiliza `B-tree` ou `B+-trees`?

<div class="alert alert-success">

O MySQL utiliza `B+-trees`.
</div>

**Exerc√≠cio 4**: Explique por que uma B-tree √©:

**a)** Razo√°vel para buscas por valor exato?

<div class="alert alert-success">

A B-tree √© razo√°vel para buscas por valor exato, pois a busca √© feita em um n√∫mero pequeno de acessos a disco, j√° que a √°rvore √© balanceada.

</div>

**b)** Boa para buscas por faixa de valor?

<div class="alert alert-success">

A B-tree √© boa para buscas por faixa de valor, pois a busca √© feita em um n√∫mero pequeno de acessos a disco, j√° que a √°rvore √© balanceada.

</div>

**Exerc√≠cio 5**: Pense em situa√ß√µes onde o **particionamento vertical** √© ben√©fico, e onde √© problem√°tico.

<div class="alert alert-success">

Uma situa√ß√£o onde o particionamento vertical √© ben√©fico √© quando a tabela possui muitas colunas, mas nem todas as colunas s√£o utilizadas em todas as consultas. Neste caso, o particionamento vertical permite que as colunas que n√£o s√£o utilizadas em determinadas consultas sejam armazenadas em um HD diferente, o que permite que as consultas sejam executadas mais rapidamente.

Uma situa√ß√£o onde o particionamento vertical √© problem√°tico √© quando a tabela possui muitas colunas, mas todas as colunas s√£o utilizadas em todas as consultas. Neste caso, o particionamento vertical n√£o permite que as consultas sejam executadas mais rapidamente, pois todas as colunas precisam ser acessadas.

</div>

**Exerc√≠cio 6**: Pense em situa√ß√µes onde o **particionamento horizontal** √© ben√©fico, e onde √© problem√°tico.

<div class="alert alert-success">

Uma situa√ß√£o onde o particionamento horizontal √© ben√©fico √© quando a tabela possui muitas linhas, mas nem todas as linhas s√£o utilizadas em todas as consultas. Neste caso, o particionamento horizontal permite que as linhas que n√£o s√£o utilizadas em determinadas consultas sejam armazenadas em um HD diferente, o que permite que as consultas sejam executadas mais rapidamente.

Uma situa√ß√£o onde o particionamento horizontal √© problem√°tico √© quando a tabela possui muitas linhas, mas todas as linhas s√£o utilizadas em todas as consultas. Neste caso, o particionamento horizontal n√£o permite que as consultas sejam executadas mais rapidamente, pois todas as linhas precisam ser acessadas.

</div>

## Conex√£o

Vamos fechar a conex√£o e finalizamos por hoje!

In [34]:
connection.close()

## Refer√™ncias
- OLIVEIRA, C. H. P, SQL: Curso Pr√°tico, Novatec, 2002 CAP 4
- SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. DATABASE SYSTEM CONCEPTS, SEVENTH EDITION CAP 4.6
- https://chatbot.theb.ai/
- https://jasimabasheer.com/posts/btrees

## Gabarito

**<div id="gab_ex1">Exerc√≠cio 1</div>**
<div class="alert alert-warning">

**a)** Complexide de busca O(1) üòç

**b)** N√£o mant√©m rela√ß√£o de ordem üò≠
    
</div>