# Bootcamp: Analista de Banco de Dados  - Desafio do Módulo 4

<img src="./xpe.png" align='left' alt="drawing" width="150" heigth="150"/>

<img src="./bd.jpg" align='center' alt="drawing" width="300" heigth="300"/>

## Objetivos de Ensino

### Exercitar os seguintes conceitos trabalhados no Módulo:



* **1. Analise e otimização de plano de queries no SQL Server e MongoDB**
* **2. Cargas e expurgos massivos de dados no SQL Server e MongoDB.**

## Enunciado:


**O projeto para o qual você foi contratado no Módulo 2 entra agora em sua 
segunda fase, onde será feita a otimização das queries que foram 
implementadas no SQL Sever.**


<a name="ancora"></a>
# Com base nesse modelo de dados, você foi contratado pela empresa para desempenhar as seguintes atividades:
* ## [Contexto](#ancora1)    
        
* ## [Diagrama EER - BDProduções](#ancora2)

* ## [Atividades.](#ancora3)
    
    * [1. Criar o banco BDProducoes e seu schema físico.](#ancora4)
    * [2.Criar o banco de dados BD_Producoes.](#ancora5)
    * [3.Analise o plano de execução da query abaixo, que retorna a quantidade de títulos ativos, e verifique como ela pode ser melhorada.](#ancora6)
    * [4.Analise o plano de execução da query abaixo, que retorna a relação dos 100 títulos mais bem avaliados, suas avaliações e total de votos, e verifique como ela pode ser melhorada.](#ancora7)
    * [5.Analise o plano de execução da query abaixo, Títulos sem o detalhe da duração (qtd_minutos) ou informação do gênero (dsc_genero), e verifique como ela pode ser melhorada.](#ancora8)
    * [6. Analise o plano de execução da query abaixo, que retorna informações acerca dos títulos ativos, ordenados alfabeticamente pelo nome do título, e verifique como ela pode ser melhorada.](#ancora9)
    * [7.A tabela dbo.Pessoa é a maior tabela do sistema. Constantemente é necessário fazer uma limpeza das pessoas cadastradas que não exercem nenhuma função, ou seja, não é do elenco, não é diretor e não é autor. Sem incluir, alterar ou excluir as colunas das tabelas existentes, pense em uma estratégia para esse expurgo ser feito da forma mais performática possível.](#ancora10)
    * [8. O diretor da empresa que o contratou ficou sabendo que você aprendeu, no Bootcamp Analista de Banco de Dados do IGTI, como melhorar performance de queries no MongoDB. Devido a isso, contratou-o também para trabalhar em uma força tarefa para melhorar a performance de um sistema de outra empresa do grupo, que controla informações dos restaurantes de todo o Estados Unidos](#ancora11)
    * [9. Com os dados carregados, você deve ajudar a melhorar a performance das seguintes queries.](#ancora12) 
    * [10. Conclusão.](#ancora13)
        
    

## Contexto.
<a id="ancora1"></a>
[voltar](#ancora).

* As tabelas Titulo e Titulo_Detalhe permitem armazenar informações básicas e técnicas sobre as produções, enquanto as tabelas Avaliacao, Direcao, Autoria e Elenco permitem armazenar informações específicas sobre os aspectos críticos, direção e elenco de cada produção.
* A tabela Pessoa é importante para garantir a integridade dos dados, pois permite que todas as pessoas envolvidas na produção sejam identificadas de maneira única.
* Além disso, é importante estabelecer relações adequadas entre as tabelas para garantir a integridade dos dados e a consistência do modelo de dados. Por exemplo, a tabela Direcao deve ter uma relação com a tabela Titulo para indicar quais diretores estão associados a quais produções, e a tabela Pessoa deve ter uma relação com as tabelas Direcao, Autoria e Elenco para identificar as pessoas envolvidas na produção.

## Diagrama EER - BDProduções.
<a id="ancora2"></a>
[voltar](#ancora).

![img](./eer.png)

## Atividades:
<a id="ancora3"></a>
[voltar](#ancora).

##  **1. Criar o banco BDProducoes e seu schema físico.**  
<a id="ancora4"></a>
[voltar](#ancora).

In [1]:
#importação das bibliotecas para conexão 1
import mysql.connector
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

##  **2.Criar o banco de dados BD_Producoes.**
<a id="ancora5"></a>
[voltar](#ancora).

In [40]:
# Excluí o banco de dados se ele existir apenas para refazer em caso de erro.
# drop database teste; -- Deleta o bd teste --
drop_bd='''
DROP DATABASE bd_producoes;'''
cursor.execute(drop_bd)
cursor.execute('SHOW databases')
for i in cursor:
    if 'bd_producoes' in i:
        print(i)

In [41]:
# Criando o banco de dados BD_Producoes;
criar='''
CREATE SCHEMA IF NOT EXISTS `BD_Producoes` DEFAULT CHARACTER SET utf8 COLLATE utf8_unicode_ci;'''
con = mysql.connector.connect(host='localhost',user='julio',password='')
cursor = con.cursor()
cursor.execute(criar)
cursor.execute('SHOW databases')
for i in cursor:
    if 'bd_producoes' in i:
        print(i)

('bd_producoes',)


In [42]:
# Conectando ao database bd_producoes recém criada
con = mysql.connector.connect(host='localhost',database='bd_producoes',user='julio',password='')
cursor = con.cursor()

###  **Script Para Criar as Tabelas**
<a id="ancora3.3"></a>
[voltar](#ancora).

In [43]:
#Criando a tabela de Autoria;
criar_Autoria='''
CREATE TABLE IF NOT EXISTS Autoria (
  cod_autoria INT PRIMARY KEY AUTO_INCREMENT,
  cod_titulo INT NOT NULL,
  cod_pessoa INT NOT NULL  
);'''
cursor.execute(criar_Autoria)

# Cria a tabela 'Avaliacao'
criar_avaliacao='''
CREATE TABLE IF NOT EXISTS Avaliacao (
  cod_titulo INT NOT NULL,
  classificacao_media INT NOT NULL,
  qtd_votos INT NOT NULL
);'''
cursor.execute(criar_avaliacao)

# Cria a tabela 'Direcao'
criar_direcao='''
CREATE TABLE IF NOT EXISTS Direcao (
  cod_direcao INT PRIMARY KEY AUTO_INCREMENT,
  cod_titulo INT NOT NULL,
  cod_pessoa INT NOT NULL
);'''
cursor.execute(criar_direcao)

# Cria a tabela 'Elenco'
criar_elenco='''
CREATE TABLE IF NOT EXISTS Elenco (
  cod_elenco INT PRIMARY KEY AUTO_INCREMENT,
  cod_titulo INT NOT NULL,
  cod_pessoa INT NOT NULL,
  dsc_funcao VARCHAR(1000) NOT NULL,
  desc_personagem VARCHAR(1000)
);'''
cursor.execute(criar_elenco)

# Cria a tabela 'Pessoa'
criar_pessoa='''
CREATE TABLE IF NOT EXISTS Pessoa (
  cod_pessoa INT NOT NULL,
  nom_pessoa VARCHAR(500) NOT NULL,
  ano_nascimento INT NULL,
  ano_falescimento INT NULL,
  dsc_profissao VARCHAR(1000) NULL,
  CONSTRAINT PK_Pessoa PRIMARY KEY CLUSTERED (cod_pessoa ASC)
);'''
cursor.execute(criar_pessoa)

# Cria a tabela 'Titulo'
criar_titulo='''
CREATE TABLE IF NOT EXISTS Titulo (
  cod_titulo INT NOT NULL,
  nom_titulo VARCHAR(1000) NULL,
  CONSTRAINT PK_Titulo PRIMARY KEY CLUSTERED (cod_titulo ASC)
);'''
cursor.execute(criar_titulo)

# Cria a tabela 'Titulo_Detalhe'
criar_titulo_detalhe='''
CREATE TABLE IF NOT EXISTS Titulo_Detalhe (
  cod_titulo INT NOT NULL,
  tip_titulo VARCHAR(100) NOT NULL,
  nom_principal_titulo VARCHAR(1000) NOT NULL,
  nom_original_titulo VARCHAR(1000) NOT NULL,
  ind_adulto BIT NOT NULL,
  ano_lancamento INT NOT NULL,
  qtd_minutos SMALLINT NULL,
  dsc_genero VARCHAR(1000) NULL
);'''
cursor.execute(criar_titulo_detalhe)

# Exibe as tabelas do banco de dados
cursor.execute('SHOW tables')
for tabela in cursor:
  print(tabela)

('autoria',)
('avaliacao',)
('direcao',)
('elenco',)
('pessoa',)
('titulo',)
('titulo_detalhe',)


###  **Script Realizar as Aterações**
<a id="ancora3.5"></a>
[voltar](#ancora).

**Alterando as tabelas conforme o enunciado**

In [44]:
# Alterando a tabela Autoria para adicionar as chaves estrangeiras
alterar_autoria = '''
ALTER TABLE Autoria
ADD CONSTRAINT FK_Autoria_Pessoa
FOREIGN KEY(cod_pessoa)
REFERENCES Pessoa(cod_pessoa),
ADD CONSTRAINT FK_Autoria_Titulo
FOREIGN KEY(cod_titulo)
REFERENCES Titulo(cod_titulo);
'''
cursor.execute(alterar_autoria)

# Alterando a tabela Avaliacao para adicionar a chave estrangeira
alterar_avaliacao = '''
ALTER TABLE Avaliacao
ADD CONSTRAINT FK_Avaliacao_Titulo
FOREIGN KEY(cod_titulo)
REFERENCES Titulo(cod_titulo);
'''
cursor.execute(alterar_avaliacao)

# Alterando a tabela Direcao para adicionar a chave estrangeira
alterar_direcao = '''
ALTER TABLE Direcao
ADD CONSTRAINT FK_Direcao_Pessoa
FOREIGN KEY(cod_pessoa)
REFERENCES Pessoa(cod_pessoa);
'''
cursor.execute(alterar_direcao)

# Alterando a tabela Direcao para adicionar a chave estrangeira
alterar_direcao_titulo = '''
ALTER TABLE Direcao
ADD CONSTRAINT FK_Direcao_Titulo
FOREIGN KEY(cod_titulo)
REFERENCES Titulo(cod_titulo);
'''
cursor.execute(alterar_direcao_titulo)

# Alterando a tabela Elenco para adicionar as chaves estrangeiras
alterar_elenco_pessoa = '''
ALTER TABLE Elenco
ADD CONSTRAINT FK_Elenco_Pessoa
FOREIGN KEY(cod_pessoa)
REFERENCES Pessoa(cod_pessoa);
'''
cursor.execute(alterar_elenco_pessoa)

alterar_elenco_titulo = '''
ALTER TABLE Elenco
ADD CONSTRAINT FK_Elenco_Titulo
FOREIGN KEY(cod_titulo)
REFERENCES Titulo(cod_titulo);
'''
cursor.execute(alterar_elenco_titulo)

# Alterando a tabela Titulo_Detalhe para adicionar a chave estrangeira
alterar_titulo_detalhe_titulo = '''
ALTER TABLE Titulo_Detalhe
ADD CONSTRAINT FK_Titulo_Detalhe_Titulo
FOREIGN KEY(cod_titulo)
REFERENCES Titulo(cod_titulo);
'''
cursor.execute(alterar_titulo_detalhe_titulo)


# Alterando a tabela Titulo para tornar a coluna nom_titulo NOT NULL
alterar_titulo_nom_titulo = '''
ALTER TABLE Titulo
MODIFY COLUMN nom_titulo VARCHAR(1000) NOT NULL;
'''
cursor.execute(alterar_titulo_nom_titulo)

# Alterando a tabela Pessoa para tornar a coluna nom_pessoa NOT NULL
alterar_pessoa_nom_pessoa = '''
ALTER TABLE Pessoa
MODIFY COLUMN nom_pessoa VARCHAR(1000) NOT NULL;
'''
cursor.execute(alterar_pessoa_nom_pessoa)

# Adicionando a coluna ind_status na tabela Titulo com valor padrão 'A'
adicionar_ind_status = '''
ALTER TABLE Titulo
ADD COLUMN ind_status CHAR(1) NOT NULL DEFAULT 'A';
'''
cursor.execute(adicionar_ind_status)

# Verificando as alterações nas tabelas do database 'bd_producoes'
cursor.execute('SELECT * FROM information_schema.TABLE_CONSTRAINTS WHERE CONSTRAINT_TYPE = "FOREIGN KEY" AND TABLE_SCHEMA = "bd_producoes"')
for i in cursor:
    print(i)



('def', 'bd_producoes', 'FK_Autoria_Pessoa', 'bd_producoes', 'autoria', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))
('def', 'bd_producoes', 'FK_Autoria_Titulo', 'bd_producoes', 'autoria', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))
('def', 'bd_producoes', 'FK_Avaliacao_Titulo', 'bd_producoes', 'avaliacao', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))
('def', 'bd_producoes', 'FK_Direcao_Pessoa', 'bd_producoes', 'direcao', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))
('def', 'bd_producoes', 'FK_Direcao_Titulo', 'bd_producoes', 'direcao', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))
('def', 'bd_producoes', 'FK_Elenco_Pessoa', 'bd_producoes', 'elenco', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))
('def', 'bd_producoes', 'FK_Elenco_Titulo', 'bd_producoes', 'elenco', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))
('def', 'bd_producoes', 'FK_Titulo_Detalhe_Titulo', 'bd_producoes', 'titulo_detalhe', bytearray(b'FOREIGN KEY'), bytearray(b'YES'))


**Nota: No exemplo acima, o valor padrão de ind_status é 'A', o que significa "ativo".**

###  **Script para carga dos dados em formato de arquivo (txt).**
<a id="ancora3.7"></a>
[voltar](#ancora).

####  **Persistindo dados na tabela Pessoa.**
<a id="ancora3.7.1"></a>
[voltar](#ancora).

In [45]:
cursor.execute('SET sql_mode = "" ') # necessário pois não estava aceitando carregar os valores em branco.

In [46]:
load = '''LOAD DATA INFILE 'C://ProgramData//MySQL//MySQL Server 8.0//Uploads//Pessoa.txt'
                INTO TABLE pessoa 
                CHARACTER SET LATIN1
                FIELDS TERMINATED BY '\t'
                LINES TERMINATED BY '\r\n';
        '''
# Consultando uma tabela.
cursor = con.cursor()
cursor.execute(load)

In [47]:
# Consultando a tabela.
cursor = con.cursor()
cursor.execute('SELECT * FROM pessoa LIMIT 10')
result = cursor.fetchall()
for i in result:
    print(i)

(1, 'Fred Astaire', 1899, 1987, 'soundtrack,actor,miscellaneous')
(2, 'Lauren Bacall', 1924, 2014, 'actress,soundtrack')
(3, 'Brigitte Bardot', 1934, 0, 'actress,soundtrack,producer')
(4, 'John Belushi', 1949, 1982, 'actor,writer,soundtrack')
(5, 'Ingmar Bergman', 1918, 2007, 'writer,director,actor')
(6, 'Ingrid Bergman', 1915, 1982, 'actress,soundtrack,producer')
(7, 'Humphrey Bogart', 1899, 1957, 'actor,soundtrack,producer')
(8, 'Marlon Brando', 1924, 2004, 'actor,soundtrack,director')
(9, 'Richard Burton', 1925, 1984, 'actor,producer,soundtrack')
(10, 'James Cagney', 1899, 1986, 'actor,soundtrack,director')


In [48]:
# Lib para visualizar as consultas em formato de dataframe.
import pandas as pd

In [66]:
# Convertendo as consulta para o tipo pandas dataset - apenas para facilitar a visualização.
pd.read_sql('SELECT * FROM pessoa LIMIT 10',con=con)

Unnamed: 0,cod_pessoa,nom_pessoa,ano_nascimento,ano_falescimento,dsc_profissao
0,1,Fred Astaire,1899,1987,"soundtrack,actor,miscellaneous"
1,2,Lauren Bacall,1924,2014,"actress,soundtrack"
2,3,Brigitte Bardot,1934,0,"actress,soundtrack,producer"
3,4,John Belushi,1949,1982,"actor,writer,soundtrack"
4,5,Ingmar Bergman,1918,2007,"writer,director,actor"
5,6,Ingrid Bergman,1915,1982,"actress,soundtrack,producer"
6,7,Humphrey Bogart,1899,1957,"actor,soundtrack,producer"
7,8,Marlon Brando,1924,2004,"actor,soundtrack,director"
8,9,Richard Burton,1925,1984,"actor,producer,soundtrack"
9,10,James Cagney,1899,1986,"actor,soundtrack,director"


####  **Persistindo dados na tabela Título.**
<a id="ancora3.8"></a>
[voltar](#ancora).

In [50]:
# -- persistindo registros na tabela Titulo --
load = '''LOAD DATA INFILE 'C://ProgramData//MySQL//MySQL Server 8.0//Uploads//Titulo.txt' 
                INTO TABLE titulo 
                CHARACTER SET LATIN1
                FIELDS TERMINATED BY '\t'
                LINES TERMINATED BY '\r\n';
        '''
# Consultando uma tabela.
cursor = con.cursor()
cursor.execute(load)

In [51]:
# Convertendo as consulta para o tipo pandas dataset - apenas para facilitar a visualização.
pd.read_sql('SELECT * FROM titulo LIMIT 10',con=con)

Unnamed: 0,cod_titulo,nom_titulo,ind_status
0,1,Carmencita,A
1,2,Le clown et ses chiens,A
2,3,Pauvre Pierrot,A
3,4,Un bon bock,A
4,5,Blacksmith Scene,A
5,6,Chinese Opium Den,A
6,7,Corbett and Courtney Before the Kinetograph,A
7,8,Edison Kinetoscopic Record of a Sneeze,A
8,9,Miss Jerry,A
9,10,La sortie de l'usine Lumière à Lyon,A


####  **Persistindo dados na tabela Direção.**
<a id="ancora3.9"></a>
[voltar](#ancora).

In [52]:
# -- persistindo registros na tabela Direção --
load = '''LOAD DATA INFILE 'C://ProgramData//MySQL//MySQL Server 8.0//Uploads//Direcao.txt' 
                INTO TABLE direcao 
                CHARACTER SET LATIN1
                FIELDS TERMINATED BY '\t'
                LINES TERMINATED BY '\r\n'; 
        '''
# Consultando uma tabela.
cursor = con.cursor()
cursor.execute(load)

In [53]:
# Convertendo as consulta para o tipo pandas dataset - apenas para facilitar a visualização.
pd.read_sql('SELECT * FROM direcao LIMIT 10',con=con)

Unnamed: 0,cod_direcao,cod_titulo,cod_pessoa
0,1,1,5690
1,2,2,721526
2,3,3,721526
3,4,4,721526
4,5,5,5690
5,6,6,5690
6,7,8,5690
7,8,9,85156
8,9,10,525910
9,10,11,804434


####  **Persistindo dados na tabela Titulo_Detalhe.**
<a id="ancora3.10"></a>
[voltar](#ancora).

In [54]:
# -- persistindo registros na tabela Titulo_Detalhe --
load = '''LOAD DATA INFILE 'C://ProgramData//MySQL//MySQL Server 8.0//Uploads//Titulo_Detalhe.txt' 
                INTO TABLE titulo_detalhe 
                CHARACTER SET LATIN1
                FIELDS TERMINATED BY '\t'
                LINES TERMINATED BY '\r\n'; 
        '''
# Consultando uma tabela.
cursor = con.cursor()
cursor.execute(load)

In [55]:
# Convertendo as consulta para o tipo pandas dataset - apenas para facilitar a visualização.
pd.read_sql('SELECT * FROM titulo_detalhe LIMIT 10',con=con)

Unnamed: 0,cod_titulo,tip_titulo,nom_principal_titulo,nom_original_titulo,ind_adulto,ano_lancamento,qtd_minutos,dsc_genero
0,1,short,Carmencita,Carmencita,1,1894,1,"Documentary,Short"
1,2,short,Le clown et ses chiens,Le clown et ses chiens,1,1892,5,"Animation,Short"
2,3,short,Pauvre Pierrot,Pauvre Pierrot,1,1892,4,"Animation,Comedy,Romance"
3,4,short,Un bon bock,Un bon bock,1,1892,0,"Animation,Short"
4,5,short,Blacksmith Scene,Blacksmith Scene,1,1893,1,"Comedy,Short"
5,6,short,Chinese Opium Den,Chinese Opium Den,1,1894,1,Short
6,7,short,Corbett and Courtney Before the Kinetograph,Corbett and Courtney Before the Kinetograph,1,1894,1,"Short,Sport"
7,8,short,Edison Kinetoscopic Record of a Sneeze,Edison Kinetoscopic Record of a Sneeze,1,1894,1,"Documentary,Short"
8,9,movie,Miss Jerry,Miss Jerry,1,1894,45,Romance
9,10,short,Exiting the Factory,La sortie de l'usine Lumière à Lyon,1,1895,1,"Documentary,Short"


####  **Persistindo dados na tabela Elenco.**
<a id="ancora3.11"></a>
[voltar](#ancora).

In [56]:
# -- persistindo registros na tabela Elenco --
load = '''LOAD DATA INFILE 'C://ProgramData//MySQL//MySQL Server 8.0//Uploads//Elenco.txt' 
                INTO TABLE Elenco 
                CHARACTER SET LATIN1
                FIELDS TERMINATED BY '\t'
                LINES TERMINATED BY '\r\n'; 
        '''
# Consultando uma tabela.
cursor = con.cursor()
cursor.execute(load)

In [57]:
# Convertendo as consulta para o tipo pandas dataset - apenas para facilitar a visualização.
pd.read_sql('SELECT * FROM elenco LIMIT 10',con=con)

Unnamed: 0,cod_elenco,cod_titulo,cod_pessoa,dsc_funcao,desc_personagem
0,1,1,1588970,self,"[""Herself""]"
1,2,1,5690,director,
2,3,1,374658,cinematographer,
3,4,2,721526,director,
4,5,2,1335271,composer,
5,6,3,721526,director,
6,7,3,1335271,composer,
7,8,4,721526,director,
8,9,4,1335271,composer,
9,10,5,443482,actor,"[""Blacksmith""]"


####  **Persistindo dados na tabela Autoria.**
<a id="ancora3.12"></a>
[voltar](#ancora).

In [58]:
# -- persistindo registros na tabela Autoria --
load = '''LOAD DATA INFILE 'C://ProgramData//MySQL//MySQL Server 8.0//Uploads//Autoria.txt' 
                INTO TABLE Autoria 
                CHARACTER SET LATIN1
                FIELDS TERMINATED BY '\t'
                LINES TERMINATED BY '\r\n'; 
        '''
# Consultando uma tabela.
cursor = con.cursor()
cursor.execute(load)

In [59]:
# Convertendo as consulta para o tipo pandas dataset - apenas para facilitar a visualização.
pd.read_sql('SELECT * FROM autoria LIMIT 10',con=con)

Unnamed: 0,cod_autoria,cod_titulo,cod_pessoa
0,1,9,85156
1,2,36,410331
2,3,76,410331
3,4,91,617588
4,5,108,410331
5,6,109,410331
6,7,110,410331
7,8,111,410331
8,9,112,410331
9,10,113,410331


####  **Persistindo dados na tabela Avaliacao.**
<a id="ancora3.13"></a>
[voltar](#ancora).

In [60]:
# -- persistindo registros na tabela Avaliacao --
load = '''LOAD DATA INFILE 'C://ProgramData//MySQL//MySQL Server 8.0//Uploads//Avaliacao.txt' 
                INTO TABLE Avaliacao 
                CHARACTER SET LATIN1
                FIELDS TERMINATED BY '\t'
                LINES TERMINATED BY '\r\n'; 
        '''
# Consultando uma tabela.
cursor = con.cursor()
cursor.execute(load)

In [61]:
# Convertendo as consulta para o tipo pandas dataset - apenas para facilitar a visualização.
pd.read_sql('SELECT * FROM Avaliacao LIMIT 10',con=con)

Unnamed: 0,cod_titulo,classificacao_media,qtd_votos
0,1049,36,8
1,1062,61,956
2,1066,38,5
3,1072,56,206
4,1083,54,82
5,1084,51,124
6,1091,54,139
7,1101,45,14
8,1105,65,685
9,1112,33,14


## 3.Analise o plano de execução da query abaixo, que retorna a quantidade de títulos ativos, e verifique como ela pode ser melhorada;
<a id="ancora6"></a>
[voltar](#ancora).

**Para melhorar o plano de execução dessa consulta, é possível criar um índice no campo "ind_status" da tabela "Titulo". Isso permitirá que o MySQL use uma busca mais eficiente para encontrar os títulos ativos, em vez de realizar uma varredura completa da tabela.**

In [62]:
# Criando o índice na tabela "Titulo"
cursor.execute("CREATE INDEX idx_titulo_ind_status ON Titulo (ind_status)")

# Executando a consulta otimizada
cursor.execute("SELECT COUNT(*) AS 'Total de Títulos Ativos' FROM Titulo WHERE ind_status = 'A'")
resultado = cursor.fetchone()
print(resultado)


(19614,)


**Esse script cria o índice "idx_titulo_ind_status" na tabela "Titulo" e depois executa a consulta otimizada para contar o total de títulos ativos. O resultado da consulta é armazenado na variável "resultado" e exibido na tela.**

## 4.Analise o plano de execução da query abaixo, que retorna a relação dos 100 títulos mais bem avaliados, suas avaliações e total de votos, e verifique como ela pode ser melhorada:
<a id="ancora7"></a>
[voltar](#ancora).

In [68]:
# criando índice na tabela Avaliacao para as colunas (cod_titulo, classificacao_media, qtd_votos)
cursor.execute('CREATE INDEX idx_Avaliacao ON Avaliacao (cod_titulo, classificacao_media, qtd_votos)')

# executando a consulta otimizada
query = '''SELECT 
  T.nom_titulo, 
  A.classificacao_media, 
  A.qtd_votos
FROM 
  Titulo T JOIN Avaliacao A
  ON T.cod_titulo = A.cod_titulo 
ORDER BY 
  A.classificacao_media DESC 
LIMIT 100; 
'''
pd.read_sql(query,con)

Unnamed: 0,nom_titulo,classificacao_media,qtd_votos
0,Golod... golod... golod,94,12
1,Milionar pentru o zi,90,5
2,It's a Wise Child,89,55
3,His Glorious Night,88,42
4,Ein hoffnungsloser Fall,88,8
...,...,...,...
95,From Nurse to Worse,80,361
96,Frontier Crusader,80,6
97,The Grapes of Wrath,80,81942
98,Adam and Eva,80,41


## 5.Analise o plano de execução da query abaixo, Títulos sem o detalhe da duração (qtd_minutos) ou informação do gênero (dsc_genero), e verifique como ela pode ser melhorada:
<a id="ancora8"></a>
[voltar](#ancora).

In [75]:
# cria o índice na coluna cod_titulo da tabela Titulo_Detalhe
cursor.execute('CREATE INDEX idx_Titulo_Detalhe_cod_titulo ON Titulo_Detalhe (cod_titulo)')

# cria o índice na coluna cod_titulo da tabela Titulo
cursor.execute('CREATE INDEX idx_Titulo_cod_titulo ON Titulo (cod_titulo)')

# executa a query otimizada
query = """
SELECT *
FROM Titulo T
LEFT JOIN Titulo_Detalhe D
ON T.cod_titulo = D.cod_titulo
WHERE D.qtd_minutos < 1 OR D.dsc_genero IS NULL
"""
pd.read_sql(query,con)

Unnamed: 0,cod_titulo,nom_titulo,ind_status,cod_titulo.1,tip_titulo,nom_principal_titulo,nom_original_titulo,ind_adulto,ano_lancamento,qtd_minutos,dsc_genero
0,4,Un bon bock,A,4,short,Un bon bock,Un bon bock,1,1892,0,"Animation,Short"
1,24,Opening of the Kiel Canal,A,24,short,Opening of the Kiel Canal,Opening of the Kiel Canal,1,1895,0,"News,Short"
2,36,Awakening of Rip,A,36,short,Awakening of Rip,Awakening of Rip,1,1896,0,"Drama,Short"
3,40,Barque sortant du port de Trouville,A,40,short,Barque sortant du port de Trouville,Barque sortant du port de Trouville,1,1896,0,"Documentary,Short"
4,42,Bateau-mouche sur la Seine,A,42,short,Bateau-mouche sur la Seine,Bateau-mouche sur la Seine,1,1896,0,"Documentary,Short"
...,...,...,...,...,...,...,...,...,...,...,...
4656,32658,Kalyani,A,32658,movie,Kalyani,Kalyani,1,1940,0,Drama
4657,32822,Miyamoto Musashi - Dai-ichi-bu: Kusawake no hi...,A,32822,movie,Miyamoto Musashi - Dai-ichi-bu: Kusawake no hi...,Miyamoto Musashi - Dai-ichi-bu: Kusawake no hi...,1,1940,0,Drama
4658,32899,"Peter, Paul und Nanette",A,32899,movie,"Peter, Paul und Nanette","Peter, Paul und Nanette",1,1935,0,
4659,33048,Sibiryaki,A,33048,movie,Sibiryaki,Sibiryaki,1,1940,0,"Adventure,Drama"


## 6. Analise o plano de execução da query abaixo, que retorna informações acerca dos títulos ativos, ordenados alfabeticamente pelo nome do título, e verifique como ela pode ser melhorada.
<a id="ancora9"></a>
[voltar](#ancora).

**A query pode ser melhorada através da criação de índices nas tabelas utilizadas, como por exemplo, criar índices nas colunas que são usadas para junção das tabelas.**

In [78]:
# Cria índices nas tabelas
cursor.execute("CREATE INDEX idx_titulo_cod_titulo ON Titulo (cod_titulo)")
cursor.execute("CREATE INDEX idx_titulo_detalhe_cod_titulo ON Titulo_Detalhe (cod_titulo)")
cursor.execute("CREATE INDEX idx_avaliacao_cod_titulo ON Avaliacao (cod_titulo)")
cursor.execute("CREATE INDEX idx_autoria_cod_titulo ON Autoria (cod_titulo)")
cursor.execute("CREATE INDEX idx_autoria_cod_pessoa ON Autoria (cod_pessoa)")
cursor.execute("CREATE INDEX idx_direcao_cod_titulo ON Direcao (cod_titulo)")
cursor.execute("CREATE INDEX idx_direcao_cod_pessoa ON Direcao (cod_pessoa)")

# Query aprimorada
query = """
SELECT 
    T.nom_titulo AS "Nome do Título", 
    UPPER(TD.tip_titulo) AS "Tipo do Título", 
    TD.ano_lancamento AS "Ano de Lançamento", 
    TD.qtd_minutos AS "Duração", 
    TD.dsc_genero AS "Gênero(s)", 
    A.classificacao_media AS "Nota",
    P.nom_pessoa AS "Autor", 
    P2.nom_pessoa AS "Diretor"
FROM 
    Titulo T 
    JOIN Titulo_Detalhe TD ON T.cod_titulo = TD.cod_titulo
    JOIN Avaliacao A ON T.cod_titulo = A.cod_titulo
    LEFT JOIN Autoria E ON T.cod_titulo = E.cod_titulo
    LEFT JOIN Pessoa P ON E.cod_pessoa = P.cod_pessoa
    LEFT JOIN Direcao D ON T.cod_titulo = D.cod_titulo
    LEFT JOIN Pessoa P2 ON D.cod_pessoa = P2.cod_pessoa
WHERE 
    T.ind_status = 'A'
ORDER BY 
    T.nom_titulo
"""

# Executa a query
pd.read_sql(query,con)

Unnamed: 0,Nome do Título,Tipo do Título,Ano de Lançamento,Duração,Gênero(s),Nota,Autor,Diretor
0,-But the Flesh Is Weak,MOVIE,1932,77,Comedy,57,Ivor Novello,Jack Conway
1,"¡Centinela, alerta!",MOVIE,1937,80,Musical,51,,
2,¡Tango!,MOVIE,1933,80,"Musical,Romance",63,,Luis Moglia Barth
3,¿Quién me quiere a mí?,MOVIE,1936,84,Drama,60,,
4,...heute abend bei mir,MOVIE,1934,91,,69,,Carl Boese
...,...,...,...,...,...,...,...,...
11973,Zuiderzeewerken,SHORT,1930,26,Short,82,Joris Ivens,Joris Ivens
11974,Zur Chronik von Grieshuus,MOVIE,1925,110,Drama,66,,Arthur von Gerlach
11975,Zvenigora,MOVIE,1928,68,"Drama,Fantasy",71,,Aleksandr Dovzhenko
11976,Zwei Herzen im Dreiviertel-Takt,MOVIE,1930,96,Musical,70,,Géza von Bolváry


## 7.A tabela dbo.Pessoa é a maior tabela do sistema. Constantemente é necessário fazer uma limpeza das pessoas cadastradas que não exercem nenhuma função, ou seja, não é do elenco, não é diretor e não é autor. Sem incluir, alterar ou excluir as colunas das tabelas existentes, pense em uma estratégia para esse expurgo ser feito da forma mais performática possível.
<a id="ancora10"></a>
[voltar](#ancora).

In [85]:
# cria índices nas colunas utilizadas na consulta SQL

#cursor.execute("CREATE INDEX idx_elenco ON Elenco (cod_pessoa)")
#cursor.execute("CREATE INDEX idx_diretor ON Direcao (cod_pessoa)")
#cursor.execute("CREATE INDEX idx_autor ON Autoria (cod_pessoa)")

# define a query SQL para selecionar as pessoas que não exercem nenhuma função
query = """
SELECT * 
FROM Pessoa 
WHERE cod_pessoa NOT IN (SELECT cod_pessoa 
                 FROM Elenco 
                 UNION SELECT cod_pessoa 
                 FROM Direcao 
                 UNION SELECT cod_pessoa 
                 FROM Autoria)
"""

# executa a query SQL
cursor.execute(query)

# recupera os registros selecionados
result = cursor.fetchall()

# exibe a quantidade de registros selecionados
print(f"Foram selecionadas {len(result)} pessoas para expurgo.")

# define a query SQL para deletar as pessoas selecionadas
sql = "DELETE FROM Pessoa WHERE cod_pessoa = %s"

# cria a consulta principal que exclui as pessoas da tabela Pessoa
#delete_query = """
#    DELETE FROM Pessoa
#    WHERE cod_pessoa IN ({})
#""".format(subquery)

# executa a consulta de exclusão
#cursor.execute(delete_query)

# itera sobre os registros selecionados e deleta cada um deles
for row in result:
    cursor.execute(sql, (row[0],))

# confirma as alterações no banco de dados
con.commit()
# exibe uma mensagem de conclusão
print("O expurgo de pessoas foi concluído com sucesso.")


Foram selecionadas 0 pessoas para expurgo.
O expurgo de pessoas foi concluído com sucesso.


## 8. O diretor da empresa que o contratou ficou sabendo que você aprendeu, no Bootcamp Analista de Banco de Dados do IGTI, como melhorar performance de queries no MongoDB. Devido a isso, contratou-o também para trabalhar em uma força tarefa para melhorar a performance de um sistema de outra empresa do grupo, que controla informações dos restaurantes de todo o Estados Unidos.
<a id="ancora11"></a>
[voltar](#ancora).

#### **Para isso, foi disponibilizado para você, o dump das duas collections do sistema e o script para fazer a carga das informações no MongoDB**
<a id="ancora5.1"></a>
[voltar](#ancora).

* **Collections: people.json, restaurants.json**
* **Scripts:** 
    * mongoimport --drop -c people people.json
    * mongoimport --drop -c restaurants restaurants.json

**Realizando a carga através de um script em python**

In [None]:
#importação das libs
import pymongo
import json

# Conectando ao banco de dados
client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["desafio4"]

# Importando dados para a coleção "people"
people = db["people"]
with open('./Dataset1/people.json', 'r', encoding="iso-8859-1") as f:
    # Tenta carregar o arquivo JSON
    try:
        people_data = json.load(f)
    except json.JSONDecodeError:
        # Trata o erro de decodificação
        f.seek(0)  # Move o cursor para o início do arquivo
        content = f.read()
        content = "[" + content.replace("}\n{", "},\n{") + "]"
        people_data = json.loads(content)
people.drop()  # apaga a coleção se já existir
people.insert_many(people_data)

# Importando dados para a coleção "restaurants"
restaurants = db["restaurants"]
with open('./Dataset1/restaurants.json', 'r',encoding="iso-8859-1") as f:
    # Tenta carregar o arquivo JSON
    try:
        restaurants_data = json.load(f)
    except json.JSONDecodeError:
        # Trata o erro de decodificação
        f.seek(0)  # Move o cursor para o início do arquivo
        content = f.read()
        content = "[" + content.replace("}\n{", "},\n{") + "]"
        restaurants_data = json.loads(content)    
restaurants.drop()  # apaga a coleção se já existir
restaurants.insert_many(restaurants_data)
# Imprime a contagem de documentos inseridos
print(f"{restaurants.count_documents({})} documentos inseridos na coleção 'restaurants'.")
print(f"{people.count_documents({})} documentos inseridos na coleção 'peoples'.")

**Para corrigir o problema será necessário remover esse caracter**.


In [301]:
import json

# Abre o arquivo JSON
with open('./Dataset1/people.json', 'r') as f:
    # Tenta carregar o arquivo JSON
    try:
        data = json.load(f)
    except json.JSONDecodeError:
        # Trata o erro de decodificação
        f.seek(0)  # Move o cursor para o início do arquivo
        content = f.read()
        content = "[" + content.replace("}\n{", "},\n{") + "]" #incorpor '[]' ao json
        data = json.loads(content)

In [99]:
# Quantidade de registros
len(data)

50474

* **Agora vamos tratar os dados para que possamos realizar a carga**
* **Deve haver uma forma mais sofistica, porém é o que pensei de primeiro momento, o código irá percorrer todo os documentos e onde houver o caracter, o mesmo será substituído por vazio.**
* **Para finalizar irei salvar o json com o nome people_updated.json**.

In [286]:
data[:1]

[{'_id': {'$oid': '57d7a121fa937f710a7d486e'},
  'last_name': 'Pham',
  'quote': 'Aliquam est reiciendis alias neque ad.',
  'job': 'Counselling psychologist',
  'ssn': '401-31-6615',
  'address': {'city': 'Burgessborough',
   'street': '83248 Woods Extension',
   'zip': '47201'},
  'first_name': 'Yvonne',
  'company_id': {'$oid': '57d7a121fa937f710a7d486d'},
  'employer': 'Terry and Sons',
  'birthday': {'$date': '2011-03-17T11:21:36.000Z'},
  'email': 'murillobrian@cox.net'}]

In [287]:
data = [{'_id': {'$oid': '57d7a121fa937f710a7d486e'},
  'last_name': 'Pham',
  'quote': 'Aliquam est reiciendis alias neque ad.',
  'job': 'Counselling psychologist',
  'ssn': '401-31-6615',
  'address': {'city': 'Burgessborough',
   'street': '83248 Woods Extension',
   'zip': '47201'},
  'first_name': 'Yvonne',
  'company_id': {'$oid': '57d7a121fa937f710a7d486d'},
  'employer': 'Terry and Sons',
  'birthday': {'$date': '2011-03-17T11:21:36.000Z'},
  'email': 'murillobrian@cox.net'}]

**Função para remover o caractere dolar**

In [328]:
def remove_dollar_sign(obj):
    if isinstance(obj, dict):
        new_obj = {}
        for key, value in obj.items():
            new_key = key.replace('$', '')
            new_value = remove_dollar_sign(value)
            new_obj[new_key] = new_value
        return new_obj
    elif isinstance(obj, list):
        new_list = []
        for item in obj:
            new_item = remove_dollar_sign(item)
            new_list.append(new_item)
        return new_list
    elif isinstance(obj, str):
        return obj.replace('$', '')
    else:
        return obj

In [329]:
new_data = remove_dollar_sign(data)

In [331]:
len(new_data)

50474

**Agora sim, podemos carregar os documentos na collection**

In [334]:
#importação das libs
import pymongo
import json

# Conectando ao banco de dados
client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["desafio4"]

# Importando dados para a coleção "people"
people = db["people"]
people.drop()  # apaga a coleção se já existir
people.insert_many(new_data)
print(f"{people.count_documents({})} documentos inseridos na coleção 'peoples'.")

50474 documentos inseridos na coleção 'peoples'.


In [184]:
# Importando dados para a coleção "restaurants"
restaurants = db["restaurants"]
with open('./Dataset1/restaurants.json', 'r', encoding="iso-8859-1") as f:
    # Tenta carregar o arquivo JSON
    try:
        restaurants_data = json.load(f)
    except json.JSONDecodeError:
        # Trata o erro de decodificação
        f.seek(0)  # Move o cursor para o início do arquivo
        content = f.read()
        content = "[" + content.replace("}\n{", "},\n{") + "]"
        restaurants_data = json.loads(content)
restaurants.drop()  # apaga a coleção se já existir
restaurants.insert_many(restaurants_data)
print(f"{restaurants.count_documents({})} documentos inseridos na coleção 'restaurants'.")

1000000 documentos inseridos na coleção 'restaurants'.


**Foram carregados 1 milhão de registros na collection restaurants.**

**Conferindo os registros**

In [335]:
# Define o banco de dados e as coleções
people = db['people']
restaurants = db['restaurants']

# Recupera os 5 primeiros documentos da coleção "people"
print('='*100)
print("Primeiros 5 registros da coleção 'people':")
for document in people.find().limit(5):
    print('='*100)
    print(document)    
    

# Recupera os 5 primeiros documentos da coleção "restaurants"
print('\n')
print('='*100)
print("Primeiros 5 registros da coleção 'restaurants':")
for doc in restaurants.find().limit(5):
    print('='*100)
    print(doc)
    

Primeiros 5 registros da coleção 'people':
{'_id': {'oid': '57d7a121fa937f710a7d486e'}, 'last_name': 'Pham', 'quote': 'Aliquam est reiciendis alias neque ad.', 'job': 'Counselling psychologist', 'ssn': '401-31-6615', 'address': {'city': 'Burgessborough', 'street': '83248 Woods Extension', 'zip': '47201'}, 'first_name': 'Yvonne', 'company_id': {'oid': '57d7a121fa937f710a7d486d'}, 'employer': 'Terry and Sons', 'birthday': {'date': '2011-03-17T11:21:36.000Z'}, 'email': 'murillobrian@cox.net'}
{'_id': {'oid': '57d7a121fa937f710a7d486f'}, 'last_name': 'Nelson', 'quote': 'Quis sed tenetur eius illo.', 'job': 'Conservator, furniture', 'ssn': '671-16-1433', 'address': {'city': 'Nicholsbury', 'state': 'Indiana', 'street': '699 Ryan Branch Apt. 371', 'zip': '52277'}, 'first_name': 'Mary', 'company_id': {'oid': '57d7a121fa937f710a7d486d'}, 'employer': 'Terry and Sons', 'birthday': {'date': '2015-11-25T17:26:40.000Z'}, 'email': 'cindy93@gmail.com'}
{'_id': {'oid': '57d7a121fa937f710a7d4870'}, 'las

## 9. Com os dados carregados, você deve ajudar a melhorar a performance das seguintes queries:
<a id="ancora12"></a>
[voltar](#ancora).

**A. Para esse caso acredito que criar índices nas chaves utilizadas na busca pode melhorar a performance**
**Vamos realizar um teste e comparar o antes e o depois**

*a.db.people.find( { last_name : "Acevedo" } )*

In [203]:
# como remover um indice caso necessário
# people.drop_index("last_name_1")

In [351]:
#lib para comparar o tempo
import time
# Selecionando a coleção "people"
people = db["people"]

# Realizando a consulta sem índice
start_time = time.perf_counter()
results1 = people.find({"last_name": "Acevedo"})
end_time = time.perf_counter()
print('='*100)
print(f"Tempo de execução da consulta sem índice: {(end_time - start_time)*1000} Milésimos de segundos")
#print(f"Resultados sem índice: {list(results1)}")
print('='*100)

Tempo de execução da consulta sem índice: 0.16360000881832093 Milésimos de segundos


In [337]:
# Criando índice para demonstração
people.create_index("last_name")

'last_name_1'

In [356]:
# Realizando a consulta com índice
start_time = time.perf_counter()
results2 = people.find({"last_name": "Acevedo"}).hint("last_name_1")
end_time = time.perf_counter()
print('='*100)
print(f"Tempo de execução da consulta com índice: {(end_time - start_time)*1000} milissegundos")
#print(f"Resultados com índice: {list(results2)}")

Tempo de execução da consulta com índice: 0.16260000120382756 milissegundos


**Como são poucos dados os resultados são próximos, mas imagine em um cenário de bigdata**

**B. Para todos os casos vamos seguir acrescentando um index**

*b. db.people.find({"address.zip" : "10914-3394"})*

In [360]:
# Realizando a consulta sem índice
start_time = time.perf_counter()
results1 = people.find({"address.zip" : "10914-3394"})
end_time = time.perf_counter()
print('='*100)
print(f"Tempo de execução da consulta sem índice: {(end_time - start_time)*1000} Milésimos de segundos")
#print(f"Resultados sem índice: {list(results1)}")
print('='*100)

Tempo de execução da consulta sem índice: 0.1703999878372997 Milésimos de segundos


In [361]:
# Criando índice para demonstração
people.create_index("address.zip")

'address.zip_1'

In [367]:
# Selecionando a coleção "people"
# Realizando a consulta Com índice
start_time = time.perf_counter()
results1 = people.find({"address.zip" : "10914-3394"}).hint("address.zip_1")
end_time = time.perf_counter()
print('='*100)
print(f"Tempo de execução da consulta com índice: {(end_time - start_time)*1000} Milésimos de segundos")
#print(f"Resultados com índice: {list(results1)}")
print('='*100)

Tempo de execução da consulta com índice: 0.16250000044237822 Milésimos de segundos


**Para melhorar o desempenho das consultas especificadas, podemos criar índices no MongoDB para as chaves usadas nas consultas.**

**O índice ajuda o banco de dados a localizar os documentos relevantes de forma mais eficiente, reduzindo o tempo necessário para executar a consulta.**

In [390]:
from pymongo import MongoClient

# Conecte-se ao banco de dados
client = MongoClient()
db = client.desafio4

# Crie índices para as chaves usadas nas consultas
db.people.create_index([("address.zip", 1)])
db.people.create_index([("first_name", 1)])
db.people.create_index([("job", 1)])
db.restaurants.create_index([("cuisine", 1)])


'cuisine_1'

**Este código cria índices para as chaves address.zip, first_name, job em people, e cuisine em restaurants. O valor 1 indica que o índice deve ser criado em ordem crescente.**

**Após criar os índices, podemos comparar o tempo de execução das consultas antes e depois da criação dos índices.**

In [391]:
# Comparando a performance antes e depois da otimização

import time

# query original
start_time = time.time()
result = people.find({"address.zip" : { "$in": ["10914-3394", "53666"]}})
for r in result:
    pass
print(f"Tempo de execução da query original: {time.time() - start_time:.6f}")

# query otimizada
start_time = time.time()
result = people.find({"address.zip": {"$in": ["10914-3394", "53666"]}}).hint('address.zip_1')
for r in result:
    pass
print(f"Tempo de execução da query otimizada: {time.time() - start_time:.6f}")

# query original
start_time = time.time()
result = people.find({}, {"_id": 0, "first_name": 1, "job": 1}).sort("first_name", 1)
for r in result:
    pass
print(f"Tempo de execução da query original: {time.time() - start_time:.6f}")

# query otimizada
start_time = time.time()
result = people.find({}, {"_id": 0, "first_name": 1, "job": 1}).sort("first_name").hint('first_name_1')
for r in result:
    pass
print(f"Tempo de execução da query otimizada: {time.time() - start_time:.6f}")

# query original
start_time = time.time()
result = restaurants.find({"cuisine": "Sichuan"})
for r in result:
    pass
print(f"Tempo de execução da query original: {time.time() - start_time:.6f}")

# query otimizada
start_time = time.time()
result = restaurants.find({"cuisine": "Sichuan"}).hint("cuisine_1")
for r in result:
    pass
print(f"Tempo de execução da query otimizada: {time.time() - start_time:.6f}")



Tempo de execução da query original: 0.034723
Tempo de execução da query otimizada: 0.004557
Tempo de execução da query original: 0.974567
Tempo de execução da query otimizada: 0.357146
Tempo de execução da query original: 2.520031
Tempo de execução da query otimizada: 0.292359


### F. Como otimizar a consulta abaixo**

*db.restaurants.find ({ cuisine: 'Sushi' }).sort({ stars: -1 })*

<a id="ancora5.3"></a>
[voltar](#ancora).

**Bom primeiro vamos entender o que esse query está realizando:**
* Esse código faz uma consulta na collection restaurants em busca de documentos que possuem 
  o campo _cuisine_ com o valor igual a 'Sushi', além disso a cláusula 'sort' com o argumento
  -1 é usada para classificar os resultados em ordem decrescente com base no campo 'stars'.

**Para um melhor entendimento vamos realizar a mesma consulta,
porém utilizando a lib pymongo já que esse notebook é para fins didático.
Vamos também medir o tempo para comparação após a otimização.**

In [498]:
#1.importa o pymongo, asc para ascendente o mesmo que 1 e descentende o mesmo que -1 no mongodb
from pymongo import MongoClient, ASCENDING, DESCENDING
#2.conexão com o banco de dados
client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["desafio4"]
collection_restaurants = db["restaurants"]
#3.executa a consulta padrão e calcula a média do tempo após um ciclo de 100 repetições
import time
start_time = time.perf_counter()
for i in range(100):
    result_without_index = collection_restaurants.find({"cuisine": "Sushi"}).sort([("stars", DESCENDING)])
    result = list(result_without_index)
end_time = time.perf_counter()
time_without_index = (end_time - start_time) / 100
print(f"Tempo médio de execução sem índice: {time_without_index:.2f} segundos")

Tempo médio de execução sem índice: 1.17 segundos


* **Para essa consulta após 100 repetições, tivemos uma média de 1.17 segundos**.
* **Observe que o tempo de execução pode variar dependendo do ambiente em que o código é executado e do desempenho do banco de dados, mas a média deve fornecer uma estimativa mais estável do tempo de execução da consulta.**

**Vamos conferir se o resultado corresponde a nossa query MongoDB em um dataframe pandas**:

In [499]:
import pandas as pd 
pd.DataFrame(result)

Unnamed: 0,_id,name,cuisine,stars,address
0,641a424a5d1f329d45aa5b35,The Chop House - Grand Rapids,Sushi,5.0,"{'street': '1003 Wuwir Circle', 'city': 'Ruwir..."
1,641a424a5d1f329d45aa5c4c,Natural Selection,Sushi,5.0,"{'street': '1785 Jajdif Circle', 'city': 'Kome..."
2,641a424a5d1f329d45aa68d9,The Copper Door,Sushi,5.0,"{'street': '70 Pandi Lane', 'city': 'Natsanrer..."
3,641a424a5d1f329d45aa6c21,Red Hill Station,Sushi,5.0,"{'street': '840 Jehi Road', 'city': 'Hivhowwe'..."
4,641a424a5d1f329d45aa7e56,Roe,Sushi,5.0,"{'street': '803 Acaza Road', 'city': 'Demdehic..."
...,...,...,...,...,...
23298,641a42535d1f329d45b96868,Rudy & Paco Restaurant & Bar,Sushi,0.0,"{'street': '1081 Suzik Glen', 'city': 'Saavpap..."
23299,641a42535d1f329d45b968b4,The Mulefoot Gastropub,Sushi,0.0,"{'street': '1603 Ofeto Boulevard', 'city': 'Ul..."
23300,641a42535d1f329d45b96ab3,Daniel - Lounge Seating,Sushi,0.0,"{'street': '1414 Kijog Ridge', 'city': 'Ehulel..."
23301,641a42535d1f329d45b96ebf,The Copper Door,Sushi,0.0,"{'street': '661 Suoke Point', 'city': 'Kohitec..."


* **Obtivemos o resultado correspondente, observe que tempos 23.303 documentos em nosso resultado**

**Agora como podemos melhorar e otimizar essa query?**
* **Adicionar um índice para o campo 'cuisine' e 'stars' pode melhorar o desempenho da consulta.**
    * *Quando um índice é criado em um campo específico, o bd armazena as informações de índice em uma estrutura separada e usa essas informações para localizar os documentos que correspondem a uma consulta, éssa técnica é usada para otimizar o desempenho, porém é importante frizar que a criação de índices poder afetar o desempenho na inserão e atualização, pois o bd precisa atualizar o índice nesses casos, por isso é importante criar índices de acordo com a relevância para equilibrar o impacto.*
* **Podemos ainda limitar os campos retornados, isso pode reduzir a quantidade de dados transferidos.**
* **Podemos usar o método 'aggregate' em operações mais complexas, como agrupar ou combinar documentos ao invés do método 'find'.**

**Nesse exemplo iremos realizar uma consulta atimizada, adicionando índices para 'cuisine' e 'stars',
vamos também limitar os campos para 'name' e 'star'.**

In [501]:
#1.criar os índices para 'cuisine como ascendente' e 'stars como descendente'
collection_restaurants.create_index([("cuisine", ASCENDING), ("stars", DESCENDING)])

#3.executa a consulta otimizada e calcula a média do tempo após um ciclo de 100 repetições
import time
start_time = time.perf_counter()
for i in range(100):
    result_with_index = collection_restaurants.find({"cuisine": "Sushi"}, {'cuisine':1, 'name': 1, 'stars': 1, '_id': 0 }).hint([("cuisine", ASCENDING), ("stars", DESCENDING)])
    result = list(result_with_index)
end_time = time.perf_counter()
time_with_index = (end_time - start_time) / 100
print(f"Tempo médio de execução otimizada com índice: {time_with_index:.2f} segundos")

Tempo médio de execução sem índice: 0.22 segundos


* **Parece muito pouca diferença, mas se tratando de um conjunto grande de dados,
temos um ganho de 81.2%.**

In [502]:
100 -((0.22 * 100) / 1.17)

81.19658119658119

**Vamos conferir se o resultado corresponde a nossa query MongoDB em um dataframe pandas:**

In [508]:
import pandas as pd 
pd.DataFrame(result)

Unnamed: 0,name,cuisine,stars
0,The Chop House - Grand Rapids,Sushi,5.0
1,Natural Selection,Sushi,5.0
2,The Copper Door,Sushi,5.0
3,Red Hill Station,Sushi,5.0
4,Roe,Sushi,5.0
...,...,...,...
23298,Rudy & Paco Restaurant & Bar,Sushi,0.0
23299,The Mulefoot Gastropub,Sushi,0.0
23300,Daniel - Lounge Seating,Sushi,0.0
23301,The Copper Door,Sushi,0.0


* **Observem que agora só exibimos os dados necessários para a consulta e isso foi importante para otimização**.
* **Removemos também a cláusula 'sort', pois o índice 'stars' já estava no formato decrescente.**
* **Usamos ainda a clausula 'hint' que é usado para indicar ao MongoDB o índice que deve ser utilizado para consulta.**

### G. Como otimizar a consulta abaixo**

*db.restaurants.find({ "stars": { $gte: 4 }, cuisine: 'Italian' }).sort({ name: 1 })*
<a id="ancora5.4"></a>

[voltar](#ancora).

**Explicação da query:**
* **Em resumo, essa consulta retornará todos os restaurantes italianos com uma classificação de estrelas igual ou superior a 4, ordenados alfabeticamente pelo nome.**


**Para um melhor entendimento vamos realizar a mesma consulta,
porém utilizando a lib pymongo já que esse notebook é para fins didático.
Vamos também medir o tempo para comparação após a otimização.**

**Antes, precisamos remover os index criados para que eles não influenciem no resultado, pois mesmo não informando os index de forma explicita, o MongoDB utiliza os index mesmo de forma implicita.**


In [512]:
#people.drop_index("last_name_1")
#Listando os index da collection
list(collection_restaurants.list_indexes())

[SON([('v', 2), ('key', SON([('_id', 1)])), ('name', '_id_')]),
 SON([('v', 2), ('key', SON([('cuisine', 1), ('stars', -1)])), ('name', 'cuisine_1_stars_-1')])]

In [513]:
#Removendo o index name: 'cuisine_1_stars_-1'
collection_restaurants.drop_index('cuisine_1_stars_-1')
#Conferindo se o index foi removido
list(collection_restaurants.list_indexes())

[SON([('v', 2), ('key', SON([('_id', 1)])), ('name', '_id_')])]

* **Pronto agora sim podemos realizar a query sem nenhuma otimização.**

In [526]:
#1.importa o pymongo, asc para ascendente o mesmo que 1 e descentende o mesmo que -1 no mongodb
from pymongo import MongoClient, ASCENDING, DESCENDING
#2.conexão com o banco de dados
client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["desafio4"]
collection_restaurants = db["restaurants"]
#3.executa a consulta padrão e calcula a média do tempo após um ciclo de 100 repetições
import time
start_time = time.perf_counter()
for i in range(100):
    result_without_index = collection_restaurants.find({"stars":{"$gte":4},"cuisine":"Italian"}).sort([("name", ASCENDING)])
    result = list(result_without_index)
end_time = time.perf_counter()
time_without_index = (end_time - start_time) / 100
print(f"Tempo médio de execução sem índice: {time_without_index:.2f} segundos")

Tempo médio de execução sem índice: 0.92 segundos


**Vamos conferir se o resultado corresponde a nossa query MongoDB em um dataframe pandas**:

In [527]:
df_default = pd.DataFrame(result)
df_default


Unnamed: 0,_id,name,cuisine,stars,address
0,641a424a5d1f329d45aa9604,Abe Fisher,Italian,4.4,"{'street': '1797 Bujod Circle', 'city': 'Hupno..."
1,641a424a5d1f329d45ab2689,Abe Fisher,Italian,4.9,"{'street': '238 Diter Way', 'city': 'Hesewuz',..."
2,641a424a5d1f329d45ab4882,Abe Fisher,Italian,4.2,"{'street': '892 Zonma Manor', 'city': 'Rerewce..."
3,641a424a5d1f329d45ab9f99,Abe Fisher,Italian,4.2,"{'street': '659 Paro Path', 'city': 'Hovkulu',..."
4,641a424a5d1f329d45abe718,Abe Fisher,Italian,4.0,"{'street': '1640 Wiiw Lane', 'city': 'Vajozwe'..."
...,...,...,...,...,...
4927,641a42525d1f329d45b86f07,o ya,Italian,4.5,"{'street': '1885 Awelaj Key', 'city': 'Isumevs..."
4928,641a42535d1f329d45b8ce16,o ya,Italian,5.0,"{'street': '40 Tiopa Circle', 'city': 'Cedtian..."
4929,641a42535d1f329d45b8d123,o ya,Italian,4.7,"{'street': '1195 Daaw Ridge', 'city': 'Hamaglu..."
4930,641a42535d1f329d45b94f7a,o ya,Italian,4.5,"{'street': '1537 Lemob Circle', 'city': 'Guelb..."


* **Confirmado: todos os restaurantes italianos com uma classificação de estrelas igual ou superior a 4, ordenados alfabeticamente pelo nome.**

* **Otimização da query**:

In [None]:
collection_restaurants.find({"stars":{"$gte":4},"cuisine":"Italian"},{'_id': 0 }).hint()

In [536]:
#Criando índice
collection_restaurants.create_index([("cuisine", ASCENDING),("name", ASCENDING)])

#executa a consulta otimizada e calcula a média do tempo após um ciclo de 100 repetições
import time
start_time = time.perf_counter()
for i in range(100):
    result_with_index = collection_restaurants.find({"stars":{"$gte":4},"cuisine":"Italian"},{'_id': 0 }).hint('cuisine_1_name_1')
    result = list(result_with_index)
end_time = time.perf_counter()
time_with_index = (end_time - start_time) / 100
print(f"Tempo médio de execução otimizada com índices: {time_with_index:.2f} segundos")

Tempo médio de execução otimizada com índices: 0.16 segundos


In [537]:
df_optmized = pd.DataFrame(result)
df_optmized

Unnamed: 0,name,cuisine,stars,address
0,Abe Fisher,Italian,4.4,"{'street': '1797 Bujod Circle', 'city': 'Hupno..."
1,Abe Fisher,Italian,4.9,"{'street': '238 Diter Way', 'city': 'Hesewuz',..."
2,Abe Fisher,Italian,4.2,"{'street': '892 Zonma Manor', 'city': 'Rerewce..."
3,Abe Fisher,Italian,4.2,"{'street': '659 Paro Path', 'city': 'Hovkulu',..."
4,Abe Fisher,Italian,4.0,"{'street': '1640 Wiiw Lane', 'city': 'Vajozwe'..."
...,...,...,...,...
4927,o ya,Italian,4.5,"{'street': '1885 Awelaj Key', 'city': 'Isumevs..."
4928,o ya,Italian,5.0,"{'street': '40 Tiopa Circle', 'city': 'Cedtian..."
4929,o ya,Italian,4.7,"{'street': '1195 Daaw Ridge', 'city': 'Hamaglu..."
4930,o ya,Italian,4.5,"{'street': '1537 Lemob Circle', 'city': 'Guelb..."


* **A utilização de index pode otimizar muito as consultas, porém devemos nos atentar a necessidade, pois acaba impactando ao realizar inserções e atualizações no bd.**


## 10. Conclusão:
<a id="ancora13"></a>
[voltar](#ancora).

Durante nosso diálogo, discutimos diversos tópicos relacionados ao MongoDB, incluindo sua arquitetura, suas características, e como trabalhar com ele usando a biblioteca PyMongo. Além disso, exploramos como otimizar as consultas no MongoDB usando índices, cache e outras técnicas.

O MongoDB é um banco de dados não relacional orientado a documentos que oferece muitas vantagens em relação aos bancos de dados relacionais tradicionais, como flexibilidade de esquema e escalabilidade horizontal. Ele é amplamente utilizado em aplicativos da web e móveis que precisam armazenar e recuperar grandes quantidades de dados em tempo real.

Ao trabalhar com o MongoDB, é importante ter um bom entendimento de sua arquitetura e recursos, bem como da sintaxe e estrutura de consulta. É fundamental saber como criar índices para acelerar as consultas e como otimizar a eficiência do sistema em geral.

Em resumo, o MongoDB é uma excelente opção para aplicativos que precisam de flexibilidade e escalabilidade no armazenamento de dados. Com um pouco de conhecimento e esforço, é possível obter um desempenho excepcionalmente rápido e eficiente ao trabalhar com ele.