### Projeto 2 - Arvores Binárias de Busca e Arvores AVL

1. Baixar CSV com dados
2. Escrever rotinas para ler o arquivo e mapear os dados em uma Árvore Binária de Busca E AVL (com as características da base de dados). Vocês devem pensar na melhor forma de montar a estrutura de dados e o que carregar na estrutura.
3. Escrever métodos buscar determinados atributos (chave). 
4. Criar gráficos, tabelas ou outros recursos para demonstrar resultados comparativos de desempenho entre a Árvore Binária de Busca e AVL.
5. Discutir como seria montada cada árvore com buscar feitas por outro campo que não seja a chave.


### Bibliotecas

In [None]:
# Bibliotecas para o projeto
import pandas as pd
import numpy as np
from datetime import datetime
import sys

In [None]:
# Para resolver o problema da recursão do Python
sys.setrecursionlimit(300000)

### Carga de Dados

Encontramos no Kaggle uma base com todos os corredores que finalizaram a maratona de Boston nos anos de 2015,2016 e 2017. 

Fonte: https://www.kaggle.com/datasets/rojour/boston-results?resource=download

Para cada ano, existe um arquivo CSV com aproximadamente 22 colunas cada (há algumas diferenças que foram tratadas para equalisar a base). 


In [None]:
# Leitura dos Arquivos
df_2017 = pd.read_csv('../data/marathon_results_2017.csv',sep=',')

In [None]:
# Carrega os dados do arquivo
df_arvore = df_2017[['Bib','Name','Age','M/F','Country','Official Time','Overall','Gender','Division']]


In [None]:
# Apaga algumas linhas que o Numero de Inscrição tem texto
df_arvore = df_arvore[~df_arvore['Bib'].str.contains('F')]

In [None]:
# Transforma o Numero de Inscrição 
df_arvore['Bib'] = df_arvore['Bib'].astype(int)

In [None]:
# Array para guardar os dados da execução
dados_execucoes = []

In [None]:
# Cria um vetor aleatorio de busca para teste da função busca
vetor_busca = np.random.randint(df_arvore['Bib'].min(),df_arvore['Bib'].max(),10000).tolist()


In [None]:
# Faz a Ordenação do Vetor para o teste ordenado 
#df_arvore = df_arvore.sort_values(by='Bib').reset_index()

### Arvore Binária de Busca

Código adaptado de: https://gist.github.com/divanibarbosa/a8662693e44ab9ee0d0e8c2d74808929

O Código foi disponibilizado em um arquivo local: arvore_binaria.py

In [None]:
# Importa a classe Arvore Binária
import arvore_binaria as ab 

In [None]:
# Instancia a Arvore Binária
arvore_bin = ab.Tree()

In [None]:
# Carrega os dados na arvore Binária
start_time = datetime.now()
for idx,row in df_arvore.iterrows(): 
    arvore_bin.inserir(int(df_arvore.loc[idx]['Bib']),row)
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore Binária","Inserção",df_arvore.shape[0],str(seconds)])

# Verifica a Altura da Arvore
start_time = datetime.now()
altura_bin = str(arvore_bin.altura(arvore_bin.root))
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore Binária","Altura",altura_bin,str(seconds)])

# Conta os Nós
start_time = datetime.now()
nro_nos_bin = str(arvore_bin.contarNos(arvore_bin.root))
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore Binária","Contar Nós",nro_nos_bin,str(seconds)])

# Conta as Folhas
start_time = datetime.now()
nro_folhas_bin = str(arvore_bin.folhas(arvore_bin.root))
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore Binária","Contar Folhas",nro_folhas_bin,str(seconds)])

# Busca uma chave Exemplo
start_time = datetime.now()
for val in vetor_busca:
    arvore_bin.buscar(val)
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore Binária","Busca",len(vetor_busca),str(seconds)])


### Arvore AVL

Código adaptado de: https://gist.github.com/vndmtrx/7657025

O Código foi disponibilizado em um arquivo local: arvore_avl.py

In [None]:
# Importa a classe Arvore Avl
import arvore_avl as avl

In [None]:
# Instancia as duas arvores AVL
arvore_avl = avl.Tree()

In [None]:
# Carrega os dados na Árvore AVL
start_time = datetime.now()
for idx,row in df_arvore.iterrows(): 
    arvore_avl.inserir(int(df_arvore.loc[idx]['Bib']),row)
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore AVL","Inserção",df_arvore.shape[0],str(seconds)])

# Verifica a Altura da Arvore
start_time = datetime.now()
altura_avl = str(arvore_avl.altura(arvore_avl.root))
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore AVL","Altura",altura_avl,str(seconds)])

# Conta os Nós
start_time = datetime.now()
nro_nos_avl = str(arvore_avl.contarNos(arvore_avl.root))
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore AVL","Contar Nós",nro_nos_avl,str(seconds)])

# Conta as Folhas
start_time = datetime.now()
nro_folhas_avl = str(arvore_avl.folhas(arvore_avl.root))
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore AVL","Contar Folhas",nro_folhas_avl,str(seconds)])

# Busca um mil elementos
start_time = datetime.now()
for val in vetor_busca:
    arvore_avl.buscar(val)
end_time = datetime.now()
seconds = (end_time-start_time).total_seconds()
dados_execucoes.append(["Árvore AVL","Busca",len(vetor_busca),str(seconds)])


In [None]:
# Salva os dados
df_dados_exec = pd.DataFrame(dados_execucoes,columns=['arvore','funcao','valor','tempo_segundos'])
df_dados_exec['dt_execucao'] = datetime.now().strftime("%Y-%m-%d %H:%M:%S")

In [None]:
df_dados_exec

In [None]:
# Grava Dados no arquivo Excel
#arquivo = datetime.now().strftime("%Y-%m-%d") + "_dados_tempos.xlsx"
#df_dados_exec.to_excel('../data/' +arquivo,sheet_name='dados', index=False)