# **Atividade 1**

Abaixo encontra-se a classe Dataset e os datasets gerados que serão usados na Atividade 1. As buscas pedidas na Atividade 1 serão feitas utilizando o método `search` da classe Dataset.

Importante lembrar que o código da classe Dataset não precisa ser alterado. Recomenda-se leitura e entendimento do mesmo.

In [1]:
import time
import random


class Dataset(object):

    def __init__(self, struct_type, size):
        self.struct_type = struct_type
        self.size = size
        self.items = self._generate_dataset()

    @staticmethod
    def generate_cpf():
    
        cpf = [random.randint(0, 9) for x in range(11)]                              
                                      
        # for _ in range(2):                                                          
        #     val = sum([(len(cpf) + 1 - i) * v for i, v in enumerate(cpf)]) % 11      
                                                                                
        #     cpf.append(11 - val if val > 1 else 0)                                  
                                                                                
        return '%s%s%s.%s%s%s.%s%s%s-%s%s' % tuple(cpf)

    def _generate_dataset(self):

        if self.struct_type == 'structure_1':
            return sorted([Dataset.generate_cpf() for n in range(self.size)])

        elif self.struct_type == 'structure_2':
            return {Dataset.generate_cpf(): i for i, _ in enumerate(range(self.size))}
        else:
            raise Exception('struct_type must be "structure_1" or "structure_2"')

    def _function_1(self, value):
        """Busca linear O(n)."""
        found = False
        for item in self.items:

            if item == value:
                found = True
                break

        return found

    def _function_2(self, value):
        """Busca binária O(n.log(n))"""
        start, end = 0, len(self.items) - 1

        while start <= end:

            mid = start + (end - start) // 2
            if value > self.items[mid]:
                start = mid + 1
            elif value < self.items[mid]:
                end = mid - 1
            else:
                return mid

        return -1

    def _function_3(self, value):
        return self.items.get(value)

    def search(self, value, search_type):

        if self.struct_type == 'structure_1':

            if search_type == 'function_1':
                self._function_1(value)
            elif search_type == 'function_2':
                self._function_2(value)
            else:
                raise Exception('search_type of Structure1Dataset must be "function_1" or "function_2"')

        elif self.struct_type == 'structure_2':

            if search_type == 'function_3':
                self._function_3(value)
            else:
                raise Exception('search_type of Structure2Dataset must be "function_3"')

                

## *Exemplo de Criação dos Datasets*

O exemplo abaixo será usado para executar **2 tipos de busca**: function_1 e function_2.



In [2]:
structure_1_dataset_10 = Dataset('structure_1', 10)
structure_1_dataset_100 = Dataset('structure_1', 100)
structure_1_dataset_1000 = Dataset('structure_1', 1000)
structure_1_dataset_10000 = Dataset('structure_1', 10000)
structure_1_dataset_100000 = Dataset('structure_1', 100000)
structure_1_dataset_1000000 = Dataset('structure_1', 1000000)

O exemplo abaixo será usado para executar **1 tipo de busca**: function_3


In [3]:
structure_2_dataset_10 = Dataset('structure_2', 10)
structure_2_dataset_100 = Dataset('structure_2', 100)
structure_2_dataset_1000 = Dataset('structure_2', 1000)
structure_2_dataset_10000 = Dataset('structure_2', 10000)
structure_2_dataset_100000 = Dataset('structure_2', 100000)
structure_2_dataset_1000000 = Dataset('structure_2', 1000000)

Cada teste envolverá um tamanho de conjunto de dados e uma função de busca. No mesmo serão realizadas **10000 buscas** por chaves geradas aleatoriamente e o **tempo total do teste** será colocado na tabela da Atividade 1.

As função citadas no enunciado da Atividade 1 são, respectivamente: `function_1`, `function_2` e `function_3`. As buscas `function_1` e `function_2` devem ser executadas em datasets do tipo `structure_1` e buscas do tipo `function_3` devem ser executadas em datasets do tipo `structure_2`.

Abaixo está o código para preenchimento da primeira linha da tabela:

In [9]:
def search(dataset, search_type):

    # número de buscas, não mexer neste parâmetro
    search_batch = 10_000

    # gerando CPFs aleatórios para busca
    cpf_to_search = [Dataset.generate_cpf() for _ in range(search_batch)]

    start = time.time()
    for i in range(search_batch): # buscando
        dataset.search(cpf_to_search[i], search_type)
    
    return time.time() - start


# Criando os datasets
tamanhos = (10, 100, 1000, 10_000, 100_000, 1_000_000)
structure_1_dataset = [Dataset('structure_1', x) for x in tamanhos]
structure_2_dataset = [Dataset('structure_2', x) for x in tamanhos]


for i, tam in enumerate(tamanhos):
    t1 = 0
    t1 += search(structure_1_dataset[i], 'function_1')
    t1 += search(structure_1_dataset[i], 'function_1')
    t1 += search(structure_1_dataset[i], 'function_1')
    
    t2 = 0
    t2 += search(structure_1_dataset[i], 'function_2')
    t2 += search(structure_1_dataset[i], 'function_2')
    t2 += search(structure_1_dataset[i], 'function_2')
    
    t3 = 0
    t3 += search(structure_2_dataset[i], 'function_3')
    t3 += search(structure_2_dataset[i], 'function_3')
    t3 += search(structure_2_dataset[i], 'function_3')
    
    print(tam, t1/3, t2/3, t3/3)
    

10 0.003708998362223307 0.0067034562428792315 0.0025304158528645835
100 0.01731117566426595 0.010450045267740885 0.0023476282755533853
1000 0.15253194173177084 0.016318241755167644 0.0025063355763753257
10000 1.541896104812622 0.02211165428161621 0.002611398696899414
100000 15.926610310872396 0.027750412623087566 0.002777655919392904
1000000 256.69443941116333 0.042630910873413086 0.003844022750854492


Tentem preencher o maior número de campos da tabela usando o exemplo visto neste documento. As dúvidas podem ser tiradas com os professores durante os horários de antendimento.