# Otimização de Código: Livros em comum

Neste notebook veremos um caso onde um funcionário de uma biblioteca precisa encontrar um conjunto de IDs em comum entre duas listas (`books_published_last_two_years.txt` e `all_coding_books.txt`), para encontrar quais são os códigos dos livros mais recentes.

Este notebook foi traduzido e complementado de um exercício do programa Machine Learning Nanodegree da Udacity.

In [1]:
import time
import pandas as pd
import numpy as np

In [2]:
with open('books_published_last_two_years.txt') as f:
    recent_books = f.read().split('\n')
    
with open('all_coding_books.txt') as f:
    coding_books = f.read().split('\n')

In [3]:
start = time.time()
recent_coding_books = []

for book in recent_books:
    if book in coding_books:
        recent_coding_books.append(book)

print(len(recent_coding_books))
print('Duration: {} seconds'.format(time.time() - start))

96
Duration: 16.614715337753296 seconds


### Dica #1: Usar operações com vetores ao invés de loops sempre que possível

Use o método `intersect1d` do numpy para obter a interseção entre dois arrays.

In [6]:
start = time.time()
recent_coding_books =  np.intersect1d(recent_books, coding_books)
print(len(recent_coding_books))
print('Duration: {} seconds'.format(time.time() - start))

96
Duration: 0.029582977294921875 seconds


### Dica #2: Conheça as estruturas de dados e quais métodos são mais rápidos

Use o método `intersection` da entidade `set` para obter os elementos em comum em `recent_books` e `coding_books`.

In [7]:
start = time.time()
recent_coding_books = set.intersection(set(recent_books), set(coding_books))
print(len(recent_coding_books))
print('Duration: {} seconds'.format(time.time() - start))

96
Duration: 0.010503768920898438 seconds


Podemos ver que o método `intersection` da entidade `set` possui o melhor desempenho para encontrar a interseção entre duas listas.