# 2. Curso Relâmpago de Python

Todos os funcionários novos na DataSciencester são obrigados a passar pelo treinamento dos funcionários novos, a parte mais interessante é que contém um curso intensivo de Python.

Mas não é um tutorial compreensível sobre Python, é direcionado a destacar as partes da linguagem que serão mais importantes para nós (algumas delas, em geral, não são o foco dos tutoriais Python).

p.s.: Esse capítulo tá igual ao livro porque é um conhecimento que eu já possuo, então não tomei notas.

### O Básico

#### Iniciando em Python

* Baixar o [Python](https://www.python.org/) ou;
* Instalar o [Anaconda](https://www.anaconda.com/);
* Utilizamos Python 3

#### Python Zen

Python possui uma descrição Zen de seus princípios de design. Ele pode ser encontrado no interpretador utilizando o código abaixo:

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


O código escrito de acordo com esse modo “óbvio” (que talvez não seja tão óbvio para um novato) frequentemente é descrito como “Pythonic”. Apesar de este não ser um material sobre Python, de vez em quando contrastaremos modos Pythonic e não-Pythonic de realizar os mesmos processos, e favoreceremos soluções Pythonic para os nossos problemas.

#### Formatação de Espaço em Branco

Muitas linguagens usam chaves para delimitar blocos de código. Python usa indentação:

In [2]:
for i in [1, 2, 3, 4, 5]:
    print (i) # primeira linha para o bloco “for i”
    for j in [1, 2, 3, 4, 5]:
        print (j) # primeira linha para o bloco “for j”
        print (i + j) # última linha para o bloco “for j”
    print (i) # última linha para o bloco “for i”
print ("done looping")

1
1
2
2
3
3
4
4
5
5
6
1
2
1
3
2
4
3
5
4
6
5
7
2
3
1
4
2
5
3
6
4
7
5
8
3
4
1
5
2
6
3
7
4
8
5
9
4
5
1
6
2
7
3
8
4
9
5
10
5
done looping


Isso faz com que o código Python seja bem legível, mas também significa que você tem que ser muito cuidadoso com a sua formatação. O espaço em branco é ignorado dentro dos parênteses e colchetes, o que poder ser muito útil em computações intermináveis:

In [3]:
long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 +
13 + 14 + 15 + 16 + 17 + 18 + 19 + 20)

e para facilitar a leitura:

In [4]:
list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
easier_to_read_list_of_lists = [ [1, 2, 3],
                                [4, 5, 6],
                                [7, 8, 9] ]

Você também pode usar uma barra invertida para indicar que uma declaração continua na próxima linha, apesar de raramente fazermos isso:

In [5]:
two_plus_three = 2 + \
3

#### Módulos

Alguns recursos de Python não são carregados por padrão. Isto inclui tanto recursos como parte da linguagem assim como recursos de terceiros, que você baixa por conta própria. Para usar esses recursos, você precisará import (importar) os módulos que os contêm.

Uma abordagem é simplesmente importar o próprio módulo:

In [6]:
import re
my_regex = re.compile("[0-9]+", re.I)

Aqui, re é o módulo que contém as funções e constantes para trabalhar com expressões regulares. Após esse tipo de import , você somente pode acessar tais funções usando o prefixo re ...

Se você já tiver um re diferente no seu código você poderia usar um alias:

In [7]:
import re as regex
my_regex = regex.compile("[0-9]+", regex.I)

Você talvez queira fazer isso se o seu módulo tem um nome complicado ou se você vai digitar bastante. Por exemplo, ao visualizar dados com matplotlib, uma convenção padrão é:

In [8]:
import matplotlib.pyplot as plt

Se você precisar de alguns valores específicos de um módulo, pode importá-los explicitamente e usá-los sem qualificação:

In [9]:
from collections import defaultdict, Counter
lookup = defaultdict(int)
my_counter = Counter()

#### Funções

Uma função é uma regra para pegar zero e mais entradas e retornar uma saída correspondente. Em Python, definimos as funções usando def :

In [10]:
def double(x):
    """aqui é onde você coloca um docstring (cadeia de caracteres de documentação) opcional
    que explica o que a função faz.
    por exemplo, esta função multiplica sua entrada por 2"""
    return x * 2

As funções de Python são de primeira classe, que significa que podemos atribuí-las a variáveis e passá-las para as funções como quaisquer outros argumentos:

In [11]:
def apply_to_one(f):
    return f(1)

my_double = double
x = apply_to_one(my_double)
print(x)

2


Também é fácil criar pequenas funções anônimas, ou lambdas:

In [12]:
y = apply_to_one(lambda x: x + 4)
print(y)

5


Você pode atribuir lambdas a variáveis, apesar de que maioria das pessoas lhe dirão para usar def:

In [13]:
another_double = lambda x: 2 * x # Não faça isso
def another_double(x): return 2 * x # Faça isso

Os parâmetros de função também podem receber argumentos padrões, que só precisam ser especificados quando você quiser um valor além do padrão:

In [14]:
def my_print(message="my default message"):
    print (message)
    
my_print("hello") # exibe 'hello'
my_print() # exibe 'my default message'

hello
my default message


Às vezes é útil especificar argumentos pelo nome:

In [15]:
def subtract(a=0, b=0):
    return a - b

print(subtract(10, 5)) # retorna S
print(subtract(0, 5)) # retorna -S
print(subtract(b=5)) # mesmo que o anterior

5
-5
-5


Criaremos muitas, muitas funções.

#### Strings (Cadeias de Caracteres)

As strings podem ser delimitadas por aspas simples ou duplas (mas elas devem
combinar):


In [16]:
single_quoted_string = 'data science'
double_quoted_string = "data science"

O Python usa a barra invertida para codificar caracteres especiais. Por exemplo:

In [17]:
tab_string = "\t" # representa o caractere tab
len(tab_string) # é 1

1

Se você quiser barras invertidas como barras invertidas (que você vê nos nomes dos diretórios ou expressões regulares no Windows), você pode criar uma string bruta usando r"" :

In [18]:
not_tab_string = r"\t" # representa os caracteres '\' e 't'
len(not_tab_string) # é 2

2

Você pode criar strings múltiplas usando aspas triplas ou duplas:

In [19]:
multi_line_string = """esta é a primeira linha.
e esta é a segunda
e esta é a terceira"""

#### Exceções

Quando algo dá errado, o Python exibe uma exceção. Se não for manipulada, o programa travará. Você pode manipulá-las usando try e except :

In [20]:
try:
    print (0/0)
except ZeroDivisionError:
    print("cannot divide by zero")

cannot divide by zero


Apesar de serem consideradas ruins em muitas linguagens, as exceções são usadas livremente no Python para dar uma limpeza no código e, ocasionalmente, faremos o mesmo.

#### Listas

Provavelmente, a estrutura de dados mais básica em Python é a list . Uma lista é apenas uma coleção ordenada. (É parecida com o array das outras linguagens, mas com algumas funcionalidades a mais.)

In [21]:
integer_list = [1, 2, 3]
heterogeneous_list = ["string", 0.1, True]
list_of_lists = [ integer_list, heterogeneous_list, [] ]
list_length = len(integer_list) # é igual a 3
list_sum = sum(integer_list) # é igual a 6

Você pode ter ou configurar o elemento n-ésimo de uma lista com colchetes:

In [22]:
x = list(range(10)) # é a lista [0, 1, ..., 9]
print(x)
zero = x[0] # é igual a 0, as listas são indexadas a partir de 0
print(zero)
one = x[1] # é igual a 1
print(one)
nine = x[-1] # é igual a 9, 'Pythonic' para o último elemento
print(nine)
eight = x[-2] # é igual a 8, 'Pythonic' para o anterior ao último elemento
print(eight)
x[0] = -1 # agora x é [-1, 1, 2, 3, ..., 9]
print(x)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
0
1
9
8
[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


Você também pode usar os colchetes para repartir as listas:

In [23]:
print("Lista original: ", x)
first_three = x[:3]  # [-1, 1, 2]
print(first_three)
three_to_end = x[3:] # [3, 4, ..., 9]
print(three_to_end)
one_to_four = x[1:5] # [1, 2, 3, 4]
print(one_to_four)
last_three = x[-3:] # [7, 8, 9]
print(last_three)
without_first_and_last = x[1:-1]; # [1, 2, ..., 8]
print(without_first_and_last)
copy_of_x = x[:] # [-1, 1, 2, ..., 9]
print(copy_of_x)

Lista original:  [-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[-1, 1, 2]
[3, 4, 5, 6, 7, 8, 9]
[1, 2, 3, 4]
[7, 8, 9]
[1, 2, 3, 4, 5, 6, 7, 8]
[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


O Python possui o operador in para verificar a associação à lista:

In [24]:
print(1 in [1, 2, 3]) # Verdadeiro/True
print(0 in [1, 2, 3]) # Falso/False

True
False


Essa verificação envolve examinar os elementos de uma lista um de cada vez, o que significa que você provavelmente não deveria usá-la a menos que você saiba que sua lista é pequena (ou a menos que você não se importe em quanto tempo a verificação durará).

É fácil concatenar as listas juntas:

In [25]:
x = [1, 2, 3]
x.extend([4, 5, 6]) # x agora é [1,2,3,4,5,6]
x

[1, 2, 3, 4, 5, 6]

Se você não quiser modificar x você pode usar uma adição na lista:

In [26]:
x = [1, 2, 3]
y = x + [4, 5, 6] # y é[1, 2, 3, 4, 5, 6]; x não mudou
print(x)
print(y)

[1, 2, 3]
[1, 2, 3, 4, 5, 6]


Com mais frequência, anexaremos um item de cada vez nas listas:

In [27]:
x = [1, 2, 3] 
x.append(0) # x agora é [1, 2, 3, 0]
y = x[-1] # é igual a 0
z = len(x) # é igual a 4

print(x)
print(y)
print(z)

[1, 2, 3, 0]
0
4


Às vezes é conveniente desfazer as listas se você sabe quantos elementos elas possuem:

In [28]:
x, y = [1, 2] # agora x é 1, y é 2

apesar de que você receberá um ValueError se não tiver os mesmos números de elementos dos dois lados.

É comum usar um sublinhado para um valor que você descartará:

In [29]:
_, y = [1, 2] # agora y == 2, não se preocupou com o primeiro elemento

#### Tuplas

São as primas imutáveis das listas. Quase tudo que você pode fazer com uma lista, que não envolva modificá-la, é possível ser feito em uma tupla. Você especifica uma tupla ao usar parênteses (ou nada) em vez de colchetes:

In [30]:
my_list = [1, 2]
print(my_list)
my_tuple = (1, 2)
print(my_tuple)
other_tuple = 3, 4
print(other_tuple)
my_list[1] = 3 # my_list agora é [1, 3]
print(my_list)

try:
    my_tuple[1] = 3
except TypeError:
    print ("cannot modify a tuple")

[1, 2]
(1, 2)
(3, 4)
[1, 3]
cannot modify a tuple


As tuplas são uma maneira eficaz de retornar múltiplos valores a partir das funções:

In [31]:
def sum_and_product(x, y):
    return (x + y),(x * y)

sp = sum_and_product(2, 3) # é igual (5, 6)
print(sp)
s, p = sum_and_product(5, 10) # s é 15, p é 50
print(s, p)

(5, 6)
15 50


As tuplas (e listas) também podem ser usadas para atribuições múltiplas:

In [32]:
x, y = 1, 2 # agora x é 1, y é 2
print(x,y)
x, y = y, x # modo Pythonic de trocar as variáveis; agora x é 2, y é 1
print(x,y)

1 2
2 1


#### Dicionários

Outra estrutura fundamental é um dicionário, que associa valores com chaves e permite que você recupere o valor correspondente de uma dada chave rapidamente:

In [33]:
empty_dict = {} # Pythonic
empty_dict2 = dict(); # menos Pythonic
grades = { "Joel" : 80, "Tim" : 95 } # dicionário literal


Você pode procurar o valor para uma chave usando colchetes:

In [34]:
joels_grade = grades["Joel"] # é igual a 80

Mas você receberá um keyError se perguntar por uma chave que não esteja no dicionário:

In [35]:
try:
    kates_grade = grades["Kate"]
except KeyError:
    print ("no grade for Kate!")

no grade for Kate!


Você pode verificar a existência de uma chave usando in :

In [36]:
joel_has_grade = "Joel" in grades # Verdadeiro
kate_has_grade = "Kate" in grades # Falso

Os dicionários possuem o método get que retorna um valor padrão (em vez de levantar uma exceção) quando você procura por uma chave que não esteja no dicionário:

In [37]:
joels_grade = grades.get("Joel", 0) # é igual a 80
kates_grade = grades.get("Kate", 0) # é igual a 0
no_ones_grade = grades.get("No One") # padrão para padrão é None

Você atribui pares de valores-chave usando os mesmos colchetes:

In [38]:
grades["Tim"] = 99 # substitui o valor antigo
grades["Kate"] = 100 # adiciona uma terceira entrada
num_students = len(grades) # é igual a 3

Frequentemente usaremos dicionários como uma simples maneira de representar dados estruturados:

In [39]:
tweet = {
    "user" : "joelgrus",
    "text" : "Data Science is Awesome",
    "retweet_count" : 100,
    "hashtags" : ["#data", "#science", "#datascience", "#awesome", "#yolo"]
}

Além de procurar por chaves específicas, podemos olhar para todas elas:

In [40]:
tweet_keys = tweet.keys() # lista de chaves
tweet_values = tweet.values() # lista de valores-chave
tweet_items = tweet.items() # lista de (chave, valor) tuplas

"user" in tweet_keys # Verdadeiro, mas usa list in, mais lento
"user" in tweet # mais Pythonic, usa dict in, mais rápido
"joelgrus" in tweet_values # Verdadeiro

True

As chaves dos dicionários devem ser imutáveis; particularmente, você não pode usar lists como chaves. Se você precisar de uma chave multipart, você deveria usar uma tuple ou descobrir uma forma de transformar uma chave em uma string.

#### defaultdict

Imagine que você esteja tentando contar as palavras em um documento. Um método claro é criar um dicionário no qual as chaves são palavras e os valores são contagens. Conforme você vai verificando cada palavra, você pode incrementar sua contagem se ela já estiver no dicionário e adicioná-la no
dicionário se não estiver:

In [None]:
word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

Você também poderia usar o método “perdão é melhor do que permissão” e apenas manipular a exceção a partir da tentativa de procurar pela chave perdida:

In [None]:
word_counts = {}
for word in document:
    try:
        word_counts[word] += 1
    except KeyError:
        word_counts[word] = 1

Tudo isso é levemente complicado, por isso o defaultdict é útil. Um defaultdict é como um dicionário comum, exceto que, quando você tenta procurar por uma chave que ele não possui, ele primeiro adiciona um valor para ela usando a função de argumento zero que você forneceu ao criá-lo. Para usar defaultdicts, você tem que importá-los das collections:

In [None]:
from collections import defaultdict

word_counts = defaultdict(int) # int produz 0
for word in document:
    word_counts[word] += 1

Eles também podem ser úteis com list ou dict ou até mesmo com suas próprias funções:

In [42]:
dd_list = defaultdict(list) # list() produz uma lista vazia
dd_list[2].append(1) # agora dd_list contém {2: [1]}

dd_dict = defaultdict(dict) # dict() produz um dict vazio
dd_dict["Joel"]["City"] = "Seattle" # { "Joel" : { "City" : Seattle"}}

dd_pair = defaultdict(lambda: [0, 0])
dd_pair[2][1] = 1 # agora dd_pair contêm {2: [0,1]}

Isso será útil quando você usar dicionários para “coletar” resultados por algumachave e não quiser verificar toda vez para ver se ela ainda existe.

#### Contador

Um Counter (contador) transforma uma sequência de valores em algo parecido com o objeto defaultdict(int) mapeando as chaves para as contagens. Primeiramente, o usaremos para criar histogramas:

In [43]:
from collections import Counter
c = Counter([0, 1, 2, 0]) # c é (basicamente) { 0 : 2, 1 : 1, 2 : 1 }

Isso nos mostra uma forma simples de resolver nosso problema de word_counts:

In [None]:
word_counts = Counter(document)

Uma instância Counter possui um método most_common que é frequentemente útil:

In [None]:
# imprime as dez palavas mais comuns e suas contas
for word, count in word_counts.most_common(10):
    print (word, count)

#### Conjuntos

Outra estrutura de dados é o set (conjunto), que representa uma coleção de elementos distintos:

In [44]:
s = set() 
s.add(1) # s agora é { 1 }
s.add(2) # s agora é { 1, 2 }
s.add(2) # s ainda é { 1, 2 }
x = len(s) # é igual a 2
y = 2 in s # é igual a True
z = 3 in s # é igual a False

Usaremos os conjuntos por duas razões principais. A primeira é que in é uma operação muito rápida em conjuntos. Se tivermos uma grande coleção de itens que queiramos usar para um teste de sociedade, um conjunto é mais adequado do que uma lista:

In [None]:
stopwords_list = ["a","an","at"] + hundreds_of_other_words + ["yet", "you"]
"zip" in stopwords_list # Falso, mas tem que verificar todos os elementos
stopwords_set = set(stopwords_list)
"zip" in stopwords_set # muito rápido para verificar

A segunda razão é encontrar os itens distintos em uma coleção:

In [None]:
item_list = [1, 2, 3, 1, 2, 3]
num_items = len(item_list) # 6
item_set = set(item_list) # {1, 2, 3}
num_distinct_items = len(item_set) # 3
distinct_item_list = list(item_set) # [1, 2, 3]

Usaremos set s com menos frequência do que dicts e lists.

#### Controle de Fluxo

Como na maioria das linguagens de programação, você pode desempenhar uma ação condicionalmente usando if:

In [45]:
if 1 > 2:
    message = "if only 1 were greater than two..."
elif 1 > 3:
    message = "elif stands for 'else if'"
else:
    message = "when all else fails use else (if you want to)"

Você também pode escrever um ternário if-then-else em uma linha, o que faremos ocasionalmente:

In [46]:
parity = "even" if x % 2 == 0 else "odd"

Python possui um loop while:

In [47]:
x = 0
while x < 10:
    print (x, "is less than 10")
    x += 1

0 is less than 10
1 is less than 10
2 is less than 10
3 is less than 10
4 is less than 10
5 is less than 10
6 is less than 10
7 is less than 10
8 is less than 10
9 is less than 10


embora usaremos mais for e in :

In [48]:
for x in range(10):
    print (x, "is less than 10")

0 is less than 10
1 is less than 10
2 is less than 10
3 is less than 10
4 is less than 10
5 is less than 10
6 is less than 10
7 is less than 10
8 is less than 10
9 is less than 10


Se você precisar de uma lógica mais complexa, pode usar continue e break :

In [50]:
for x in range(10):
    if x == 3:
        continue # vai para a próxima iteração imediatamente
    if x == 5:
        break # sai do loop completamente
    print (x)

0
1
2
4


Essa saída será 0, 1, 2 e 4.

#### Veracidadede

Os Booleanos em Python funcionam como na maioria das linguagens, exceto que eles são iniciados por letras maiúsculas:

In [51]:
one_is_less_than_two = 1 < 2 # é igual a True
true_equals_false = True == False # é igual a False

Python usa o valor None para indicar um valor não-existente. É parecido com o null das outras linguagens:

In [53]:
x = None
print (x == None) # imprime True mas não é Pythonic
print (x is None) # imprime True e é Pythonic

True
True


O Python permite que você use qualquer valor que espera por um Booleano. Todos os exemplos a seguir são “ Falsos ”:

* False
* None
* [] (uma list vazia)
* {} (um dict vazio)
* ""
* set()
* 0
* 0.0

Quase todo o restante pode ser tratado como True. Isso permite que você use declarações if para testar listas, strings ou dicionários vazios e assim por diante. Às vezes isso causa alguns pequenos bugs se você estiver esperando por este comportamento:

In [None]:
s = some_function_that_returns_a_string()
if s:
    first_char = s[0]
else:
    first_char = ""

Uma forma mais simples de fazer o mesmo é:

In [None]:
first_char = s and s[0]

já que and retorna seu segundo valor quando o primeiro é “ verdadeiro ”, ou o primeiro valor quando não é. Da mesma forma, se x é um número ou,possivelmente, None :

In [55]:
safe_x = x or 0

definitivamente é um número.

Python possui uma função all , que pega uma lista e retorna True precisamente quando todos os elementos forem verdadeiros, e uma função any , que retorna True quando pelo menos um elemento é verdadeiro:

In [56]:
all([True, 1, { 3 }]) # True
all([True, 1, {}]) # False, {} é falso
any([True, 1, {}]) # True, True é verdadeiro
all([]) # True, sem elementos falsos na lista
any([]) # False, sem elementos verdadeiros na lista

False

### Não Tão Básico
Aqui, veremos alguns dos mais avançados recursos do Python que serão úteis para trabalhar com dados.

#### Ordenação
Toda lista de Python possui um método sort que ordena seu espaço. Se você não quer bagunçar sua lista, você pode usar a função sorted, que retornam uma lista nova:

In [57]:
x = [4,1,2,3]
y = sorted(x) # é [1,2,3,4], x não mudou
x.sort() # agora x é [1,2,3,4]

Por padrão, sort (e sorted) organizam uma lista da menor para a maior baseada em uma comparação ingênua de elementos uns com os outros.

Se você quer que os elementos sejam organizados do maior para o menor, você pode especificar o parâmetro reverse=True . E, em vez de comparar os elementos com eles mesmos, compare os resultados da função que você especificar com key:

In [59]:
# organiza a lista pelo valor absoluto do maior para o menor
x = sorted([-4,1,-2,3], key=abs, reverse=True) # is [-4,3,-2,1]
# organiza as palavras e contagens da mais alta para a mais baixa
wc = sorted(word_counts.items(), 
            key=lambda word_counts: word_counts[1], 
            reverse=True)

#### Compreensões de Lista

Com frequência, você vai querer transformar uma lista em outra, escolhendo apenas alguns elementos, transformando tais elementos ou ambos. O modo Pythonic de fazer isso são as compreensões de lista:

In [60]:
even_numbers = [x for x in range(5) if x % 2 == 0] # [0, 2, 4]
squares = [x * x for x in range(5)] # [0, 1, 4, 9, 16]
even_squares = [x * x for x in even_numbers] # [0, 4, 16]

você pode transformar dicionários em conjuntos da mesma forma:

In [61]:
square_dict = { x : x * x for x in range(5) } # { 0:0, 1:1, 2:4, 3:9, 4:16 }
square_set = { x * x for x in [1, -1] } # { 1 }

Se você não precisar do valor da lista, é comum usar um sublinhado como variável:

In [62]:
zeroes = [0 for _ in even_numbers] # possui o mesmo tamanho de even_numbers

Uma compreensão de lista pode incluir múltiplos for:

In [63]:
pairs = [(x, y) 
         for x in range(10) 
         for y in range(10)] # 100 pairs (0,0) (0,1) ... (9,8), (9,9)

e os for que vêm depois podem usar os resultados dos primeiros:

In [64]:
increasing_pairs = [(x, y) # somente pares com x < y, 
                    for x in range(10) # range(lo, hi) é igual a 
                    for y in range(x + 1, 10)] # [lo, lo + 1, ..., hi - 1]

Usaremos bastantes compreensões de lista.

#### Geradores e Iteradores

Um problema com as listas é que elas podem crescer sem parar facilmente. range(1000000) cria uma lista com um milhão de elementos. Se você apenas precisa lidar com eles um de cada vez, isso pode ser uma fonte infinita de ineficiência (ou esgotamento de memória). Se você precisar de poucos valores, calcular todos seria uma perda de tempo. 

Um gerador é algo sobre o qual você pode iterar (para nós, geralmente usando for) mas cujos valores são produzidos apenas quando necessários (preguiçosamente).

Uma forma de criar geradores é com funções e o operador yield:

In [65]:
def lazy_range(n):
    """uma versão preguiçosa de range"""
    i = 0
    while i < n:
        yield i
        i += 1

O loop a seguir consumirá os valores yield um de cada vez até não sobrar mais nenhum:

In [None]:
for i in lazy_range(10):
    do_something_with(i)

(O Python geralmente vem com uma função lazy_range chamada xrange e, em Python 3, range é, em si, preguiçoso (lazy).) Isso significa que você poderia criar uma sequência infinita:

In [66]:
def natural_numbers():
    """retorna 1, 2, 3, ..."""
    n = 1
    while True:
        yield n
        n += 1

embora você não deveria iterar sobre ela sem usar algum tipo de lógica break .

Uma segunda forma de criar geradores é usar compreensões de for dentro de parênteses:

In [67]:
lazy_evens_below_20 = (i for i in lazy_range(20) if i % 2 == 0)

Lembre-se de que cada dict possui um método items() que retorna uma lista de seus pares valores-chave. Veremos com mais frequência o método iteritems(), que preguiçosamente yields (chama) os pares de valor-chave um de cada vez conforme iteramos sobre ele.

#### Aleatoriedade

Conforme aprendemos data science, precisaremos gerar números aleatórios com uma certa frequência, o que pode ser feito com o módulo random:

In [69]:
import random
four_uniform_randoms = [random.random() for _ in range(4)]
# [0.8444218515250481, # random.random() produz números
# 0.7579544029403025, # uniformemente entre 0 e 1
# 0.420571580830845, # é a função aleatória que usaremos
# 0.25891675029296335] # com mais frequência

O módulo random de fato produz números pseudoaleatórios (ou seja, determinísticos) baseado em um estado interno que você pode configurar com random.seed se quiser obter resultados reproduzíveis:

In [71]:
random.seed(10) # configura seed para 10
print (random.random()) # 0.57140259469
random.seed(10) # reinicia seed para 10
print (random.random()) # 0.57140259469 novamente

0.5714025946899135
0.5714025946899135


Às vezes usaremos random.randrange , que leva um ou dois argumentos e retorna um elemento escolhido aleatoriamente do range() correspondente:

In [72]:
random.randrange(10) # escolhe aleatoriamente de range(10) = [0, 1, ..., 9]
random.randrange(3, 6) # escolhe aleatoriamente de range(3, 6) = [3, 4, 5]

4

Existem mais alguns métodos que achamos convenientes em certas ocasiões. random.shuffle reordena os elementos de uma lista aleatoriamente:

In [74]:
up_to_ten = list(range(10))
random.shuffle(up_to_ten)
print (up_to_ten)
# [2, 5, 1, 9, 7, 3, 8, 6, 4, 0] (seus resultados podem ser diferentes)

[4, 5, 9, 1, 2, 8, 6, 7, 3, 0]


Se você precisar escolher um elemento randomicamente de uma lista, você pode usar random.choice :

In [76]:
my_best_friend = random.choice(["Alice", "Bob", "Charlie"]) # "Bob" for me
print(my_best_friend)

Alice


E se você precisar escolher aleatoriamente uma amostra dos elementos sem substituição (por exemplo, sem duplicatas), você pode usar random.sample:

In [77]:
lottery_numbers = range(60)
winning_numbers = random.sample(lottery_numbers, 6) # [16, 36, 10, 6, 25, 9]

Para escolher uma amostra de elementos com substituição (por exemplo, permitindo duplicatas), você pode fazer múltiplas chamadas para random.choice :

In [78]:
four_with_replacement = [random.choice(range(10)) 
                         for _ in range(4)]
# [9, 4, 4, 2]

#### Expressões Regulares

As expressões regulares fornecem uma maneira de procurar por texto. São incrivelmente úteis mas um pouco complicadas, tanto que até existem livros sobre elas. Explicaremos mais detalhes nas poucas vezes que as encontrarmos; estes são alguns exemplos de como usá-las em Python:

In [80]:
import re
print (all([ # todos são verdadeiros porque
    not re.match("a", "cat"), # * 'cat' não começa com 'a'
    re.search("a", "cat"), # * 'cat' possui um 'a'
    not re.search("c", "dog"), # * 'dog' não possui um 'c'
    3 == len(re.split("[ab]", "carbs")), # * divide em a ou b para ['c','r','s']
    "R-D-" == re.sub("[0-9]", "-", "R2D2") # * substitui dígitos por traços
])) # imprime True

True


#### Programação Orientada a Objeto

Como muitas linguagens, o Python permite que você defina classes que encapsulam dados e as funções que as operam. As usaremos algumas vezes para tornar nosso código mais limpo e simples. Provavelmente é mais fácil explicá-las ao construir um exemplo repleto de anotações.

Imagine que não tivéssemos o set embutido em Python. Portanto, talvez quiséssemos criar nossa própria classe Set.

Qual comportamento nossa classe deveria ter? Dado um exemplo de Set, deveremos ser capazes de add (adicionar) itens nele, remove (remover) itens dele e verificar se ele contains (contém) um determinado valor. Criaremos todos eles como funções de membro, o que significa que os acessaremos com um ponto depois de um objeto Set:

In [83]:
# por convenção, damos nomes PascalCase às classes
class Set:
    # estas são as funções de membro
    # cada uma pega um parâmetro “self” (outra convenção)
    # que se refere ao objeto set sendo usado em questão
    def __init__(self, values=None):
        """este é o construtor.
        Ele é chamado quando você cria um novo Set.
        Você deveria usá-lo como
        s1 = Set() # conjunto vazio
        s2 = Set([1,2,2,3]) # inicializa com valores"""
        
        self.dict = {} # cada instância de set possui sua própria propriedade dict
                    # que é o que usaremos para rastrear as associações
        if values is not None:
            for value in values:self.add(value)
                
    def __repr__(self):
        """esta é a representação da string de um objeto Set
        se você digitá-la no prompt do Python ou passá-la para str()"""
        return "Set: " + str(self.dict.keys())
    
    # representaremos a associação como uma chave em self.dict com valor True
    def add(self, value):
        self.dict[value] = True
    
    # valor está no Set se ele for uma chave no dicionário
    def contains(self, value):
        return value in self.dict

    def remove(self, value):
        del self.dict[value]

Que poderíamos usar desta forma:

In [84]:
s = Set([1,2,3])
s.add(4)
print (s.contains(4)) # True
s.remove(3)
print (s.contains(3)) # False

True
False


#### Ferramentas Funcionais

Ao passar as funções, algumas vezes queremos aplicá-las parcialmente para criar funções novas. Em um simples exemplo, imagine que temos uma função com duas variáveis:

In [85]:
def exp(base, power):
    return base ** power

e queremos usá-la para criar uma função de uma variável two_to_the cuja entrada é um power e cuja saída é o resultado de exp(2, power).

Podemos, é claro, fazer isso com def, mas pode ser um pouco complicado:

In [86]:
def two_to_the(power):
    return exp(2, power)

Uma abordagem diferente é usar functools.partial :

In [88]:
from functools import partial
two_to_the = partial(exp, 2) # agora é uma função de uma variável
print (two_to_the(3)) # 8

8


Você também pode usar partial para preencher os argumentos que virão depois sevocê especificar seus nomes:

In [89]:
square_of = partial(exp, power=2)
print (square_of(3))
# 9

9


Começa a ficar bagunçado quando você adiciona argumentos no meio da função, portanto tentaremos evitar isso.

Ocasionalmente usaremos map, reduce e filter, que fornecem alternativas funcionais para as compreensões de lista:

In [91]:
def double(x):
    return 2 * x

xs = [1, 2, 3, 4]
twice_xs = [double(x) for x in xs] # [2, 4, 6, 8]
twice_xs = map(double, xs) # igual ao de cima
list_doubler = partial(map, double) # função que duplica a lista
twice_xs = list_doubler(xs) # novamente [2, 4, 6, 8]

Você pode usar map com funções de múltiplos argumentos se fornecer múltiplas listas:

In [92]:
def multiply(x, y): return x * y
products = map(multiply, [1, 2], [4, 5]) # [1 * 4, 2 * 5] = [4, 10]

Igualmente, filter faz o trabalho de uma compreensão de lista if:

In [93]:
def is_even(x):
    """True se x for par, False se x for ímpar"""
    return x % 2 == 0

x_evens = [x for x in xs if is_even(x)] # [2, 4]
x_evens = filter(is_even, xs) # igual ao de cima
list_evener = partial(filter, is_even) # função que filtra a lista
x_evens = list_evener(xs) # novamente [2, 4]

reduce combina os dois primeiros elementos de uma lista, então esse resultado com o terceiro e esse resultado com o quarto; e assim por diante, produzindo um único resultado:

In [None]:
x_product = reduce(multiply, xs) # = 1 * 2 * 3 * 4 = 24
list_product = partial(reduce, multiply) # função que reduz uma lista
x_product = list_product(xs) # novamente = 24

#### Enumeração (enumerate)

Com alguma frequência, você vai querer iterar por uma lista e usar seus elementos e seus índices:

In [None]:
# não é Pythonic
for i in range(len(documents)):
    document = documents[i]
    do_something(i, document)
    
# também não é Pythonic
i = 0
for document in documents:
    do_something(i, document)
    i += 1

A solução Pythonic é enumerate(enumerar), que produz tuplas( index, element ):

In [None]:
for i, document in enumerate(documents):
    do_something(i, document)

Da mesma forma, se apenas quisermos os índices:

In [None]:
for i in range(len(documents)): do_something(i) # não é Pythonic
for i, _ in enumerate(documents): do_something(i) # Pythonic

Usaremos isso bastante.

#### Descompactação de Zip e Argumentos

Com uma certa frequência, precisaremos zip (compactar) duas ou mais listas juntas. zip transforma listas múltiplas em uma única lista de tuplas de elementos correspondentes:

In [95]:
list1 = ['a', 'b', 'c']
list2 = [1, 2, 3]
zip(list1, list2) # é [('a', 1), ('b', 2), ('c', 3)]

<zip at 0x7feda9806be0>

Se as listas são de tamanhos diferentes, zip para assim que a primeira lista acaba.

Você também pode descompactar uma lista usando um truque curioso:

In [96]:
pairs = [('a', 1), ('b', 2), ('c', 3)]
letters, numbers = zip(*pairs)

O asterisco desempenha a descompactação de argumento, que usa os elementos de pairs como argumentos individuais para zip . Dá no mesmo se você chamasse:

In [97]:
zip(('a', 1), ('b', 2), ('c', 3))

<zip at 0x7feda93ccaf0>

que retorna [(‘a’, ’b’, ’c’), (‘1’, ’2’, ’3’)].

Você pode usar a descompactação de argumento com qualquer função:

In [98]:
def add(a, b): return a + b

add(1, 2) # retorna 3
add([1, 2]) # TypeError!
add(*[1, 2]) # retorna 3

TypeError: add() missing 1 required positional argument: 'b'

É raro acharmos isso útil, mas quando fazemos é um truque engenhoso.

#### args e kwargs

Digamos que queremos criar uma função de ordem alta que tem como entrada uma função f e retorna uma função nova que retorna duas vezes o valor de f para qualquer entrada:

In [99]:
def doubler(f):
    def g(x):
        return 2 * f(x)
    return g

Isto funciona em alguns casos:

In [100]:
def f1(x):
    return x + 1

g = doubler(f1)
print (g(3)) # 8 (== ( 3 + 1) * 2)
print (g(-1)) # 0 (== (-1 + 1) * 2)

8
0


No entanto, ele falha com funções que possuem mais de um único argumento:

In [102]:
def f2(x, y):
    return x + y

g = doubler(f2) 
print(g(1, 2)) # TypeError: g() pega exatamente 1 argumento (2 dados)

TypeError: g() takes 1 positional argument but 2 were given

O que precisamos é de alguma maneira de especificar uma função que leva argumentos arbitrários. Podemos fazer isso com a descompactação de argumento e um pouco de mágica:

In [103]:
def other_way_magic(x, y, z):
    return x + y + z

x_y_list = [1, 2]
z_dict = { "z" : 3 }
print(other_way_magic(*x_y_list, **z_dict)) # 6

6


Você poderia fazer todos os tipos de truques com isso; apenas usaremos para produzir outras funções de ordem alta cujas entradas podem aceitar argumentos arbitrários:

In [105]:
def doubler_correct(f):
    """funciona não importa que tipo de entradas f espera"""
    def g(*args, **kwargs):
        """quaisquer argumentos com os quais g é fornecido, os passa para f"""
        return 2 * f(*args, **kwargs)
    return g

g = doubler_correct(f2)
print (g(1, 2)) # 6

6


### Bem-vindo à DataSciencester!

Concluímos aqui o treinamento dos funcionários novos. Ah, e também, tente não surrupiar nada.