In [None]:
# 2 A Crash Course in Python

# 2.1 The Basics

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


In [None]:
#
# Whitespace formatting
#

In [2]:
# Diferentemente de outras linguagens, Python nao usa {} para delimitar blocos de codigo. Python usa indentacao
for i in [1, 2, 3, 4, 5]:
    print(i)
    for j in [1, 2, 3, 4, 5]:
        print(j)
        print(i + j)
    print(i)
print("looping done")

1
1
2
2
3
3
4
4
5
5
6
1
2
1
3
2
4
3
5
4
6
5
7
2
3
1
4
2
5
3
6
4
7
5
8
3
4
1
5
2
6
3
7
4
8
5
9
4
5
1
6
2
7
3
8
4
9
5
10
5
looping done


In [5]:
# Espacos em branco sao ignorados dentro de parenteses () e colchetes []

long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 +
                          9 + 10 + 11 + 12 + 13 + 14 + 15 + 
                          16 + 17 + 18 + 19 + 20)

print(long_winded_computation)

list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

print(list_of_lists)

easer_to_read_list_of_lists = [ [1, 2, 3], 
                                [4, 5, 6],
                                [7, 8, 9] ]

print(easer_to_read_list_of_lists)

210
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]


In [6]:
# uma \ pode ser usada para indicar quebra de linha, mas eh opcional
two_plus_three = 2 + \
                 3

print(two_plus_three)

5


In [None]:
#
# Modules
#

In [9]:
# Existem recursos (modulos) que nao sao carregados por padrao no Python. Sendo recursos base da linguagem
# ou recursos baixados e fornecidos por terceiros.
# Para usar esses modulos, eles devem ser importados com comando 'import'

import re  # modulo para expressoes regulares (regex)

print(re.I)

my_regex = re.compile("[0-9]+", re.I)

print(my_regex)

RegexFlag.IGNORECASE
re.compile('[0-9]+', re.IGNORECASE)


In [11]:
# Pode-se usar alias para usar os modulos importados

import re as regex  # o que vem depois de 'as' eh o alias para o modulo importado

print(regex.I)

my_regex = regex.compile("[0-9]+", regex.I)

print(my_regex)

import matplotlib.pyplot as plt

RegexFlag.IGNORECASE
re.compile('[0-9]+', re.IGNORECASE)


In [13]:
# Para usar recursos especificos de um modulo, pode-se importar explicitamente cada recurso

from collections import defaultdict, Counter
lookup = defaultdict()
my_counter = Counter()

print(lookup)
print(my_counter)

defaultdict(None, {})
Counter()


In [14]:
# Tambem pode-se importar todos os recursos de modo implicito, 
# mas nao eh recomendado, pois se houver alguma variavel com mesmo nome
# sera sobrescrita

match = 10
print(match)

from re import *  # modulo 're' tem uma funcao 'match'
print(match)

10
<function match at 0x7f11f0992280>


In [None]:
#
# Arithmetic
#

In [20]:
# No Python 2, o operador de divisao retornava um inteiro:
#
# 5 / 2 retorna 2
#
# Para resolver, antes tinha que fazer o seguinte import:
#
# from __future__ import division
#
# e entao 5 / 2 retorna 2.5
#
print("No Python 3...")
print("5 / 2 =", 5/2, "(operador de divisao convencional)")
print("5 // 2 =", 5//2, "(operador de divisao que retorna inteiro)")
print("5 % 2 =", 5%2, "(operador de divisao que retorna o resto da parte inteira)")

No Python 3...
5 / 2 = 2.5 (operador de divisao convencional)
5 // 2 = 2 (operador de divisao que retorna inteiro)
5 % 2 = 1 (operador de divisao que retorna o resto da parte inteira)


In [None]:
#
# Functions
#

In [23]:
def double(x):
    '''Aqui vai um texto opcional para descricao do que a funcao faz.
    P. ex., essa funcao recebe x e retorna o seu valor multiplicado por 2.'''
    return x * 2

x = 2
print("x=2, logo double(x) =", double(x))

x=2, logo double(x) = 4


In [24]:
# Em Python, as funcoes sao 'first-class', o que significa que pode-se atribuir uma funcao a uma
# variavel e passa-la como parametro em outra funcao (callback)

def apply_to_one(f):
    '''chama a funcao f passando o parametro 1'''
    return f(1)

my_double = double
print(my_double)

x = apply_to_one(my_double)
print(x)

<function double at 0x7f1191068040>
2


In [25]:
# Definicao de lambdas (funcoes anonimas curtas)

y = apply_to_one(lambda x: x+4)
print(y)

5


In [28]:
# Pode-se atribuir um lambda a uma variavel, mas isso nao eh recomendado

another_double = lambda x: x*2  # isso pode mas nao eh recomendado
print(another_double(2))

def another_double(x): return x * 2  # usar 'def' eh o recomendado
print(another_double(2))

4
4


In [29]:
# Parametros podem receber um valor padrao e passar um valor diferente somente quando for necessario

def my_print(message="my default message"):
    print(message)
    
my_print("hello")
my_print()  # deve imprimir o valor padrao definido no parametro

hello
my default message


In [30]:
# Algumas vezes eh interessante chamar uma funcao especificando os parametro pelo nome...

def subtract(a=0, b=0):
    return a - b

print("subtract(10, 5) =", subtract(10, 5))
print("subtract(0, 5) =", subtract(0, 5))
print("subtract() =", subtract())  # deve usar os valores padrao para os parametro e retornar 0
print("subtract(b=5) =", subtract(b=5))  # parametro a deve assumir o valor padrao e retornar -5

subtract(10, 5) = 5
subtract(0, 5) = -5
subtract() = 0
subtract(b=5) = -5


In [None]:
#
# Strings
#

In [None]:
# Strings podem ser delimitadas por aspas simples '' ou duplas ""

single_quoted_string = 'data science'
double_quoted_string = "data science"

In [34]:
# Barra invertida \ sao usadas para referenciar caracteres especiais

def is_tab(s):
    '''Retorna True se o parametro for um caracter tab'''
    return s == "\t"

tab_string = "\t"
print(len(tab_string))
print("tab_string =", tab_string)
print("is_tab(tab_string) =", is_tab(tab_string))

1
tab_string = 	
is_tab(tab_string) = True


In [35]:
# Para que as barras invertidas sejam consideradas na string, pode-se criar 
# uma string 'pura' (de 'raw string')

not_tab_string = r"\t"
print(len(not_tab_string))
print("not_tab_string =", not_tab_string)
print("is_tab(not_tab_string) =", is_tab(not_tab_string))

2
not_tab_string = \t
is_tab(not_tab_string) = False


In [36]:
# Strings multilinhas podem ser criadas com aspas triplas '''''' ou """"""

multi_line_string = """This is the first line.
And this is the second line.
And this is the third line."""

print(multi_line_string)

This is the first line.
And this is the second line.
And this is the third line.


In [None]:
#
# Exceptions
#

In [37]:
# Tratamento de excecoes no Python

print(0/0)

ZeroDivisionError: division by zero

In [39]:
# Especificando o erro...

try:
    print(0/0)
except ZeroDivisionError:
    print("cannot divide by zero")

cannot divide by zero


In [41]:
# ... ou erro generico

try:
    print(0/0)
except:
    print("error")

error


In [None]:
#
# Lists
#

In [43]:
# A mais fundamental estrutura de dados em Python.

# Uma lista em Python é similar ao que em outras linguagens são 
# chamadas de 'arrays', porém com algumas funcionalidades adicionadas.

integer_list = [1, 2, 3]
heterogeneus_list = ["string", 0.1, True]
list_of_lists = [integer_list, heterogeneus_list, []]

print(integer_list)
print(heterogeneus_list)
print(list_of_lists)

list_length = len(integer_list)
list_sum = sum(integer_list)

print("length of integer_list", list_length)
print("sum of integer_list", list_sum)

[1, 2, 3]
['string', 0.1, True]
[[1, 2, 3], ['string', 0.1, True], []]
length of integer_list 3
sum of integer_list 6


In [50]:
# Manipulando elementos de uma lista

x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(x)

# primeiro elemento da lista (sempre indice 0)
zero = x[0]  
print("zero =", zero)

# segudo elemento da lista (consequentemente, indice 1)
one = x[1]
print("one =", one)

# com numeros negativos (modo 'Pythonico'), pode-se acessar os elementos a partir do último (indice -1)
nine = x[-1]
print("nine =", nine)

# logo, o penuntimo pode ser acessado assim...
eight = x[-2]
print("eigth =", eight)

# e assim, pode-se alterar qualquer elemento de uma lista desta forma:
x[0] = -1
print(x)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
zero = 0
one = 1
nine = 9
eigth = 8
[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [55]:
# Listas tambem podem ser manipuladas em partes...

x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(x)

# para obter uma lista que eh a parte inicial de outra lista
# ex. do elemento 0 ao 2
first_three = x[:3]
print(first_three)

# para obter uma lista que eh a partir de um elemento ate o final de outra lista
# ex. do elemento 3 ate -1 (o ultimo em Python)
three_to_end = x[3:]
print(three_to_end)

# para obter uma lista que eh uma parte intermediaria de outra lista
# ex. do elemento 1 ao 4
one_to_four = x[1:5]
print(one_to_four)

# para obter a parte final
# ex. do elemento -3 ao -1 (o ultimo no Python)
last_three = x[-3:]
print(last_three)

# outra forma de obter uma lista que eh uma parte intermediaria de outra lista
# ex. do elemento 1 ao -2
without_first_and_last = x[1:-1]
print(without_first_and_last)


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 2]
[3, 4, 5, 6, 7, 8, 9]
[1, 2, 3, 4]
[7, 8, 9]
[1, 2, 3, 4, 5, 6, 7, 8]


In [56]:
# Operador 'in' para verificar se um elemento esta numa lista

lista = [1, 2, 3]
print(lista)
print("1 esta na lista?", 1 in lista)
print("0 esta na lista?", 0 in lista)

# ATENCAO: a verificacao ocorre elemento a elemento, ou seja,
# se a lista for muito grande, ha impacto no tempo de execucao !!!

[1, 2, 3]
1 esta na lista? True
0 esta na lista? False


In [59]:
# Concatenando listas

x = [1, 2, 3]
print("x antes =", x)

x.extend([4, 5, 6])
print("x depois =", x)

# ou dessa forma, sem modificar x
x = [1, 2, 3]
print("x antes =", x)

y = x + [4, 5, 6]
print("x depois =", x)
print("y =", y)

x antes = [1, 2, 3]
x depois = [1, 2, 3, 4, 5, 6]
x antes = [1, 2, 3]
x depois = [1, 2, 3]
y = [1, 2, 3, 4, 5, 6]


In [60]:
# Adicionando elementos a uma lista

x = [1, 2, 3]
print("x antes =", x)

x.append(0)
print("x depois =", x)

ultimo_em_x = x[-1]
print("ultimo elemento de x =", ultimo_em_x)

tamanho_de_x = len(x)
print("tamanho de x =", tamanho_de_x)

x antes = [1, 2, 3]
x depois = [1, 2, 3, 0]
ultimo elemento de x = 0
tamanho de x = 4


In [68]:
# 'Desempacotando' listas

# Se sabemos o tamanho de uma lista, podemos fazer isso...
x, y = [1, 2]
print("x =", x)
print("y =", y)

# outro exemplo...
lista = [0, 1, 2, 3, 4]
a, b, c, d, e = lista
print(a, b, c, d, e)

# porem, se o numero de elementos nao for o correto, vai lancar erro (por isso vamos tratar)...
try:
    x, y = [1, 2, 3]
except ValueError:
    print("lista contem mais de dois elementos, impossivel 'desempacotar'")
    
# pode-se ignorar elementos ao 'desempacotar' com underscore (_)
_, y = [10, 20]
print("1o elemento ignorado, y =", y)
_, _, c = [0, 1, 2]
print("os 2 primeiros elementos ignorados, c =", c)
_, b, _ = [0, 1, 2]
print("o 1o e o ultimo elementos ignorados, b =", b)


x = 1
y = 2
0 1 2 3 4
lista contem mais de dois elementos, impossivel 'desempacotar'
1o elemento ignorado, y = 20
os 2 primeiros elementos ignorados, c = 2
o 1o e o ultimo elementos ignorados, b = 1


In [None]:
#
# Tuples
#

In [71]:
# As tuplas sao as primas imutaveis das listas.
# Tudo que se faz com as listas, a nao ser modifica-la, pode-se fazer com as tuplas
# Tuplas sao definidas usando parenteses, em vez de colchetes

uma_lista = [1, 2]
print("uma_lista =", uma_lista, type(uma_lista))

uma_tupla = (1, 2)
print("uma_tupla =", uma_tupla, type(uma_tupla))

outra_tupla = 3, 4  # parenteses sao opcionais
print("outra_tupla =", outra_tupla, type(outra_tupla))

uma_lista[1] = 3  # agora uma_lista eh [1, 3]
print("uma_lista =", uma_lista)

try:
    uma_tupla[1] = 3
except TypeError:
    print("nao eh possivel modificar uma tupla")

uma_lista = [1, 2] <class 'list'>
uma_tupla = (1, 2) <class 'tuple'>
outra_tupla = (3, 4) <class 'tuple'>
uma_lista = [1, 3]
nao eh possivel modificar uma tupla


In [73]:
# funcoes podem retornar uma tupla

def sum_and_product(x, y):
    return (x + y), (x * y)

sp = sum_and_product(2, 3)
print("sp =", sp, "sp[0] =", sp[0], "sp[1] =", sp[1])

s, p = sum_and_product(2, 3)
print("s =", s, "p =", p)

sp = (5, 6) sp[0] = 5 sp[1] = 6
s = 5 p = 6


In [74]:
# pode-se fazer multiplas definicoes com tuplas...

x, y = 1, 2
print("x =", x, "y =", y)

x, y = y, x
print("x =", x, "y =", y)

x = 1 y = 2
x = 2 y = 1


In [None]:
#
# Dictionaries
#

In [75]:
# dicionarios sao estruturas que associam valores com chaves (como os mapas)

empty_dict = {}  # forma Pythonica (usando {})
empty_dict_2 = dict()  # menos Pythonico
grades = {
    "Joel": 80,
    "Tim": 95
}

print("empty_dict =", empty_dict, type(empty_dict))
print("grades =", grades, type(grades))

empty_dict = {} <class 'dict'>
grades = {'Joel': 80, 'Tim': 95} <class 'dict'>


In [76]:
# pode-se acessar o valor para uma chave usando colchetes...

print("joels_grade =", grades["Joel"])

joels_grade = 80


In [77]:
# tentar acessar o valor de uma chave inexistente no dicionario retorna erro...

try:
    print("kates_grade =", grades["Kate"])
except KeyError:
    print("nao ha nota para a Kate!")

nao ha nota para a Kate!


In [78]:
# pode-se verificar se existe uma chave num dicionario assim...

print("Joel tem nota?", "Joel" in grades)
print("Kate tem nota?", "Kate" in grades)

Joel tem nota? True
Kate tem nota? False


In [79]:
# dicionarios tem o metodo get() que retorna um valor padrao, em vez de lancar excecao, quando nao ha uma chave...

print("nota do Joel =", grades.get("Joel", 0))
print("nota da Kate =", grades.get("Kate", 0))
print("nota de ninguem =", grades.get("ninguem"))  # quando nao especificado, o valor default eh None

nota do Joel = 80
nota da Kate = 0
nota de ninguem = None


In [80]:
# modifica-se pares chave-valor tambem usando colchetes...

print("grades =", grades, "num. students =", len(grades))

grades["Tim"] = 99  # alterou o valor (nota) da chave "Tim"
grades["Kate"] = 100  # incluiu um novo par chave-valor (nota da Kate)

print("grades =", grades, "num. students =", len(grades))

grades = {'Joel': 80, 'Tim': 95} num. students = 2
grades = {'Joel': 80, 'Tim': 99, 'Kate': 100} num. students = 3


In [81]:
# dicionarios sao usado para representar de uma forma simples dados estruturados...

tweet = {
    "user": "joelgrus",
    "text": "Data Science is awesome!",
    "retweet_count": 100,
    "hashtags": ["#data", "#science", "#datascience", "#awesome", "#yolo"]
}

print(tweet)

{'user': 'joelgrus', 'text': 'Data Science is awesome!', 'retweet_count': 100, 'hashtags': ['#data', '#science', '#datascience', '#awesome', '#yolo']}


In [84]:
# outras formas de obter as chaves e os valores de um dicionario...

tweet_keys = tweet.keys()  # retorna uma lista de chaves
print("tweet keys:", type(tweet_keys), tweet_keys)

tweet_values = tweet.values()  # retorna uma lista de valores
print("tweet values:", type(tweet_values), tweet_values)

tweet_items = tweet.items()  # retorna uma lista de tuplas (chave, valor)
print("tweet items:", type(tweet_items), tweet_items)

print("user" in tweet.keys())  # retorna True, mas a forma de acessar eh mais lenta
print("user" in tweet)  # forma mais Pythonica e mais rapida
print("joelgrus" in tweet.values())  # retorna True

# as chaves nos dicionarios devem ser imutaveis (logo, nao podem ser listas)
# ja os valores podem ser coisas mutaveis

tweet keys: <class 'dict_keys'> dict_keys(['user', 'text', 'retweet_count', 'hashtags'])
tweet values: <class 'dict_values'> dict_values(['joelgrus', 'Data Science is awesome!', 100, ['#data', '#science', '#datascience', '#awesome', '#yolo']])
tweet items: <class 'dict_items'> dict_items([('user', 'joelgrus'), ('text', 'Data Science is awesome!'), ('retweet_count', 100), ('hashtags', ['#data', '#science', '#datascience', '#awesome', '#yolo'])])
True
True
True


In [85]:
# defauldict

# exemplo de uso de dicionario: contar as quantidades de palavras num documento

document = [
    "nada", "menos", "de", "duas", "almas", "cada", "criatura", "humana", "traz", "duas", 
    "almas", "consigo", "uma", "que", "olha", "de", "dentro", "para", "fora", "outra", 
    "que", "olha", "de", "fora", "para", "entro"   
]

word_counts = {}  # um dicionario vazio
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1
        
for (word, count) in word_counts.items():
    print(word, ":", count)

nada : 1
menos : 1
de : 3
duas : 2
almas : 2
cada : 1
criatura : 1
humana : 1
traz : 1
consigo : 1
uma : 1
que : 2
olha : 2
dentro : 1
para : 2
fora : 2
outra : 1
entro : 1


In [86]:
# outra abordagem de uso do dicionario para contar as quantidades de palavras

word_counts = {}  # um dicionario vazio
for word in document:
    try:
        word_counts[word] += 1
    except:
        word_counts[word] = 1

for (word, count) in word_counts.items():
    print(word, ":", count)

nada : 1
menos : 1
de : 3
duas : 2
almas : 2
cada : 1
criatura : 1
humana : 1
traz : 1
consigo : 1
uma : 1
que : 2
olha : 2
dentro : 1
para : 2
fora : 2
outra : 1
entro : 1


In [87]:
# e uma terceira abordagem, com metodo get()

word_counts = {}  # um dicionario vazio
for word in document:
    previous_count = word_counts.get(word, 0)
    word_counts[word] = previous_count + 1
    
for (word, count) in word_counts.items():
    print(word, ":", count)

nada : 1
menos : 1
de : 3
duas : 2
almas : 2
cada : 1
criatura : 1
humana : 1
traz : 1
consigo : 1
uma : 1
que : 2
olha : 2
dentro : 1
para : 2
fora : 2
outra : 1
entro : 1


In [89]:
# as formas acimas lidam com dicionarios de modo um pouco pesado
# para esses casos, 'defaultdict' eh muito util
# para usa-lo, deve-se importar da biblioteca 'collections'

from collections import defaultdict

word_counts = defaultdict(int)  #  a funcao int() devolve 0
for word in document:
    word_counts[word] += 1

for (word, count) in word_counts.items():
    print(word, ":", count)

nada : 1
menos : 1
de : 3
duas : 2
almas : 2
cada : 1
criatura : 1
humana : 1
traz : 1
consigo : 1
uma : 1
que : 2
olha : 2
dentro : 1
para : 2
fora : 2
outra : 1
entro : 1


In [94]:
# defaultdict tambem pode ser usado com list ou dict ou mesmo suas proprias funcoes

dd_list = defaultdict(list)  # list() retorna uma lista vazia
print(dd_list)

dd_list[2].append(1)
print(dd_list)

dd_dict = defaultdict(dict)  # dict() retorna um dicionario vazio
print(dd_dict)

dd_dict["Joel"]["City"] = "Seattle"  # {"Joel": {"City": "Seattle"}}
print(dd_dict)

dd_pair = defaultdict(lambda: [0, 0])
print(dd_pair)

dd_pair[2][1] = 1
print(dd_pair)

dd_pair[5][0] = 100
print(dd_pair)

dd_pair[10][2] = -1  # tenta acessar uma posicao da lista que nao existe, 
                     # e lanca um IndexError: list assignment index out of range
print(dd_pair)

defaultdict(<class 'list'>, {})
defaultdict(<class 'list'>, {2: [1]})
defaultdict(<class 'dict'>, {})
defaultdict(<class 'dict'>, {'Joel': {'City': 'Seattle'}})
defaultdict(<function <lambda> at 0x7f1191068ca0>, {})
defaultdict(<function <lambda> at 0x7f1191068ca0>, {2: [0, 1]})
defaultdict(<function <lambda> at 0x7f1191068ca0>, {2: [0, 1], 5: [100, 0]})


IndexError: list assignment index out of range

In [95]:
# Counter

# Counter eh uma classe que transforma uma sequencia de valores em um objeto do tipo defaultdict(int)

from collections import Counter
c = Counter([0, 1, 2, 0])
print(c)

Counter({0: 2, 1: 1, 2: 1})


In [96]:
# para contar as palavras do documento, fica mais facil com Counter

word_counts = Counter(document)

for (word, count) in word_counts.items():
    print(word, ":", count)

nada : 1
menos : 1
de : 3
duas : 2
almas : 2
cada : 1
criatura : 1
humana : 1
traz : 1
consigo : 1
uma : 1
que : 2
olha : 2
dentro : 1
para : 2
fora : 2
outra : 1
entro : 1


In [97]:
# Counter tem um metodo interessante: 'most_common()'

# imprime as 5 palavras mais comuns
for word, count in word_counts.most_common(5):
    print(word, count)

de 3
duas 2
almas 2
que 2
olha 2
