<a href="https://colab.research.google.com/github/DaniSBoy/Trabalhos-Introducao-Ciencias-De-Dados/blob/main/Aula_00_Python_B%C3%A1sico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Antes de começar

Neste curso, vamos usar o Python 3 e algumas bibliotecas científicas. Todas as aulas serão disponibilizadas no formato `.html`, para os slides, e `.ipynb`, para os notebooks Jupyter. Para simplificar, faça a instalação da distribuição [Anaconda](https://www.anaconda.com/download/) no seu computador, que contém tudo que precisamos.

In [None]:
print("Ola")

Ola


Aprender Jupyter é muito simples. Basta a leitura rápida de um tutorial, como [este](https://www.datacamp.com/community/tutorials/tutorial-jupyter-notebook), [este](https://www.dataquest.io/blog/jupyter-notebook-tutorial/), ou [este](http://maxmelnick.com/2016/04/19/python-beginner-tips-and-tricks.html). Os atalhos para comandos são muito úteis!

# Python Básico

Python tem uma descrição bem Zen de seus princípios de projeto, que você pode obter a partir do comando abaixo.

In [None]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Neste curso trabalharemos com Python 3. Se você já sabe programar em Python , pode pular esta parte. No entanto, se conhece Python 2 e não Python 3, sugiro se familiarizar com as diferenças da versão 3 em relação à versão 2: https://docs.python.org/3.0/whatsnew/3.0.html

Para algumas dicas e atalhos no Jupyter, confira a URL abaixo:
https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/

## Indentação
Muitas linguagens usam chaves para delimitar blocos de código. Python usa identação.

In [None]:
for i in [1, 2, 3, 4, 5]:               
    print(i)                             # primeira linha do bloco "for i"
    for j in [1, 2, 3, 4, 5]:            # primeira linha do bloco "for j"
        print(j)                         # última linha do bloco "for j"
        print(i + j)
    print(i)                             # última linha do bloco "for i"
print("terminou o loop")

1
1
2
2
3
3
4
4
5
5
6
1
2
1
3
2
4
3
5
4
6
5
7
2
3
1
4
2
5
3
6
4
7
5
8
3
4
1
5
2
6
3
7
4
8
5
9
4
5
1
6
2
7
3
8
4
9
5
10
5
terminou o loop


Isso torna o código Python muito legível, mas também significa que você precisa ter muito cuidado com sua formatação. 

O espaço em branco é ignorado dentro de parênteses e colchetes, o que pode ser útil para cálculos longos:

In [None]:
long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 +
13 + 14 + 15 + 16 + 17 + 18 + 19 + 20)

e para tornar o código fácil de ler:

In [None]:
list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
easier_to_read_list_of_lists = [ [1, 2, 3],
                                 [4, 5, 6],
                                 [7, 8, 9] ]

Você também pode usar uma barra invertida para indicar que uma declaração continua na próxima linha, embora raramente façamos isso:

In [None]:
two_plus_three = 2 + \
3

Uma conseqüência da formatação de espaços em branco é que pode ser difícil copiar e colar código no shell do Python. Por exemplo, se você tentar colar o código:

In [None]:
for i in [1, 2, 3, 4, 5]:
    
    # notice the blank line
    print(i)

1
2
3
4
5


no shell tradicional do Python, você receberá um erro do tipo:

`IndentationError: expected an indented block`

porque o interpretador pensa que a linha em branco sinaliza o fim do bloco do `for`.

## Módulos

Certos recursos do Python não são carregados por padrão. Estes incluem os recursos padrão da linguagem e também recursos implementados por terceiros que você fez o download. Para usar esses recursos, você precisa importar os módulos que os contêm.

Uma abordagem é simplesmente importar o próprio módulo:

In [None]:
import re
my_regex = re.compile("[0-9]+", re.I)

result = my_regex.search("Distância percorrida: 1253 metros.")
print(result.group(0))

1253


Aqui `re` é o módulo que contém funções e constantes para trabalhar com expressões regulares. Após este tipo de importação, você pode acessar essas funções prefixando-as com `re.` .

Se você já tem um `re` diferente em seu código, você pode usar um alias:

In [None]:
import re as regex
my_regex = regex.compile("[0-9]+", regex.I)

Você também pode fazer isso se o seu módulo tiver um nome difícil ou se você for usar ele muito. Por exemplo, para o módulo de visualização de dados `matplotlib`, a convenção padrão é:

In [None]:
import matplotlib.pyplot as plt

Nesse exemplo usamos as estruturas Defaultdict que se assemelha ao dicionário normal com a diferença que ele nunca lança um KeyError, em vez disso ele lança um valor padrão definido no construtor, no exemplo usamos o int

Se você precisar de alguns recursos específicos de um módulo, você pode importá-los explicitamente e usá-los sem qualificação:

In [None]:
from collections import defaultdict, Counter
lookup = defaultdict(int)
my_counter = Counter()

Se você fosse uma pessoa ruim, você poderia importar todo o conteúdo de um módulo para o seu namespace, o que pode inadvertidamente substituir as variáveis que você já definiu:

In [None]:
search = 1
from re import * #re tem uma função de nome 'search'
print(search)

<function search at 0x0000025F8C8AF378>


Como você não é uma pessoa ruim, você nunca fará isso. :)

## Aritmética

Python 2 fazia divisões inteiras por padrão, então `5/2` resultava em `2`. Isso gerava diversos problemas e, para consertar isso, tínhamos que inserir a linha `from __future__ import division` no início dos nossos códigos. No Python 3, não precisamos nos preocupar mais com isso. :) 

In [None]:
a = 5/2
print(a)

2.5


## Funções

Uma função é uma regra para tomar zero ou mais entradas e retornar uma saída correspondente. Em Python, normalmente definimos funções usando `def`:

In [None]:
def double(x):
    """aqui você coloca um texto opcional
    que explica o que a sua função faz
    neste caso, essa é uma função que duplica o argumento"""
    return x * 2

As funções de Python são de *primeira classe*, o que significa que podemos atribuí-las a variáveis e passá-las para funções como qualquer outro argumento:

In [None]:
def apply_to_one(f):
    """chama a função f passando 1 como argumento"""
    return f(1)

my_double = double #função double definida anteriormente
x = apply_to_one(my_double) #passa a função como parâmetro
print(x)

2


Também é fácil criar funções anônimas curtas, ou `lambdas`:

In [None]:
y = apply_to_one(lambda x: x + 9)
print(y)

10


Você pode atribuir `lambdas` às variáveis, embora a maioria das pessoas diga que você deveria usar `def` em vez disso:

In [None]:
another_double = lambda x: 2 * x #não faça isso! :(
y = another_double(3)
print(y)

def another_double(x): return 2 * x #faça isso! :)
y = another_double(3)
print(y)

6
6


É possível dar valores padrão para os parâmetros de função, que só precisam ser especificados quando você deseja um valor diferente do padrão:

In [None]:
def my_print(message="Nada a dizer?"):
    print(message)
    
my_print()
my_print("olá!")

Nada a dizer?
olá!


Algumas vezes teremos que especificar argumentos pelo nome:

In [None]:
def subtract(a=0, b=0):
    return a - b

print(subtract(10, 5))
print(subtract(0, 5)) 
print(subtract(b=5))


5
-5
-5


In [None]:
subtract(2)

2

Vamos criar muitas, muitas funções.

## Strings

Strings podem ser delimitadas por aspas simples ou duplas, mas as aspas têm que ser do mesmo tipo para uma dada string:

In [None]:
single_quoted_string = 'data science'
double_quoted_string = "data science"

Python usa barras invertidas (`\`) para codificar caracteres especiais. Por exemplo:

In [None]:
tab_string = "\t" #caractere tab
print(tab_string, len(tab_string))

	 1


Se você quer barras invertidas como barras invertidas (para indicar pastas ou em expressões regulares), você pode criar strings cruas usando `r""`:

In [None]:
not_tab_string = r"\t"
len(not_tab_string)
print(not_tab_string, len(not_tab_string))

\t 2


você pode criar strings em múltiplas linhas usando aspas duplas triplas (`"""`):

In [None]:
multi_line_string = """This is the first line.
and this is the second line
and this is the third line"""
print(multi_line_string)

This is the first line.
and this is the second line
and this is the third line


A função format é uma forma fácil de lidar com strings

In [None]:
print('{1} {2} {0}'.format('ordem', 'Controlando', 'a')) # Os números indicam a ordem em que serão utilizadas as variáveis

print('{a}, {b}, {b}'.format(a='Gang', b='Pussy'))    # Aqui usamos variáveis

Controlando a ordem
Gang, Pussy, Pussy


**Formatando Números**

Para converter strings delimitando o números de caracteres usados, formatamos da forma %x.yf onde x é o mínimo de caracteres e y o número de casas decimais

In [None]:
print('Teste : %+10.4f' % 45.67)

Teste :   +45.6700


**Alinhamento**

Usando o método format temos variadas formas de ocupar e alinhar strings, perceba a diferença ao usar no início 0 e depois um, pois isso referencia as variáveis do método

In [None]:
print('{0:15} | {1:5}'.format('Daniel', 23))
print('{0:15} | {1:5}'.format('Maria Julieta', 24))
print('{0:15} | {1:5}'.format('Eduardo', 56))
print('{0:15} | {1:5}'.format('Daniel', '67'))

Daniel          |    23
Maria Julieta   |    24
Eduardo         |    56
Daniel          | 67   


Podemos ver que por padrão Strings são alinhadas à esquerda e números à direita, mas também podemos controlar isso

In [None]:
print('{0:<10} | {1:^10} | {2:>10}'.format('Esquerda', 'Centro', 'Direita'))

Esquerda   |   Centro   |    Direita


Podemos inclusiver controlar como preenchemos os caracteres restantes

In [None]:
print('{0:=<10} | {1:-^10} | {2:.>10}'.format('11', '22', '33'))



Podemos usar para números também

In [None]:
print('{0:10.2f}'.format(12.5678))

     12.57


Podemos controlar a distância do sinal ao primeiro dígito

In [None]:
print('{0:=5d}'.format(-42))
print('{0:=+5d}'.format(56))
print('{0:+5d}'.format(56))

-  42
+  56
  +56


Podemos ainda usar F-strings que como são processadas em tempo de execução nos permitem ter algumas dinâmicas a mais

In [None]:
nome = 'Daniel'
print(f'Meu nome é {nome.upper()}')

Meu nome é DANIEL


Usando f-strings com números

In [None]:
print('Tabuada de 2:')
for i in range(11):
    print(f'2 x {i:2} = {2 * i:2}')

Tabuada de 2:
2 x  0 =  0
2 x  1 =  2
2 x  2 =  4
2 x  3 =  6
2 x  4 =  8
2 x  5 = 10
2 x  6 = 12
2 x  7 = 14
2 x  8 = 16
2 x  9 = 18
2 x 10 = 20


## Exceções 

Quando alguma coisa errada ou estranha acontece, Python lança uma exceção (*exception*). Se não forem tratadas, essas vão fazer com o que o seu programa seja interrompiado (*crash*). Você pode lidar com elas usando os comandos `try` e `except`:

In [None]:
try:
    print(0 / 0)
except:
    print("cannot divide by zero")



cannot divide by zero


Embora em muitas linguagens as exceções sejam consideradas ruins, em Python não há vergonha de usá-las para tornar o seu código mais limpo, e ocasionalmente o faremos.

## Listas

Provavelmente, a estrutura de dados mais fundamental em Python é a lista, ou `list`. Uma lista é simplesmente uma coleção ordenada. É semelhante ao que em outros idiomas pode ser chamado de vetor, mas com alguma funcionalidade adicional.

In [None]:
integer_list = [1, 2, 3]
heterogeneous_list = ["string", 0.1, True]
list_of_lists = [ integer_list, heterogeneous_list, [] ]
print(list_of_lists)

print(len(integer_list))
print(sum(integer_list))

[[1, 2, 3], ['string', 0.1, True], []]
3
6


In [None]:
l = ["asd", "kdj"]
print("asd" + "asd")

asdasd


In [None]:
A = [1, 2, 3, 4, 5]
*_, x, _ = A
print(x)

4


In [None]:
lista = list(range(10))

l2 = [x for x in [1, 3, 4, 7] if x % 2 == 1]

lista.extend(l2)

print(lista)

In [None]:
_, z, *_ = lista
print(z)

*_, z, _ = lista
print(z)

lista4 = [5, 6, 7]

_, t, _ = lista4
print(t)

*_, r = lista4
print(r)

Você pode acessar ou alterar o n-ésimo elemento de uma lista usando colchetes:

In [None]:
x = list(range(10))
print("x: ", x)

zero = x[0]
one = x[1]
nine = x[-1] #o índice -1 refere-se ao último elemento da lista
eight = x[-2] #o índice -2 refere-se ao penúltimo elemento da lista
x[0] = -1
print(zero, one, nine, eight, x[0])

x:  [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
0 1 9 8 -1


Você pode usar também colchetes para acessar uma parte de uma lista:

In [None]:
first_three = x[:3]
print(first_three)

three_to_end = x[3:]
print(three_to_end)

one_to_four = x[1:5]
print(one_to_four)

last_three = x[-3:]
print(last_three)

without_first_and_last = x[1:-1]
print(without_first_and_last)

copy_of_x = x[:]
print(copy_of_x)

[-1, 1, 2]
[3, 4, 5, 6, 7, 8, 9]
[1, 2, 3, 4]
[7, 8, 9]
[1, 2, 3, 4, 5, 6, 7, 8]
[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


Aqui temos uma outra forma ao usar o slice numa lista

In [None]:
x[:3] = 'b'
print(x)
x[:int(len(x)/2)] = 'a'
print(x)

['b']
['a', 'b']


Python tem um operador `in` para checar se um item pertence a uma lista:

In [None]:
print(1 in [1, 2, 3])

print(0 in [1, 2, 3])


True
False


Esta verificação envolve examinar os elementos da lista um de cada vez, o que significa que você provavelmente não deve usá-lo, a menos que você saiba que sua lista é bastante pequena (ou, a menos que você não se preocupe quanto tempo esse processo demora).

É fácil concatenar listas em conjunto:

In [None]:
x = [1, 2, 3]
x.extend([4, 5, 6])
print(x)

[1, 2, 3, 4, 5, 6]


Se você não quer modificar `x`, você pode usar o operador `+` para fazer adição de listas:

In [None]:
x = [1, 2, 3]
y = x + [4, 5, 6]
print(y)

[1, 2, 3, 4, 5, 6]


Com muita frequência iremos adicionar a uma lista um item de cada vez:

In [None]:
x = [1, 2, 3]
x.append(0)
print(x)

[1, 2, 3, 0]


Muitas vezes é conveniente descompactar (*unpack*) listas se você sabe quantos elementos elas contêm:

In [None]:
x, y = [1, 2]
print(x,y)

1 2


embora você obtenha um `ValueError` se você não tiver o mesmo número de elementos em ambos os lados.

É comum utilizar um sublinhado para um valor que você vai jogar fora:

In [None]:
_, y, _ = [1, 2, 3]
print(y)

2


## Tuplas

Os tuplas são primos imutáveis das listas. Praticamente tudo o que você pode fazer para uma lista que não envolve modificá-la, você pode fazer para uma tupla. Você especifica uma tupla usando parênteses (ou nada) em vez de colchetes:

In [None]:
my_list = [1, 2]
my_list[1] = 3
print(my_list)

my_tuple = (1, 2)
other_tuple = 3, 4
print(my_tuple, other_tuple)

try:
    my_tuple[1] = 3
except TypeError:
    print("cannot modify a tuple")

[1, 3]
(1, 2) (3, 4)
cannot modify a tuple


Tuplas são convenientes para retornar mais de uma valor em uma função:

In [None]:
def sum_and_product(x, y):
    return (x + y),(x * y)

sp = sum_and_product(2, 3)
print(sp)

s, p = sum_and_product(5, 10) # s is 15, p is 50
print(s,p)

(5, 6)
15 50


Tuplas (e listas) podem também ser usadas para atribuições múltiplas:

In [None]:
x, y = 1, 2
print(x,y)

x, y = y, x #modo Pythônico de trocar variáveis
print(x,y)

1 2
2 1


## Dicionários

Outra estrutura de dados fundamental é um dicionário, que associa valores com chaves e permite recuperar rapidamente o valor correspondente a uma determinada chave:

In [None]:
empty_dict = {}                           #Pythônico
empty_dict2 = dict()                      #não tão Pythônico
grades = { "Joel" : 80, "Tim" : 95 }      #sintaxe de um dicionário

Você pode acessar um valor através de sua chave:

In [None]:
joels_grade = grades["Joel"]
print(joels_grade)

80


Mas você receberá um `KeyError` se você procurar uma uma chave que não existe no dicionário:

In [None]:
try:
    kates_grade = grades["Kate"]
except KeyError:
    print("no grade for Kate!")

no grade for Kate!


In [None]:
grades["Kate"] = 0

Você pode verificar a existência de uma chave usando o operador `in`

In [None]:
joel_has_grade = "Joel" in grades
print(joel_has_grade)
kate_has_grade = "Kate" in grades
print(kate_has_grade)

True
False


Os dicionários têm um método `get` que retorna um valor padrão (em vez de lançar uma exceção) quando você procura uma chave que não está no dicionário:

In [None]:
joels_grade = grades.get("Joel", 0)
print(joels_grade)

kates_grade = grades.get("Kate", 0)
print(kates_grade)

no_ones_grade = grades.get("No One")
print(no_ones_grade)

80
0
None


In [None]:
grades

{'Joel': 80, 'Kate': 0, 'Tim': 99}

In [None]:
grades.keys()

dict_keys(['Joel', 'Tim', 'Kate'])

In [None]:
gradeKate, gradeTim = (grades["Kate"], grades["Tim"])
print(gradeKate, gradeTim)

0 99


Você atribui pares valor-chave usando colchetes:

In [None]:
print(grades)

grades["Tim"] = 99                #atualiza a nota do Tim
grades["Kate"] = 100

num_students = len(grades)
print(num_students, grades)

{'Joel': 80, 'Tim': 95}
3 {'Joel': 80, 'Tim': 99, 'Kate': 100}


Nos usaremos frequentemente dicionários como uma forma simples de representar dados estruturados:

In [None]:
tweet = {
"user" : "joelgrus",
"text" : "Data Science is Awesome",
"retweet_count" : 100,
"hashtags" : ["#data", "#science", "#datascience", "#awesome", "#yolo"]
}

Ao invés de procurar por chaves específicas, podemos acessar todas elas:

In [None]:
tweet_keys = tweet.keys()            #lista das chaves         
print(tweet_keys)
print('-')

tweet_values = tweet.values()        #lista dos valores
print(tweet_values)
print('-')

tweet_items = tweet.items() #lista das tuplas (chave, valor)
print(tweet_items)
print('-')

print("user" in tweet_keys) #Lento, in sobre uma list
print("user" in tweet)      #Mais pythônico (rápido), in sobre um dict
print("joelgrus" in tweet_values)

dict_keys(['user', 'text', 'retweet_count', 'hashtags'])
-
dict_values(['joelgrus', 'Data Science is Awesome', 100, ['#data', '#science', '#datascience', '#awesome', '#yolo']])
-
dict_items([('user', 'joelgrus'), ('text', 'Data Science is Awesome'), ('retweet_count', 100), ('hashtags', ['#data', '#science', '#datascience', '#awesome', '#yolo'])])
-
True
True
True


As chaves do dicionário devem ser imutáveis; em particular, você não pode usar listas como chaves. Se você precisar de uma chave de várias partes, você deve usar uma tupla ou descobrir uma maneira de transformar a chave em uma string.

### defaultdict

Imagine que você está tentando contar as palavras em um documento. Uma abordagem óbvia é criar um dicionário na qual as chaves são palavras e os valores são contagens. À medida que você verifica cada palavra, você pode incrementar sua contagem se já estiver no dicionário e adicioná-la ao dicionário caso ela não esteja nele:

In [None]:
poem = """The rose is a rose,
And was always a rose.
But the theory now goes
That the apple’s a rose,
And the pear is, and so’s
The plum, I suppose.
The dear only knows
What will next prove a rose.
You, of course, are a rose –
But were always a rose."""

document = poem.split()   #transforma a string em uma list de palavras
word_counts = {}
for word in document:    
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

print(word_counts)

{'The': 3, 'rose': 2, 'is': 1, 'a': 6, 'rose,': 2, 'And': 2, 'was': 1, 'always': 2, 'rose.': 3, 'But': 2, 'the': 3, 'theory': 1, 'now': 1, 'goes': 1, 'That': 1, 'apple’s': 1, 'pear': 1, 'is,': 1, 'and': 1, 'so’s': 1, 'plum,': 1, 'I': 1, 'suppose.': 1, 'dear': 1, 'only': 1, 'knows': 1, 'What': 1, 'will': 1, 'next': 1, 'prove': 1, 'You,': 1, 'of': 1, 'course,': 1, 'are': 1, '–': 1, 'were': 1}


Você também pode usar a abordagem "perdão é melhor do que permissão" e apenas lidar com a exceção quando houver uma chave que não está no dicionário:

In [None]:
word_counts = {}
for word in document:
    try:
        word_counts[word] += 1
    except KeyError:
        word_counts[word] = 1
print(word_counts)        

{'The': 3, 'rose': 2, 'is': 1, 'a': 6, 'rose,': 2, 'And': 2, 'was': 1, 'always': 2, 'rose.': 3, 'But': 2, 'the': 3, 'theory': 1, 'now': 1, 'goes': 1, 'That': 1, 'apple’s': 1, 'pear': 1, 'is,': 1, 'and': 1, 'so’s': 1, 'plum,': 1, 'I': 1, 'suppose.': 1, 'dear': 1, 'only': 1, 'knows': 1, 'What': 1, 'will': 1, 'next': 1, 'prove': 1, 'You,': 1, 'of': 1, 'course,': 1, 'are': 1, '–': 1, 'were': 1}


In [None]:
word_counts = {}
for word in document:
    previous_count = word_counts.get(word, 0)
    word_counts[word] = previous_count + 1
print(word_counts)

{'The': 3, 'rose': 2, 'is': 1, 'a': 6, 'rose,': 2, 'And': 2, 'was': 1, 'always': 2, 'rose.': 3, 'But': 2, 'the': 3, 'theory': 1, 'now': 1, 'goes': 1, 'That': 1, 'apple’s': 1, 'pear': 1, 'is,': 1, 'and': 1, 'so’s': 1, 'plum,': 1, 'I': 1, 'suppose.': 1, 'dear': 1, 'only': 1, 'knows': 1, 'What': 1, 'will': 1, 'next': 1, 'prove': 1, 'You,': 1, 'of': 1, 'course,': 1, 'are': 1, '–': 1, 'were': 1}


Cada uma das três abordagens acima são um pouco pesadas, e é por isso que o `defaultdict` é útil. Um `defaultdict` é como um dicionário regular, exceto que, quando você tenta procurar uma chave que não existe, ele primeiro adiciona um valor para ela usando uma função sem argumentos (*zero-argument function*) que você provê ao criá-lo. Para usar `defaultdict`s, você deve importá-los do módulo `collections`:

In [None]:
from collections import defaultdict

word_counts = defaultdict(int)         # int() não tem argumentos
print(int())                           # int() retorna 0

for word in document:
    word_counts[word] += 1

print(word_counts)

0
defaultdict(<class 'int'>, {'The': 3, 'rose': 2, 'is': 1, 'a': 6, 'rose,': 2, 'And': 2, 'was': 1, 'always': 2, 'rose.': 3, 'But': 2, 'the': 3, 'theory': 1, 'now': 1, 'goes': 1, 'That': 1, 'apple’s': 1, 'pear': 1, 'is,': 1, 'and': 1, 'so’s': 1, 'plum,': 1, 'I': 1, 'suppose.': 1, 'dear': 1, 'only': 1, 'knows': 1, 'What': 1, 'will': 1, 'next': 1, 'prove': 1, 'You,': 1, 'of': 1, 'course,': 1, 'are': 1, '–': 1, 'were': 1})


Eles também podem ser úteis com listas, dicionários ou até mesmo com suas próprias funções:

In [None]:
dd_list = defaultdict(list)      # list() retorna uma lista vazia
dd_list[2].append(1)             
print(dd_list)

dd_dict = defaultdict(dict)      # dict() retorna um dict vazio
dd_dict["Joel"]["City"] = "Seattle" 
print(dd_dict)

dd_pair = defaultdict(lambda: [0, 0])
print(dd_pair[1])
dd_pair[2][1] = 10
dd_pair[3].append(10)


print(dd_pair)

defaultdict(<class 'list'>, {2: [1]})
defaultdict(<class 'dict'>, {'Joel': {'City': 'Seattle'}})
[0, 0]
defaultdict(<function <lambda> at 0x0000025F91422378>, {1: [0, 0], 2: [0, 10], 3: [0, 0, 10]})


Estes serão úteis quando estivermos usando dicionários para "colecionar" resultados por alguma chave e não queremos verificar a todo momento se a chave existe.

### Counters

Um `Counter` transforma uma sequência de valores em um objeto tipo `defaultdict(int)`, mapeando chaves em contadores. Iremos usá-los majoritariamente para criar histogramas:

In [None]:
from collections import Counter
c = Counter([0, 1, 2, 0, 0, 0, 1])
print(c)

Counter({0: 4, 1: 2, 2: 1})


Isso nos dá uma forma muito simples e *pythônica* de resolver o nosso problema de contagem de palavras:

In [None]:
word_counts = Counter(document)
print(word_counts)

Counter({'a': 6, 'The': 3, 'rose.': 3, 'the': 3, 'rose': 2, 'rose,': 2, 'And': 2, 'always': 2, 'But': 2, 'is': 1, 'was': 1, 'theory': 1, 'now': 1, 'goes': 1, 'That': 1, 'apple’s': 1, 'pear': 1, 'is,': 1, 'and': 1, 'so’s': 1, 'plum,': 1, 'I': 1, 'suppose.': 1, 'dear': 1, 'only': 1, 'knows': 1, 'What': 1, 'will': 1, 'next': 1, 'prove': 1, 'You,': 1, 'of': 1, 'course,': 1, 'are': 1, '–': 1, 'were': 1})


Uma instância de `Counter` tem um método `most_common` que é útil muitas vezes:

In [None]:
#imprime as 5 palavras mais frequentes da contagem
for word, count in word_counts.most_common(5):
    print (word, count)

a 6
The 3
rose. 3
the 3
rose 2


## Sets

Outra estrutura de dados é o `set`, ou conjunto, que representa uma coleção de elementos distintos:

In [None]:
s = set()
s.add(1)
s.add(2)
s.add(1)
print("tamanho de s: ", len(s))
print(2 in s)
print(3 in s)

tamanho de s:  2
True
False


Usaremos conjuntos por dois motivos principais. O primeiro é que, em conjuntos, `in` é uma operação muito rápida. Se tivermos uma grande coleção de itens que queremos usar para um teste de associação, um conjunto é mais apropriado do que uma lista:

In [None]:
stopwords_list = ["a","an","at"] + document + ["yet", "you"]

print("zip" in stopwords_list)  # Tem que verificar cada elemento

stopwords_set = set(stopwords_list)

print("zip" in stopwords_set) # Muito rápido de verificar
print("yet" in stopwords_set) # Muito rápido de verificar
print("rose" in stopwords_set) # Muito rápido de verificar


False
False
True
True


A segunda razão é para encontrar os itens distintos em uma coleção:

In [None]:
item_list = [1, 2, 3, 1, 2, 3]
num_items = len(item_list)
item_set = set(item_list)
num_distinct_items = len(item_set)
distinct_item_list = list(item_set)
print(distinct_item_list, num_distinct_items, 'itens distintos.')

[1, 2, 3] 3 itens distintos.


## Fluxo de controle

Como na maioria das liguagens de programação, você pode executar uma ação condicionalmente usando o operador `if`:

In [None]:
if num_distinct_items == 1:
    message = "lista contém apenas um número distinto"
elif num_distinct_items < num_items:
    message = "lista contém números repetidos"
else:
    message = "lista não contém nenhum número repetido"
print(message)

lista contém números repetidos


Assim como na linguagem C, você pode usar também um operador condicional ternário, que faremos ocasionalmente neste curso:

In [None]:
paridade = "par" if x % 2 == 0 else "ímpar"
print(paridade)

par


Python tem um loop `while`:

In [None]:
x = 0
while x < 5:
    print(x, "is less than 5")
    x += 1

0 is less than 5
1 is less than 5
2 is less than 5
3 is less than 5
4 is less than 5


embora a gente vá usar `for` e `in` mais vezes:

In [None]:
for x in range(5):
    print(x, "is less than 5")

0 is less than 5
1 is less than 5
2 is less than 5
3 is less than 5
4 is less than 5


Se você precisa de lógicas mais complexas, você pode usar `break` e `continue`:

In [None]:
for x in range(10):
    if x == 3:
        continue # go immediately to the next iteration
    if x == 5:
        break    # quit the loop entirely
    print(x)

0
1
2
4


## Verdadeiro ou Falso?

Booleanos em Python funcionam como na maioria das outras linguagens, exceto que eles têm as primeiras letras maiúsculas:

In [None]:
one_is_less_than_two = 1 < 2
print(one_is_less_than_two)

true_equals_false = True == False
print(true_equals_false)

True
False


Python usa o valor `None` para indicar um valor inexistente. É similar ao `null` de outras linguagens:

In [None]:
x = None
print(x == None)   # não é pythônico
print(x is None)    # é pythônico

True
True


Python deixa você usar quaqluer valor quando um `Boolean` é esperado. As seguintes expressões são todas falsas:

- `False`
- `None`
- `[]`
- `{}`
- `""`
- `set()`
- `0`
- `0.0`


Praticamente qualquer outra expressão é tratada como verdadeira. 

Isso permite que você use facilmente as expressões `if` para testar listas vazias, strings vazias, dicionários vazios, e assim por diante. Cuidado que às vezes isso pode causar erros difíceis se você não está esperando esse comportamento:

In [None]:
def some_function_that_returns_a_string(): return ""

s = some_function_that_returns_a_string()

#acessar s[0] neste instante pode gerar uma exceção do tipo IndexError

if s:
    first_char = s[0]
else:
    first_char = ""
    
print("primeiro caractere da string: ", first_char)

primeiro caractere da string:  


Uma maneira simples de fazer isso é:

In [None]:
first_char = s and s[0]
print("primeiro caractere da string:", first_char)

primeiro caractere da string: 


uma vez que o operador `and` retorna o seu segundo valor quando o primeiro é `True` e o primeiro valor quando ele é `False`. 

Da mesma forma, se `x` é um número ou um `None`, você pode usar o operador `or` para garantir que `x` seja um número::

In [None]:
from random import random

def NoneOr0():
    r = random()
    return 1 if r < 0.5 else None
    
x = NoneOr0()
safe_x = x or 0
print(safe_x)

1


Python tem uma função `all`, que recebe uma lista (`list`) e retorna `True` quando todos os elementos forem verdadeiros (`True`). Há também uma função `any`, que retorna `True` quando pelo menos um elemento é verdadeiro. No all caso o interador esteja vazio é retornado True e no Any False.

In [None]:
print(all([True, 1, { 3 }]))

print(all([True, 1, {}]))

print(any([True, 1, {}]))

print(all([]))

print(any([]))

True
False
True
True
False
