<a href="https://colab.research.google.com/github/vitormiro/DataSciencedoZero/blob/master/DSfromScratch_cap2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Science do zero**

*Data Science from Scratch: First Principles with Python* de Joel Grus 

## Capítulo 2 - Curso Relâmpago de Python

- Download do Python: [https://www.python.org/](https://www.python.org/)

- Para que trabalha com Data Science, é recomendável a instalação da distribuição Anaconda, que já contém a maioria das bibliotecas necessárias: [https://www.anaconda.com/](https://www.anaconda.com/)

- Aqui utilizamos o Python 3.

- Uma ótima alternativa é utilizar o Google Colaboratory.

### O básico
Python possui uma descrição Zen de seus princípios de design.

In [None]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Segundo o autor, o principio mais discutido é o seguinte:

"*There should be one-- and preferably only one --obvious way to do it.*"

"Deveria haver um - de preferência apenas um - modo óbvio de fazê-lo".

Esse modo óbvio é chamado de "Pythonic".

*Nota*:

Mas o que ele quer dizer com isso? Podem existir diferentes formas de executar uma ação no Python, e algumas delas podem ser melhores do que outras. Algumas instruções podem ser mais rápidas, didáticas ou "limpas" para executar determinadas tarefas. Devemos sempre preferir estas formas. Se você conhecer uma melhor forma de fazer algo, deve sempre optar por ela.
Como o autor enfatiza, isso deve ser óbvio. No entanto, algumas vezes não conhecemos a "melhor forma". Por isso, devemos sempre tentar aprimorar nossos códigos, pesquisando e estudando.
Existe um conceito de "Refactoring code", que é o processo de fazer alterações ou melhorias no código existente, para torná-lo mais limpo, enxuto ou mais rápido; mesmo que o resultado final seja o mesmo que o do código subjacente.

### Formatação de Espaços em Branco

Muitas linguagens usam chaves `{  }` para delimitar blocos de código.
Python usa identação. 

In [None]:
for i in [1, 2, 3, 4, 5]:
    print (i) # primeira linha para o bloco “for i”
    for j in [1, 2, 3, 4, 5]:
        print (j) # primeira linha para o bloco “for j”
        print (i + j) # última linha para o bloco “for j”
    print (i) # última linha para o bloco “for i”
print ("done looping")

1
1
2
2
3
3
4
4
5
5
6
1
2
1
3
2
4
3
5
4
6
5
7
2
3
1
4
2
5
3
6
4
7
5
8
3
4
1
5
2
6
3
7
4
8
5
9
4
5
1
6
2
7
3
8
4
9
5
10
5
done looping


Isso faz com que o código Python seja bem legível, mas também significa que você tem que ser muito cuidadoso com a sua formatação. O espaço em branco é ignorado dentro dos parênteses e colchetes, o que poder ser muito útil em computações intermináveis:

In [None]:

long_winded_computation = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 +
13 + 14 + 15 + 16 + 17 + 18 + 19 + 20)

e para facilitar a leitura:

In [None]:
list_of_lists = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
easier_to_read_list_of_lists = [ [1, 2, 3],
                                [4, 5, 6],
                                [7, 8, 9] ]

Você também pode usar uma barra invertida para indicar que uma declaração continua na próxima linha, apesar de raramente fazermos isso:

In [None]:
two_plus_three = 2 + \
3

### Módulos

Alguns recursos de Python não são carregados por padrão.

Para usar esses recursos, você precisará "importar" os módulos que os contêm.

Uma abordagem simplesmente é importar o próprio módulo:

In [None]:
import re
my_regex = re.compile("[0-9]+", re.I)

Aqui, `re` é o módulo que contém as funções e constantes para trabalhar com expressões regulares. Após esse tipo de `import` , você somente pode acessar tais funções usando o prefixo `re ...`

Se você já tiver um `re` diferente no seu código você poderia usar um *alias*:

In [None]:
import re as regex
my_regex = regex.compile("[0-9]+", regex.I)


Você talvez queira fazer isso se o seu módulo tem um nome complicado ou se você vai digitar bastante. Por exemplo, ao visualizar dados com `matplotlib`, uma convenção padrão é:

In [None]:
import matplotlib.pyplot as plt

Se você precisar de alguns valores específicos de um módulo, pode importá-los explicitamente e usá-los sem qualificação:

In [None]:
from collections import defaultdict, Counter
lookup = defaultdict(int)
my_counter = Counter()

### Funções

Uma função é uma regra para pegar zero e mais entradas e retornar uma saída correspondente. Em Python, definimos as funções usando `def`:

In [None]:
def double(x):
    """aqui é onde você coloca um docstring (cadeia de caracteres de documentação) opcional
    que explica o que a função faz.
    por exemplo, esta função multiplica sua entrada por 2"""
    return x * 2

Vamos executar:

In [None]:
double(2)

4

As funções de Python são de primeira classe, o que significa que podemos atribuí-las a variáveis e passá-las para as funções como quaisquer outros argumentos:

In [None]:
def apply_to_one(f):
    """chama a função f com 1 como seu argumento """
    return f(1)

my_double = double
x = apply_to_one(my_double)
print(x)

2


Também é fácil criar pequenas funções anônimas, conhecidas como *lambdas*:

In [None]:
y = apply_to_one(lambda x: x + 4)
print(y)

5


Você pode atribuir lambdas a variáveis, apesar de que maioria das pessoas lhe dirão para usar `def`:

In [None]:
another_double = lambda x: 2 * x # Não faça isso
def another_double(x): return 2 * x # Faça isso

Os parâmetros de uma função também podem receber argumentos padrões, que só precisam ser especificados quando você quiser um valor além do padrão:

In [None]:
def my_print(message="my default message"):
    print (message)
    
my_print("hello") # exibe 'hello'
my_print() # exibe 'my default message'

hello
my default message


Especificando argumentos pelo nome:

In [None]:
def subtract(a=0, b=0):
    return a - b

print(subtract(10, 5)) # retorna S
print(subtract(0, 5)) # retorna -S
print(subtract(b=5)) # mesmo que o anterior

5
-5
-5


### Strings (cadeias de caracteres)

As **strings** (objetos formados por caracteres, texto) podem ser delimitadas por aspas simples ou duplas (mas elas devem combinar):

In [None]:
single_quoted_string = 'data science'
double_quoted_string = "data science"

O Python usa a barra invertida ( \ )para codificar caracteres especiais. Por exemplo:

In [None]:
tab_string = "\t" # representa o caractere tab
len(tab_string) # é 1

1

Se você quiser barras invertidas como barras invertidas (que você vê nos nomes dos diretórios ou expressões regulares no Windows), você pode criar uma string bruta usando `r""` :

In [None]:
not_tab_string = r"\t"  # representa os caracteres '\' e 't'
len(not_tab_string)     # é 2

2

Também é possível criar strings em múltiplas linhas usando aspas triplas:

In [None]:
multi_line_string = """primeira linha
segunda linha
terceira linha """
print(multi_line_string)

primeira linha
segunda linha
terceira linha 


Um recurso interessante (do Python 3.6 adiante) é a string `f`, que fornece uma maneira simples de substituir valores em strings. Por exemplo, se tivéssemos o nome e o sobrenome dados separadamente:

In [None]:
first_name = "Joel"
last_name = "Grus"

In [None]:
full_name1 = first_name + " " + last_name              # string addition
print(full_name1)
full_name2 = "{0} {1}".format(first_name, last_name)   # string.format
print(full_name2)

Joel Grus
Joel Grus


A string `f` é menos "pesada" e a preferida do autor.



In [None]:
full_name3 = f"{first_name} {last_name}"
print(full_name3)

Joel Grus


### Exceções

Quando algo dá errado, o Python exibe uma **exceção**. Se não forem tratadas, as exceções causarão falha no programa. Você pode lidar com elas usando `try` e `except`:

In [None]:
try: 
  print(0 / 0) 
except ZeroDivisionError:
  print("cannot divide by zero")


cannot divide by zero


Em muitas línguas as exceções sejam consideradas ruins, no Python não há vergonha em usá-las para tornar seu código mais limpo.

### Listas (`list`)

Provavelmente, a estrutura de dados mais básica em Python é a `list` . Uma lista é apenas uma coleção ordenada. (É parecida com o array das outras linguagens, mas com algumas funcionalidades a mais.)

In [None]:
integer_list = [1, 2, 3]                                   # lista de números inteiros
heterogeneous_list = ["string", 0.1, True]                 # lista com uma string, um float (número decimal) e um booleano
list_of_lists = [ integer_list, heterogeneous_list, [] ]   # lista de listas
list_length = len(integer_list) # é igual a 3              # comprimento (n. de elementos) da lista
list_sum = sum(integer_list) # é igual a 6                 # soma dos elementos da lista

Note que aqui foram utilizadas as funções `range( )` e a `list ( )` para gerar uma lista [0, 1, ..., 9].
De modo geral, a função `range` possui um *start*, um *stop* e um *step*. Quando declarado apenas o *stop*, cria-se uma sequência de zero até o predecessor do *stop*. As listas são indexadas a partir de zero, então com *stop = 10* é gerada uma lista [0, 1, ..., 9].

In [None]:
x = list(range(10))        # utiliza a função 
print(x)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


Você pode exibir ou configurar o *n-ésimo* elemento de uma lista com colchetes:

In [None]:
zero = x[0]                # elemento indexado por 0, como as listas são indexadas a partir de 0, é o primeiro elemento
print(zero)
one = x[1]                 # elemento indexado por 1
print(one)
nine = x[-1]               # 'Pythonic' para o último elemento da lista
print(nine)
eight = x[-2]              # 'Pythonic' para o penúltimo elemento da lista
print(eight)

0
1
9
8
[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


As listas são editáveis. Podemos alterar elementos da seguinte forma:

In [None]:
x[0] = -1                  #  agora x é [-1, 1, 2, 3, ..., 9]
print(x)

[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


Você também pode usar os colchetes para "fatiar" as listas:

In [None]:
first_three = x[:3]                   # elemento de índice zero até o elemento indexado por 2 (o 3 é excluído)
print(first_three)
three_to_end = x[3:]                  # elemento de índice três até o último
print(three_to_end)
one_to_four = x[1:5]                  # elementos de índice de 1 à 4
print(one_to_four)
last_three = x[-3:]                   # os três últimos elementos
print(last_three)
without_first_and_last = x[1:-1];     # omite o primeiro (índice zero) e o último elemento
print(without_first_and_last)
copy_of_x = x[:]                      # todos os elementos da lista
print(copy_of_x)

[-1, 1, 2]
[3, 4, 5, 6, 7, 8, 9]
[1, 2, 3, 4]
[7, 8, 9]
[1, 2, 3, 4, 5, 6, 7, 8]
[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]


O Python possui o operador `in` para verificar a associação à lista.
Se o item consultado estiver na lista ele retorna TRUE. Caso contrário, retorna FALSE.

In [None]:
print(1 in [1, 2, 3])
print(0 in [1, 2, 3])

True
False


Essa verificação envolve examinar os elementos de uma lista um de cada vez, o que significa que você provavelmente não deveria usá-la a menos que você saiba que sua lista é pequena (ou a menos que você não se importe em quanto tempo a verificação durará).

É fácil concatenar as listas juntas:

In [None]:
x = [1, 2, 3]
x.extend([4, 5, 6]) # x agora é [1,2,3,4,5,6]
x

[1, 2, 3, 4, 5, 6]

Se você não quiser modificar x você pode usar uma adição na lista:

In [None]:
x = [1, 2, 3]
y = x + [4, 5, 6] # y é[1, 2, 3, 4, 5, 6]; x não mudou
print(x)
print(y)

[1, 2, 3]
[1, 2, 3, 4, 5, 6]


Com mais frequência, anexaremos um item de cada vez nas listas:

In [None]:
x = [1, 2, 3] 
x.append(0) # x agora é [1, 2, 3, 0]
y = x[-1] # é igual a 0
z = len(x) # é igual a 4

print(x)
print(y)
print(z)

[1, 2, 3, 0]
0
4


Às vezes é conveniente desfazer as listas se você sabe quantos elementos elas possuem:

In [None]:
x, y = [1, 2] # agora x é 1, y é 2


apesar de que você receberá um ValueError se não tiver os mesmos números de elementos dos dois lados.

É comum usar um sublinhado para um valor que você descartará:

In [None]:
_, y = [1, 2] # agora y == 2, não se preocupou com o primeiro elemento.

### Tuplas

São as primas imutáveis das listas. Quase tudo que você pode fazer com uma lista, que não envolva modificá-la, é possível ser feito em uma tupla. Você especifica uma tupla ao usar parênteses (ou nada) em vez de colchetes:

In [None]:
my_list = [1, 2]
print(my_list)
my_tuple = (1, 2)
print(my_tuple)
other_tuple = 3, 4
print(other_tuple)
my_list[1] = 3 # my_list agora é [1, 3]
print(my_list)

try:
    my_tuple[1] = 3
except TypeError:
    print ("cannot modify a tuple")

[1, 2]
(1, 2)
(3, 4)
[1, 3]
cannot modify a tuple


As tuplas são uma maneira eficaz de retornar múltiplos valores a partir das funções:

In [None]:
def sum_and_product(x, y):
    return (x + y),(x * y)

sp = sum_and_product(2, 3) # é igual (5, 6)
print(sp)
s, p = sum_and_product(5, 10) # s é 15, p é 50
print(s, p)

(5, 6)
15 50


As tuplas (e listas) também podem ser usadas para atribuições múltiplas:

In [None]:
x, y = 1, 2 # agora x é 1, y é 2
print(x,y)
x, y = y, x # modo Pythonic de trocar as variáveis; agora x é 2, y é 1
print(x,y)

1 2
2 1


### Dicionários

Outra estrutura fundamental é um dicionário, que associa valores com chaves e permite que você recupere o valor correspondente de uma dada chave rapidamente:

In [None]:
empty_dict = {} # Pythonic
empty_dict2 = dict(); # menos Pythonic
grades = { "Joel" : 80, "Tim" : 95 } # dicionário literal

Você pode procurar o valor para uma chave usando colchetes:

In [None]:
joels_grade = grades["Joel"] # é igual a 80

Mas você receberá um keyError se perguntar por uma chave que não esteja no dicionário:

In [None]:
try:
    kates_grade = grades["Kate"]
except KeyError:
    print ("no grade for Kate!")

no grade for Kate!


Você pode verificar a existência de uma chave usando in :

In [None]:
joel_has_grade = "Joel" in grades # Verdadeiro
kate_has_grade = "Kate" in grades # Falso

Os dicionários possuem o método get que retorna um valor padrão (em vez de levantar uma exceção) quando você procura por uma chave que não esteja no dicionário:

In [None]:
joels_grade = grades.get("Joel", 0) # é igual a 80
kates_grade = grades.get("Kate", 0) # é igual a 0
no_ones_grade = grades.get("No One") # padrão para padrão é None

Você atribui pares de valores-chave usando os mesmos colchetes:

In [None]:
grades["Tim"] = 99 # substitui o valor antigo
grades["Kate"] = 100 # adiciona uma terceira entrada
num_students = len(grades) # é igual a 3

Frequentemente usaremos dicionários como uma simples maneira de representar dados estruturados:

In [None]:
tweet = {
    "user" : "joelgrus",
    "text" : "Data Science is Awesome",
    "retweet_count" : 100,
    "hashtags" : ["#data", "#science", "#datascience", "#awesome", "#yolo"]
}

Além de procurar por chaves específicas, podemos olhar para todas elas:

In [None]:
tweet_keys = tweet.keys() # lista de chaves
tweet_values = tweet.values() # lista de valores-chave
tweet_items = tweet.items() # lista de (chave, valor) tuplas

"user" in tweet_keys # Verdadeiro, mas usa list in, mais lento
"user" in tweet # mais Pythonic, usa dict in, mais rápido
"joelgrus" in tweet_values # Verdadeiro

True

As chaves dos dicionários devem ser imutáveis; particularmente, você não pode usar lists como chaves. Se você precisar de uma chave multipart, você deveria usar uma tuple ou descobrir uma forma de transformar uma chave em uma string.

**defaultdict**

Imagine que você esteja tentando contar as palavras em um documento. Um método claro é criar um dicionário no qual as chaves são palavras e os valores são contagens. Conforme você vai verificando cada palavra, você pode incrementar sua contagem se ela já estiver no dicionário e adicioná-la no dicionário se não estiver:

In [None]:
word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

NameError: ignored

Você também poderia usar o método “perdão é melhor do que permissão” e apenas manipular a exceção a partir da tentativa de procurar pela chave perdida:

In [None]:
word_counts = {}
for word in document:
    try:
        word_counts[word] += 1
    except KeyError:
        word_counts[word] = 1

NameError: ignored

Tudo isso é levemente complicado, por isso o defaultdict é útil. Um defaultdict é como um dicionário comum, exceto que, quando você tenta procurar por uma chave que ele não possui, ele primeiro adiciona um valor para ela usando a função de argumento zero que você forneceu ao criá-lo. Para usar defaultdicts, você tem que importá-los das collections:

In [None]:
from collections import defaultdict

word_counts = defaultdict(int) # int produz 0
for word in document:
    word_counts[word] += 1

NameError: ignored

Eles também podem ser úteis com list ou dict ou até mesmo com suas próprias funções:

In [None]:
dd_list = defaultdict(list) # list() produz uma lista vazia
dd_list[2].append(1) # agora dd_list contém {2: [1]}

dd_dict = defaultdict(dict) # dict() produz um dict vazio
dd_dict["Joel"]["City"] = "Seattle" # { "Joel" : { "City" : Seattle"}}

dd_pair = defaultdict(lambda: [0, 0])
dd_pair[2][1] = 1 # agora dd_pair contêm {2: [0,1]}

Isso será útil quando você usar dicionários para “coletar” resultados por algumachave e não quiser verificar toda vez para ver se ela ainda existe.

**Contador**

Um Counter (contador) transforma uma sequência de valores em algo parecido com o objeto defaultdict(int) mapeando as chaves para as contagens. Primeiramente, o usaremos para criar histogramas:

In [None]:
from collections import Counter
c = Counter([0, 1, 2, 0]) # c é (basicamente) { 0 : 2, 1 : 1, 2 : 1 }

Isso nos mostra uma forma simples de resolver nosso problema de word_counts:

In [None]:
word_counts = Counter(document)

NameError: ignored

Uma instância Counter possui um método most_common que é frequentemente útil:

In [None]:
# imprime as dez palavas mais comuns e suas contas
for word, count in word_counts.most_common(10):
    print (word, count)

AttributeError: ignored

### Conjuntos (sets)

Outra estrutura de dados é o set (conjunto), que representa uma coleção de elementos distintos:

In [None]:
s = set() 
s.add(1) # s agora é { 1 }
s.add(2) # s agora é { 1, 2 }
s.add(2) # s ainda é { 1, 2 }
x = len(s) # é igual a 2
y = 2 in s # é igual a True
z = 3 in s # é igual a False

Usaremos os conjuntos por duas razões principais. A primeira é que in é uma operação muito rápida em conjuntos. Se tivermos uma grande coleção de itens que queiramos usar para um teste de sociedade, um conjunto é mais adequado do que uma lista:

In [None]:
stopwords_list = ["a","an","at"] + hundreds_of_other_words + ["yet", "you"]
"zip" in stopwords_list # Falso, mas tem que verificar todos os elementos
stopwords_set = set(stopwords_list)
"zip" in stopwords_set # muito rápido para verificar

NameError: ignored

A segunda razão é encontrar os itens distintos em uma coleção:

In [None]:
item_list = [1, 2, 3, 1, 2, 3]
num_items = len(item_list) # 6
item_set = set(item_list) # {1, 2, 3}
num_distinct_items = len(item_set) # 3
distinct_item_list = list(item_set) # [1, 2, 3]


Usaremos set s com menos frequência do que dicts e lists.

### Controle de Fluxo

Como na maioria das linguagens de programação, você pode desempenhar uma ação condicionalmente usando if:

In [None]:
if 1 > 2:
    message = "if only 1 were greater than two..."
elif 1 > 3:
    message = "elif stands for 'else if'"
else:
    message = "when all else fails use else (if you want to)"