# Introdução em Data Science I
<br>

## Módulo I - Programação estruturada em Python

### Funções
<br>

**csv**: muito conveniente para ler e gravar arquivos csv
<br>

**collections**: extensões úteis dos tipos comuns de dados, incluindo OrderedDict, defaultdict e namedtuple
<br>

**random**: gera números pseudoaleatórios, mistura sequências aleatoriamente e seleciona itens de maneira aleatória
<br>

**string**: mais funções para strings. Este módulo também contém coleções úteis de letras como string.digits (uma string que contém todos os caracteres que são dígitos válidos).
<br>

**re**: correspondência de padrões em strings através de expressões regulares
<br>

**math**: algumas funções matemáticas padrão
<br>

**os**: interagindo com sistemas operacionais
<br>

**os.path**: submódulo de os para alterar o nome de caminhos
<br>

**sys**: trabalha diretamente com o interpretador do Python
<br>

**json**: bom para ler e escrever arquivos json (bom para trabalhos na web)
<br>

### Comandos úteis

Para importar uma função individual ou a uma classe de um módulo:
<br>

    from module_name import object_name

Para importar múltiplos objetos individuais de um módulo:
<br>

    from module_name import first_object, second_object

Para renomear um módulo:
<br>

    import module_name as new_name

Para importar um objeto de um módulo e renomeá-lo:
<br>

    from module_name import object_name as new_name

Para importar cada objeto individualmente de um módulo (NÃO FAÇA ISSO):
<br>

    from module_name import *

*Se você realmente quiser usar todos os objetos de um módulo, use a declaração de importação padrão module_name e acesse cada um dos objetos com a notação de ponto.*

*Se tiver dúvida, google por Stack Overflow, ou pela documentação do Python!*

### Módulos, pacotes e nomes
<br>

Para gerenciar melhor o código, os módulos da biblioteca padrão do Python estão divididos em **submódulos** que estão contidos dentro de um pacote.
<br>

Um **pacote** é simplesmente um módulo que contém submódulos. Um submódulo é especificado com a notação habitual de ponto. Um **pacote** permite você fazer novas coisas no seu projeto Python, como por exemplo, fazer cálculos estatísticos ou ler e gravar na sua estrutura de diretórios e arquivos.
<br>

Módulos que são submódulos são especificados pelo **nome do pacote** seguido pelo **nome do submódulo** separados por um ponto. Tudo isso para dizer que estamos importando funções, já escritas e testadas, e que são chamadas de métodos. Elas têm uma forma mais ou menos assim *.median()*. Elas são acrescentadas logo depois do objeto que queremos modificar. O espaço entre parênteses serve para colocar **parâmetros**, que podem ser **obrigatórios** ou **opcionais**, se eles existirem. O conjunto completo desses parâmetros pode ser consultado na [documentação](https://docs.python.org/3/tutorial/modules.html) do Python.
<br>

Há muitos exemplos pela Internet de uso de métodos no Python. É sempre bom conferir o [Stack Overflow](https://stackoverflow.com/).

Você pode importar um **submódulo** assim.
<br>

    import package_name.submodule_name

pacotes de **terceiros**:
<br>

    pip install pytz
    
*pip é um instalador de pacotes, muito usado em Linux e tornado compatível com Windows e MAC OS. Ele foi incorporado ao projeto Python e é o mais [recomendado](https://packaging.python.org/guides/tool-recommendations/) instalador oficial de pacotes.*
<br>

    requirements.txt
    beautifulsoup4==4.5.1
    bs4==0.0.1
    pytz==2016.7
    requests==2.11.1

para instalar **requirements**:
<br>    

    pip install -r requirements.txt
    
*requirements são outros pacotes necessários para um determinado programa funcionar. Por exemplo, alguns "sites" precisam do Java instalado para funcionarem!*

### Bibliotecas muito usadas de terceiros:
<br>

**Python** - um interpretador interativo do Python.
<br>

**Requests** - fornece métodos fáceis de usar para fazer solicitações na web. Útil para acessar APIs da web.
<br>

**Flask** - uma estrutura leve para fazer aplicações web e APIs.
<br>

**Django** - uma estrutura mais recheada de recursos para criar aplicações web. O Django é particularmente bom para projetar aplicações web complexas e com muito conteúdo.
<br>

**Beautiful Soup** - usado para analisar HTML e extrair informações a partir daí. Ótimo para web scraping.
<br>

**pytest** - estende os módulos de assertivas internas e testes de unidade (unittest) do Python.
<br>

**PyYAML** - para ler e gravar arquivos YAML.
<br>

**NumPy** - o pacote fundamental para a computação científica com Python. Ele contém, entre outras coisas, um poderoso objeto array N-dimensional e capacidades úteis para álgebra linear.
<br>

**pandas** - uma biblioteca contendo ferramentas de alto desempenho, para estruturas de dados e de análise de dados. O Pandas, em especial, fornece dataframes!
<br>

**matplotlib** - uma biblioteca de plotagem 2D que produz figuras com qualidade de publicação em uma variedade de formatos em papel e ambientes interativos.
<br>

**ggplot** - outra biblioteca de plotagem 2D, com base na biblioteca ggplot2 do software R.
<br>

**Pillow** - a biblioteca de imagens do Python adiciona capacidades de processamento de imagens a seu interpretador Python.
<br>

**pyglet** - uma estrutura de aplicação multiplataforma voltada ao desenvolvimento de jogos
<br>

**Pygame** - um conjunto de módulos Python projetados para escrever jogos.
<br>

**pytz** - definições de fuso horário do mundo para Python

*eu incluiria nessa lista o **Turtle**, que é uma biblioteca gráfica inspirada no Lego Mindstorm para movimentar uma tartaruga na tela.*

### ipython (no Anaconda):
<br>

possui conclusão de guia, realce de sintaxe...
- ? para obter detalhes sobre um objeto;
- ! para executar comandos shell do sistema

[documentação](https://ipython.org/ipython-doc/3/interactive/reference.html#command-line-options)

### Fontes seguras de consulta:
<br>

**The Python Tutorial** - Esta seção da documentação oficial pesquisa a sintaxe do Python e a biblioteca padrão. Ela usa exemplos e é escrita usando uma linguagem menos técnica do que a documentação principal. Certifique-se de que você está lendo a versão das documentações para o Python 3!
<br>

**The Python Language and Library References** - as referências de linguagem e de biblioteca são mais técnicas do que o tutorial, mas são as fontes definitivas de verdade. Conforme você se torna cada vez mais familiarizado com o Python, deve usar esses recursos cada vez mais.
<br>

**Documentação de bibliotecas de terceiros** - bibliotecas de terceiros publicam sua documentação em seus próprios sites e, muitas vezes, em https://readthedocs.org/. Você pode julgar a qualidade de uma biblioteca de terceiros pela qualidade de sua documentação. Se os desenvolvedores ainda não encontraram tempo para escrever boas documentações, eles provavelmente ainda não encontraram tempo para refinar sua biblioteca também.
<br>

**Sites e blogs de especialistas proeminentes** - os recursos anteriores são fontes primárias, significando que são documentações das mesmas pessoas que escreveram o código que está sendo documentado. Fontes primárias são as mais confiáveis. As fontes secundárias também são extremamente valiosas. A dificuldade com as fontes secundárias é determinar sua credibilidade. Sites de autores como Doug Hellmann e desenvolvedores como Eli Bendersky são excelentes. O blog de um autor desconhecido pode ser excelente ou um lixo.
<br>

**StackOverflow** - este site de perguntas e respostas tem uma boa quantidade de tráfego, então, é provável que alguém tenha feito (e alguém tenha respondido a) uma pergunta semelhante anteriormente! No entanto, as respostas são fornecidas por voluntários e variam em qualidade. Sempre entenda as soluções antes de implementá-las em seu programa. Respostas de apenas uma linha, sem qualquer explicação, são duvidosas. Este é um bom lugar para descobrir mais sobre sua dúvida ou encontrar termos de pesquisa alternativos.
<br>

**Monitoramento de bugs** - às vezes, você encontrará um problema tão raro, ou tão novo, que ninguém abordou ainda no StackOverflow. Por exemplo, você pode encontrar uma referência a seu erro em um relatório de bug no GitHub. Estes relatórios de bug podem ser úteis, mas você provavelmente vai ter que fazer algum trabalho original de engenharia para solucionar o problema.
<br>

**Fóruns aleatórios** - algumas vezes, sua pesquisa produz referências a fóruns que não estão ativos desde 2004, ou algum outro tempo tão antigo quanto. Caso estes sejam os únicos recursos que abordam seu problema, talvez você deva repensar como tem abordado a solução.

**Exemplo de uma função reaproveitável e com teste interno:**

In [None]:
### useful_functions.py
def mean(num_list):
    return sum(num_list) / len(num_list)

def add_five(num_list):
    return [n + 5 for n in num_list]

def main():
    print("Testing mean function")
    n_list = [34, 44, 23, 46, 12, 24]
    correct_mean = 30.5
    assert(mean(n_list) == correct_mean)

    print("Testing add_five function")
    correct_list = [39, 49, 28, 51, 17, 29]
    assert(add_five(n_list) == correct_list)

    print("All tests passed!")

if __name__ == '__main__':
    main()

**Exemplo de abertura de arquivo externo:**

In [None]:
## round_table.txt
We're the knights of the round table
We dance whenever we're able

In [None]:
with open("camelot.txt", "r") as song: #ou caminho inteiro: "c:/pyprog/..."
    print(song.read(2))
    print(song.read(8))
    print(song.read())

camelot_lines = []
with open("camelot.txt") as f:
    for line in f:
        camelot_lines.append(line.strip())

print(camelot_lines)

**Exemplo de função com try (para não travar):**

In [None]:
def create_groups(items, n): #Splits items into n groups of equal size, although the last one may be shorter.
    try: # dermina o tamanho que cada grupo terá
        size = len(items) // n  # um erro de exceção ZeroDivisionError pode ocorrer
    except ZeroDivisionError as e:
        print ("um erro de divisão por zero ocorreu: {}".format(e))
        return []
    else:
        groups = [] # create each group and append to a new list
        for i in range(0, len(items), size):
            groups.append(items[i:i + size])
        return groups
    finally: #isso é acessado apenas em casos extremos (como o usuário digitar um [CTRL]+[Break])
        print("{} groups returned.".format(n)) # print the number of groups and return groups    

print("Creating 6 groups...")
for group in create_groups(range(32), 6):
    print(list(group))

print("\nCreating 0 groups...")
for group in create_groups(range(32), 0):
    print(list(group))

*Como nem sempre é fácil saber exatamente qual a exceção que o código causa...*
<br>

**Podemos desenvolver um código que ao dar o erro, nos retorna qual a exceção causada:** 

In [None]:
print("Creating 6 groups...")
for group in create_groups(range(32), 6):
    print(list(group))

print("\nCreating 0 groups...")
for group in create_groups(range(32), 0):
    print(list(group))

Creating 6 groups...
<br>

6 groups returned.
<br>

[0, 1, 2, 3, 4]
[5, 6, 7, 8, 9]
[10, 11, 12, 13, 14]
[15, 16, 17, 18, 19]
[20, 21, 22, 23, 24]
[25, 26, 27, 28, 29]
[30, 31]

In [None]:
try:
    # some code
except ZeroDivisionError as e:
    # some code
    print("ZeroDivisionError occurred: {}".format(e))

Isto iria exibir algo parecido com isto:
<br>

ZeroDivisionError occurred: integer division or modulo by zero
<br>

**Baseado nisso, eu depuro mais precisamente o tipo de erro, para tornar minha função mais apurada:**

In [None]:
try:
    # some code
except Exception as e:
    # some code
    print("Exception occurred: {}".format(e))

### Listas

**len()** devolve quantos elementos existem em uma lista.
<br>

**max()** devolve o maior elemento da lista. A maneira como é determinado o maior elemento de uma lista depende de quais tipos de objetos estão presentes na lista. O elemento máximo em uma lista de números é o maior número. O elemento máximo de uma lista de strings é o elemento que ocorreria por último caso a lista estivesse em ordem alfabética. Isso funciona porque a função máximo é definida em termos do operador de comparação ‘maior do que’. A função máximo é indefinida para listas que contêm elementos de tipos diferentes, incomparáveis.
<br>

**min()** devolve o menor elemento em uma lista. Mínimo é o oposto de máximo e retorna o menor elemento de uma lista.
<br>

**sorted()** devolve uma cópia de uma lista, ordenada do menor para o maior, deixando a lista inalterada.

**Método join**
<br>

**Join** é um método de strings que recebe uma lista de strings como argumento e devolve uma string formada pelos elementos da lista unidos por um separador de strings.

In [None]:
new_str = "\n".join(["fore", "aft", "starboard", "port"])
print(new_str)

Neste exemplo, usamos a string "\n" como separador para que haja uma nova linha entre cada elemento. Podemos também utilizar outras strings como separadores com .join. Aqui, usamos um hífen.

In [None]:
name = "-".join(["García", "O'Kelly"])
print(name)

É importante lembrar de separar cada um dos itens da lista que você está unindo, usando uma vírgula (,). Esquecendo de fazer isso não vai provocar um erro, mas vai gerar resultados inesperados.

**Método append**
<br>

Um método útil chamado append adiciona um elemento ao final de uma lista.

In [None]:
letters = ['a', 'b', 'c', 'd']
letters.append('z')
print(letters)

### Dicionários

In [None]:
population = {'Shanghai': 17.8, 'Istanbul': 13.3, 'Karachi': 13.0, 'Mumbai': 12.5}

elements = {'hydrogen': {'number': 1, 'weight': 1.00794, 'symbol': 'H'},
            'helium': {'number': 2, 'weight': 4.002602, 'symbol': 'He'}}

#adicionar elementos ao dicionário criado
elements["hydrogen"]["is_noble_gas"]= "False"
elements["helium"]["is_noble_gas"]= "True"

#conferir uma entrada do dicionário
print(elements["hydrogen"]["is_noble_gas"])
print(elements["helium"]["is_noble_gas"])

### Função .zip()

In [None]:
x_coord = [23, 53, 2, -12, 95, 103, 14, -5]
y_coord = [677, 233, 405, 433, 905, 376, 432, 445]
z_coord = [4, 16, -6, -42, 3, -6, 23, -1]
labels = ["F", "J", "A", "Q", "Y", "B", "W", "X"]
points = []
element = ("",0,0,0)

for point in zip(labels, x_coord, y_coord, z_coord):
    #element = (("{0}: {1}, {2}, {3}".format(*point))) #<-é uma string formatada!
    element = (point[0]+": "+str(point[1])+", "+str(point[2])+", "+str(point[3]))
    points.append(element)

for point in points:
    print(point)

**Exemplo de saída formatada:**

In [None]:
x_coord = [23, 53, 2, -12, 95, 103, 14, -5]
y_coord = [677, 233, 405, 433, 905, 376, 432, 445]
z_coord = [4, 16, -6, -42, 3, -6, 23, -1]
labels = ["F", "J", "A", "Q", "Y", "B", "W", "X"]
points = []

for point in zip(labels, x_coord, y_coord, z_coord):
    points.append("{}: {}, {}, {}".format(*point))

for point in points:
    print(point)

### Compreensão de listas

In [None]:
names = ["Rick Sanchez", "Morty Smith", "Summer Smith", "Jerry Smith", "Beth Smith"]

first_names = [name[:name.find(" ")].lower() for name in names]
print(first_names)

Exemplo de função **lambda** com **else**

Observe que a ordem do **if** muda para permitir a compressão do interpretador Python. Isso é uma razão técnica, mas para o programador, a sintaxe fica um tanto confusa:

    result if condition else result

In [None]:
lambda x: True if x % 2 == 0 else False

Temos basicamente uma função **lambda** embutida aqui, então a sintaxe fica a mesma:

In [None]:
[unicode(x.strip()) if x is not None else "" for x in row]

Observe que aqui existe uma condição **elif**

A função abaixo realiza a substituição de elementos numa tabela de chamadas telefônicas em ramais. Queremos trocar o código do fabricante por algo mais familiar, como se a ligação foi atendida, etc..

Na função **clássica**:

In [10]:
lista = [1, 2, 3, 4, 5]

def ramais(lista):
    nova_lista = []
    for elemento in lista:
        if elemento == 1:
            nova_lista.append("atendida")
        elif elemento == 2:
            nova_lista.append("não atendida")
        else:
            nova_lista.append("ocupado")
    return(nova_lista)

a = ramais(lista)
print (a)

['atendida', 'não atendida', 'ocupado', 'ocupado', 'ocupado']


Na **compreensão de listas**:

In [11]:
lista = [1, 2, 3, 4, 5]

["atendida" if elemento == 1 else "não atendida" if elemento == 2 else "ocupado" for elemento in lista]

['atendida', 'não atendida', 'ocupado', 'ocupado', 'ocupado']

Observe também que o **loop** fica sempre ao final da função:

In [None]:
["ha" if i else "Ha" for i in range(3)]

### Função Lambda
<br>

Com uma expressão lambda, esta função:

In [None]:
def multiply(x, y):
    return x * y

pode ser reduzida para:

    lambda arguments: expression

In [None]:
multiply = lambda x, y: x * y

Componentes de uma função lambda
<br>

A **palavra-chave** lambda é utilizada para indicar que se trata de uma expressão lambda.
<br>

Depois de lambda, temos um ou mais **argumentos** para a função anônima, separados por vírgulas e seguidos por dois pontos :. Semelhante às funções, a maneira como os argumentos são nomeados em uma expressão lambda é arbitrária.
<br>

Por último há uma expressão que é avaliada e **devolvida** nessa função. Isto se parece muito com uma expressão que você pode ver como declaração de retorno em uma função:
<br>
    
    return (a,b)

Com essa estrutura, as expressões lambda não são ideais para funções complexas, mas podem ser muito úteis para funções curtas e simples.

In [None]:
numbers = [
              [34, 63, 88, 71, 29],
              [90, 78, 51, 27, 45],
              [63, 37, 85, 46, 22],
              [51, 22, 34, 11, 18]
           ]

def mean(num_list):
    return sum(num_list) / len(num_list)

averages = list(map(mean, numbers))
print(averages)

**Lambda na função .map()**

In [None]:
numbers = [
              [34, 63, 88, 71, 29],
              [90, 78, 51, 27, 45],
              [63, 37, 85, 46, 22],
              [51, 22, 34, 11, 18]
           ]

averages = list(map(lambda x: sum(x) / len(x), numbers))
print(averages)

**Lambda na função .filter()**

In [None]:
cities = ["New York City", "Los Angeles", "Chicago", "Mountain View", "Denver", "Boston"]

short_cities = list(filter(lambda x: len(x) < 10, cities))
print(short_cities)

**Iterador**

In [None]:
lessons = ["Why Python Programming", "Data Types and Operators", "Control Flow", "Functions", "Scripting"]

def enumerador(iteravel, inicio=0):
    contador = inicio
    for elemento in iteravel:
        yield contador, elemento
        contador += 1

for i, lesson in enumerador(lessons, 1):
    print("Lesson {}: {}".format(i, lesson))
    
#sq_iterator = (x**2 for x in range(10))  # isto produz um iterador de quadrados
#print (sq_iterator)

**Implementando my_enumerate**

In [None]:
lessons = ["Why Python Programming", "Data Types and Operators", "Control Flow", "Functions", "Scripting"]

def my_enumerate(iterable, start=0):
    count = start
    for element in iterable:
        yield count, element
        count += 1

for i, lesson in my_enumerate(lessons, 1):
    print("Lesson {}: {}".format(i, lesson))

**Chunker**
<br>

*Aqui está uma maneira de você fazer isso. Você pode encontrar essa implementação na página do Stack Overflow.*

In [None]:
def chunker(iterable, size):
    """Yield successive chunks from iterable of length size."""
    for i in range(0, len(iterable), size):
        yield iterable[i:i + size]

for chunk in chunker(range(25), 4):
    print(list(chunk))

### Gerador de expressões
<br>

Isso combina geradores e compreensão de listas! Na verdade, você pode criar um gerador da mesma maneira que normalmente escreveria uma compreensão da lista, utilizando **parênteses** em vez de colchetes.
    
*Isso pode ajudá-lo a economizar tempo e criar um código eficiente!*

In [None]:
sq_list = [x**2 for x in range(10)]  # isto produz uma lista de quadrados

sq_iterator = (x**2 for x in range(10))  # isto produz um iterador de quadrados

### Scripting com entrada

In [None]:
names = input("Enter names separated by commas: ").title().split(",")
assignments = input("Enter assignment counts separated by commas: ").split(",")
grades = input("Enter grades separated by commas: ").split(",")

message = "Hi {},\n\nThis is a reminder that you have {} assignments left to \
submit before you can graduate. You're current grade is {} and can increase \
to {} if you submit all assignments before the due date.\n\n"

for name, assignment, grade in zip(names, assignments, grades):
    print(message.format(name, assignment, grade, int(grade) + int(assignment)*2))

### Lidar com erros
<br>

Declaração **try**
<br>

Podemos utilizar declarações try para lidar com **exceções**:
<br>

**try**: Essa é a única clausula mandatória em uma declaração try. O código neste bloco é a primeira coisa que o Python executa em uma declaração try.
<br>

**except**: Se o Python encontra uma exceção durante a execução do bloco try, ele vai saltar para o bloco except que lida com aquela exceção.
<br>

**else**: Se o Python não encontra exceções durante a execução do bloco try, ele executará o código neste bloco depois de executar o bloco try.
<br>

**finally**: Antes de o Python sair da declaração try, ele executará o código deste bloco finally sob quaisquer condições, mesmo se estiver finalizando o programa. Por exemplo, se o Python encontrou um erro durante a execução do código do bloco except ou else , este bloco finally ainda será executado antes da interrupção do programa.

**Lidando com a divisão por zero:**

In [None]:
def create_groups(items, n):
    try:
        size = len(items) // n
    except ZeroDivisionError:
        print("WARNING: Returning empty list. Please use a nonzero number.")
        return []
    else:
        groups = []
        for i in range(0, len(items), size):
            groups.append(items[i:i + size])
        return groups
    finally:
        print("{} groups returned.".format(n))

print("Creating 6 groups...")
for group in create_groups(range(32), 6):
    print(list(group))

print("\nCreating 0 groups...")
for group in create_groups(range(32), 0):
    print(list(group))

Então, você ainda pode acessar as mensagens de erro, mesmo que lide com eles para evitar que seu programa seja **interrompido**!

*Se você não tiver um erro específico com o qual está lidando, ainda pode acessar a mensagem assim:*

In [None]:
try:
    # some code
except Exception as e:
   # some code
   print("Exception occurred: {}".format(e))

**Exception** é a classe base para todas as exceções internas. 

### Recorrendo ao método **read** com um número inteiro
<br>

No código que você viu, a recorrência à função *.read()* não apresentava argumentos passados para ela. Isso resulta no padrão de leitura de todo o restante do arquivo a partir de sua posição atual - o arquivo inteiro. Se você entra com um argumento do tipo inteiro no método read, ele é lido até atingir aquele número de caracteres, retorna todos eles e mantém a 'janela' naquela posição, pronta para continuar lendo.
<br>

Vamos ver isso em um exemplo que utiliza o seguinte arquivo, camelot.txt:

In [None]:
We're the knights of the round table
We dance whenever we're able

Aqui está um script que lê o arquivo um pouco de cada vez, passando um argumento inteiro para *.read()*:

In [None]:
with open(camelot.txt) as song:
    print(song.read(2))
    print(song.read(8))
    print(song.read())

A cada vez que utilizamos **read** no arquivo com um argumento inteiro, ele leu até aquele determinado número de caracteres, retornou-os e manteve a 'janela' naquela posição para a próxima utilização de read. Isso faz com que a movimentação pelo arquivo aberto seja um tanto complicada, pois não existem muitas referências na hora de navegar.

### Lendo linha por linha

In [None]:
*\n em blocos de texto são caracteres indicando uma nova linha. O caractere de nova linha marca o final \n
de uma linha e diz para um programa (como um editor de texto) passar para a próxima linha. No entanto, \n
olhando para o fluxo de caracteres no arquivo, \n é só mais um carácter.*

### Lendo e escrevendo arquivos
<br>

*arquivo: lista do elenco de Flying Circus*

In [None]:
def create_cast_list(filename):
    cast_list = []
    with open(filename) as f:
        for line in f:
            name = line.split(",")[0]
            cast_list.append(name)

    return cast_list

cast_list = create_cast_list('flying_circus_cast.txt')
for actor in cast_list:
    print(actor)

### Importando biblioteca padrão
<br>

**Importando scripts locais**
<br>

Na realidade, podemos importar códigos Python de outros scripts, o que é útil se você estiver trabalhando em um projeto maior no qual você deseja organizar seu código em vários arquivos e reutilizar esses códigos. Se o script Python que você deseja importar estiver no mesmo diretório que o script atual, apenas digite **import** seguido do nome do arquivo sem a extensão .py.
<br>

    import useful_functions

É a convenção padrão que declarações import sejam escritas na parte superior de um script Python, um em cada linha separada. Esta declaração import cria um objeto de módulo chamado useful_functions. Módulos são apenas arquivos de Python que contêm definições e declarações. Para acessar objetos de módulos importados, você precisa utilizar a notação de ponto.
<br>

    import useful_functions
    useful_functions.add_five([1, 2, 3, 4])

Podemos adicionar um **apelido** a um módulo importado para recorrer a ele com um nome diferente.

    import useful_functions as uf
    uf.add_five([1, 2, 3, 4])


**Utilizando um bloco principal**
<br>

Para evitar a execução de declarações executáveis de um script quando elas foram importadas como um módulo em outro script, inclua essas linhas em um bloco
    
    if __name__ == "__main__".

Ou, alternativamente, inclua-os em uma função chamada *.main()* e utilize-a no bloco

    if main ...

Sempre que podemos executar um script como este, o Python na verdade define uma variável interna especial chamada **_ _name_ _**  para qualquer módulo. Quando executamos um script, o Python reconhece este módulo como o programa principal e define a variável **_ _name_ _** para este módulo para a string **“_ _main_ _”**.
<br>

Para quaisquer módulos importados neste script, essa variável interna **_ _name_ _** só é definida para o nome desse módulo.
<br>

Portanto, a condição de 

    if __name__ == "__main__"
    
só está checando se este módulo é o programa principal.

Aqui temos uma função, que puxa a função por nós criada mais abaixo, **useful_functions.py**.
<br>

*Observe que esta última possui uma rotina interna de autoteste.*

In [None]:
import useful_functions as uf

scores = [88, 92, 79, 93, 85]

mean = uf.mean(scores)
curved = uf.add_five(scores)

mean_c = uf.mean(curved)

print("Scores:", scores)
print("Original Mean:", mean, " New Mean:", mean_c)

print(__name__)
print(uf.__name__)

In [None]:
# useful_functions.py
def mean(num_list):
    return sum(num_list) / len(num_list)

def add_five(num_list):
    return [n + 5 for n in num_list]

def main():
    print("Testing mean function")
    n_list = [34, 44, 23, 46, 12, 24]
    correct_mean = 30.5
    assert(mean(n_list) == correct_mean)

    print("Testing add_five function")
    correct_list = [39, 49, 28, 51, 17, 29]
    assert(add_five(n_list) == correct_list)

    print("All tests passed!")

if __name__ == '__main__':
    main()

### Biblioteca padrão
<br>

Gerador de senha
<br>

Para criar senhas aleatórias, usamos **import random**. A definição da função era simplesmente:

In [None]:
def generate_password():
    return random.choice(word_list) + random.choice(word_list) + random.choice(word_list)

Como alternativa, você pode usar a função **.random.sample()** e o método **.join()** para strings:

In [None]:
def generate_password():
    return ''.join(random.sample(word_list,3))

### Importar Módulos
<br>

**Técnicas para a importação de módulos**
<br>

Existem outras variantes de declarações **import** que são úteis em diferentes situações.
<br>

Para importar uma função individual ou a uma classe de um módulo:
    
    from module_name import object_name

Para importar múltiplos objetos individuais de um módulo:

    from module_name import first_object, second_object

Para renomear um módulo:

    import module_name as new_name

Para importar um objeto de um módulo e renomeá-lo:

    from module_name import object_name as new_name

Para importar cada objeto individualmente de um módulo (NÃO FAÇA ISSO):

    from module_name import *

Se você realmente quiser usar todos os objetos de um módulo, use a declaração de importação padrão module_name e acesse cada um dos objetos com a notação de ponto.

    from module_name.

### Bibliotecas de terceiros
<br>

Existem dezenas de milhares de bibliotecas de terceiros escritas por desenvolvedores independentes! Você pode instalá-las usando o pip, um gerenciador de pacotes que está incluso no Python 3. O pip é o gerenciador de pacotes padrão para o Python, mas não é o único. Uma alternativa popular é o Anaconda, que é projetado especificamente para ciência de dados.
<br>

Para instalar um pacote usando o pip, basta digitar "pip install" seguido do nome do pacote em sua linha de comando, assim:

    pip install package_name
    
Isso baixa e instala o pacote para que ele esteja disponível para importação em seus programas. Uma vez instalado, você pode importar pacotes de terceiros usando a mesma sintaxe usada para importar da biblioteca padrão.
<br>

Usando um arquivo **requirements.txt**
<br>

Programas maiores em Python podem depender de dezenas de pacotes de terceiros. Para facilitar o compartilhamento desses programas, os programadores frequentemente listam as **dependências** do projeto em um arquivo chamado requirements.txt. Este é um exemplo de um arquivo requirements.txt.

    beautifulsoup4==4.5.1
    bs4==0.0.1
    pytz==2016.7
    requests==2.11.1

Cada linha do arquivo inclui o nome de um pacote e seu número de versão. O número de versão é opcional, mas geralmente é incluído. Bibliotecas podem mudar sutilmente ou drasticamente entre as versões, por isso, é importante usar as mesmas versões de biblioteca que foram utilizadas para escrever o programa.
<br>

Você pode usar o pip para instalar todas as dependências do projeto ao mesmo tempo, digitando:

    pip install -r requirements.txt

### Pacotes úteis de terceiros
<br>

Ser capaz de instalar e importar bibliotecas de terceiros é útil, mas, para ser um programador eficaz, você também precisa saber quais bibliotecas estão disponíveis uso. As pessoas geralmente aprendem sobre novas bibliotecas úteis por meio de recomendações online ou de colegas. Se você for um programador novo em Python, pode não ter muitos colegas, então, para começar, aqui está uma lista de pacotes que são populares entre os engenheiros da Udacity.
<br>

**IPython** - um interpretador interativo do Python.
<br>

**requests** - fornece métodos fáceis de usar para fazer solicitações na web. Útil para acessar APIs da web.
<br>

**Flask** - uma estrutura leve para fazer aplicações web e APIs.
<br>

**Django** - uma estrutura mais recheada de recursos para criar aplicações web. O Django é particularmente bom para projetar aplicações web complexas e com muito conteúdo.
<br>

**Beautiful Soup** - usado para analisar HTML e extrair informações a partir daí. Ótimo para web scraping.
<br>

**pytest** - estende os módulos de assertivas internas e testes de unidade (unittest) do Python.
<br>

**PyYAML** - para ler e gravar arquivos YAML.
<br>

**NumPy** - o pacote fundamental para a computação científica com Python. Ele contém, entre outras coisas, um poderoso objeto array N-dimensional e capacidades úteis para álgebra linear.
<br>

**pandas** - uma biblioteca contendo ferramentas de alto desempenho, para estruturas de dados e de análise de dados. O Pandas, em especial, fornece dataframes!
<br>

**matplotlib** - uma biblioteca de plotagem 2D que produz figuras com qualidade de publicação em uma variedade de formatos em papel e ambientes interativos.
<br>

**ggplot** - outra biblioteca de plotagem 2D, com base na biblioteca ggplot2 do software R.
<br>

**Pillow** - a biblioteca de imagens do Python adiciona capacidades de processamento de imagens a seu interpretador Python.
<br>

**pyglet** - uma estrutura de aplicação multiplataforma voltada ao desenvolvimento de jogos
<br>

**Pygame** - um conjunto de módulos Python projetados para escrever jogos.
<br>

**pytz** - definições de fuso horário do mundo para Python

In [None]:
import csv # Começando com os imports # coding: utf-8
import matplotlib.pyplot as plt

print("Lendo o documento...") # Vamos ler os dados como uma lista
with open("chicago.csv", "r") as file_read:
    reader = csv.reader(file_read)
    data_list = list(reader)
print("Ok!")
print("Número de linhas:") # Vamos verificar quantas linhas nós temos
print(len(data_list))
print("Linha 0: ") # Imprimindo a primeira linha de data_list para verificar se funcionou.
print(data_list[0]) # É o cabeçalho dos dados, para que possamos identificar as colunas.
print("Linha 1: ") # Imprimindo a segunda linha de data_list, ela deveria conter alguns dados
print(data_list[1])

input("Aperte Enter para continuar...")

## Projeto do Módulo I

**TAREFA 1:** Imprima as primeiras 20 linhas usando um loop para identificar os dados.

In [None]:
print("\n\nTAREFA 1: Imprimindo as primeiras 20 amostras")
data_list = data_list[1:] # Vamos mudar o data_list para remover o cabeçalho dele. 
#Nós podemos acessar as features pelo índice. Por exemplo: sample[6] para imprimir gênero, ou sample[-2]

for i in range(20):
    print(data_list[i])

input("Aperte Enter para continuar...")

**TAREFA 2:** Imprima o *gênero* das primeiras 20 linhas (il=6)

In [None]:
print("\nTAREFA 2: Imprimindo o gênero das primeiras 20 amostras")
a = []
for i in range(20):
    a = data_list[i]
    print (a[6]) # Ótimo! Nós podemos pegar as linhas(samples) iterando com um for
    #e as colunas(features) por índices. Mas ainda é difícil pegar uma coluna em uma lista. Exemplo: Lista com todos os gêneros
input("Aperte Enter para continuar...")

**TAREFA 3:** Crie uma função para adicionar as colunas(features) de uma lista em outra lista, na mesma ordem

*Dica: Você pode usar um for para iterar sobre as amostras, pegar a feature pelo seu índice, e dar append para uma lista*

In [None]:
def column_to_list(data, index):
      """" Função de fatiar uma tabela de dados, por coluna (cada coluna é um campo).
        Argumentos:
            data: a tabela original (nosso .CSV sem cabeçalho e transformado numa lista). É uma lista.
            index: a posição ocupada pelo campo do nosso interesse. É um inteiro.
        Retorna:
            Uma fatia da tabela. É uma lista."""
    a = []
    column_list = []
    for i in range(len(data)):
        a = data[i]
        if a[index] == "":
            column_list.append("")	
        else:
            column_list.append(a[index])
    return column_list
print("\nTAREFA 3: Imprimindo a lista de gêneros das primeiras 20 amostras") 
# Vamos checar com os gêneros se isso está funcionando (apenas para os primeiros 20)
print(column_to_list(data_list, -2)[:20])

# ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
assert type(column_to_list(data_list, -2)) is list, "TAREFA 3: Tipo incorreto retornado. Deveria ser uma lista."
assert len(column_to_list(data_list, -2)) == 1551505, "TAREFA 3: Tamanho incorreto retornado."
assert column_to_list(data_list, -2)[0] == "" and column_to_list(data_list, -2)[1] == "Male", "TAREFA 3: A lista não coincide."
# -----------------------------------------------------

**TAREFA 4:** Conte cada gênero. Você não deveria usar uma função parTODO isso.

In [None]:
male = 0
female = 0
paracontar = column_to_list(data_list, -2)

#print (paracontar[:20])
#male = paracontar.count("Male")
#female = paracontar.count("Female")

#eu simplesmente criei dois contadores e adicionei nas variáveis inteiras dadas.
for entrada in paracontar:
    if entrada == "Male":
        male += 1
    if entrada == "Female":
        female += 1

print("\nTAREFA 4: Imprimindo quantos masculinos e femininos nós encontramos") # Verificando o resultado

print("Masculinos: ", male, "\nFemininos: ", female)

# ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
assert male == 935854 and female == 298784, "TAREFA 4: A conta não bate."
# -----------------------------------------------------

**TAREFA 5:** Crie uma função para contar os gêneros. Retorne uma lista. Isso deveria retornar uma lista com [count_male, count_female]
<br>

(exemplo: [10, 15] significa 10 Masculinos, 15 Femininos)

In [None]:
def count_gender(data_list):
     # Função de contagem de gêneros, a partir de uma fatia (campo) de uma tabela.
     # Argumentos:
     #     data_list: uma fatia (apenas um campo) de dados originais. É uma lista.
     # Retorna:
     #     Uma tupla (contagem de Masculino e Feminino). Dois valores inteiros. 	
    male = 0
    female = 0
    a = []
    column_list = []
    for i in range(len(data_list)):
        a = data_list[i]
        if a[-2] == "Male":
            male += 1
        if a[-2] == "Female":
            female += 1
    return [male, female]

print("\nTAREFA 5: Imprimindo o resultado de count_gender")

print(count_gender(data_list))

# ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
assert type(count_gender(data_list)) is list, "TAREFA 5: Tipo incorreto retornado. Deveria retornar uma lista."
assert len(count_gender(data_list)) == 2, "TAREFA 5: Tamanho incorreto retornado."
assert count_gender(data_list)[0] == 935854 and count_gender(data_list)[1] == 298784, "TAREFA 5: Resultado incorreto no retorno!"
# -----------------------------------------------------

**TAREFA 6:** Crie uma função que pegue o gênero mais popular, e retorne este gênero como uma string. Esperamos ver "Masculino", "Feminino", ou "Igual" como resposta.

In [None]:
def most_popular_gender(data_list):
     # Esta função determina o gênero mais popular, a partir de uma fatia (campo) de uma tabela.
     # Argumentos:
     #     data_list: uma fatia (apenas um campo) de dados originais. É uma lista.
     # Retorna:
     #     O gênero mais popular. É uma string de texto.
    answer = ""    
    genero = 0
    homem, mulher = count_gender(data_list)
    #print ("homem: ",homem, "mulher: ", mulher)
    if homem > mulher:
        answer = "Masculino"
    if mulher > homem:
        answer = "Feminino"
    if homem == mulher:
        answer = "Igual"
    return answer
 
print("\nTAREFA 6: Qual é o gênero mais popular na lista?")
print("O gênero mais popular na lista é: ", most_popular_gender(data_list))

# ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
assert type(most_popular_gender(data_list)) is str, "TAREFA 6: Tipo incorreto no retorno. Deveria retornar uma string."
assert most_popular_gender(data_list) == "Masculino", "TAREFA 6: Resultado de retorno incorreto!"
# -----------------------------------------------------

# Imprime gráfico por gênero
gender_list = column_to_list(data_list, -2) # Se tudo está rodando como esperado, verifique este gráfico!
types = ["Male", "Female"]
quantity = count_gender(data_list)
y_pos = list(range(len(types)))
plt.bar(y_pos, quantity)
plt.ylabel('Quantidade')
plt.xlabel('Gênero')
plt.xticks(y_pos, types)
plt.title('Quantidade por Gênero')
plt.show(block=True)

**TAREFA 7:** Crie um gráfico similar para user_types. Tenha certeza que a legenda está correta.

In [None]:
print("\nTAREFA 7: Verifique o gráfico!")
def count_user(data_list):
     """" Esta função serve para contar usuários.
            Argumentos:
              data_list: uma fatia (apenas um campo) de dados originais. É uma lista.
            Retorna:
              Uma tupla de números inteiros - cliente ou assinante
            Obs: Código reaproveitado do exercício anterior, modificando as especificações."""
    customer = 0
    subscriber = 0
    a = []
    column_list = []
    for i in range(len(data_list)):
        a = data_list[i]
        if a[-3] == "Customer":
            customer += 1
        if a[-3] == "Subscriber":
            subscriber += 1
    return [customer, subscriber]

usuario_list = column_to_list(data_list, -3) # Se tudo está rodando como esperado, verifique este gráfico!
types = ["Customer", "Subscriber"]
quantity = count_user(data_list)
y_pos = list(range(len(types)))
plt.bar(y_pos, quantity)
plt.ylabel('Quantidade')
plt.xlabel('Usuário')
plt.xticks(y_pos, types)
plt.title('Quantidade por Usuário')
plt.show(block=True)

**TAREFA 8:** Responda a seguinte questão

In [None]:
male, female = count_gender(data_list)
print("\nTAREFA 8: Por que a condição a seguir é Falsa?")
print("male + female == len(data_list):", male + female == len(data_list))
answer = "Há registros no CSV para o qual o gênero não está preenchido."
print("resposta:", answer)

# ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
assert answer != "Escreva sua resposta aqui.", "TAREFA 8: Escreva sua própria resposta!"
# -----------------------------------------------------
input("Aperte Enter para continuar...")

**TAREFA 9:** Ache a duração de viagem Mínima, Máxima, Média, e Mediana. Você não deve usar funções prontas parTODO isso, como max() e min().

In [None]:
#def column_to_list2(data, index): #função alterada - esta converte os dados para Float - desativada: o resultado foi obtido com .map(a1,a2)
#    a = []
#    column_list = [] # Dica: Você pode usar um for para iterar sobre as amostras, pegar a feature pelo seu índice, e dar append para uma lista
#    for i in range(len(data)):
#        a = data[i]
#        if a[index] == "":
#            column_list.append(0.)	
#        else:
#            column_list.append(float(a[index]))
#    return column_list

trip_duration_list = column_to_list(data_list, 2) # Vamos trabalhar com trip_duration (duração da viagem) agora. Não conseguimos tirar alguns valores dele.
trip_duration_list = list(map(float,trip_duration_list)) #Transformados os dados para Float, pois iremos trabalhar agora com números!

min_trip = 0.
max_trip = 0.
mean_trip = 0.
median_trip = 0.
elem = 0.
soma = 0. #eu preciso da soma de todos os valores para a média!

#Rotina de amostra: verificar o formato e a qualidade dos dados colhidos (verificados e desativada!)
#a = []
#i = 0
#for i in range(20):
#    a = trip_duration_list[i]
#    print (a)

""""Este For serve para pegar um argumento inicial para min_trip.
Por que eu escrevi uma função para argumento inicial? Porque eu espero que ela vá iterar umas poucas vezes.
observe que o If dela é mais complexo do que o If do For principal. Assim eu deixo meu For principal mais leve.
como a quantidade de iterações do For principal é imensa, eu quero que ele fique o mais leve possível."""

for elemento in trip_duration_list: # Quero pegar um valor inicial para min_trip
    elem = float(elemento)
    if elem > 0 and min_trip == 0: # Este if é um pouco mais lento: vou usar apenas até captar um número inicial para a min_trip!
        min_trip = elem
        print ("Primeiro valor de min: ", min_trip)
        break

""""Este é meu For principal. Ele é mais leve que o anterior e espero que ele tenha um bom desempenho.
Neste eu obtenho a soma de todos os valores, a minha viajem mais longa e a mais curta.""""
for elemento in trip_duration_list: # Esse é meu iterador principal!
    elem = float(elemento) # quero lidar com um flutuante!
    soma += elem
    #print (soma)	
    if elem > max_trip:
        max_trip = elem
    if elem < min_trip:
        min_trip = elem

""""Como existe o risco de que o comprimento de trip_duration_list seja zero, eu faço apenas uma tentativa, 
antes de resolver o problema. Assim evito travamento do programa."""
try:
    mean_trip = soma / len(trip_duration_list)
except ZeroDivisionError:
    print("AVISO: Lista com comprimento em branco. Por favor use um número acima de zero.")
else:
    mean_trip = soma / len(trip_duration_list)

#meio = 0. # Esse aqui será o meio da minha lista para Mediana
meio = len(trip_duration_list) // 2 #quero um número inteiro, resultado de uma divisão inteira!
#print ("meio", meio)
ordem = sorted(trip_duration_list) # Vou precisar disso para a Mediana

# Usei esses códigos para testar meus resultados. Não preciso mais deles.
#for i in range (len(trip_duration_list)):
#    print (ordem[i])
#    if round(float(ordem[i])) == 670:
#        print ("Achei a posição da mediana :", i)
#        break

""""Observe que eu tenho dois casos para mediana. Em um deles, minha lista é de tamanho par.
Nesse caso, normalmente os estatísticos entregam como Mediana a média aritmética dos dois valores de medianas.
O caso ímpar é mais fácil: a mediana é simplesmente o valor do meio de uma lista ordenada!"""
a = 0. #vou precisar desses caso o tamanho da minha lista seja par
b = 0.
if len(trip_duration_list) % 2 == 0: # Agora eu quero a mediana!
    print("Lista de tamanho par")
    a = ordem[meio]
    b = ordem[meio + 1]
    median_trip = a + b / 2.
else:
    print ("Lista de tamanho ímpar")
    median_trip = float(ordem[meio]) # Esse aqui é fácil, pois tenho apenas um número como mediana!

""""Checklist. Usei isso no desenvolvimento. Não preciso mais dessas linhas de lembrete.
As mantenho no texto para o caso de futuramente precisar me lembrar do que precisei fazer para desenvolver isso tudo.
1-Lembrar de excluir cabeçalho
 data_list = data_list[1:] OK (feito)
2-Converter os dados que passaram no column_to_list para float OK (função alterada)
3-Fazer o parse dos números para float:
 trip_duration_list = list(map(float,trip_duration_list))"""
 
# print("Mediana :", median_trip, "Total dados e dobro:", len(trip_duration_list), meio * 2, "Mediana -, +:", ordem[meio-1], ordem[meio+1] )
# print("Min: ", min_trip, "Max: ", max_trip, "Média: ", mean_trip, "Mediana: ", median_trip)
# median_trip = 670 #apenas para passar para próximo exercício. Estava dando defeito e eu precisava disso para prosseguir com os exercícios.

# ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
assert round(min_trip) == 60, "TAREFA 9: min_trip com resultado errado!"
assert round(max_trip) == 86338, "TAREFA 9: max_trip com resultado errado!"
assert round(mean_trip) == 940, "TAREFA 9: mean_trip com resultado errado!"
assert round(median_trip) == 670, "TAREFA 9: median_trip com resultado errado!"
# -----------------------------------------------------

**TAREFA 10:** Verifique quantos tipos de start_stations nós temos, usando set()

In [None]:
""""Fiz apenas o agrupamento usando a função interna do Python de dicionarização!
Como entrada, usei a tripa da tabela, onde haviam tipos de Usuários, já removida é claro, a linha de cabeçalho!"""
user_types = set(column_to_list(data_list, 3))

print("\nTAREFA 10: Imprimindo as start stations:")
print(len(user_types))
print(user_types)

# ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
assert len(user_types) == 582, "TAREFA 10: Comprimento errado de start stations."
# -----------------------------------------------------

input("Aperte Enter para continuar...")

**TAREFA 11**
<br>

Volte e tenha certeza que você documenteou suas funções. Explique os parâmetros de entrada, a saída, e o que a função faz. 
<br>
    
Exemplo:

    def new_function(param1: int, param2: str) -> list:
     # Função de exemplo com anotações.
     # Argumentos:
     #     param1: O primeiro parâmetro.
     #     param2: O segundo parâmetro.
     # Retorna:
     #     Uma lista de valores x.


**TAREFA 12** - Desafio! (Opcional)
<br>

TODO: Crie uma função para contar tipos de usuários, sem definir os tipos para que nós possamos usar essa função com outra categoria de dados.

In [None]:
print("Você vai encarar o desafio? (yes ou no)")
answer = "yes"

def count_items(column_list):
     # Função de contagem genérica (possibilita uma quantidade de tipos não definida inicialmente.
     # Argumentos:
     #     column_list: é a tripa de campos que eu desejo contar. String de texto, no caso.
     # Retorna:
     #     Uma tupla, composta de duas listas. A primeira, em String de texto, contendo os tipos e a segunda, os valores contados para cada tipo.
    item_types = [] # Inicializa essa lista
    tipos = set(column_list)
    for tipo in tipos: # isso aqui será minha saída dos tipos contados. Então eu leio do meu set e gravo na primeira lista de saída.
        item_types.append (tipo)	
    #for item in item_types:
        #print("tipo de item :", item)
    count_items = [] # Inicializa essa lista
    contagem = {} # Criar um dicionário dos tipos. Eu uso um dicionário para fazer minhas contagens.
    for tipo in item_types: #alimenta o dicionário com os zeros iniciais.
        #print ("tipo :", tipo) #{"", "Male", "Female"}
        contagem[tipo] = 0
    for item in column_list:
        if item in contagem:
            contagem[item] += 1 # Adiciona um na contagem para um tipo do meu dicionário.
    for tipo in item_types: # Agora eu preciso devolver os resultados numa lista. Então ela lê do meu dicionário e adiciona na segunda lista de saída.
        count_items.append(contagem[tipo])
    return item_types, count_items

#item_types = [set(column_to_list(data_list, -2))]
#for item in item_types: #verificar se saíram os tipos
#    print (item)

if answer == "yes":
    # ------------ NÃO MUDE NENHUM CÓDIGO AQUI ------------
    column_list = column_to_list(data_list, -2)
    types, counts = count_items(column_list)
    print("\nTAREFA 11: Imprimindo resultados para count_items()")
    print("Tipos:", types, "Counts:", counts)
    assert len(types) == 3, "TAREFA 11: Há 3 tipos de gênero!"
    assert sum(counts) == 1551505, "TAREFA 11: Resultado de retorno incorreto!"
    # -----------------------------------------------------

## Comandos úteis do Jupyter Notebook
<br>

**Esc** lhe põe em **modo de comando** e você pode navegar pelo bloco de notas com as setas:
<br>

**A e B** insere uma nova célula acima/abaixo
<br>

**M e Y** torna a célula *markdown*/código
<br>

**D + D** mata a célula
<br>

**Enter** lhe põe em **modo edição**, na própria célula:
<br>

**Shift + Tab** exibe a *docstring* (documentação) do objeto que você acabou de digitar. Se pressionado outras vezes, mostra outros modos de documentação
<br>

**Ctrl + Shift + -** irá quebrar a célula em duas, no ponto onde estiver seu cursor
<br>

**Esc + F** encontra e substitui no seu código, mas não nas saídas da célula
<br>

**Esc + O** comuta para saída da célula
<br>

### Selecionando várias células:
<br>

**Shift + J or Shift + ↓** seleciona a próxima célula abaixo. Você também pode usar **Shift + ↑** para pegar a de cima
<br>

Uma vez a célula estando selecionada, você então pode apagar/copiar/corta/colar/rodar em lote. Isso é interessante se vocÊ precisa mover partes inteiras do seu bloco de notas.
<br>

**Shift + M** funde várias células

*Crtl + Shift + P exibe a lista completa de atalhos...*
<br>

[mais dicas](https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/)

### Comandos Mágicos:

In [2]:
%lsmagic

Available line magics:
%alias  %alias_magic  %autocall  %automagic  %autosave  %bookmark  %cd  %clear  %cls  %colors  %config  %connect_info  %copy  %ddir  %debug  %dhist  %dirs  %doctest_mode  %echo  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %macro  %magic  %matplotlib  %mkdir  %more  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %popd  %pprint  %precision  %profile  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %ren  %rep  %rerun  %reset  %reset_selective  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%cmd  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%pypy  %%python  %%python2  %%py

### Textos LaTeX:
<br>

Use [MathJax](https://www.mathjax.org/), copie e cole o resultado em uma célula *Markdown*:

\\( P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B)} \\)

### Apresentação tipo Powerpoint:
<br>

Instale o RISE
<br>

    conda install -c damianavila82 rise
    
Ou,

    pip install RISE

E o ative

    jupyter-nbextension install rise --py --sys-prefix
    jupyter-nbextension enable rise --py --sys-prefix

### Processo análise de Big Data:
<br>

- ipyparallel (ipython cluster) para operações de redução de mapa em Python. É usado para treinar modelos de aprendizado de máquina em paralelo
<br>

- pyspark
<br>

- spark-sql magic %%sql

### Turtle

[aqui](https://pypi.org/project/ipyturtle/)