# Análise de Dados em Python: Introdução ao Python (parte II)

2023/24 -- João Pedro Neto, DI/FCUL

## Funções

Até agora temos usado funções e operadores do Python para manipular valores de vários tipos. É fácil perceber a utilidade, por exemplo, da função `len` se precisamos de saber o tamanho de uma lista para resolver um problema.

Sendo desejável que as linguagens de programação permitam a resolução do maior número possível de problemas, da forma mais acessível possível, é natural que disponibilizem aos programadores uma forma destes criarem as suas próprias funções. Este será o tópico do capítulo.



Uma função Python é uma espécie de mini-programa. É capaz de receber um certo _input_, executar uma sequência de comandos e devolver um _output_, que é o resultado da execução dos seus comandos. Para além disso, cada função tem um nome, para podermos distingui-las umas das outras.

Nada disto é novo, já usámos várias das funções pré-definidas do Python.

Mas como criar funções novas?

Vamos fazê-lo através de uma **definição de função** e mais vale começar com um exemplo:

In [None]:
def dobro(numero):
  return 2*numero

Agora podemos usar esta nova função,

In [None]:
valor = dobro(100)
print(valor)

A palavra reservada `def` indica ao Python que a seguir vem uma definição de função. A definição de função inclui:

+ O nome da função. Os nomes das funções seguem a mesma convenção dos nomes das variáveis. Não podem usar palavras reservadas e, se querem manter a sanidade mental, usem nomes que façam sentido e evitem variáveis e funções com nomes iguais.

+ A seguir escrevem um tuplo com os valores de _input_. Estes valores designam-se por **parâmetros** da função. Se uma função não tem parâmetros usamos o tuplo vazio `()` para o indicar. Depois escreve-se um `:` porque o Python assim fica contente e não vos chateia com um erro sintático.

+ A seguir vem uma sequência de comandos que vai ser executada cada vez que alguém chama a função (dizemos *invocar* a função). Para que o Python saiba onde acaba os comandos da função temos de os indentar (ou seja, dar uns espaços antes de começar a escrever). Reparem como o comando `return (2*x)` está mais para a direita. A estes comandos costumamos chamar o **corpo da função**.

+ Para devolver o resultado final -- o _output_ da função -- usamos o comando `return`. Este comando avalia a expressão que estiver à sua frente e torna o resultado dessa expressão o _output_ da função. Podemos colocar mais que um `return` no corpo da função, se houver necessidade. Vamos tentar seguir a boa prática que todos os _returns_ de uma mesma função devolvam valores do mesmo tipo.

  + Se não quisermos devolver valores, basta não escrever um comando `return`. Neste caso o Python, quando terminar de executar o último comando da função, devolve automaticamente o valor `None` que representa, na linguagem, a noção de 'ausência de valor'.

Para invocar a função basta usar a sintaxe do costume: usar o nome e, entre parênteses, quais os argumentos a passar para os parâmetros da função.



Vamos definir duas novas funções:

In [None]:
from math import pi

def piVezes(x):
  return pi*x

def relatorio(parametro):
  print(f'Pediram-me para imprimir {parametro}')

e agora vamos invocá-las:

In [None]:
valor = piVezes(10)
relatorio(valor)

Pediram-me para imprimir 31.41592653589793


Quando uma função `f` é invocada, a execução do programa atual fica em pausa e o Python faz o seguinte:

1. Copia os argumentos da invocação para os parâmetros de `f` (se os houver)

1. Executa o corpo da função `f`

1. Se apanhar um `return` algures no corpo da função, avalia a expressão associada que vai ser o _output_, e a *execução da função termina*.

1. O Python volta ao programa original, coloca o valor do _output_ na variável associada, e passa para o comando seguinte.

Um detalhe importante: se uma outra função foi invocada no corpo da primeira função, volta-se a fazer o mesmo. Faz-se pausa na primeira função e executa-se a segunda. Aí pode até haver a invocação de uma terceira função, e assim sucessivamente. O Python é atento e não se confunde.

### O Uso de Funções na Resolução de Problemas

As funções são úteis para lidarmos com problemas complexos. Se formos capazes de decompor um problema em subproblemas, podemos implementar cada um deles com funções adequadas. Esta abordagem é mais fácil do que tentar atacar o problema todo de uma só vez.

Vamos considerar que queríamos pedir três notas de um aluno, para depois calcular a média e, finalmente, imprimir esse valor no ecrã.

Este problema exemplo pode ser decomposto em três fases, onde cada uma das fases é implementada por uma função:

1. uma primeira função `pedirNotas` para recolher informação do utilizador. Como queremos devolver três números vamos retornar esta informação num tuplo.

1. uma segunda função `calcularMedia` para calcular e retornar uma média das notas.

1. uma terceira função `imprimirRelatorio` que imprime a média calculada num formato de texto.

Eis uma implementação destas três funções:

In [None]:
def pedirNotas():
  nota1 = int( input('nota 1: ') )
  nota2 = int( input('nota 2: ') )
  nota3 = int( input('nota 3: ') )
  return (nota1, nota2, nota3)

def calcularMedia(notas):
  return sum(notas)/len(notas)

def imprimirRelatorio(media):
  print(f'A minha média é {media:5.2f}')

Vejamos um caso de uso. Reparem como o resultado de uma função é passado como argumento da função seguinte, usando para isso variáveis auxiliares:

In [None]:
asMinhasNotas = pedirNotas()
aMinhaMedia   = calcularMedia(asMinhasNotas)
imprimirRelatorio(aMinhaMedia)

É normal que um programa completo tenha de interagir com o utilizador, seja para lhe pedir informação, seja para lhe mostrar algum relatório. Também é normal ter de efetuar cálculos a partir da informação disponível.

Uma boa prática de programação é tentar manter estes dois aspetos - interagir com o utilizador e realizar cálculos internos - separados em funções distintas. Esta separação ajuda-nos a gerir os nossos programas, seja para corrigir erros no presente, seja para adicionar novas funcionalidades no futuro.

### Vantagens no Uso de Funções

Antes de continuar vamos discutir um pouco a utilidade das funções.

Quais as vantagens de introduzir o conceito de função numa linguagem de programação?

+ Quando se está a construir um programa para resolver um certo problema, é normal ter de usar a mesma sequência de comandos múltiplas vezes. Em vez de abusar do *copy-paste*, é mais produtivo associar essa sequência de comandos a uma função.

+ Código associado a uma função fica mais organizado. Se descobrirmos que temos de fazer uma mudança, em vez de ir à caça de todos os sítios onde o código estaria duplicado, temos apenas de corrigir na definição da função. A manutenção do programa torna-se mais fácil.

+ Esta organização também é conceptual. É importante separar comandos pelos objetivos que têm. Se tenho um programa para resolver a tarefa A e outro para resolver a tarefa B, é bom tê-los separados e identificados pelos nomes das respetivas funções.

+ Separar o programa por tarefas ajuda-nos igualmente na tarefa de depuração. O corpo de cada função tende a ter poucos comandos, tornando-se mais fácil perceber se uma certa função está ou não corretamente programada.

+ As funções muitas vezes são úteis em problemas futuros. Se precisarmos de uma função que usamos num programa anterior, podemos facilmente reutilizá-la.

+ Os parâmetros de uma função dão-lhe um grau de flexibilidade. Significa que ela resolve não só a tarefa que temos em frente, mas pode resolver tarefas similares no futuro. Para tal, basta mudar os valores que passamos na invocação da função. As funções pré-definidas do Python foram todas pensadas nesta perspetiva.

### Exercícios

O comando `assert` é útil para validarmos, num qualquer momento da computação, se uma dada expressão booleana é verdadeira.

In [None]:
assert 1+1 == 2
assert 1+1 != 3

Se a expressão não for verdadeira, é produzido um erro de execução,

In [None]:
assert 1+1 == 3

AssertionError: ignored

que é útil para nos informar que algo não correu como o previsto. Vamos usar, a partir de agora, este comando para incluir expressões que servem para testar as vossas resoluções.

<font size="+4" color="blue;green"><b>?</b></font> Defina a função `areaTriangulo` que recebe a base e a altura de um triângulo e devolve a sua área.

Use a função para calcular a área de um triângulo de base 10 e altura 2.3.

In [None]:
def areaTriangulo(base, altura):
  pass # ponham aqui a vossa solução. Btw, pass é um comando que não faz nada (!)

<font size="+4" color="blue;green"><b>?</b></font> Defina a função `resumo` que recebe uma lista de números e devolve um triplo com as seguintes estatísticas (somatório dos números, média dos números, máximo dos números).

Não se esqueçam que o Python tem disponível as funções `len`, `sum` e `max`.


In [None]:
def resumo(xs):
  pass # ponham aqui a vossa solução

None


In [None]:
algunsNumeros = [1, 3, 2, 5, 7, 1, 43, 8]

assert resumo(algunsNumeros) == (70, 8.75, 43)

<font size="+4" color="blue;green"><b>?</b></font> Defina a função `listaPotencias` que dado um número $k$ e uma lista de números $[x_0, \ldots, x_n]$ devolva $[x_0^k, \ldots, x_n^k]$.


In [None]:
def listaPotencias(k, xs):
  pass  # ponham aqui a vossa solução

In [None]:
assert listaPotencias(3, [3, 1, -5, 12]) == [27, 1, -125, 1728]

## Condicionais

Como se viu anteriormente, o Python possui o tipo `bool` cujos valores resultam da avaliação de expressões booleanas.

É possível imaginar problemas que podem executar uma ação se uma expressão booleana for verdadeira, e outra ação caso seja falsa. Isto é, estamos a referir a possibilidade de haver condições lógicas que determinam como a computação de um programa se desenrola.

Considere que era preciso devolver um relatório se um dado número é ou não é positivo. Com o que aprendemos até agora, como se poderia fazer?

In [None]:
def relatorio(numero):
  ePositivo    = (numero> 0) * "Positivo"     # multiplica a string 0 ou 1 vez
  eNaoPositivo = (numero<=0) * "Não Positivo"
  return ePositivo + eNaoPositivo

In [None]:
print(relatorio(-15))
print(relatorio(100))

Um pouco rebuscado para tarefa tão simples.

E se o problema fosse multiplicar um número por -1 se fosse negativo, ou por +1 se fosse positivo? Por outras palavras, o problema é o de implementar a função valor absoluto, $f(x) = |x|$.

In [None]:
def valorAbsoluto(numero):
  return (numero>0)*numero + (numero<0)*-numero

In [None]:
print(valorAbsoluto(-15))
print(valorAbsoluto(10))

Lá funcionar funciona... Mas estamos a correr o risco de começar a ter código muito confuso se os cálculos forem mais complexos, se houver mais que duas opções a considerar, etc.

Para lidar com este género de problemas o Python inclui um comando **condicional** a uma expressão booleana. O nome desse comando é `if`.

Vejamos os dois problemas anteriores resolvidos com o uso do `if`:

In [None]:
def relatorio(numero):
  if numero > 0:
    return "Positivo"
  else:
    return "Não Positivo"

def valorAbsoluto(numero):
  if numero > 0:
    return numero
  else:
    return -numero

A sintaxe do `if` tem as seguintes regras:

+ Após a palavra reservada `if` escrevemos a expressão booleana que define qual a ação a realizar. Não esquecer o `:`

+ Esta expressão booleana designa-se por **guarda**. Se a expressão booleana avaliar para `True` diz-se que a guarda é verdadeira. Se avaliar para `False`, a guarda é falsa.

+ Nas linhas seguintes ao `if` colocamos os comandos (pode ser mais que um) que correspondem à ação que queremos executar se a guarda for verdadeira. Reparem que temos de respeitar a indentação: têm de deslocar estes comandos para a direita.

+ Para descrever a ação que queremos realizar se a guarda for falsa, escrevemos `else:` e, nas linhas seguintes, colocamos os respetivos comandos que definem essa ação.

+ Este segundo conjunto de comandos do `else` é opcional. O Python aceita um comando condicional que descreve o que fazer apenas se a guarda for verdadeira. Nestes casos, se a guarda for falsa, o comando condicional nada executa.

No seguinte exemplo temos uma função que dado um número inteiro ímpar devolve o par anterior, ou se for par devolve o mesmo número. Neste caso, o nosso comando condicional apenas precisa executar quando a função recebe um número ímpar. Não precisamos da condição `else`.

In [None]:
def parifica(numero):
  if numero % 2 != 0:
    numero = numero - 1
  return numero

In [None]:
print(parifica(13))
print(parifica(12))

## Iteração

Ao contrário dos seres humanos, os computadores são óptimos em tarefas repetitivas. Se eu quiser somar os primeiros 100000 números primos tenho a certeza que um programa Python é capaz de calcular o resultado eficientemente e sem margem para erro.

A iteração é uma forma de pensar tão comum que o Python até disponibiliza diferentes comandos para o fazer. É costume chamar a estes comandos, *comandos de ciclo*.

### O Comando `while`

O seguinte programa apresenta o primeiro comando de ciclo, o `while`:

In [None]:
i = 1
while i < 5:
  print(i)
  i = i + 1

Se lermos o programa como se fosse Português (ou Inglês, neste caso) seria algo como:

<center><i><font size="3">Seja i=1. Enquanto o i for menor que 5, repete os seguintes comandos: imprimir i e atualizar i para o seu sucessor.</font></i></center>

Temos aqui alguns termos a introduzir:

+ A noção de *repetição* (ou iteração). Há um conjunto de comandos que estão a ser repetidamente executados. Este conjunto de comandos designa-se por **corpo do ciclo**.

+ A repetição tem associada uma *condição de paragem*. Esta condição é uma expressão booleana que, enquanto for considerada verdadeira, mantém a repetição ativa. A esta expressão booleana designamos por **guarda do ciclo**.

+ A existência de uma variável (neste exemplo, a variável inteira `i`) que é importante tanto para a execução do corpo do ciclo, como para determinar quando devemos parar. Designamo-la por **variável de progresso**.

A sintaxe do Python em relação ao comando `while` é, assim

```python
while <guarda-do-ciclo>:
  <corpo-do-ciclo>
```  

No exemplo seguinte imprime-se os números de 1 a 20 por ordem decrescente:

In [None]:
i = 20
while i>0:
  print(i, end=' ')
  i = i - 1

O ciclo termina porque a variável de progresso `i` começa no valor 20 e vai descendo uma unidade de cada vez que o corpo do ciclo é executado. Como a guarda do ciclo só se mantém verdade enquanto `i` for positivo, temos a garantia que o ciclo irá terminar.

Vamos agora definir uma função que imprime a tabela da tabuada de um certo número. Como a tabuada vai da linha 1 à linha 10, podemos pensar num ciclo que repete dez vezes a respetiva conta.


In [None]:
def tabuada(n):
  i = 1
  while i <= 10:
    print(f'{n} vezes {i:2} igual a {n*i:2}')
    i = i + 1

In [None]:
tabuada(8)

Leiam a função `tabuada` e identifiquem o corpo e a guarda do ciclo, bem como a variável de progresso.

Observemos o seguinte ciclo:

In [None]:
i = 1
while i < 2:
  print(i)

Se executarem a caixa de código, vão ter de clicar no botão *stop*. Qual é o problema deste ciclo? É que a variável de progresso não está a ser atualizada. Assim, a guarda do ciclo é sempre verdadeira e _o ciclo nunca termina_! A estes ciclos cuja guarda nunca é falsa designamos por **ciclos infinitos**. Excetuando certas situações muito específicas, queremos naturalmente evitar ciclos infinitos.

Considere agora o seguinte algoritmo: Seja um número $n$. Se $n=1$ paramos. Senão, se $n$ for par, dividimos $n$ por 2, e se for ímpar, multiplicamos $n$ por 3 e adicionamos 1. Com este novo número, repetir o algoritmo.

A função `collatz` implementa este algoritmo iterativo retornando uma lista com todos os números produzidos a partir do argumento $n$ dado:



In [None]:
def collatz(n):
  result = [] # lista com os resultados produzidos de n até 1
  while n != 1:
    result.append(n)
    if n%2 == 0: # n par
      n = n//2
    else:        # n ímpar
      n = n*3+1
  result.append(1)
  return result

Vamos imprimir as listas resultados para os inteiros de 1 a 20:

In [None]:
n = 1
while n <= 20:
  print(collatz(n))
  n = n + 1

A [conjetura de Collatz](https://pt.wikipedia.org/wiki/Conjectura_de_Collatz) diz-nos que, para qualquer número positivo, este algoritmo termina sempre. Ninguém foi ainda capaz de demonstrar que a conjetura é verdade. Mas se fosse falsa, se houvesse um $n$ contra-exemplo, o ciclo acima nunca terminaria. Como podemos observar, a garantia que um dado ciclo termina nem sempre é óbvia.

Se quisermos garantir que um dado ciclo termina, será preciso analisar o algoritmo e encontrar um argumento apropriado que confirme a sua terminação. Isto é possível na grande maioria das situações.

### O Comando `for`

O segundo comando para iteração é o `for`. Nós já conhecemos esta palavra reservada associada aos geradores das listas de compreensão. Aqui vai ter um significado um pouco diferente, mas é como se extraíssemos o gerador e o deixássemos à solta!

Um ciclo `for` atualiza a variável de progresso de acordo com os valores do tipo estruturado que lhe atribuirmos. Nos seguintes exemplos, os elementos dos tipos estruturados que fornecemos ao `for` vão ser gerados, um a um, e atribuídos à variável de progresso `i`:

In [None]:
for i in "abc":
  print(i)

for i in (True, 1.0, "x"):
  print(i)

for i in ["ab", "cd"]:
  print(i)

for i in range(3):
  print(i)

Vamos implementar a função `filtro` que, dado um predicado `p` e uma lista `xs`, devolve a sublista apenas com os elementos de `xs` que satisfazem o predicado `p`. O uso do `for` permite ir buscar todos os elementos da lista, para verificarmos quais aqueles que satisfazem `p`.

In [None]:
def filtro(p, xs):
  resultado = []
  for elemento in xs:
    if p(elemento):
      resultado.append(elemento)
  return resultado

Um caso de uso que seleciona os elementos pares de uma lista:

In [None]:
def ePar(n):
  return n % 2 == 0

filtro(ePar, [1,2,3,4,5,6,7,8])

Como a gestão da variável de progresso é automática, muitas funções tornam-se mais simples com o comando `for`. Comparem a reimplementação a função `tabuada` com a versão inicial:

In [None]:
def tabuada(n):
  for i in range(1,11):
    print(f"{n} vezes {i:2} igual a {n*i:2}")

tabuada(8)

### O Comando `break`

Para minorar este problema de termos de iterar até ao fim, o Python inclui um comando que nos pode ajudar nessas situações. O comando `break`, quando executado, faz a execução do programa sair do ciclo onde este se encontra:

In [None]:
def pesquisa(x, xs):
  resultado = len(xs)

  for i in range(len(xs)):
    if x == xs[i]:
      resultado = i
      break  # encontramos x, podemos sair de imediato do ciclo for

  return resultado

pesquisa(3, [1,3,2,4,3])

### Ciclos Encadeados

Os comandos ciclo são, claro está, comandos. Como o corpo de um ciclo é composto por comandos, significa que é possível ter ciclos no corpo de outros ciclos. Por vezes estas iterações dentro de iterações são a melhor forma de resolver problemas.

Vamos considerar que queríamos imprimir as primeiras $m$ tabuadas. Já vimos que para imprimir *uma* tabuada usámos um ciclo. Podemos utilizar outro ciclo para repetir a tarefa de imprimir $m$ tabuadas.

Como sabemos exatamente quantas iterações terão de ser realizadas, escolhemos dois ciclos `for`:

In [None]:
# vamos imprimir uma tabuada na mesma linha para poupar espaço
def tabuadasAté(m):
  for n in range(1,m+1):   # 1ºciclo: iterar entre 1 e m,      variável de progresso n
    for i in range(1,11):  # 2ºciclo: imprimir a tabuada do n, variável de progresso i
      print(f"{n:02}x{i:02}={n*i:03}", end='  ')
    print()                # mudar de linha

tabuadasAté(10)

Outro exemplo: queremos implementar uma função que, dada uma lista de números e um inteiro `x`, devolve uma lista com todos os pares de índices de números da lista que somam `x`.

Uma primeira solução:

In [None]:
def pares(xs, x):
  resultado = []
  for i in range(len(xs)):    # i, indice do primeiro número do par
    for j in range(len(xs)):  # j, indice do segundo número do par
      if i < j and xs[i]+xs[j] == x:
        resultado.append((i,j))
  return resultado

No comando `if` usou-se `i<j` para evitar pares repetidos (onde apenas mudava a ordem dos índices) e para evitar que o mesmo número possa ser usado duas vezes no mesmo par.

In [None]:
pares([1,2,3,-1,4,-2,-1,0], 0)

Esta solução tem uma ineficiência que podemos remover. Se só guardamos soluções quando as variáveis de progresso satisfazem `i<j`, não faz muito sentido estar sempre a reiniciar a variável de progresso `j` ao índice `0`. Porque não começar `j` no primeiro valor possível de nos dar uma solução, ou seja, `i+1`?

Vamos conseguir fazer isto porque a variável de progresso de um ciclo pode ser usada para determinar a evolução de variável de progresso dos seus ciclos internos (já era assim com os geradores sequenciais das listas por compreensão).

Assim, uma solução mais rápida seria esta:

In [None]:
def pares(xs, x):
  resultado = []
  for i in range(len(xs)):
    for j in range(i+1, len(xs)):
      if xs[i]+xs[j] == x:   # deixou de ser necessário ter aqui o 'i<j'
        resultado.append((i,j))
  return resultado

In [None]:
pares([1,2,3,-1,4,-2,-1,0], 0)

### Exercícios

<font size="+4" color="blue;green"><b>?</b></font> Defina a função `potencias2Ate(limite)` que devolve a lista de todas as potências de dois até o número limite dado (exclusive). Use um comando de ciclo.



In [None]:
def potencias2Ate(limite):
  pass # ponham aqui a vossa solução

In [None]:
assert potencias2Ate(5000) == [1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096]

Um parque de diversões vende diferentes bilhetes por idade:

+ Adultos pagam 10€ de entrada,

+ Reformados (mais de 64 anos) pagam 5€

+ Jovens entre os 6 e os 17 anos (inclusive) pagam 3€

+ Crianças com menos de 6 anos não pagam bilhete

<font size="+4" color="blue;green"><b>?</b></font> Defina a função `precoTotal` que recebe uma lista de idades e calcula o preço total desses bilhetes.

In [None]:
def precoTotal(idades):
  pass # ponham aqui a vossa solução

In [None]:
assert precoTotal([65,65,3]) == 10
assert precoTotal([35,38,12,5]) == 23

<font size="+4" color="blue;green"><b>?</b></font> Defina a função `triangulares(limite)` que devolve a lista de todos os [números triangulares](https://en.wikipedia.org/wiki/Triangular_number) até o número limite dado (exclusive).



In [None]:
def triangulares(limite):
  pass # ponham aqui a vossa solução

In [None]:
assert triangulares(100) == [0, 1, 3, 6, 10, 15, 21, 28, 36, 45, 55, 66, 78, 91]

## Geradores

O comando `return` termina a execução da função e devolve o valor da expressão que se lhe segue para quem invocou a função. Quando a função é novamente invocada, voltamos ao início da função e repetimos tudo outra vez.

Mas existe uma outra possibilidade que ainda não falámos. E se fosse possível devolver o valor como no `return` mas sem esquecer onde estávamos? Ou seja, quando se invocasse a função novamente, em vez de recomeçar no início, continuaríamos no local onde saímos da última vez.

Podemos fazer isso usando o comando `yield` em vez do `return`:

In [None]:
def g(x):
  yield x * 2
  yield x * 3
  yield x * 4

print([a for a in g(2)])
print([a for a in g(100)])

O valor associado a `g` continua a ser uma função,

In [None]:
type(g)

mas quando associamos um valor inicial `x` a `g`, a expressão `g(x)` passa a ser um **gerador** de valores baseados nesse valor inicial,

In [None]:
type(g(2))

Vamos chamar a `g` uma **função geradora** (em inglês, _generator function_).

Quando criamos um gerador podemos ter acesso aos seus elementos, um a um, de cada vez. Os geradores são um caso especial de iteradores. Por isso, podemos usar a função `next` para recolher os seus valores manualmente,

In [None]:
gen = g(2)
print(next(gen))
print(next(gen))
print(next(gen))

Quando o gerador terminar, se insistirmos em invocar o `next`, o Python produz também aqui uma exceção `StopIteration`.

In [None]:
print(next(gen))

Podemos associar geradores às listas por compreensão, ou a ciclos `for`, que invocam o comando `next` nos bastidores:

In [None]:
print([valor for valor in g(20)])

for valor in g(20):
  print(valor, end=" ")

[40, 60, 80]
40 60 80 

Para criar geradores mais interessantes podemos gerar os seus valores através de ciclos:

In [None]:
def potencias2(n):
  for i in range(n):
    yield 2**i

In [None]:
for valor in potencias2(12):
  print(valor, end= " ")

Mas nós já podíamos fazer isto com listas de compreensão normais:

In [None]:
def potencias2(n):
  return [2**i for i in range(n)]

O que se ganha com esta abordagem dos geradores?

Na versão da lista por compreensão foi preciso calcular a lista inteira de potências antes de devolver o primeiro resultado! Na versão do gerador cada valor é calculado apenas quando é preciso!! A grande vantagem é pouparmos computação e memória (lembram-se do elogio à preguiça?)

A dúzia de valores deste exemplo não parece nada de especial, mas se a lista fosse composta por milhões de valores, iríamos poupar muita memória...

Mas há outros ganhos interessantes. Podemos ter geradores infinitos! 🤔 Ou seja, geradores que nunca terminam de gerar valores.	😲 A Matemática tem montes de exemplos onde podemos aplicar esta ideia: o conjunto dos naturais, o conjunto dos números primos, uma progressão aritmética, a sequência de Fibonacci...

Já que falamos dela, vamos criar um gerador para a sequência de Fibonacci

In [None]:
def fibonacci():
  a,b = 1,1
  while True:   # ciclo infinito!
    yield a
    a,b = b,a+b

In [None]:
fibs = fibonacci()

Se executarmos o seguinte código várias vezes:

In [None]:
for i in range(20):
  print(next(fibs), end= " ")
print('...')

vamos reparar que a geração de valores continua, não estamos a voltar aos valores iniciais. O gerador tem memória da computação que já foi efetuada.

E podemos manipular diferentes gerações ao mesmo tempo, sem que haja interferência!

In [None]:
fibs1 = fibonacci()
fibs2 = fibonacci()

print(next(fibs1), next(fibs1), next(fibs1), next(fibs1))
print(next(fibs2), next(fibs2), next(fibs2))

O que os geradores têm de distinto dos iteráveis como listas, tuplos ou conjuntos? Enquanto nestes últimos iteramos sobre valores previamente armazenados numa estrutura de dados, nos geradores a iteração de elementos provém da execução de um algoritmo. Isto significa que a iteração é resultado de um processo, de uma computação. Daí estas possibilidades de (a) poupar memória porque geramos só os elementos necessários, e (b) a existência de geradores infinitos, onde não há limite ao número de valores que o gerador pode disponibilizar.

### Converter Geradores em Tipos Estruturados


Se convertermos um gerador num tuplo ou lista, o Python vai gerar todos os valores:

In [None]:
def potencias2(n):
  for i in range(n):
    yield 2**i

In [None]:
print(list(potencias2(10)))
print(tuple(potencias2(10)))

Mas atenção: tentar converter um gerador infinito para um qualquer tipo estruturado produz uma computação que não termina.

### Exemplos de geradores

Nos exemplos que se seguem vamos utilizar os seguintes geradores:

In [None]:
def potencias2(n):
  for i in range(n):
    yield 2**i

def fibonacci():
  a,b = 1,1
  while True:
    yield a
    a,b = b,a+b

def fatoriais():
  i, fact = 0, 1
  while True:
    yield fact
    i, fact = i+1, (i+1)*fact

Dada a existência de geradores infinitos, vamos começar por implementar a função geradora `head`, que recebe um iterável e um inteiro positivo $n$, e retorna um gerador que gera apenas os primeiros $n$ valores do iterável dado:

In [None]:
def head(xs, n):
  it = iter(xs)
  for _ in range(n):
    yield next(it)

Esta função funciona bem para geradores infinitos:

In [None]:
gen = head(fibonacci(), 12)

print(*gen)  # transforma os valores do gerador numa lista de argumentos

O que ocorre se lhe dermos um iterável com menos valores que $n$?

In [None]:
gen = head(potencias2(10), 12)

print(*gen)

É produzido um erro de execução pelo lançamento da exceção `StopIteration`. Este resultado não nos deve surpreender. Afinal, tentámos gerar mais valores dos que existiam.

Podemos corrigir este problema passando a responsabilidade de gerir o iterável para o comando `for`:

In [None]:
def head(xs, n):
  for i,x in enumerate(xs):
    if i==n:
      break
    yield x

In [None]:
gen = head(potencias2(10), 12)

print(*gen)

Em geral, nas próximas soluções, não nos iremos preocupar com este aspeto para não sobrecarregar o código das funções geradoras. Assumiremos que não serão pedidos mais valores do que aqueles que existem.

Vamos definir a função geradora `tail` que, dado um gerador `g`, deita fora os primeiros $n$ valores gerados de `g` para, a seguir, gerar os valores restantes.

Esta função é, de certa forma, o complemento da função `head`:

In [None]:
def tail(g, n):
  for _ in range(n):  # gerar os primeiros n valores sem os usar
    next(g)
  yield from g        # agora passamos o funcionamento para g

In [None]:
gen = tail(potencias2(20), 5) # «remover» os primeiros cinco valores
gen = head(gen, 10)           # gerar os dez seguintes

print(*gen)

Como implementar um gerador para os números naturais $\mathbb{N}^+$?

In [None]:
def naturais():
  i = 1
  while True:
    yield i
    i = i+1

In [None]:
gen = head(naturais(), 20)

print(*gen)

Podemos usar os naturais para gerar os inteiros $\mathbb{Z}$. Por convenção, vamos devolver alternadamente os valores positivos e negativos.

In [None]:
def inteiros():
  yield 0
  for n in naturais():
    yield  n
    yield -n

In [None]:
gen = head(inteiros(), 20)

print(*gen)

### O módulo `itertools`

Vamos explorar algumas das funções geradoras disponíveis neste módulo:

In [None]:
import itertools as its

A função geradora `count` é similar ao `range`, mas é infinita:

In [None]:
gen = head(its.count(10, 3), 20) # gera 10, 10+3, 10+6, ...

print(*gen)

A função `cycle` gera os valores do iterável dado e, chegando ao fim, recomeça do início:

In [None]:
gen = head(its.cycle('abcd*'), 23)

print(*gen)

A função `chain` encadeia vários geradores. Excepto o último, todos os geradores em cadeia têm de ser finitos, para haver a possibilidade de passar para o gerador seguinte:

In [None]:
gen1 = head(naturais(), 7)
gen2 = potencias2(8)
gen3 = head(fibonacci(), 6)

gen = its.chain(gen1, gen2, gen3)

print(*gen)

### Operadores Combinatórios

> Para facilitar a impressão de valores dos próximos iteráveis e geradores, define-se a seguinte função auxiliar:

In [None]:
#@title função `printIt`
def printIt(it, is_number=True, per_line=24):
  """ imprime valores (desde que iteráveis) gerados por 'it' """
  if is_number:
    it = map(str, it)
  join = lambda t : ''.join(str(c) for c in t) # concatenate values in a single string
  elems = map(join, it)                        # apply join() to all values of 'it'

  for i, elem in enumerate(elems):             # print elements
    if i%per_line == per_line-1:
      print(elem)
    else:
      print(elem, end='  ')

  if i%per_line < per_line-1:    # footnote report
    print()
  print(f'[{i+1} vals]')         # how many values were generated

O módulo `itertools` tem várias funções para contagem combinatorial.

In [None]:
import itertools as its

bolas = ["🔴","🟠","🟡","🟢","🔵"]    ### ,"🟤","🟣","⚫","⚪"]

Por exemplo, como posso colocar uma bola de cor diferente por caixa, com três caixas indiferenciadas e tendo cinco bolas?

In [None]:
gen = its.combinations(bolas, 3)

printIt(gen, is_number=False)

E se poder repetir as cores das bolas?

In [None]:
gen = its.combinations_with_replacement(bolas, 3)

printIt( gen, per_line=10, is_number=False)

Agora as caixas são marcadas, há a primeira, segunda e terceira caixa.

Primeiro não repetindo cores:

In [None]:
gen = its.permutations(bolas, 3)

printIt(gen, per_line=10, is_number=False )

E, segundo, podendo repetir cores:

In [None]:
gen = its.product(bolas, repeat=3) # produto cartesiano

printIt(gen, per_line=10, is_number=False )

### Exercícios

<font size="+4" color="blue;green"><b>?</b></font> Usando o gerador dos números naturais, implemente uma função geradora para o conjunto dos números quadrados, $\{n^2 | n \in \mathbb{N}^+ \}$.



In [None]:
def quadrados():
  pass # ponham aqui a vossa solução

In [None]:
gQuad = quadrados()
assert [next(gQuad) for _ in range(10)] == [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

<font size="+4" color="blue;green"><b>?</b></font> Crie a função geradora `nextMinute` que retorna um gerador que gera pares com as horas e minutos desde a meia-noite até às 23:59, i.e., desde o par `(0,0)` até `(23,59)`.



In [None]:
def nextMinute():
  pass # ponham aqui a vossa solução

In [None]:
minutos = nextMinute()
for n in range(10):
  print(next(minutos), end=' ')

(0, 0) (0, 1) (0, 2) (0, 3) (0, 4) (0, 5) (0, 6) (0, 7) (0, 8) (0, 9) 

<font size="+4" color="blue;green"><b>?</b></font> Defina a função geradora `unique` que recebe um iterável e devolve um gerador sobre os elementos únicos do iterável dado.

In [None]:
def unique(xs):
  pass  # ponham aqui a vossa solução

In [None]:
for n in unique( x for x in [1,2,4,3,2,4,1,2,3] ):
  print(n, end=' ')  # 1 2 4 3

<font size="+4" color="blue;green"><b>?</b></font> Defina a função geradora `mapper` que recebe uma função `f` e um iterável e gera todos os valores do iterável após serem aplicados a `f`

In [None]:
def mapper(f, xs):
  pass   # ponham aqui a vossa solução

In [None]:
def dobro(x):
  return 2*x

g = mapper(dobro, range(5))
assert list(g) == [0, 2, 4, 6, 8]