# Análise de Dados em Python: Introdução ao Python (parte I)

2023/24 -- João Pedro Neto, DI/FCUL

## Introdução

Nesta primeira parte iremos apresentar um conjunto fundamental de conceitos para programar, e em particular, com o Python.

Podemos começar já com o primeiro conceito: uma **linguagem de programação** é uma ferramenta para escrever algoritmos.

Algoritmo é um termo mais conhecido, e mais antigo que os computadores. Um **algoritmo** é como uma receita onde se descreve, passo a passo e com detalhe, o que é preciso fazer para resolver um dado problema.

Um algoritmo está sempre associado a um certo **problema**, e é em relação a esse problema em particular que dizemos se o dado algoritmo está certo ou errado. Por exemplo, se eu escrevo um algoritmo para resolver o problema de encontrar as raízes de um polinómio, ele de pouco vai servir para resolver o problema de ordenar números.

Quando programamos em Python (ou noutra linguagem) escrevemos os nossos algoritmos obedecendo às *regras da linguagem*. No caso do Python vamos ter de aprender as suas regras; para além disso, vamos também aprender sobre os seus *recursos*: as funcionalidades que existem no Python para nos ajudar a escrever algoritmos. O desempenho e a produtividade de uma linguagem de programação são muito importantes para o desempenho e a produtividade de um programador.

A escrita dos algoritmos passa por agruparmos sequências de **comandos** (ordens, instruções) uns a seguir aos outros. A esta sequência de comandos chamamos um **programa**. Quando terminamos de escrever um programa (já lá iremos), o Python será capaz de o executar. A **execução** de um programa corresponde à execução dos seus comandos individuais, desde o primeiro até ao último comando.

Cada comando, quando executado, corresponde a um evento, a uma ação específica. Uma das coisas que vamos aprender é o conjunto de comandos disponíveis no Python, que ações básicas eles produzem, e como combinar esses comandos para produzir ações cada vez mais complexas.

À sequência das ações produzidas durante a execução de um programa designamos por **computação**. A consequência final de uma computação será, se tudo correr bem, obter a resposta do problema inicial.

## Começando com o Python

Um dos comandos do Python chama-se `print`. Este comando recebe uma frase e mostra-a no ecrã:

In [None]:
print("Olá Mundo!")
print('🙋🏼🌎❗')

Olá Mundo!
🙋🏼🌎❗


Lá está, não é grande coisa.. mas é só o primeiro exemplo!

Algumas notas:

+ Na programação é costume chamar _strings_ a estas frases.

+ As _strings_ em Python têm de ser rodeadas por aspas (ou plicas). Esta é uma das regras do Python.

+ O `print` é um género de comando a que se chama **função**. Vocês conhecem funções das aulas de Matemática. Aqui são um pouco diferentes, mas a ideia é a mesma. As funções no Python recebem, entre parênteses, valores do seu domínio. Se houver mais que um valor a receber, eles têm de ser separados por vírgulas. Aos valores enviados para as funções costumam-se chamar **argumentos**.

+ Quando a função termina, ela irá devolver um valor e/ou efetuar uma ação. No caso do `print` nada é devolvido e a ação é imprimir os valores dos argumentos no ecrã.


In [None]:
print('Olá', 'Mundo', '!') # podemos dar várias strings como argumentos ao print

> ao escreverem o carater `#` tudo a seguir é considerado como comentário, não sendo executado.

Podemos alternar a definição de *strings* entre as aspas `"` e as plicas `'`:

In [None]:
print('Preciso de usar uma "', "e também uma '")

O Python também serve como calculadora:

In [None]:
1+1

In [None]:
3*(2+1)

In [None]:
(3*(2+1))**2   # o operador ** é a potência

<font size="+4" color="blue;green"><b>?</b></font> Experimentem vocês a calculadora: quantos segundos existem num dia? Escrevam a expressão na caixa seguinte e mandem executar.

In [None]:
# ponham aqui a vossa solução


Reparem que a função `print` ou um operador como o `+` recebem informação e produzem um resultado. Costuma-se chamar à informação recebida pelas funções de **input**, e à informação ou ação devolvida de **output**.


## Tipos e literais

Pelos exemplos acima podemos notar que existem, no Python, pelo menos dois tipos de informação: *strings* e números.

Na programação usa-se precisamente o termo **tipo** (em inglês, *type*) para separar diferentes géneros de informação.

Estes tipos que identificámos chamam-se `int` e `str`, abreviaturas de *integer* e *string*.

Se tivermos dúvidas podemos usar a função `type` para nos esclarecer:

In [None]:
type(1)

In [None]:
type("Olá Mundo")

Uma experiência: vamos imprimir o número 500.000, ou seja, meio milhão:

In [None]:
print(500.000)

O que aconteceu?

Vamos conhecer um terceiro tipo do Python:

In [None]:
type(500.000)

float

A informação de tipo `float` corresponde aos números com parte decimal. E o ponto é usado para separar a parte inteira da decimal, ao contrário do que estamos habituados em Portugal.

Ou seja, no caso acima, o que nós pedimos para imprimir foi o número 500,000 ou seja, 500,0 já que os zeros mais à direita da vírgula (ponto?) não valem nada.

O que temos aqui é um exemplo de um *erro semântico*. *A nossa interpretação prévia não correspondia à interpretação do Python*. Um erro semântico não é um erro de acordo com a sintaxe do Python, nem tem de produzir um erro de execução. É um equívoco inesperado a resolver pelo programador.

E reparem na natureza subjetiva dos erros semânticos. A partir do momento em que está esclarecida a questão, o significado de `500.000` e o efeito do `print` deixam de ser surpreendentes.

O Python tem sintaxes próprias para os valores destes diferentes tipos. Estas sintaxes próprias são importantes para o Python saber qual o tipo que o programador quer usar. Por exemplo,

+ o valor `1` representa o inteiro um,

+ o valor `1/2` representa o float metade

+ o valor `"metade"` representa a frase composta pela palavra "metade"

Estas representações costumam ser chamadas de **literais**, onde cada literal representa um valor distinto do respetivo tipo.

Os diferentes valores do mesmo tipo podem relacionar-se através de operadores. Vejamos uns exemplos:

In [None]:
print(120 + 300)
print(120.0 + 300.0)
print("Olá " + "Mundo")
print('---------')
print(3 * 2)
print(3.0 * 2.0)
print(3 * "Ping ")
print(20*'-')
print(5 // 2)
print(5 % 2)
print(5.0 / 2.0)
print('---------')
print(120 >= 100)     # >= é o símbolo para maior ou igual
print('a' in 'banana')

Alguns comentários:

+ Podemos compor vários valores com várias operações, para realizar contas arbitrariamente complexas. Estas combinações de valores e operações, que são avaliadas para dar um resultado, chamam-se **expressões**.

+ A operação `+` pode ser usada com tipos diferentes. A adição de cada tipo corresponde uma função distinta, executando comandos distintos. No caso das *strings*, por exemplo, o `+` efetua uma concatenação (isto é, junta as duas frases numa só).

+ O mesmo ocorre com a operação `*`. Serve de multiplicação para os tipos `int` e `float`, mas para *strings* concatena uma mesma frase $n$ vezes.

+ O caso da divisão é problemático para valores do tipo `int`. A expressão `5/2` que divide dois inteiros resulta em `2.5`, mas este resultado não é inteiro... O Python distingue três (!) operadores para a divisão: a divisão habitual que pode resultar em números decimais usa o operador `/`, o quociente e o resto da divisão inteira usam respetivamente os operadores `//` e `%`.

+ Operações como `+` e `/` são funções como o `print` e `type`. Só que por motivos históricos estamos habituados a escrever os operadores no meio dos argumentos (chama-se *notação infixa*) e os nomes das restantes funções antes dos argumentos (*notação prefixa*). O Python satisfaz-nos este mau hábito notacional.

+ O operador `in` verifica se a primeira *string* está contida na segunda.

+ Os dois últimos exemplos produziram um resultado ainda não visto. De que tipo é o literal `True`?

In [None]:
type(True)

Eis o nosso quarto tipo Python. O tipo `bool` representa valores lógicos e tem apenas dois valores possíveis: os habituais 'verdadeiro' e 'falso' que conhecemos da Lógica. Os literais que os identificam são `True` e `False`.

Alguns operadores lógicos:

In [None]:
print(10 == 12)
print(10 != 12)             # != é o símbolo para diferente
print(10 < 20 and 20 < 30)
print(not(1 != 2) or "Olá" != "Mundo")

O Python permite que tentem converter valores de um tipo noutro tipo:

In [None]:
print(int(1.0))
print(float(2))
print('---------')
print(bool(0))     # zero é considerado Falso
print(bool(-1.5))  # qualquer outro valor é considerado Verdadeiro
print(int(True))
print('---------')
print(int(1.4))    # converter de float para int resulta em perda de precisão
print(int(-1.6))
print('---------')
print(round(155.162,  2))  # função que arrendonda a n casas decimais
print(round(153.162, -2))  # se n é negativo, arredonda às 10s, 100s, 1000s...

As operações e as funções têm sempre um domínio de aplicação. Se não respeitarmos esses domínios, coisas estranhas podem acontecer:

In [None]:
print(1/0)

Aqui temos o nosso primeiro exemplo de *erro de execução*. Apesar de ser sintaticamente correto escrever `1/0`, o facto é que a divisão não admite zeros no denominador. Quando o Python tenta executar esta operação, resulta na paragem da computação. O que é produzido, em vez do resultado esperado, é uma mensagem de erro. Falaremos mais sobre estes erros no futuro.

Vejamos mais um exemplo de erro de execução. O Python tenta ser flexível se derem a um operador valores de tipos diferentes. Mas há certas combinações que o Python não consegue calcular:

In [None]:
print(1 + 2.0)    # o Python converte 1 para 1.0
print(1 + True)   # o Python converte True para 1
print(1 + "True") # o Python não faz milagres

### O módulo `math`


Existem muitas funções Python para manipulação numérica. Várias delas encontram-se no módulo `math`.

Um **módulo** Python é um conjunto de funcionalidades organizadas tematicamente. No caso do `math` o tema é, sem surpresa, a matemática. Para usar as funcionalidades de um módulo temos de o importar com o comando `import`:

In [None]:
import math

print(math.floor(1.55))    # arredonda para baixo
print(math.ceil(1.55))     # arredonda para cima
print(math.factorial(50))  # função fatorial
print(math.pi)             # constante matemática
print(math.cos(math.pi/2)**2 + math.sin(math.pi/2)**2)  # cos(x)^2 + sin(x)^2 == 1

O Python é uma das linguagens mais usadas no Mundo. O número disponível de módulos Python andará na ordem das dezenas de milhar. Os temas abordados cobrem basicamente todas as áreas da Ciência e Matemática (e não só). É o seu ecossistema de funcionalidades que dá enorme riqueza a uma linguagem de programação.

Terminamos esta secção conhecendo quatro tipos: `int`, `str`, `float`, e `bool`. À medida que avançarmos na matéria iremos ver que o Python tem bastantes mais tipos.

Todos os tipos podem ser vistos da seguinte perspetiva: *um tipo é um conjunto de valores relacionados por um conjunto de operações*.

## Variáveis

Uma das características de linguagens de programação, como o Python, é a capacidade de armazenar informação enquanto a computação se desenrola. O Python permite-nos gerir essa informação com o uso de variáveis.

Uma **variável** é identificada por um nome e está associada a um valor de um certo tipo.

Usa-se o operador de atribuição `=` para criar variáveis e associar-lhes valores.


In [None]:
aMinhaPrimeiraVariavel = 1 + 2

A ação que decorre de executar este comando é a seguinte:

1. O Python avalia a expressão à direita do comando de atribuição e armazena o seu resultado num espaço de memória, neste caso o resultado é `3`.

1. O Python cria uma variável cujo nome é `aMinhaPrimeiraVariavel` (se for a primeira vez que este nome aparece, senão recicla a variável que já existe).

1. O Python associa à respetiva variável, o valor criado pela avaliação da expressão.

Adiante no programa podemos recuperar o valor associado à variável:

In [None]:
aMinhaSegundaVariavel = 4

print(aMinhaPrimeiraVariavel + aMinhaSegundaVariavel)

### Leitura e Escrita de Variáveis



Uma variável pode aparecer à direita do operador de atribuição, no meio de uma expressão. Neste caso, o Python vai buscar o valor associado à variável e usa-o na expressão.

In [None]:
umValor = 100
oValorSeguinte = umValor + 1

print(oValorSeguinte)

E até pode aparecer nos dois lados ao mesmo tempo:

In [None]:
umValor = 100
umValor = 2 * umValor

print(umValor)

Vamos esclarecer uma dúvida comum: uma variável do Python não é uma variável matemática. Quando escrevemos uma equação $x = x + 1$, esta equação não pode ser satisfeita em $x \in \mathbb{R}$.

Mas em Python $x = x + 1$ não tem esta semântica. O operador `=` não representa igualdade mas sim atribuição. Quando avaliamos o comando `x = x + 1` o que estamos a dizer é o seguinte:

1. Avaliar a expressão `x + 1` guardando o resultado num espaço de memória

2. Associar esse resultado à variável `x`

## Exercícios

O Python inclui as denominadas _f-strings_ que facilitam a inclusão de valores de variáveis. Eis um exemplo:

In [None]:
baseTriangulo   = 10.0
alturaTriangulo = 5.0
areaTriangulo   = baseTriangulo * alturaTriangulo / 2

report = f'A base do triângulo é {baseTriangulo}cm, a altura é {alturaTriangulo}cm, ' \
         f'o que resulta numa area de {areaTriangulo}cm²'               # usar \ para mudar de linha

print(report)

A base do triângulo é 10.0cm, a altura é 5.0cm, o que resulta numa area de 25.0cm²


<font size="+4" color="blue;green"><b>?</b></font>
Escreva um programa que produza o seguinte output

          A maria tem 165cm de altura, o que também é dizer que tem 1.65m
          O joao tem 170cm de altura
          A soma das suas alturas, em mm, é de 3350mm

In [None]:
alturaMaria = 165
alturaJoao = 170

# ponham aqui a vossa solução

---

Podem usar a função `input` para receber dados do utilizador (têm de premir `ENTER` no fim):

In [None]:
idade = input('Que idade tem? ')

In [None]:
anoNascimento = input('Nasceu em que ano? ')

Esta função devolve o que foi escrito numa _string_.

<font size="+4" color="blue;green"><b>?</b></font> Agora complete o programa para que, baseado nos valores inseridos, se imprima uma frase como a seguinte:

`Então estamos no ano 2023 ou 2024`

In [None]:
# ponham aqui a vossa solução

---

<font size="+4" color="blue;green"><b>?</b></font> Considere a seguinte situação:

> A Ana foi ao mercado e comprou 1.5Kg de cenouras (a 0.75€/Kg), três alfaces (cada unidade custa 43 cêntimos) e 2 Kg de tomate (a 1.25€/Kg). Quando dinheiro gastou a Ana?

Modele e resolva este problema usando variáveis adequadas.

In [None]:
# ponham aqui a vossa solução

---

<font size="+4" color="blue;green"><b>?</b></font> Peça ao utilizador três números inteiros. Imprima o número do meio.

dica: o Python tem disponíveis os comandos `max` e `min`.

In [None]:
# ponham aqui a vossa solução

## Tipos Estruturados

Anteriormente conhecemos quatro tipos do Python, o `int` e `float` para representar números; o tipo `str` que representa frases; e o tipo `bool` que representa valores lógicos.

O tipo `str` era um pouco diferente dos outros. As *strings* podem ser vistas como representando uma sequência de caracteres; enquanto para os restantes tipos, um literal representa apenas um valor. Para salientar esta distinção dizemos que as *strings* são **tipos estruturados**.

Vamos conhecer outros tipos estruturados do Python ainda mais versáteis que as *strings*. As *strings* apenas podem conter caracteres, mas estes novos tipos podem conter múltiplos valores de outros tipos à escolha do programador.

### Tuplos

O tipo **tuplo** é inspirado no tuplo matemático: corresponde uma sequência fixa de valores, ou **componentes**, de um ou mais tipos.

A sintaxe para definir um tuplo é usar parênteses, separando os valores de cada componente por vírgulas.

Um exemplo: estamos todos habituados a definir um ponto a três dimensões como um triplo de coordenadas. Ora um triplo é um tuplo com três componentes.

In [None]:
ponto3D = (1.0, 2.0, 3.0)

print(ponto3D)

O número de componentes de um tuplo e o seu conteúdo são definidos no momento em que o tuplo é avaliado.

In [None]:
umNome = ("João", "Neto") # um par de strings

print(umNome)

Se quisermos definir um tuplo com apenas uma componente temos de usar a seguinte sintaxe:

In [None]:
singleton = ("estou sozinho", )

print(singleton)

Como referido no início, as componentes podem ser de tipos distintos:

In [None]:
# exemplo de um registo com nome, apelido, identificador, altura e se é docente
registoPessoa = ("João", "Neto", 12345, 1.72, True)

Podemos usar o operador de atribuição para aceder às componentes do tuplo,

In [None]:
nome, apelido, idProf, altura, eProfessor = registoPessoa

print( f"{nome} tem {altura}m de altura" )

Dado um tuplo podemos aceder às componentes que quisermos através da sintaxe `tuplo[i]`. O valor `i` é chamado de **índice**. O índice é a posição da componente no tuplo que queremos. Por convenção, a primeira componente de um tuplo tem índice zero.

In [None]:
print( f"{registoPessoa[0]} tem {registoPessoa[3]}m de altura" )

Aos tipos estruturados que podemos aceder às componentes via índices chamamos de **tipos indexados**.

Outro tipo indexado são as *strings*. Podemos usar o mesmo mecanismo para aceder a certos caracteres da frase:

In [None]:
umaString = "Olá Mundo"

print(umaString[2])

O Python é bastante uniforme como trata os seus tipos estruturados. Todos os tipos estruturados que sejam indexados usam esta sintaxe dos parênteses retos para aceder às suas componentes.

Os tuplos têm algumas funções associadas:

+ a soma de dois tuplos junta as componentes num tuplo resultado

+ a multiplicação de um tuplo por um inteiro resulta na sucessiva soma do tuplo consigo próprio

+ `index` devolve o primeiro índice onde está uma dada componente

+ `count` conta quantos componentes são iguais a um dado valor

+ `len` devolve o número de componentes

In [None]:
oMeuTuplo = (1, 2, 3, 1, 1, 9)

print(oMeuTuplo + oMeuTuplo)
print(oMeuTuplo * 2)
print(oMeuTuplo.index(3)) # a primeira ocorrência de 3 está no índice 2
print(oMeuTuplo.count(1)) # existem três ocorrências do valor 1
print(len(oMeuTuplo))     # o tuplo tem seis componentes

Reparem que a sintaxe para executarmos estas funções nem sempre foi a mesma. Para o `index` e `count` usámos um ponto para separar o tuplo da função. Ainda é cedo para explicar o porquê desta diferença.


Uma última nota sobre os tuplos. Uma vez definido um tuplo não o podemos alterar. Vamos tentar para ver o que acontece:

In [None]:
umTuplo = (1, 2, 3)

umTuplo[1] = 0

Ocorreu um erro de execução porque tentámos alterar uma das componentes do tuplo. Um tipo cujos valores não se podem modificar designa-se por **imutável**.

Outro tipo imutável que já conhecemos são as *strings*.

In [None]:
umaString = "olá Mundo"

umaString[0] = "O"

Em contraste, num tipo **mutável** os seus valores podem ser modificados. Na secção seguinte vamos apresentar um tipo  mutável, as listas.

### Listas

As listas são, provavelmente, o tipo estruturado mais importante do Python.

Uma **lista** é um tipo indexado mutável que armazena uma sequência de valores. Sendo mutável significa que é possível alterar, durante a execução do programa, os elementos de uma lista.

E, enquanto um tuplo tem um número fixo de componentes, o número de elementos guardados numa lista pode variar.

As listas são identificadas sintaticamente por parênteses retos `[]` sendo os vários valores separados por vírgulas. Apesar dos parênteses retos serem o mesmo elemento sintático que usamos para indexar, o Python não se confunde.


In [None]:
umaLista = [1, 2, 3]

print(umaLista)
print(umaLista[0])

Algumas funções úteis para manipulação de listas:

+ o operador `+` concatena duas listas

+ o operador `*` multiplica o conteúdo de uma lista (similar aos tuplos)

+ o operador `in` verifica se um elemento está numa lista

+ `len(lista)` devolve o número de elementos da lista

+ `lista.append(x)` junta o elemento `x` ao fim da lista

+ `lista.extend(xs)` junta os elementos do tipo estruturado `xs` ao fim da lista

+ `lista.insert(i, x)` insere o elemento `x` no índice `i` (a lista cresce um elemento)

+ `lista.remove(x)` remove da lista a primeira ocorrência do elemento `x`

+ `lista.sort()` ordena a lista por ordem crescente *desde* que os elementos sejam comparáveis entre si.

In [None]:
umaLista.append(4)
print(umaLista)

print(10 in umaLista)  # o elemento 10 pertence à lista?

umaLista.extend ([5, 10] )
print(umaLista)

umaLista.extend( (2, True) ) # podem ter valores de tipos diferentes, como nos tuplos
print(umaLista)

umaLista.insert(1, "Olá!")
print(umaLista)

As listas são tão flexíveis que até podemos ter listas de listas (de listas (de listas (...))),

In [None]:
listaDeListas = [ [3,4,5], [6,8,9] ]

Este tipo de organização pode ser útil para representar estruturas como tabelas ou matrizes.

### Listas por Compreensão

As listas por compreensão é uma funcionalidade do Python para criar, de forma concisa, listas baseadas em outros valores estruturados.

A ideia da notação que vamos aprender inspira-se na notação usada na Matemática para definir conjuntos.

Por exemplo, este conjunto representa todos os quadrados de números naturais menores que 20:

$$\{ x^2 : x \in \mathbb{N^+}, x < 20 \}$$

como podemos criar uma lista com os mesmos elementos?

In [None]:
lista = [ x**2 for x in range(1, 20) ]

print(lista)

Vamos olhar com atenção para este comando.

<center><code>  <font size="+1">[ <font color='red'>x**2</font> <font color='blue'>for</font>  <font color='red'>x</font> <font color='blue'>in</font>  <font color='purple'>range(1, 20)</font> ]
</font></code></center>

+ A expressão inicial `x**2` corresponde à expressão comum partilhada pelos elementos da lista final. Neste caso serão quadrados de um certo número `x`.

+ O que se escreve a seguir à palavra reservada <font color='blue'>for</font> define como os vários `x` vão ser gerados.

+ <font color='red'>x</font> <font color='blue'>in</font>  <font color='purple'>range(1, 20)</font> define como se geram os valores `x`. Neste caso usamos uma função especial do Python `range` que gera todos os números de 1 a 20 (exclusive).

* À variável `x` que vai recebendo os valores do gerador costumamos chamar de **variável de progresso**.



Vejamos algumas variações:

In [None]:
print( [ x**3 for x in range(1,20)] )  # mudar a expressão de x^2 para x^3

print( [ x**2 for x in range(5,10)] )  # mudar o range

print( [ x**2 for x in range(10) ] )   # range(n) gera 0,1,...,n-1

print( [ x for x in range(20,1,-2) ] ) # range(a,b,c) gera a,...,b com acrescentos c

Se o valor da variável de progresso não for relevante para a construção dos valores da lista, é costume nomear a variável de progresso por `_` :

In [None]:
print( [ 1 for _ in range(10) ] )  # lista de dez uns

O uso do *underscore* neste contexto dá uma pista extra a quem lê o código, porque indica que o valor da variável de progresso não tem impacto na construção dos valores da lista.

A expressão inicial não precisa ser numérica. Alguns exemplos de outros tipos:

In [None]:
print( [ x>3 for x in range(6) ] )

print( [ (x, x>3) for x in range(6) ] )

print( [ [x, x+1] for x in range(4) ] )

<font size="+4" color="blue;green"><b>?</b></font> Escreva listas por compreensão para representar:

+ Todos os inteiros pares entre -10 de 10

+ Todos os tuplos $(n, 2n)$ com $0 \leq n < 8$

+ Todas as listas `[1], [1,2], [1,2,3], ... [1,2,3,4,5,6]`

In [None]:
# ponham aqui a vossa solução

In [None]:
#@title
print( [ x for x in range(-10,11,2) ] )
print( [ 2*x for x in range(-5,6) ] )

print( [ (n, 2*n) for n in range(0,8) ] )

print( [ [n+1 for n in range(size)] for size in range(1,7) ] )
print( [ list(range(1,size+1)) for size in range(1,7) ] ) # alternativa

### Outras operações sobre listas por compreensão

As listas por compreensão permitem  eliminar certos valores que não queiramos.

Um **filtro** é uma expressão booleana que tem de ser satisfeita para que o  elemento em questão faça parte da lista final. Um filtro surge depois da palavra reservada `if`.

No exemplo seguinte, vamos devolver todos os tuplos possíveis $(x,y)$, onde $1 \leq x,y \leq 3$, desde que $x \neq y$:

In [None]:
[ (x, y) for x in range(1,4)
         for y in range(1,4)
         if x != y ]

As listas por compreensão permitem ter geradores em sequência

In [None]:
[ (x, y) for x in range(1,4) for y in range(6,9) ]

Quando colocamos dois geradores `g1, g2` em sequência, para cada valor gerado de `g1`, o gerador `g2` é reiniciado para gerar todos os seus números. Isto significa que quanto mais para o fim um gerador tiver na sequência, mais trabalho ele vai ter:

In [None]:
[ (x, y, z) for x in range(1,3)
            for y in range(6,9)
            for z in range(-2,0) ]

Para além de geradores em sequência, existe também a possibilidade de gerar valores em 'paralelo' com a função `zip`. Neste caso, os valores dos dois (ou mais) geradores vão sendo gerados em simultâneo,

In [None]:
[ x*y for (x,y) in zip(range(1,4), range(5,8)) ]  # [1*5, 2*6, 3*7, 4*8]

### Tipos estruturados como geradores


Nas listas de compreensão temos usado `range` para gerar valores.

O Python também permite usar tipos estruturados como geradores.

Alguns exemplos:

In [None]:
print( [ x for x in ("João Neto", 41455, 1.72, True) ] )  # gerador com tuplo

print( [ x for x in "João Neto" ] )                       # gerador com string

print( [ str(x) for x in [1, 2, 3] ] )                    # gerador com listas

A função `range` pode ser usada fora das listas por compreensão para criar listas simples:

In [None]:
tabuadaDos9 = list(range(9,91,9))

print(tabuadaDos9)

## Estudo de um Problema

Vamos terminar este capítulo com a resolução de um problema mais elaborado. O tema é o  lançamento de dados.

Para representar o lançamento aleatório de dados temos de usar o módulo `random` que inclui funções para gerar números aleatórios. No nosso caso, vamos trabalhar com a função `randint(a,b)` que gera um inteiro entre `a` e `b` (inclusive).

In [None]:
import random

print([random.randint(1,6) for _ in range(10)])  # lançamento de dez dados

O problema é este. Se lançarmos três dados e os somarmos, sabemos que há resultados mais prováveis que outros. Por exemplo, a soma 3 (todos os dados saíram na face um) é mais improvável de sair que a soma 10. Gostaríamos de saber as proporções dos vários valores possíveis da soma.

Este é uma pergunta típica de probabilidades. Nós aqui vamos tentar dar uma resposta aproximada através de uma simulação. O que significa simular neste contexto?

Podemos usar o Python para realizar a experiência de lançar três dados e somá-los:

In [None]:
numDados = 3

lancamentoDados = [random.randint(1,6) for _ in range(numDados)]
experiencia = sum(lancamentoDados)

print(experiencia)

Se fizermos esta experiência *muitas* vezes, e contabilizarmos as várias somas que vão saindo, podemos ter uma boa ideia das proporções para cada valor da soma.

In [None]:
numExperiencias = 100_000

# repetir muitas vezes a experiência, ie, lançar os dados e somar
experiencias = [ sum([random.randint(1,6) for _ in range(numDados)])
                 for _ in range(numExperiencias) ]

# os resultados possíveis de somar três dados vão de 3 a 18, ie, range(3,19)
somas = [ experiencias.count(resultado) for resultado in range(3,19) ]

# transformar em proporções
proporcoes = [ soma/numExperiencias for soma in somas ]

print(proporcoes)

Podemos criar um relatório mais informativo:

In [None]:
[ print(f'proporção de somar {resultado:2d} é ≈ {100*proporcoes[resultado-3]:4.1f}%')
  for resultado in range(3,19) ];

## Exercícios

<font size="+4" color="blue;green"><b>?</b></font> Dada a variável `palavras` com uma lista de *strings*, crie uma lista com as mesmas palavras mas onde adicionamos um 's' no final de cada. Usa listas por compreensão.

Lembre-se que pode concatenar duas *strings* com o operador `+`.

In [None]:
palavras = ['monte', 'montanha', 'vale', 'praia']

# ponham aqui a vossa solução

<font size="+4" color="blue;green"><b>?</b></font> Usando listas por compreensão crie uma lista com os primeiros 20 pares positivos.

In [None]:
# ponham aqui a vossa solução

<font size="+4" color="blue;green"><b>?</b></font> Dados dois inteiros $1 \leq a \leq b$, escreva uma lista por compreensão que contenha apenas os valores $x$ tais que $a \leq |x| \leq b$.

In [None]:
a, b = 6, 9

# ponham aqui a vossa solução

<font size="+4" color="blue;green"><b>?</b></font>
Implemente uma lista por compreensão que junta duas listas do mesmo tamanho, elemento a elemento, numa lista de pares.

Por exemplo, dadas as listas `[10,20,30]` e `[90,80,70]`, o resultado será `[(10,90), (20,80), (30,70)]`.

In [None]:
lista1 = [10,20,30]
lista2 = [90,80,70]

# ponham aqui a vossa solução

<font size="+4" color="blue;green"><b>?</b></font> Achatar uma lista (do inglês, *flatten a list*) significa converter uma lista de listas numa lista simples.

Com uma lista por compreensão, achate a lista `[[1,2,3], [4,5,6], [7,8,9]]`

In [None]:
lista = [[1,2,3], [4,5,6], [7,8,9]]

# ponham aqui a vossa solução

<font size="+4" color="blue;green"><b>?</b></font> Considere que tem uma tabela de $3 \times 4$ números organizados numa lista de listas. Pretendemos transpor a tabela, isto é, trocar as linhas pelas colunas. Faça-o com uma lista por compreensão.

In [None]:
tabela = [ [ 1,  2,  3,  4],
           [ 5,  6,  7,  8],
           [ 9, 10, 11, 12] ]

# ponham aqui a vossa solução
# tem de resultar em [[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

## Conjuntos

O tipo **conjunto**, em Python `set`, representa a noção de conjunto que conhecemos da Matemática: uma coleção de valores sem repetições nem ordem.

Este tipo tem as seguintes características:

+ Não existe uma ordem dos elementos, nem uma indexação

+ Os conjuntos não admitem repetições. Cada valor do conjunto é, por definição, único

+ São valores mutáveis, as operações sobre conjuntos alteram o próprio conjunto

+ Porém, os valores guardados num conjunto têm de ser imutáveis! Não podemos ter, por exemplo, conjuntos de conjuntos ou conjuntos de listas

Vejamos como definir conjuntos e algumas das operações que podemos usar:

In [None]:
conjuntoVazio = set()

conjunto1 = { 1, 2, 3, 4 }
conjunto2 = { 1, 3, 5, 6, 7 }

In [None]:
print("conjunto1 tem", len(conjunto1), "elementos")
print("1 pertence a", conjunto1, "? ", 1 in conjunto1)
print('-'*30)
print("União            =", conjunto1 | conjunto2 )
print("Intersecção      =", conjunto1 & conjunto2 )
print("Diferença        =", conjunto1 - conjunto2 )
print("Ou num ou noutro =", conjunto1 ^ conjunto2 )
print('-'*30)
print(f'{conjunto1} está contido em {conjunto2}? {conjunto1 < conjunto2}')

Os conjuntos são úteis no caso em que queremos remover os duplicados de uma lista. Como? Convertendo a lista para um conjunto, os duplicados são removidos. Depois é só reconverter para lista:

In [None]:
def uniques(xs):
  return list(set(xs))

lista = [4,3,2,6,5,2,3,1,3,2,6,6]

print(uniques(lista))

Podemos usar conjuntos para descobrir diferenças entre duas *strings*:

In [None]:
set('abcdefg') - set('abdghij')

## Dicionários

O tipo Python `dict`, designado por **dicionário**, tem como objetivo organizar informação onde se usam valores únicos (designados **chaves**) que se associam a certas informações.

Por exemplo, a base de dados dos alunos de uma escola pode ser armazenada num dicionário. As chaves são os números de aluno e a informação associada a cada chave é todo o registo do respetivo aluno (onde se inclui o seu nome completo, a morada, o telefone, etc.)

O tipo dicionário tem as seguintes características:

+ São estruturas mutáveis (como as listas e conjuntos)

+ Não existe uma ordem dos seus valores (como nos conjuntos e ao contrário das listas)

+ Guarda sempre pares (*chave*, *valor*)

+ São indexados pela chave (e não por um índice inteiro como era o caso nas listas e tuplos)

+ As chaves têm de ser imutáveis; os valores associados não possuem restrições

+ Se colocarmos um dicionário num ciclo `for`, são devolvidas as chaves pela ordem em que foram inicialmente inseridas

Existe uma sintaxe própria para criar dicionários:

In [None]:
dicionarioVazio = { }

# um dicionário de países, onde cada chave identifica um registo de país
paises = { 'PT' : ('Portugal', 'Lisboa', 10_310_000),
           'ES' : ('Espanha',  'Madrid', 47_350_000),
           'FR' : ('França',   'Paris',  67_390_000) }

E temos disponível um conjunto de comandos:

In [None]:
print( paises['PT'] ) # aceder ao valor associado à chave 'PT'

print('-'*20)
print(f"Existem {len(paises)} pares no dicionário paises")
print("As chaves do dicionário são:" , list(paises.keys()) )
print("Os valores do dicionário são:", list(paises.values()) )
print("Os pares do dicionário são:"  , list(paises.items()) )
print("A chave 'FR' existe no dicionário?", 'FR' in paises )
print('-'*20)

for chave in paises:
  print(chave, ':', paises[chave])

O Python permite a construção de dicionários por compreensão:

In [None]:
quadrados = { x : x**2 for x in range(6) }
print(quadrados)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25}


Sendo mutável podemos manipular o conteúdo de um dicionário,

In [None]:
quadrados[6] = 35   # inserir novos pares
print(quadrados)

del(quadrados[0])   # apagar um par
print(quadrados)

quadrados[1] = 2    # alterar o valor de uma chave existente
print(quadrados)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 35}
{1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 35}
{1: 2, 2: 4, 3: 9, 4: 16, 5: 25, 6: 35}


### Exemplos de Uso


Podemos usar dicionários para organizar informação complexa.

Por exemplo, seja a seguinte lista com filmes:

In [None]:
baseDadosFilmes = [
   ("Blade Runner 2049", 2017),
   ("Logan", 2017),
   ("The Insult", 2017),
   ("A Quiet Place", 2018),
   ("Joker", 2019),
   ("Parasite", 2019),
   ("Mangrove", 2020),
   ("A Hero", 2021),
   ("Pig", 2021),
   ("Dune", 2022),
   ("The Northman", 2022),
   ("Triangle of Sadness", 2022),
  ]

Podemos usar um dicionário para indexar os filmes por ano:

In [None]:
filmesPorAno = {}

for nome,ano in baseDadosFilmes:
  if ano not in filmesPorAno:
    filmesPorAno[ano] = [nome]
  else:
    filmesPorAno[ano].append(nome)

In [None]:
for ano in filmesPorAno:
  print(ano, ':', filmesPorAno[ano])

A função `get(chave, default)` devolve o valor associado à chave, ou devolve o valor _default_ se a chave não existir. Esta função permite simplificar o ciclo anterior:

In [None]:
filmesPorAno = {}

for nome,ano in baseDadosFilmes:
  filmesPorAno[ano] = filmesPorAno.get(ano, []) + [nome]

Podemos utilizar dicionários para guardar informação que é indexada com tuplos de $n$ componentes. Um exemplo são as [matrizes esparsas](https://en.wikipedia.org/wiki/Sparse_matrix), matrizes muito grandes que possuem poucos valores diferentes de zero. Talvez o
exemplo mais famoso sejam as folhas Excel.

In [None]:
folhaExcel = {}

folhaExcel[('B', 3)] = 10
folhaExcel[('B', 4)] = 90
folhaExcel[('B', 5)] = '=SOMA(B3:B4)'

try:
  print(folhaExcel[('B', 6)])
except KeyError:      # exceção Python para quando a chave não existe
  print(0)

print(folhaExcel.get(('B', 6), 0))  # em alternativa ao 'try'

## Exercícios

Considere os  conjuntos definidos na caixa seguinte.

In [None]:
professores = { 'ana', 'bruno', 'dulce', 'rui', 'sandra', 'zé' }
engenheiros = { 'ana', 'diogo', 'sofia' }

<font size="+4" color="blue;green"><b>?</b></font> Responda a estas perguntas com as operações disponíveis para conjuntos:

+ É a Ana uma engenheira?

+ Quem é professor e engenheiro?

+ Todas as pessoas em qualquer das categorias

+ Engenheiros que não são professores

+ Professores que não são engenheiros

+ São todos os professores, engenheiros?

+ Quem é ou professor ou engenheiro?


In [None]:
# ponham aqui a vossa solução

<font size="+4" color="blue;green"><b>?</b></font> Crie um dicionário que representa um stock de uma loja. Este stock é constituído por registos de produtos. Cada produto é identificado por um código numérico ao qual está associado: (a) um nome, (b) o custo por unidade, (c) quantas unidades existem no stock.

Considere que a loja tem quatro produtos, alperces, bananas, cerejas e dióspiros, com códigos 1, 2, 3, e 4 respetivamente. Os respetivos custos são 12.0, 5.5, 15.7 e 20.0. As respetivas quantidades são 700, 500, 350, 50.

In [None]:
stock = {  }   # ponham aqui a vossa solução

<font size="+4" color="blue;green"><b>?</b></font> Defina um dicionário que indique as quantidades de moedas e notas (até 50€) de uma caixa de supermercado. Escolha valores exemplo para as moedas e notas.

O primeiro passo a decidir é como representar as moedas e notas nas chaves do dicionário.

In [None]:
caixa = {  }   # ponham aqui a vossa solução