# Introdução básica ao Python

**Introdução ao Jupyter Notebook**: https://programminghistorian.org/pt/licoes/introducao-jupyter-notebooks

# Instalação

## Implementação de referência

1.   **Windows**

> https://www.python.org/downloads/windows/


2.  **Linux**

- Pacotes incluídos em cada distribuição.

> `sudo apt install python3`  
> `sudo dnf install python3`   
> `sudo pacman -Ss python3`   
etc

- Compilação a partir das fontes.

> https://www.python.org/downloads/source/

3. **MacOS**

> https://www.python.org/downloads/macos/

Outras implementações:

> https://en.wikipedia.org/wiki/List_of_Python_software#Python_implementations

## Distribuição Anaconda3

Uma distribuição orientada para Data Science e que usa o `conda` como gestor de pacotes.

> https://www.anaconda.com/download#downloads

Se apenas estiver interessado no gestor conda e não na distribuição completa, uma alternativa é o `Miniconda`.

> https://docs.anaconda.com/free/miniconda/

# IDEs

- pyCharm: https://www.jetbrains.com/pycharm/
- VSCodium: https://vscodium.com
- spyder: https://www.spyder-ide.org


# Ambientes virtuais

São utilizados para criar ambientes isolados com módulos instalados.

## `venv`

Criação e ativação de um ambiente com `venv`:

> `$ python -m venv env`  
> `$ source env/bin/activate`

Uma vez criado e ativo, podemos instalar módulos através do `pip`.

> `$ pip install spacy`

Para deactivar o ambiente:

> `$ deactivate`

## `miniconda`

Instalação de `miniconda` (Windows, MacOS e Linux):

https://docs.anaconda.com/miniconda/

Criação e ativação de um ambiente com `miniconda`:

> `conda create --name env`
> `conda activate env`

Uma vez criado e ativo, podemos instalar módulos utilizando `conda`:

> `conda install spacy`

Para deactivar o ambiente:

> `conda deactivate`

# Um programa Python

Um script ou programa Python é um conjunto de definições (por exemplo, variáveis ou funções) e comandos. Para executar código Python, podemos optar por sessões interactivas (intérprete de linha de comandos, *jupyter notebooks*, Google Colab, etc) ou por guardar o código num ficheiro e depois executá-lo com o intérprete.

As linhas de código que começam por `#` são consideradas comentários e não são tidas em conta pelo intérprete.

## Interativo

In [None]:
# Imprime a sequência Olá mundo
print("Olá mundo")

## Não interativo

> `$ echo 'print("Olá mundo")' > olamundo.py`  
> `$ python olamundo.py`

## Indentação

Os scripts Python mantêm uma indentação estrita: as expressões que estão ao mesmo nível (dentro do mesmo bloco) devem ter a mesma indentação, e a indentação deve ser consistente em todo o script.

In [None]:
# Correto
for x in [1, 2, 3]:
    print(x)
    print(x * x)

In [None]:
# Incorreto (erro de indentação)
for x in [1, 2, 3]:
    print(x)
       print(x * x)

In [None]:
# Bug?
for x in [1, 2, 3]:
    print(x)
print(x * x)



---



# Variáveis

As variáveis permitem guardar valores para serem utilizados mais tarde. Para as declarar utilizamos o operador de assignação `=`.

In [None]:
# Numéricas
x = 5
y = 3.98

# Cadeias curtas, rodeadas de ' ou "
text = 'amostra de cadeia'
text2 = "outra amostra de cadeia"

# Cadeias longas ou contendo " ou saltos de linha
long_text = """Lorem ipsum dolor sit amet, consectetur adipiscing elit,
sed do eiusmod tempor incididunt "ut labore et dolore
magna aliqua". Ut enim ad minim veniam."""

In [None]:
print(x * y)

In [None]:
print(long_text)

# Tipos de dados


Em Python, a atribuição de dados a um nome de variável define o tipo e o intervalo de valores que um objeto pode ter.

## Tipos de dados básicos: escalares

Os escalares são dados que não podem ser subdivididos.

### Numéricos

| Subtipo     | Palavra reservada | Exemplo |
|-------------|-------------------|---------|
| Enteiros    | `int`             | 3       |
| Decimais    | `float`           | 3.89    |

In [None]:
n_int = 3
n_float = 3.89

### Cadeias


In [None]:
v_string = "Este é um exemplo"
single_q = 'Este é outro exemplo'

Podemos determinar o tamanho de uma cadeia através da função `len`.

In [None]:
len(v_string)

Para concatenar duas cadeias, podemos utilizar o operador `+`.

In [None]:
str1 = "ola"
str2 = "mundo"

print(str1 + " " + str2)

Este operador `+` tem efeitos diferentes conforme seja aplicado a cadeias de caracteres ou a números.

In [None]:
n1 = 2
n2 = 2
n1 + n2

In [None]:
s1 = "2"
s2 = "2"
s1 + s2

### Booleanos

Com apenas dois valores possíveis: `True` e `False`

In [None]:
v_boolean = True

### Indefinido (NoneType)

Têm um único valor (`NoneType`).

In [None]:
v_none = None

Com `type()` podemos conhecer o tipo de um objeto.

In [None]:
type(n_int)

In [None]:
type(n_float)

In [None]:
type(v_string)

In [None]:
type(v_boolean)

In [None]:
type(v_none)

In [None]:
x = 3.89
y = '3.89'

print('Tipo de x: ', end='')
print(type(x))

print('Tipo de y: ', end='')
print(type(y))

### Exercícios

1. Define dúas variáveis numéricas
  - *`year`* (contendo o ano atual)
  - *`pi`* (contendo o valor de PI)

2. Imprime o contido de `year`.

3. Imprime o tipo de dado de `year`.

4. Imprime o seguinte texto:

Há uma velha maldição que diz: "Que vivas em tempos interessantes".

## Tipos de dados complexos (não escalares)

### Listas

Sequências ordenadas e mutáveis de valores que podem ser acedidas através do seu índice expresso entre parênteses rectos. Este índice começa a contar a partir de zero. Se o índice for negativo, conta-se a partir do fim.

In [None]:
cores = ["amarelo", "cinzento", "verde"]
print(cores[1])
print(cores[-3])

É possível declarar uma lista sem a inicializar, a fim de lhe atribuir valores mais tarde, utilizando os seguintes métodos:

* `append`: acrescenta um elemento ao final da lista
* `insert`: insere um elemento na posição especificada
* `extend`: estende uma lista com os conteúdos de outra lista

In [None]:
# Declaração
mais_cores = []

In [None]:
# Asignação de valores utilizando append
mais_cores.append("laranja")
mais_cores.append(["preto", "branco"])
mais_cores.append("azul")

print(mais_cores)

In [None]:
# O que acontece se eu imprimo o item que está no índice 1?
print(mais_cores[1])

In [None]:
# Asignação de valores utilizando insert
mais_cores.insert(2, "verde")

print(mais_cores)

In [None]:
# Extensão da lista utilizando extend
mais_cores.extend(["branco", "amarelo"])

In [None]:
# E agora? Que pasa se imprimo o último elemento da lista?
print(mais_cores[-1])

In [None]:
# Impressão da lista final
print(mais_cores)

Também podemos eliminar itens de uma lista:

- `pop`: elimina o índice especificado
- `remove`: elimina o valor especificado

In [None]:
cores = ['laranja', 'preto', 'branco', 'azul', 'verde']
cores.remove("preto")
print(cores)

In [None]:
cores.pop(0)
cores.pop(-1)   # list.pop() e list.pop(-1) são equivalentes
print(cores)

#### Extrair subconjuntos das listas

Também é possível extrair subconjuntos das listas (*slice*) especificando o valor inicial (incluído) e o valor final (não incluído) separados por `:`

In [None]:
# original
mais_cores

In [None]:
# índices 1 e 2 (o índice 3 apenas marca o fim do subconjunto, não está incluído)
mais_cores[1:3]

O primeiro e o último elementos do subconjunto podem ser omitidos quando coincidem com o primeiro e o último elementos da lista.

In [None]:
nums = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
print("Desde o primeiro valor até o 4 (não incluído)")
print(nums[:4])

In [None]:
print("Desde o sétimo valor (incluído) até o último")
print(nums[7:])

In [None]:
print("Todos os valores (devolve uma lista idêntica)")
print(nums[:])

Se usarmos números negativos no *slice*, começa a contar polo final.

In [None]:
print("Do índice na posição -3 até ao fim")
print(nums[-3:])

Se incluirmos um terceiro valor no *slice*, este representa o salto (por defeito é 1).

In [None]:
print("Todos os valores contando índices de 2 en 2")
print(nums[::2])

In [None]:
# O que acontece se o salto for negativo?
print(nums[10:2:-3])



---



A efectos de extraer subcadeas (*slicing*) ou uso de índices (*indexing*), **as cadeas** funcionan como as listas, sendo posíbel acceder/extraer os caracteres individuais que as compoñen mediante os índices.

In [None]:
sample = "Olá mundo"

In [None]:
# Indexing
print(sample[2])

In [None]:
# Slicing
print(sample[1:6])

In [None]:
print(sample[-4:])

In [None]:
print(sample[-1:-4:-1])

#### Exercícios



1. Cria uma lista de 5 números inteiros e com o nome `numeros`.

2. No final da lista `numeros` adiciona mais 2 números decimais (*`float`*).

3. Imprime os últimos 3 números da lista.

4. Imprime a lista do revés

5. Elimina da lista os elementos de tipo decimal

6. Extrai a cadeia *Galaxy* de `str1` utilizando a notação de *slicing*, armazena-a noutra variável (`slice1`) e imprime-a.

In [None]:
str1 = "The Hitchhiker’s Guide to the Galaxy"
# escreve a solução


### Dicionários

Estruturas de chave-valor em que a chave é um escalar e o valor pode ser escalar ou não escalar.

In [None]:
freq = {
    "medo": 1209,
    "forte": 10,
    "maior": 154
}

É possível declarar um dicionário sem o inicializar, de modo a atribuir-lhe valores mais tarde.

In [None]:
colloc = {}
colloc

In [None]:
colloc.update({"medo": 1209})
colloc

In [None]:
colloc.update({"forte": 10})

# forma alternativa
colloc["maior"] = 154

colloc

Utilizando `keys()` e `values()` é possível aceder à lista de chaves e valores de um dicionário separadamente.

In [None]:
colloc.keys()

In [None]:
colloc.values()

Com `items()` acedemos ao par chave-valor.

In [None]:
colloc.items()

### Set

Um conjunto é um tipo de dados iterável, não ordenado, mutável e não duplicável. É declarado usando chaves.

In [None]:
primes = {2, 3, 5, 7, 11, 11, 13, 17}

print(type(primes))

primes


Depois de o conjunto ter sido inicializado, é possível adicionar mais elementos utilizando os métodos `add()` (elemento único) ou `update()` (vários).

In [None]:
primes = {2, 3, 5, 7, 11, 11, 13, 17}
primes.add(19)

primes

In [None]:
primes.update([23, 29, 31, 31, 31])

primes

### Tuple

Uma tupla é um tipo de dados iterável, ordenado e imutável. É semelhante a uma lista, mas não pode ser modificada.

In [None]:
# Declaração de tupla sem elementos
tuple1 = ()

print(len(tuple1))
print(type(tuple1))

In [None]:
# Declaração de tupla com um elemento
tuple2 = (24,)

print(len(tuple2))
print(type(tuple2))


In [None]:
# Declaração de tuplas com vários elementos (também duplicados) e acesso através de índices
tuple3 = (24, 15, 15, 15, "rede galabra", 1.65, True)

print(len(tuple3))
print(type(tuple3))

tuple3[4]

## Casting

Uma operação de *casting* (conversão) altera o tipo de um objeto. Dependendo do tipo de conversão, isto pode resultar em perda de informação.

In [None]:
# De inteiro a decimal
float(8)

In [None]:
# De decimal a inteiro
int(3.9881)

In [None]:
# Casting a cadeia de texto
str(3.998)

In [None]:
# Casting de cadeia a numérico

# Inteiro
int("4")

In [None]:
# Decimal
float("4.980")

In [None]:
# Casting de lista a conjunto (set), perdem-se as informações sobre os itens duplicados
set([2, 2, 3, 5, 5, 5, 7, 11, 11, 13, 17])

In [None]:
# Casting de lista a tupla
tuple([2, 2, 3, 5, 5, 5, 7, 11, 11, 13, 17])

O que acontece se os tipos não forem os correctos quando se faz o *casting*?

In [None]:
int("isto non vai")

## Tipos mutáveis e imutáveis

Os tipos de dados imutáveis são aqueles cujo estado não pode ser alterado depois de serem criados. Em Python, os tipos escalares (strings, dados numéricos) e alguns tipos não escalares (tuplas) são imutáveis. Em contrapartida, as listas, os dicionários e os conjuntos são mutáveis.

Exemplos:

**Strings**

In [None]:
cadeia = "Olá"
print(cadeia)
id(cadeia)

In [None]:
cadeia = cadeia + " mundo!"
print(cadeia)
id(cadeia)

In [None]:
cadeia[2]

In [None]:
# erro!
cadeia[2] = "a"

**Listas**

In [None]:
lista = [1, 4, "verde"]
print(lista)
id(lista)

In [None]:
lista.append(8)
lista.remove("verde")
print(lista)
id(lista)

In [None]:
lista[1]

In [None]:
lista[1] = 'a'
lista

# Operadores

## Aritméticos

operador      |   significado
--------------|----------------
`**`          | Expoente
`%`           | Módulo (resto)
`//`	        | Divisão de números inteiros
`/`	          | Divisão
`*`	          | Multiplicação
`-`	          | Subtração
`+`           | Soma

**Exemplos**:

In [None]:
4 / 3

Na divisão de números inteiros a parte decimal é ignorada.

In [None]:
# Divisão de números inteiros
4 // 3

Quando uma divisão de números não inteiros é exacta, devolve um valor *float*.

In [None]:
# Divisão não inteira sem resto
4 / 2

In [None]:
# Módulo
4 % 2

O operador composto permite efetuar a operação e a atribuição ao mesmo tempo.

In [None]:
x = 5
x += 15       # equivale a x = x + 15
print(x)

x //= 4       # equivale a x = x // 4
print(x)

### Precedência

In [None]:
2 + 3 * 4

In [None]:
2 + (3 * 4)

In [None]:
(2 + 3) * 4

## Relacionais

Resulta sempre num valor booleano (`True` ou `False`).

operador       |    significado
---------------|-------------------
==             | igual
!=             | distinto
<              | menor que
>              | maior que
<=             | menor ou igual que
>=             | maior ou igual que

In [None]:
4 < 5

In [None]:
4 == 5

In [None]:
x = y = 10
x != y

## Lógicos

Permitem avaliar expressões que resultam num valor booleano.

- `and`

In [None]:
print(x)
x < 100 and x > 1

- or

In [None]:
x > 20 or x < 11

- not

In [None]:
not x > 20

In [None]:
txt = 'expressão'
's' in txt and len(txt) > 10

In [None]:
x = None
y = 5
x or y

In [None]:
x = 1
x or y

# Controlo do fluxo

## Condicional `if`

Comprova se uma expressão é certa (`True`).

In [None]:
num = 5
if num < 3:
  print("menor a 3")
elif num <= 5:
  print("menor ou igual a 5")
else:
  print("maior de 5")

## Estruturas de repetição (*loops*)

### `for`

Permite percorrer um grupo de elementos que são iteráveis (por exemplo, listas).

In [None]:
for n in [1, 2, 3]:
  print(n)

In [None]:
freqs = {"medo": 129, "repetição": 54, "percorrer": 2}

for key, val in colloc.items():
  print(f"chave: {key} // valor: {val}")
  print("chave: {} // valor: {}".format(key, val))

In [None]:
print("Fibonacci\n")

fibonacci = [1, 1, 2, 3, 5, 8, 13, 21]
for idx, num in enumerate(fibonacci):
  print(f"posición {idx}: {num}")

In [None]:
print("Fibonacci ^ 2\n")

for num in fibonacci:
  print(num * num)

Podemos utilizar a função `range()` para produzir uma sequência de números e percorrê-los numa estrutura de repetição.

Sintaxe: `range([init], end, [step])`

Cria uma sequência de números começando em `init` (incluído) e terminando em `end` (não incluído), com o intervalo `step`. Se `init` não for especificado, por defeito é 0. Da mesma forma, se `step` não for especificado, o valor utilizado é 1.

In [None]:
# sequência entre 0 e 9
for num in range(10):
    print(num)

In [None]:
# sequência entre 0 e 9 de 3 en 3
for num in range(0, 10, 3):
    print(num)

In [None]:
# sequência entre 10 e 1 de 2 en 2
for num in range(10, 0, -2):
    print(num)

### `while`

Executa um bloco de código desde que uma condição seja satisfeita.

In [None]:
x = 0
while x < 5:
  print(f'{x} * 2 = {x * 2}')
  x += 1

É possível forçar a saída mediante `break` sem satisfazer a condição.

In [None]:
x = 29
while x > 0:
  print(f"x = {x}")
  if x % 5 == 0:
    break
  x -= 1

Quando há estruturas aninhadas, o comando `break` sai da estrutura em que está, não de todas elas.

In [None]:
x = 5
while x > 0:
  for y in [1, 4, 9]:
    print(f"x: {x}    y: {y}")
  if x % 2 == 0:
    break
  x -= 1

In [None]:
x = 380
primes = [1]
while x > 1:
  for n in range(2, x + 1):
    if x % n == 0:
      primes.append(n)
      x //= n
      break

print(primes)

Utilizando `continue` podemos interromper a execução do código em um ponto e fazer com que ele passe para a próxima iteração.

In [None]:
x = 19
while x > 0:
  if x % 2 == 0:
    x -= 1
    continue

  print(f"Número ímpar {x}")
  x -= 1

# Funções

Permitem criar blocos de código que podem ser executados muitas vezes no programa. A sintaxe típica é:

```
def nome (arg1, arg2, argN):
   código
   código

   return valor
```

Se nenhum valor de retorno for especificado, as funções retornam `None`.

In [None]:
def factors(x):
  factors = [1]
  while x > 1:
    for n in range(2, x + 1):
      if x % n == 0:
        factors.append(n)
        x //= n
        break
  return factors


n1 = 380
n2 = 96

factors1 = factors(n1)
factors2 = factors(n2)

print(f'Fatores primos de {n1}: {factors1}')
print(f'Fatores primos de {n2}: {factors2}')

## Âmbito das variáveis

As variáveis declaradas dentro de uma função são locais e só podem ser acedidas desde essa função. Variáveis declaradas fora de funções pertencem ao escopo global e são visíveis de qualquer parte do código. No entanto, para que seja possível trabalhar com elas (por exemplo, modificá-las), devem ser declaradas como globais com `global`.

In [None]:
def func():
  a = 10
  global b
  print(f'(dentro func 1) a: {a}, b: {b}, c: {c}')

  a += 20
  b -= 150
  print(f'(dentro func 2) a: {a}, b: {b}, c: {c}')


a = 100
b = 200
c = 300

print(f'(fora func 1) a: {a}, b: {b}, c: {c}')
func()
print(f'(fora func 2) a: {a}, b: {b}, c: {c}')

# Métodos

São como as funções, mas são sempre aplicadas a um objeto utilizando o operador de ponto (`.`).

```
objeto.metodo(arg1, arg2, argN)
```

As funções partilham com as funções o facto de poderem receber diferentes argumentos e de devolverem sempre pelo menos um valor (que por defeito será `None`).

Ao contrário das funções, só podemos definir os nossos próprios métodos dentro das classes.

Como os métodos estão necessariamente ligados a um objeto, podem ser classificados de acordo com o tipo de objeto.




## `String`

Alguns dos métodos mais importantes do tipo de objeto `String`:



### `split()`

Sintaxe: `str.split([sep], [maxsplits])`

Devolve a lista de itens resultante da separação da cadeia `str` utilizando o separador `sep`.

In [None]:
sample = "135,9,6"
sample.split(",")

Se não for especificado `sep`, utiliza o espaço em branco por defeito.

In [None]:
sample = "Devolve a lista de elementos resultante de separar um texto com o separador por defeito."
sample.split()

Se quisermos mudar a ordem natural dos argumentos do método ou da função, ou omitir algum, nesse caso devemos fazer explícito o nome do argumento.

In [None]:
sample.split(maxsplit=5)

In [None]:
sample = "superfície,ocupar;32;6.49363310277496"
sample.split(maxsplit=1, sep=";")

Esta última sería equivalente a:

In [None]:
sample.split(";", 1)

### `lower()`, `upper()`, `swapcase()`, `capitalize()`, `title()`

Mudam para maiúsculas ou minúsculas conforme o método utilizado, devolvendo a cadeia modificada. Não aceitam nenhum argumento.

In [None]:
sample = "Lorem ipsum dolor sit amet"
print("upper(): ", sample.upper())
print("lower(): ", sample.lower())
print("swapcase(): ", sample.swapcase())

In [None]:
sample = "um método é diferente de uma função."
print("capitalize(): ", sample.capitalize())
print("title(): ", sample.title())

### `islower()`, `isupper()`, `istitle()`

Alguns dos métodos acima têm o correlato para saber se uma cadeia de caracteres é maiúscula, minúscula ou um título.



In [None]:
"A".isupper()

Para além disso, os métodos podem geralmente ser concatenados numa única expressão. A expressão resultante deve ser lida de esquerda a direita.

In [None]:
sample.upper().isupper()      # é possível combinar mais do que um método na mesma expressão

In [None]:
sample.lower().isupper()

### `join()`

Permite unir os elementos de um iterável, devolvendo uma cadeia com o resultado.

Sintaxe: `str.join(iterable)`

In [None]:
lista = "Devolve a lista de ítens resultante".split()
print(lista)
";;".join(lista)

### `strip()`, `lstrip()`, `rstrip()`

Permitem eliminar espaços em branco nos extremos (direito, esquerdo ou ambos) de uma cadeia. São muito úteis para limpar um dataset quando foi produzido manualmente.

In [None]:
sample = 'fazer,ler,devolver     '
sample.rstrip()


Também podemos especificar os caracteres que queremos eliminar.

In [None]:
sample = ",fazer,"
sample.strip(",")

### `startswith()`, `endswith()`

Devolvem um booleano indicando se uma cadeia começa ou termina de uma determinada maneira.

Sintaxe: str.startswith(str)

In [None]:
sample = "Lore ipsum."
sample.startswith('lore')

In [None]:
sample.endswith('.')

### `find()`, `index()`

Estes métodos permitem localizar cadeias dentro de outras. A diferença entre eles está principalmente no facto de que `find()` devolve `-1` se não encontrar o que procura, enquanto `index()` gera uma exceção. No caso de encontrar a cadeia procurada, ambos métodos devolvem a posição do primeiro carácter.

Sintaxe:    
> `str.find(string)`   
> `str.index(string)`    

In [None]:
print(sample)
sample.index("método")

In [None]:
try:
    pos = sample.index("método")
except ValueError:
    pos = None
    print("Não foi encontrada a cadeia procurada, e index() provoca uma exceção do tipo ValueError.")

In [None]:
sample.find("método")

In [None]:
sample.index("ipsum")

In [None]:
sample.find("ipsum")

### `replace()`

Permite substituir uma sequência de caracteres por outra dentro de uma cadeia. Se especificarmos um terceiro argumento, a substituição será feita apenas `count` vezes.

Sintaxe

> `str.replace(old, new[, count])`

In [None]:
sample = "Isto é uma prova, é um teste."
sample.replace('um', 'UM')

In [None]:
sample.replace('é', 'e', 1)

### `count()`

Devolve o número de vezes que uma sequência de caracteres aparece dentro de uma cadeia.

Sintaxe:

> str.count(substring)

In [None]:
sample.count('um')

## `List`

Alguns dos métodos mais importantes do tipo de objeto List:


### `sort()`

Sintaxe: `list.sort([key=func()], [reverse=True|False])`

Ordena (*in-place*) uma lista alfabeticamente de menor a maior, sendo possível obter a ordem descendente usando `reverse=True`. Com `key`, é possível especificar uma função de ordenação de um argumento que é utilizada para obter uma chave de comparação para cada elemento da lista.

In [None]:
# Ordem ascendente
cores = ['laranja', 'preto', 'verde', 'azul', 'branco', 'amarelo']
cores.sort()

print(cores)

Ordem descendente.

In [None]:
# Ordem descendente
cores = ['laranja', 'preto', 'verde', 'azul', 'branco', 'amarelo']
cores.sort(reverse=True)

print(cores)

**Atenção:**

In [None]:
cores = ['laranja', 'preto', 'verde', 'Azul', 'branco', 'amarelo']
cores.sort()

print(cores)

Porque é que a ordem muda neste caso?

> https://www.ascii-code.com/  
> https://en.wikipedia.org/wiki/Basic_Latin_(Unicode_block)  
> https://docs.python.org/3/library/stdtypes.html#list.sort

Pode ser resolvido utilizando uma função de ordenação que normalize.


In [None]:
def normalize(s):
  return s.lower()

cores = ['laranxa', 'negro', 'verde', 'Azul', 'branco', 'amarelo']
cores.sort(key=normalize)

print(cores)

Outros exemplos de utilização:

In [None]:
# Ordem ascendente por tamanho do elemento (utilizando função básica)
cores = ['laranja', 'preto', 'verde', 'azul', 'branco', 'amarelo']
cores.sort(key=len)

print(cores)

In [None]:
# Ordem alfabética descendente começando pelo final do item (usando função definida).
def rev(s):
  return s[::-1].lower()

cores = ['laranja', 'preto', 'verde', 'azul', 'branco', 'AMARELO']

cores.sort(key=rev, reverse=True)

print(cores)

### `count(item)`

Devolve a quantidade de vezes que `item` aparece na lista.

In [None]:
cores = ['laranja', 'preto', 'verde', 'azul', 'branco', 'verde', 'amarelo']

cores.count('verde')

### `clear()`

Elimina todos os elementos da lista.

In [None]:
print("Antes:", cores)

cores.clear()

print("Depois:", cores)

### `reverse()`

Inverte a ordem dos elementos numa lista.

In [None]:
cores = ['preto', 'amarelo', 'branco', 'azul', 'verde', 'laranja']

cores.reverse()

cores

### `index()`

Sintaxe: `list.index(x, [start, end])`

Retorna o índice onde se encontra o primeiro elemento `x` da lista, começando em `start` e finalizando em `end` (por defeito, toda a lista). Se o elemento não existir, gera uma exceção.

In [None]:
cores = ['laranja', 'preto', 'verde', 'azul', 'branco', 'verde', 'amarelo']

# Índice de 'verde' na lista completa
cores.index('verde')

In [None]:
# Índice de 'verde' a partir do elemento 4
cores.index('verde', 4)

In [None]:
# Elemento não existente tratado com try:except
try:
  cores.index('cinzento')
except:
  print("O 'cinzento' não faz parte da lista.")

### `copy()`

Devolve uma copia da lista.

In [None]:
cores = ['laranja', 'preto', 'verde', 'azul', 'branco', 'verde', 'amarelo']

print("Lista original:", id(cores))

cores_copy = cores.copy()
print("Lista duplicada:", id(cores_copy))

Atenção: não se deve duplicar uma lista mediante o operador de asignação.

In [None]:
cores_asign = cores

print("Lista copiada com o operador de asignação:", id(cores_asign))

In [None]:
print("Lista original:        ", cores)
print("Lista duplicada copy():", cores_copy)
print("Lista duplicada =:     ", cores_asign)

In [None]:
print("Eliminamos 'laranja' da lista duplicada utilizando copy()")
cores_copy.remove('laranja')

print("Eliminamos 'preto' da lista duplicada utilizando =")
cores_asign.remove('preto')

In [None]:
print("Lista original:          ", cores)
print("Lista 1 duplicada copy():", cores_copy)
print("Lista 2 duplicada =:     ", cores_asign)

Esta é uma consideração importante para todos os tipos de dados mutáveis, portanto também afecta os dicionários e os conjuntos.

## Dict

Alguns dos métodos mais importantes do tipo `Dict`:

### `clear()`

Elimina todos os elementos do dicionário.

In [None]:
word_freqs = {
  "the": 19,
  "book": 3,
  "is": 20,
  "on": 16,
  "table": 5
}

print(word_freqs)

word_freqs.clear()

print(word_freqs)

### `copy()`

Devolve uma cópia do dicionário.

In [None]:
word_freqs = {
  "the": 19,
  "book": 3,
  "is": 20,
  "on": 16,
  "table": 5
}

copia = word_freqs.copy()
print(id(word_freqs), word_freqs)
print(id(copia), copia)

### `fromkeys(keys, [value])`

Retorna um dicionário com as chaves especificadas como `keys` com o mesmo valor `value`. Se `value` não for incluído, o valor atribuído às chaves é `None`.

In [None]:
words = ['in', 'a', 'hole', 'the', 'ground', 'there', 'lived', 'hobbit', '.']

freqs = dict.fromkeys(words, 0)

freqs

### `get(key, [fallback])`

Retorna o valor do dicionário associado com a chave `key`. Se a chave não existir, retorna `fallback` (o predefinido é `None`).

In [None]:
word_freqs = {
  "the": 19,
  "book": 3,
  "is": 20,
  "on": 16,
  "table": 5
}

nouns = ["table", "chair"]
for noun in nouns:
    print(f"{noun}:", word_freqs.get(noun, f'non hai entrada para {noun}'))

É importante utilizar `get()` para recuperar elementos de um dicionário, especialmente quando existe a possibilidade de que as chaves que estamos tentando recuperar não existam.

In [None]:

print(word_freqs.get('chair'))
print(word_freqs['chair'])

### `pop(key, [value])`

Elimina o elemento do dicionário com a chave `key`. Se a chave não existir e `value` não for fornecido, ocorrerá um erro do tipo `KeyError`. Se a chave existir, a entrada será eliminada.

In [None]:
word_freqs = {
  "the": 19,
  "book": 3,
  "is": 20,
  "on": 16,
  "table": 5
}

In [None]:
# Chave não existente sem valor = KeyError
word_freqs.pop("chair")

In [None]:
# Chave não existente com valor
word_freqs.pop("chair", "Chave non existente")

In [None]:
# Chave existente
word_freqs.pop("table")

word_freqs

# Manexo de ficheiros

Ficheiros de amostra:

- test1.csv

In [None]:
!cat test1.csv

- test2.csv

In [None]:
!cat test2.csv

* test3.csv


In [None]:
!cat test3.csv

### open() e close()

O método `read()` permite ler o ficheiro completo.

In [None]:
f = open("test1.csv", "r")
contents = f.read()
print(contents)
f.close()

In [None]:
f = open("test1.csv", "r")
for line in f:
  print(f"linha: {line}")
f.close()

In [None]:
f = open("test1.csv", "r")
for line in f:
  line = line.strip()
  print(f"linha: {line}")
f.close()

#### with

Quando usamos `open()` dentro de um bloco `with` não precisamos fechar o arquivo aberto.

In [None]:
with open("test3.csv", "r") as f:
  lines = f.read().split("\n")
  print(lines)
  for line in lines:
    print(f"linha: {line}")

#### readlines()

O método `readlines()` lê o ficheiro inteiro e guarda-o como uma lista em que cada linha do ficheiro é um item.

In [None]:
with open("test1.csv") as f:
  lines = f.readlines()
  print(lines)

#### `glob()`

O módulo `glob` localiza todos os arquivos e pastas que correspondem à expressão fornecida. Expressões válidas correspondem àquelas suportadas pelo shell na linha de comando. Retorna um iterável com os elementos correspondentes.

In [None]:
from glob import glob

glob('*')

Com `glob()` podemos processar vários ficheiros acumulando os dados que obtemos de cada um deles.

In [None]:
numlines = 0
for csvfile in glob('*.csv'):
    with open(csvfile) as f:
        n = len(f.readlines())
        print(f"- Linhas de {csvfile}: {n}")
        numlines += n
print(f"\nO número total de linhas de todos os ficheiros é: {numlines}")


#### `write()`

O método `write()` permite escrever dados em ficheiros.

In [None]:
text = "Lorem ipsum dolor sit amet, consectetur adipiscing elit.\n"

# Com 'w' cria o ficheiro ou sobrescreve se já existe.
with open('saida.txt', 'w') as outf:
    outf.write(text)

# Com 'a' cria o ficheiro ou adiciona no final se já existe.
with open('saida.txt', 'a') as outf:
    outf.write("Nullam sollicitudin, sapien eu bibendum tincidunt, turpis urna tristique justo.")

In [None]:
!cat saida.txt

### Módulo CSV

Os principais métodos são:

- `reader`: retorna um iterador que permite ler um CSV linha a linha. As opções mais relevantes são:
  - `delimiter`: carácter que separa os campos entre si.
  - `quotechar`: carácter que pode delimitar cada campo se este contiver o carácter especificado como `delimiter`.
- `writer`: permite copiar estruturas de dados para ficheiros CSV.

https://docs.python.org/3/library/csv.html

In [None]:
!cat test3.csv

In [None]:
import csv

renda_pessoal_avg = {}
renda_familiar_avg = {}

with open("test3.csv") as csvfile:
    csvreader = csv.reader(csvfile, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL)
    headers = next(csvreader)
    for row in csvreader:
        for num in range(3, 9):
            row[num] = int(row[num])
        renda_pessoal_avg[row[1]] = (row[3] + row[4] + row[5]) / 3
        renda_familiar_avg[row[1]] = (row[6] + row[7] + row[8]) / 3

print("Renda pessoal e familiar por bairro (media de 2015-2017):")
for bairro in renda_pessoal_avg.keys():
    if not bairro.startswith("Noroeste"):                                                                    
        continue
    print(f"{bairro}:")
    print(f"  - renda pessoal: {renda_pessoal_avg[bairro]}")
    print(f"  - renda familiar: {renda_familiar_avg[bairro]}")
    print()

### Módulo JSON

Módulo que facilita o processamento de ficheiros JSON.

Os principais métodos são:

`load()`: lê um arquivo JSON.  
`loads()`: lê uma cadeia de caracteres JSON.  
`dump()`: escreve um objeto num arquivo JSON.  
`dumps()`: escreve um objeto numa cadeia de caracteres JSON.

> https://docs.python.org/3/library/json.html

In [None]:
import json

json_string = """[
  {"word": "depois", "lemma": "depois", "pos": "RG", "feats": []},
  {"word": "a", "lemma": "o", "pos": "DA0FS0", "feats": [{"gender": "fem"}, {"number": "sing"}]},
  {"word": "mulher", "lemma": "mulher", "pos": "NCFS000", "feats": [{"gender": "fem"}, {"number": "sing"}]},
  {"word": "de", "lemma": "de", "pos": "SP", "feats": [{"adptype": "prep"}]}
]"""

words = json.loads(json_string)

print(type(words))

print(words[2]['lemma'], words[2]['feats'])

In [None]:
words[0]['lemma'] = "antes"
new_json_string = json.dumps(words, ensure_ascii=False, indent=4)

print(new_json_string)

# Expressões regulares

As expressões regulares são padrões expressos numa linguagem regular, que permitem procurar correspondências em cadeias de caracteres. Em Python existem dois módulos principais para trabalhar com expressões regulares:

- `re`: faz parte do *python core*. Referência: https://docs.python.org/3/library/re.html
- `regex`: não faz parte do *python core*, então é necessário instalá-lo primeiro. Referência: https://docs.python.org/3/howto/regex.html

As operações padrão são suportadas pelo módulo `re` e, na prática, só será necessário utilizar `regex` para questões muito específicas (por exemplo, padrões *look-ahead* e *look-behind*).

In [None]:
import re

## Os padrões

São normalmente expressos em Python entre aspas e precedidos pelo marcador `r` (raw).

In [None]:
# regex pattern
pattern = r'^i[nr].*ção$'

## A linguagem

Algumas ligações de referência para rever a linguagem das expressões regulares:

- [Referência da sintaxe de regex em python](https://docs.python.org/3/library/re.html#regular-expression-syntax) (módulo `re`)
- [Ferramenta para experimentar expressões regulares](https://regex101.com)

## Os métodos

Muitos métodos do módulo `re` possibilitam a especificação de *flags* para definir alguns critérios de configuração. Algumas dessas *flags* são:

- `re.IGNORECASE`: o padrão será insensível a maiúsculas e minúsculas.
- `re.DOTALL`: faz com que o carácter especial '.' detecte qualquer tipo de carácter, incluindo caracteres de nova linha.

### `match(pattern, string, flags=0)`

Procura um padrão apenas no início da cadeia.

In [None]:
data = ['riesgo,correr', 'cambio,implicar', 'superficie,ocupar', 'interés,despertar', 'norma,seguir', 'perfil,riesgo']

for coloc in data:
  print(re.match(r'riesgo', coloc))

### `search(pattern, string, flags=0)`

Procura um padrão em qualquer lugar da cadeia.

In [None]:
for coloc in data:
  print(re.search(r'riesgo', coloc))

Nos dois casos é retornado um objeto que nos permite aceder tanto à cadeia de caracteres coincidente (`group(0)`) como à sua posição na cadeia original (`start` e `end`).

In [None]:
for coloc in data:
  m = re.search(r',\w+r$', coloc)
  if m:
    print(f'Houve coincidência em {coloc}.')
    print(f'  Início: {m.start()}, final: {m.end()}.')
    print(f'  Match: {m.group()}')
  else:
    print(f'Não houve coincidência em {coloc}.')

### `fullmatch(pattern, string, flags=0)`

Procura padrões que coincidam com toda a cadeia.

In [None]:
for s in ['arriesgo', 'RIESGO', 'riesgos']:
  m = re.fullmatch(r'riesgo', s, re.IGNORECASE)
  if m:
    print(f"Match en {s}.")

### `split(pattern, string, maxsplit=0, flags=0)`

Funciona da mesma forma que o método `split()` de cadeia, exceto que permite a utilização de expressões regulares como separadores.

In [None]:
text = "riesgo,correr;135,9,6;6.52400675181848"

data = re.split(r"[,;]", text)
print(data)

### `findall(pattern, string, flags=0)`

Retorna uma lista de todas as correspondências de um padrão numa cadeia de caracteres, não apenas a primeira.

In [None]:
text = """Segundo os datos publicados na mañá desta cuarta feira pola Consellaría
de Sanidade con rexistros até as 18 horas desta terza feira, increméntanse a 11 as
persoas ingresadas en UCI pola Covid en toda Galiza."""

re.findall(r'[A-Z]\w+', text)

No caso de utilizarmos vários grupos no padrão, o resultado pode ser uma lista de tuplas.

In [None]:
text = """Nov 17 17:32:02 huginn systemd: Starting Laptop Mode Tools - Battery Polling Service.
Nov 17 17:32:02 huginn systemd: Reloading Laptop Mode Tools.
Nov 17 17:32:02 huginn systemd: lmt-poll.service: Succeeded.
Nov 17 17:32:02 huginn systemd: Started Laptop Mode Tools - Battery Polling Service."""

re.findall(r'(\w+): (.*)\.', text)

### `sub(pattern, repl, string, count=0, flags=0)`

Funciona da mesma forma que o método `replace()` de cadeia, mas suporta expressões regulares para expressar a cadeia a ser substituída.

In [None]:
text = """Segundo os datos publicados na mañá desta cuarta feira pola Consellaría
de Sanidade con rexistros até as 18 horas desta terza feira, increméntanse a 11 as
persoas ingresadas en UCI pola Covid en toda Galiza."""

print(re.sub(r'([0-9]+) horas', '####', text))

### Greediness

Em Python, os padrões que incluem caracteres repetidos são *greedy* por defeito, e para os tornar não *greedy*, têm de ser delimitados.

In [None]:
text = "saltar, comer, brincar, dançar, rir"
re.search(r'.*,', text)

In [None]:
re.search(r'.*?,', text)

# Outros módulos

## `collections`

### `defaultdict`

Um dicionário normal devolve um erro `TypeError` quando se tenta aceder a uma chave inexistente.



In [None]:
dict1 = {"the": 3, "book": 1}

for word in ["the", "books"]:
  dict1[word] += 1

Uma solução possível é verificar primeiro se a chave existe.

In [None]:
dict1 = {"the": 3, "book": 1}

for word in ["the", "books"]:
  if word in dict1:
    dict1[word] += 1
  else:
    dict1[word] = 1

print(dict1)

Outra solução é utilizar o `defaultdict`, que cria um tipo especial de dicionário que adiciona um valor predefinido quando a chave não existe. Este valor predefinido dependerá do tipo de `defaultdict` criado.

In [None]:
from collections import defaultdict

dict2 = defaultdict(int)
for word in ["the", "book", "is", "on", "the", "table"]:
  dict2[word] += 1

print(dict2)
dict2["salad"]

Com `defaultdict` podemos, por exemplo, criar um dicionário em que os valores são uma lista sem a necessidade de o inicializar.

In [None]:
from collections import defaultdict

numbers = range(20)
dict3 = defaultdict(list)

for num in numbers:
  if num % 2 == 0:
    dict3["even"].append(num)
  else:
    dict3["odd"].append(num)

print(dict3)
print(dict3["even"])

### `Counter`






O módulo `Counter` fornece ferramentas que facilitam o processo de contagem de itens.

In [None]:
!pip install regex

In [None]:
import regex
from collections import Counter

text = """En lexicología, una colocación es un tipo concreto de unidad fraseológica que no es ni locución o lexía simple ni enunciado fraseológico o lexía textual.
El término fue usado por vez primera por Firth en 1957 y se ha usado frecuentemente en la lexicología inglesa de Halliday. Designa combinaciones frecuentes de unidades léxicas fijadas en la norma o una combinación de palabras que se distingue por su alta frecuencia de uso. Esto motiva que este tipo de construcciones se cataloguen como unidades semiidiomáticas.
Se diferencian de las unidades fraseológicas en que responden a pautas de formación gramaticales y su significado es composicional, esto es, se deduce de los significados de los elementos combinados. Son unidades léxicas que han sido fijadas en la norma y en sustancia son fraseologismos que se encuentran a mitad de camino entre las combinaciones libres y las fijas, porque sus elementos se pueden dislocar e intercambiar y en general su significado es claro y desentrañable, si bien en ciertos casos tienen significado de conjunto."""

text = regex.sub(r'\p{P}', '', text)

tokens = []
for token in text.lower().split():
     if token.isalpha():
         tokens.append(token)

print("Tokens:")
print(tokens)

print("------------------------")
print("Freqs:")
c = Counter(tokens)
c.most_common(10)

In [None]:
c.total()

In [None]:
palavra = "colocación"

count = Counter(palavra)
count.most_common()

Documentação: https://docs.python.org/3/library/collections.html#collections.Counter

# Comprehensions

As compreensões são uma sintaxe alternativa e mais compacta para uma estrutura de repetição `for` que percorre e manipula um elemento iterável e devolve outro como resultado.

Sintaxe:

```resultado = [expression for item in iterable]```

**Exemplo**

A partir de uma lista de inteiros, obter uma lista dos seus quadrados.

In [None]:
# Utilizando `for`
integers = [2, 3, 4, 5, 6, 9, 14]
squares = []
for i in integers:
    squares.append(i * i)

print(squares)

In [None]:
# Utilizando uma 'comprehension'
integers = [2, 3, 4, 5, 6, 9, 14]
squares = [i * i for i in integers]

print(squares)

Podem também incluir condicionais.

Sintaxe:

```resultado = [expression for item in iterable if condition == True]```

**Exemplo**

A partir de uma lista de números inteiros, obter uma lista de quadrados para os números que não são pares.

In [None]:
# Utilizando um `for`
integers = [2, 3, 4, 5, 6, 9, 14]
squares = []
for i in integers:
    if i % 2 != 0:
        squares.append(i * i)

print(squares)

In [None]:
# Utilizando uma 'comprehension'
integers = [2, 3, 4, 5, 6, 9, 14]
squares = [i * i for i in integers if i% 2 != 0]

print(squares)

Com uma *comprehension* podemos ler um ficheiro utilizando `readlines()` e aplicar `strip()` a cada linha.

In [None]:
with open("test1.csv") as f:
  lines = [line.strip() for line in f.readlines()]
  print(lines)

# Funções `lambda`

São funções anónimas que podem receber qualquer número de argumentos e uma única expressão.

Sintaxe:

```lambda x1, [x2], [xn]: expression```

**Exemplos**

Calcular o quadrado de qualquer número.

In [None]:
# Usando uma função normal
def square(x):
    return x * x

print(square(3))
print(square(8))

In [None]:
# Usando uma função lambda
square = lambda x: x * x

print(square(3))
print(square(8))

Uma função `lambda` que soma três números.

In [None]:
soma = lambda x, y, z: x + y +z

soma(2, 3, 4)

Um exemplo um pouco mais complexo de como uma função `lambda` pode ser usada para resolver equações de segunda ordem.

$\frac{-b±\sqrt{b^2-4ac}}{2a}$

In [None]:
from math import sqrt

quad_equation = lambda a, b, c: ((-b + sqrt((b * b) - (4 * a * c))) / (2 * a), (-b - sqrt((b * b) - (4 * a * c))) / (2 * a))

# x^2 - 5x + 6
quad_equation(1, -5, 6)