# 04 - Estruturas de Dados - Parte 2

Na aula passada estudamos listas, que são estruturas muito úteis. 

Nessa aula vamos aprofundar em mais alguns detalhes de como essas estruturas funcionam internamente e apresentaremos mais uma estrutra que é o Dicionário / HashMap.

## Referência x Cópia

#### O que acontece quando igualamos variáveis númericas? 

Vamos ver a seguir:

In [34]:
primeira_variavel = 10000

In [35]:
segunda_variavel = primeira_variavel

In [38]:
print("O valor da posicao da memoria da primeira_variavel é ", hex(id(primeira_variavel)))
print("O valor da posicao da memoria da segunda_variavel é ", hex(id(segunda_variavel)))

O valor da posicao da memoria da primeira_variavel é  0x1028adfb8
O valor da posicao da memoria da segunda_variavel é  0x1059f3030


In [37]:
primeira_variavel = 20

In [None]:
segunda_variavel = primeira_variavel

In [16]:
print(f"A primeira variavel é {primeira_variavel}")
print(f"A segunda variavel é {segunda_variavel}")

A primeira variavel é 10
A segunda variavel é 10


Como esperado, a segunda variável recebe o valor da primeira. 

Agora, o que acontece se modificarmos apenas a primeira variável?

In [17]:
primeira_variavel = 20

In [18]:
print(f"A primeira variavel é {primeira_variavel}")
print(f"A segunda variavel é {segunda_variavel}")

A primeira variavel é 20
A segunda variavel é 10


Apenas a primeira variável é modificada, já que só modificamos ela mesmo.

Em efeitos práticos, quando igualamos 2 variáveis primitivas podemos pensar que funciona como se fosse uma cópia do "valor" da variável. Seria como se a segunda_variável tivesse olhando apenas o valor da primeira_variavel.

#### Mas o que acontece se tentamos fazer algo parecido com estruturas mais complexas?

Vamos ver:

In [45]:
primeira_lista = [1, 2, 3]
segunda_lista = primeira_lista

In [46]:
print(f"A primeira lista é {primeira_lista}")
print(f"A segunda lista é {segunda_lista}")

A primeira lista é [1, 2, 3]
A segunda lista é [1, 2, 3]


Até aqui tudo bem. Mas o que acontece se eu editar a primeira lista?

In [47]:
primeira_lista[0] = 4

In [48]:
print(f"A primeira lista é {primeira_lista}")
print(f"A segunda lista é {segunda_lista}")

A primeira lista é [4, 2, 3]
A segunda lista é [4, 2, 3]


In [49]:
primeira_lista.append(11)

In [50]:
print(f"A primeira lista é {primeira_lista}")
print(f"A segunda lista é {segunda_lista}")

A primeira lista é [4, 2, 3, 11]
A segunda lista é [4, 2, 3, 11]


**Ambas modificaram!**

Por que acontece isso?

Quando igualamos duas variáveis, na verdade não estamos igualando o valor de fato, estamos passando uma referência a variável original. Então o que acontece internamente é que estamos apontando para mesma posição de memória da primeira variável (por isso que as vezes utilizam o termo "ponteiro" para essas variáveis -> a segunda_lista é um "ponteiro" para a primeira_lista).

Assim, quando uma é modificada, reflete na outra.

Quando temos que reatribuir a variável com `=` essa relação se quebra, por exemplo:

In [51]:
primeira_lista = [1, 2, 3]
segunda_lista = primeira_lista

In [52]:
primeira_lista = [4, 5, 6]

In [53]:
print(f"A primeira lista é {primeira_lista}")
print(f"A segunda lista é {segunda_lista}")

A primeira lista é [4, 5, 6]
A segunda lista é [1, 2, 3]


Por isso que não precisamos nos preocupar com isso com os tipos primitivos! 

Mas agora, estruturas mais complexas que você pode fazer modificações internas, como mudar um elemento do meio da lista, dar um `append`, etc, é necessária essa preocupação.

#### E se quisermos ter apenas uma cópia, e não uma referência?

Aí basta copiarmos valor por valor, como no exemplo a seguir:

In [14]:
primeira_lista = [1, 2, 3]

segunda_lista = []

for valor in primeira_lista:
    segunda_lista.append(valor)

In [15]:
print(f"A primeira lista é {primeira_lista}")
print(f"A segunda lista é {segunda_lista}")

A primeira lista é [1, 2, 3]
A segunda lista é [1, 2, 3]


In [16]:
primeira_lista[0] = 4

In [17]:
print(f"A primeira lista é {primeira_lista}")
print(f"A segunda lista é {segunda_lista}")

A primeira lista é [4, 2, 3]
A segunda lista é [1, 2, 3]


**Ambas são independentes agora!!!**

## Problemas da estrutura lista

A lista é uma estrutura muito importante, mas ela tem alguns defeitos.

Vamos ver dois deles a seguir:

#### Exemplo

Vamos supor que eu tenho uma aplicação de um banco. 

Eu tenho o id do cliente no banco, nome, sobrenome, cpf e valor em conta e escolho utilizar listas para isso.

É possível, utilizando listas de listas, e teríamos uma estrutura mais ou menos assim:

In [57]:
pessoas = [
    [11, "Michel Chieregato", 40836474856, 0],
    [21, "José da Silva", 12789233340, 0.00],
    [33, "Maria Gomes", 99989233340, 1000.00],
    # ...
]

Para vamos supor que o programa é responsável por fazer um depósito bancário, e pergunta o id do cliente e o valor do depósito, e modifica essa lista.

Seria algo assim:

In [58]:
id_do_cliente = int(input("Digite o id do cliente: "))
valor_a_ser_depositado = float(input("Digite o valor a ser depositado: "))

for pessoa in pessoas:
    if pessoa[0] == id_do_cliente:
        pessoa[3] = pessoa[3] + valor_a_ser_depositado
        print(f"O cliente {pessoa[1]} de cpf {pessoa[2]} agora tem {pessoa[3]} dinheiro no banco.")

Digite o id do cliente:  11
Digite o valor a ser depositado:  50


O cliente Michel Chieregato de cpf 40836474856 agora tem 50.0 dinheiro no banco.


Isso funciona, mas tem dois defeitos:

- Legibilidade
    - Quem lê o código tem muita dificuldade de entender o que pessoa[0], pessoa[1], pessoa[3] é, principalmente se o código for grande.


- Dificuldade de achar o cliente
    - Esse código tem que sempre percorrer a lista procurando o cliente! E se ele tiver no fim da lista e a lista for muito grande? É pouco eficiente.

## Dicionário

Dicionário é uma outra estrutura muito comum em linguagens de programação.

Elas salvam os dados numa estrutura de "Chave" / "Valor" ("Key, "Value")

Funciona assim:

In [64]:
pessoa = {
    "id": 11,
    "nome": "Michel Chieregato",
    "cpf": 40836474856,
    "valor_em_conta": 100.00,
}

Ou seja, ele também salva um conjunto de valores, como as listas, mas sempre associados a uma "chave".

Por exemplo, a chave "id" contém o valor 11, assim por diante. Podemos acessar os dados assim:

In [65]:
pessoa["id"]

11

Acrescentar novos dados assim:

In [72]:
pessoa["novo_dado"] = "Teste"

In [73]:
print(pessoa)

{'id': 11, 'nome': 'Michel Chieregato', 'cpf': 40836474856, 'valor_em_conta': 100.0, 'novo_dado': 'Teste', 1: 'Outra coisa'}


E deletar chaves assim:

In [76]:
del pessoa[1]

In [78]:
print(pessoa)

{'id': 11, 'nome': 'Michel Chieregato', 'cpf': 40836474856, 'valor_em_conta': 100.0}


E modificar os dados normalmente:

In [79]:
pessoa["valor_em_conta"] = pessoa["valor_em_conta"] + 50

In [80]:
print(pessoa)

{'id': 11, 'nome': 'Michel Chieregato', 'cpf': 40836474856, 'valor_em_conta': 150.0}


Assim, podemos reescrever o programa da seguinte forma:

In [28]:
pessoas = [
    {
        "id": 11,
        "nome": "Michel Chieregato",
        "cpf": 40836474856,
        "valor_em_conta": 100.00,
    },
    {
        "id": 21,
        "nome": "José da Silva",
        "cpf": 12789233340,
        "valor_em_conta": 00.00,
    },
    {
        "id": 33,
        "nome": "Maria Gomes",
        "cpf": 99989233340,
        "valor_em_conta": 1000.00,
    },
]

In [30]:
id_do_cliente = int(input("Digite o id do cliente: "))
valor_a_ser_depositado = float(input("Digite o valor a ser depositado: "))

for pessoa in pessoas:
    if pessoa["id"] == id_do_cliente:
        pessoa["valor_em_conta"] = pessoa["valor_em_conta"] + valor_a_ser_depositado
        print(f"O cliente {pessoa['nome']} de cpf {pessoa['cpf']} agora tem {pessoa['valor_em_conta']} dinheiro no banco.")

Digite o id do cliente:  33
Digite o valor a ser depositado:  1


O cliente Maria Gomes de cpf 99989233340 agora tem 1002.0 dinheiro no banco.


**Resolvemos um dos problemas, que é o de deixar o código mais semântico!**

Mas ainda temos que sempre percorrer a lista inteira para achar o nosso cliente.

E para resolver isso vamos utilizar o ponto principal do dicionário: usar ele para facilitar buscas.

Se tem um termo que é frequentemente buscado ele pode ser a chave do seu dicionário, facilitando essa busca.

In [106]:
pessoas_por_id = {
    11: "Michel",
    21: "José",
    33: "Maria",
}

In [107]:
print(pessoas_por_id[33])

Maria


In [101]:
pessoas_por_id = [[11, "Michel"], [33, "Maria"], [21, "José"]]

In [104]:

for pessoa in pessoas_por_id:
    if pessoa[0] == 33:
        print(pessoa)

[33, 'Maria']


In [31]:
pessoas_por_id = {
    11: {
        "nome": "Michel Chieregato",
        "cpf": 40836474856,
        "valor_em_conta": 100.00,
    },
    21: {
        "nome": "José da Silva",
        "cpf": 12789233340,
        "valor_em_conta": 00.00,
    },
    33: {
        "nome": "Maria Gomes",
        "cpf": 99989233340,
        "valor_em_conta": 1000.00,
    },
}

Agora com essa estrutura, fica muito mais fácil achar a pessoa pelo id dela, olha só:

In [32]:
pessoas_por_id[21]

{'nome': 'José da Silva', 'cpf': 12789233340, 'valor_em_conta': 0.0}

Olha então como ficaria nosso problema:

In [33]:
id_do_cliente = int(input("Digite o id do cliente: "))
valor_a_ser_depositado = float(input("Digite o valor a ser depositado: "))

pessoa = pessoas_por_id[id_do_cliente]
pessoa["valor_em_conta"] = pessoa["valor_em_conta"] + valor_a_ser_depositado

print(f"O cliente {pessoa['nome']} de cpf {pessoa['cpf']} agora tem {pessoa['valor_em_conta']} dinheiro no banco.")

Digite o id do cliente:  11
Digite o valor a ser depositado:  1


O cliente Michel Chieregato de cpf 40836474856 agora tem 101.0 dinheiro no banco.


#### Exercício 1 - Achando a base complementar

Refaça o exercício que fizemos na aula 2 que está a seguir.

Porém, agora, que quero que a solução não utilize nenhum if, apenas o dicionário.

In [108]:
# Solução antiga

sequencia_inicial = input('Digite a sequência: ')
sequencia_final = ''

for base in sequencia_inicial:
    if base == 'A':
        sequencia_final += 'T'
    elif base == 'T':
        sequencia_final += 'A'
    elif base == 'G':
        sequencia_final += 'C'
    elif base == 'C':
        sequencia_final += 'G'

print(sequencia_final)

Digite a sequência:  AATCATTACGAA


TTAGTAATGCTT


In [35]:
# Solução nova -> Fazer

#### Exercício 2 - Calculando o RPK de Organismos

Dado uma lista com organismos  representados por dicionários, calcule o RPK (reads per kilobase) desses organismos.

O RPK é uma medida de normalização do número de leituras do organismo numa amostra, na qual se divide o número de leituras pelo tamanho do genoma, com a seguinte fórmula:

`rpk = reads_organismo / (tamanho_do_genoma_do_organismo * 1000)`

No final, imprima na a nova lista, agora com os dicionários incluindo a nova informação do rpk.

In [36]:
organismos = [
    {
        "nome": "Human immunodeficiency virus 1",
        "reads": 1000000,
        "tamanho_genoma": 8955,
    },
    {
        "nome": "Acinetobacter sp. NIPH 1865",
        "reads": 100000,
        "tamanho_genoma": 4006699,
    },
    {
        "nome": "Fungia sp.",
        "reads": 50000,
        "tamanho_genoma": 50001111,
    },
    
]

In [37]:
for organismo in organismos:
    organismo["rpk"] = organismo["reads"] / (organismo["tamanho_genoma"] * 1000)

print(organismos)

[{'nome': 'Human immunodeficiency virus 1', 'reads': 1000000, 'tamanho_genoma': 8955, 'rpk': 0.11166945840312674}, {'nome': 'Acinetobacter sp. NIPH 1865', 'reads': 100000, 'tamanho_genoma': 4006699, 'rpk': 2.4958201252452455e-05}, {'nome': 'Fungia sp.', 'reads': 50000, 'tamanho_genoma': 50001111, 'rpk': 9.999777804937173e-07}]


### Algumas operações do dicionário

Você pode verificar se uma chave está no dicionário da seguinte forma:

In [38]:
pessoa = {
    "id": 11,
    "nome": "Michel Chieregato",
    "cpf": 40836474856,
    "valor_em_conta": 100.00,
}

In [39]:
"nome" in pessoa

True

In [40]:
"idade" in pessoa

False

Se você tentar acessar uma chave que não existe, você vai ter um erro:

In [41]:
pessoa["idade"]

KeyError: 'idade'

Outra forma de acessar sem o erro é a função `get`, que tenta pegar o valor do dicionário e se não conseguir retorna um valor `default`

In [42]:
pessoa.get("nome", "")

'Michel Chieregato'

In [43]:
pessoa.get("idade", 18)

18

Iterando o dicionário

Você pode iterar as chaves do dicionário usando a função `.keys`, os valores usando a função `.values` e ambos ao mesmo tempo usando a função `.items`

In [44]:
for key in pessoa.keys():
    print(key)

id
nome
cpf
valor_em_conta


In [45]:
for value in pessoa.values():
    print(value)

11
Michel Chieregato
40836474856
100.0


In [46]:
for key, value in pessoa.items():
    print(key, value)

id 11
nome Michel Chieregato
cpf 40836474856
valor_em_conta 100.0
