# <font color=green> PYTHON PARA DATA SCIENCE
---

## <font color=green> 3. ESTRUTURA DE DADOS COMPOSTAS
---

### 3.1 Estruturas aninhadas

Aprendemos anteriormente a manipular listas, tuplas e dicionários para trabalhar com uma sequência ou coleção de valores sejam numéricos, categóricos, etc. Nessa aula, vamos aprofundar em outra situação comum para a pessoa cientista de dados que é trabalhar com esses tipos de estruturas aninhadas, ou seja, quando possuímos por exemplo listas dentro de uma lista. 

#### Lista de listas

Formato padrão:

```python
[[a1, a2,...,an], [b1, b2,...,bn], ..., [n1, n2,...,nn]]
```

##### **Situação 6:**

Recebemos a demanda de transformar uma lista com o nome e as notas dos três trimestres de estudantes em uma lista simples com os nomes separados das notas e uma lista de listas com as três notas de cada estudante separadas umas das outras. Os dados recebidos correspondem a uma lista com os nomes e as respectivas notas de cada estudante. 

**Vamos resolver esse desafio?**

Para facilitar o nosso entendimento do processo vamos trabalhar com uma turma fictícia de 5 estudantes.


In [1]:
notas_turma = ['João', 8.0, 9.0, 10.0, 'Maria', 9.0, 7.0, 6.0, 'José', 3.4, 7.0, 7.0, 'Cláudia', 5.5, 6.6, 8.0, 'Ana', 6.0, 10.0, 9.5]

In [2]:
nomes_alunos = []
notas_juntas = []

for valor in notas_turma:
  if type(valor) == str:
    nomes_alunos.append(valor)
  else:
    notas_juntas.append(valor)

print(nomes_alunos)
print(notas_juntas)

['João', 'Maria', 'José', 'Cláudia', 'Ana']
[8.0, 9.0, 10.0, 9.0, 7.0, 6.0, 3.4, 7.0, 7.0, 5.5, 6.6, 8.0, 6.0, 10.0, 9.5]


In [5]:
notas_por_aluno = []

for i in range(0, len(notas_juntas), 3):
  notas_por_aluno.append([notas_juntas[i], notas_juntas[i+1], notas_juntas[i+2]])

notas_por_aluno

[[8.0, 9.0, 10.0],
 [9.0, 7.0, 6.0],
 [3.4, 7.0, 7.0],
 [5.5, 6.6, 8.0],
 [6.0, 10.0, 9.5]]

In [None]:
notas_por_aluno[4][2]

9.5

#### Lista de tuplas

Formato padrão:

```python
[(a1, a2,...,an), (b1, b2,...,bn), ..., (n1, n2,...,nn)]
```

##### **Situação 7:**

Nesta nova demanda, precisamos gerar uma lista de tuplas com os nomes dos estudantes e o código ID de cada um para a plataforma de análise dos dados. A criação do código consiste em concatenar a primeira letra do nome do estudante a um número aleatório de 0 a 999. Os dados recebidos correspondem a uma lista dos nomes de cada estudante. 

**Vamos resolver esse desafio?**

Para facilitar o nosso entendimento do processo vamos trabalhar com uma turma fictícia de 5 estudantes.


In [1]:
estudantes = ["João", "Maria", "José", "Cláudia", "Ana"]
estudantes

['João', 'Maria', 'José', 'Cláudia', 'Ana']

In [2]:
from random import randint

def gera_codigo():
  return str(randint(0,999))

In [3]:
codigo_estudantes = []

for estudante in estudantes:
  codigo_estudantes.append( (estudante, estudante[0] + gera_codigo()) )

codigo_estudantes

[('João', 'J229'),
 ('Maria', 'M49'),
 ('José', 'J830'),
 ('Cláudia', 'C444'),
 ('Ana', 'A39')]

### 3.2 List comprehension

É uma forma simples e concisa de criar uma lista. Podemos aplicar condicionais e laços para criar diversos tipos de listas a partir de padrões que desejamos para a nossa estrutura de dados.

https://docs.python.org/pt-br/3/tutorial/datastructures.html?#list-comprehensions

Formato padrão:

```python
[exressão for item in lista]
```

##### **Situação 8:**

Recebemos a demanda de criar uma lista com as médias dos estudantes da lista de listas que criamos na Situação 6. Lembrando que cada lista da lista de listas possui as três notas de cada estudante.

**Vamos resolver esse desafio?**

**Dica:** Utilize o formato:
```python
[exressão for item in lista]
```

In [5]:
notas_por_aluno = [[8.0, 9.0, 10.0], [9.0, 7.0, 6.0], [3.4, 7.0, 7.0], [5.5, 6.6, 8.0], [6.0, 10.0, 9.5]]

In [6]:
def media(lista: list=[0]) -> float:
  ''' Função para calcular a média de notas passadas por uma lista

  lista: list, default [0]
    Lista com as notas para calcular a média
  return = calculo: float
    Média calculada
  '''
  
  calculo = sum(lista) / len(lista)

  return calculo

In [8]:
medias = [round(media(notas), 1) for notas in notas_por_aluno]
medias

[9.0, 7.3, 5.8, 6.7, 8.5]

##### **Situação 9:**

Agora, precisamos utilizar as médias calculadas no exemplo anterior, pareando com o nome dos estudantes. Isto será necessário para gerar uma lista que selecione aqueles estudantes que possuam uma média final maior ou igual a 8 para concorrer a uma bolsa para o próximo ano letivo. Os dados recebidos correspondem a uma lista de tuplas com os nomes e códigos dos estudantes e a lista de médias calculadas logo acima.

**Vamos resolver esse desafio?** 

Para facilitar o nosso entendimento do processo vamos trabalhar com uma turma fictícia de 5 estudantes.

**Dica:** Utilize o formato:
```python
[expr for item in lista if cond]
```


In [9]:
estudantes = [('João', 'J720'), ('Maria', 'M205'), ('José', 'J371'), ('Cláudia', 'C546'), ('Ana', 'A347')]
medias = [9.0, 7.3, 5.8, 6.7, 8.5]

In [10]:
# Gerando a lista de nomes (extraindo da tupla)
nomes = [estudante[0] for estudante in estudantes]
nomes

['João', 'Maria', 'José', 'Cláudia', 'Ana']

<font color=green>**Dica:**</font> Para conseguirmos parear as médias e nomes facilmente, podemos recorrer a mais uma built-in function: `zip()`

Ela recebe um ou mais iteráveis (lista, string, dict, etc.) e retorna-os como um iterador de tuplas onde cada elemento dos iteráveis são pareados.

In [11]:
estudantes_medias = list(zip(nomes, medias))
estudantes_medias

[('João', 9.0), ('Maria', 7.3), ('José', 5.8), ('Cláudia', 6.7), ('Ana', 8.5)]

In [12]:
# Gerando a lista de pessoas candidatas a bolsa
candidatos = [estudante[0] for estudante in estudantes_medias if estudante[1] >= 8]
candidatos

['João', 'Ana']

##### **Situação 10:**

Recebemos duas demandas a respeito desse projeto com as notas dos estudantes:
- Criar uma lista da situação dos estudantes em que caso se sua média seja maior ou igual a 6 receberá o valor "Aprovado" e caso contrário receberá o valor "Reprovado". 
- Gerar uma lista de listas com:
  - Lista de tuplas com o nome dos estudantes e seus códigos
  - Lista de listas com as notas de cada estudante
  - Lista com as médias de cada estudante
  - Lista da situação dos estudantes de acordo com as médias

Os dados que utilizaremos são os mesmos que geramos nas situações anteriores (`nomes`, `notas`, `medias`).

**Vamos resolver esse desafio?**

Para seguirmos o processo, vou deixar logo abaixo as estruturas de dados que já produzimos.

In [15]:
estudantes = [('João', 'J720'), ('Maria', 'M205'), ('José', 'J371'), ('Cláudia', 'C546'), ('Ana', 'A347')]
notas_por_aluno = [[8.0, 9.0, 10.0], [9.0, 7.0, 6.0], [3.4, 7.0, 7.0], [5.5, 6.6, 8.0], [6.0, 10.0, 9.5]]
medias = [9.0, 7.3, 5.8, 6.7, 8.5]

**Dica:** Para a lista das situações utilize o formato:
```python
[resultado_if if cond else resultado_else for item in lista]
```

In [17]:
situacoes = ["Aprovado" if media >= 6 else "Reprovado" for media in medias]
situacoes

['Aprovado', 'Aprovado', 'Reprovado', 'Aprovado', 'Aprovado']

In [20]:
listas_todas = [estudantes, notas_por_aluno, medias, situacoes]
listas_todas

[[('João', 'J720'),
  ('Maria', 'M205'),
  ('José', 'J371'),
  ('Cláudia', 'C546'),
  ('Ana', 'A347')],
 [[8.0, 9.0, 10.0],
  [9.0, 7.0, 6.0],
  [3.4, 7.0, 7.0],
  [5.5, 6.6, 8.0],
  [6.0, 10.0, 9.5]],
 [9.0, 7.3, 5.8, 6.7, 8.5],
 ['Aprovado', 'Aprovado', 'Reprovado', 'Aprovado', 'Aprovado']]

##### **Questão**

André recebeu uma demanda para analisar o dataset contendo informações sobre a altura e o peso de várias pessoas. Para processar esses dados, André utilizou a estrutura de list comprehension calculando e salvando também os dados de IMC. Veja o código desenvolvido por ele logo abaixo:

In [21]:
alturas = [1.70, 1.80, 1.65, 1.75, 1.90]
pesos = [65, 80, 58, 70, 95]

Podemos iterar sobre as duas listas ao mesmo tempo:

In [None]:
imc = [round((peso / altura**2), 1) for altura, peso in zip(alturas, pesos)]
imc

[22.5, 24.7, 21.3, 22.9, 26.3]

### 3.3 Dict comprehension

É uma forma simples e concisa de criar ou modificar um dicionário. Podemos aplicar condicionais e laços para criar diversos tipos de dicionários a partir de padrões que desejamos para a nossa estrutura de dados e com o suporte de iteráveis como listas ou sets.

https://peps.python.org/pep-0274/

Formato padrão:

```python
{chave: valor for item in lista}
```

##### **Situação 11:**

Agora, a nossa demanda consiste em gerar um dicionário a partir da lista de listas que criamos na Situação 10 para passar para a pessoa responsável por construir as tabelas para a análise dos dados. 
- As chaves do nosso dicionário serão as colunas identificando o tipo de dado
- Os valores serão as listas com os dados correspondentes àquela chave.

**Vamos resolver esse desafio?**

Para facilitar o nosso entendimento do processo vamos trabalhar com uma turma fictícia de 5 estudantes.

**Dica:** Utilize o formato

```python
{chave: valor for item in lista}
```

In [29]:
listas_todas =  [ [('João', 'J720'), ('Maria', 'M205'), ('José', 'J371'), ('Cláudia', 'C546'), ('Ana', 'A347')],
                  [[8.0, 9.0, 10.0], [9.0, 7.0, 6.0], [3.4, 7.0, 7.0], [5.5, 6.6, 8.0], [6.0, 10.0, 9.5]],
                  [9.0, 7.3, 5.8, 6.7, 8.5],
                  ['Aprovado', 'Aprovado', 'Reprovado', 'Aprovado', 'Aprovado'] ]

In [48]:
# Colunas com os tipos dos dados (exceto nome)

colunas = ["Notas", "Média Final", "Situação"]

In [47]:
dados = {chave: valor for chave, valor in zip(colunas, listas_todas[1:])}
dados

{'Notas': [[8.0, 9.0, 10.0],
  [9.0, 7.0, 6.0],
  [3.4, 7.0, 7.0],
  [5.5, 6.6, 8.0],
  [6.0, 10.0, 9.5]],
 'Média Final': [9.0, 7.3, 5.8, 6.7, 8.5],
 'Situação': ['Aprovado', 'Aprovado', 'Reprovado', 'Aprovado', 'Aprovado']}

In [52]:
# Vamos por fim adicionar o nome dos estudantes, extraindo apenas seus nomes da lista de tuplas

dados['Nomes'] = [estudante[0] for estudante in listas_todas[0]]
dados['Códigos'] = [estudante[1] for estudante in listas_todas[0]]
dados

{'Notas': [[8.0, 9.0, 10.0],
  [9.0, 7.0, 6.0],
  [3.4, 7.0, 7.0],
  [5.5, 6.6, 8.0],
  [6.0, 10.0, 9.5]],
 'Média Final': [9.0, 7.3, 5.8, 6.7, 8.5],
 'Situação': ['Aprovado', 'Aprovado', 'Reprovado', 'Aprovado', 'Aprovado'],
 'Nomes': ['João', 'Maria', 'José', 'Cláudia', 'Ana'],
 'Códigos': ['J720', 'M205', 'J371', 'C546', 'A347']}

### Prática

Vamos praticar o que aprendemos até aqui solucionando os problemas propostos em código.

**Aquecimento**

#### Questão 1

Crie um código para imprimir a soma dos elementos de cada uma das listas contidas na seguinte lista:

In [54]:
lista_de_listas = [[4,6,5,9], [1,0,7,2], [3,4,1,8]]

In [55]:
somas = [sum(lista) for lista in lista_de_listas]
somas

[24, 10, 16]

#### Questão 2

Crie um código para gerar uma lista que armazena o terceiro elemento de cada tupla contida na seguinte lista de tuplas:

In [56]:
lista_de_tuplas = [('Pedro', 1.74, 81), ('Júlia', 1.65, 67), ('Otávio', 1.81, 83)]

In [58]:
terceiros = [tupla[2] for tupla in lista_de_tuplas]
terceiros

[81, 67, 83]

#### Questão 3

A partir da lista: `lista = ['Pedro', 'Júlia', 'Otávio', 'Eduardo']`, crie um código para gerar uma lista de tuplas em que cada tupla tenha o primeiro elemento como a posição do nome na lista original e o segundo elemento sendo o próprio nome.

In [59]:
lista = ['Pedro', 'Júlia', 'Otávio', 'Eduardo']

tuplas = [(i, lista[i]) for i in range(len(lista))]
tuplas

[(0, 'Pedro'), (1, 'Júlia'), (2, 'Otávio'), (3, 'Eduardo')]

#### Questão 4

Crie uma lista usando o list comprehension que armazena somente o valor numérico de cada tupla caso o primeiro elemento seja 'Apartamento', a partir da seguinte lista de tuplas:

In [60]:
aluguel = [('Apartamento', 1700), ('Apartamento', 1400), ('Casa', 2150), ('Apartamento', 1900), ('Casa', 1100)]

In [61]:
apartamentos_valor = [valor for tipo, valor in aluguel if tipo == 'Apartamento']
apartamentos_valor

[1700, 1400, 1900]

#### Questão 5

Crie um dicionário usando o dict comprehension em que as chaves estão na lista `meses = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']` e os valores estão em `despesas = [860, 490, 1010, 780, 900, 630, 590, 770, 620, 560, 840, 360]`.

In [63]:
meses = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']
despesas = [860, 490, 1010, 780, 900, 630, 590, 770, 620, 560, 840, 360]

dicionario = {mes: despesa for mes, despesa in zip(meses, despesas)}
dicionario

{'Jan': 860,
 'Fev': 490,
 'Mar': 1010,
 'Abr': 780,
 'Mai': 900,
 'Jun': 630,
 'Jul': 590,
 'Ago': 770,
 'Set': 620,
 'Out': 560,
 'Nov': 840,
 'Dez': 360}

**Aplicando a projetos**

#### Questão 6

Uma loja possui um banco de dados com a informação de venda de cada representante e de cada ano e precisa filtrar somente os dados do ano `2022` com venda maior do que `6000`. A loja forneceu uma amostra contendo apenas as colunas com os anos e os valores de venda para que você ajude a realizar a filtragem dos dados a partir de um código:

In [64]:
vendas =  [ ('2023', 4093), ('2021', 4320), ('2021', 5959), ('2022', 8883), ('2023', 9859),
            ('2022', 5141), ('2022', 7688), ('2022', 9544), ('2023', 4794), ('2021', 7178),
            ('2022', 3030), ('2021', 7471), ('2022', 4226), ('2022', 8190), ('2021', 9680),
            ('2022', 5616) ]


Crie uma lista usando list comprehension para filtrar os valores de 2022 e que sejam maiores que 6000.

In [66]:
valores_2022_gt_6000 = [ valor for ano, valor in vendas if ano == '2022' and valor > 6000]
valores_2022_gt_6000

[8883, 7688, 9544, 8190]

#### Questão 7

Uma clínica analisa dados de pacientes e armazena o valor numérico da glicose em um banco de dados e gostaria de rotular os dados da seguinte maneira:

```
Glicose igual ou inferior a 70: 'Hipoglicemia'
Glicose entre 70 a 99: 'Normal'
Glicose entre 100 e 125: 'Alterada'
Glicose superior a 125: 'Diabetes'
```

A clínica disponibilizou parte dos valores e sua tarefa é criar uma lista de tuplas usando list comprehension contendo o rótulo e o valor da glicemia em cada tupla.

In [67]:
glicemia = [129, 82, 60, 97, 101, 65, 62, 167, 87, 53, 58, 92, 66, 120, 109, 62, 86, 96, 103, 88, 155, 52, 89, 73]

In [72]:
rotulos_valores = [ (
  'Hipoglicemia' if valor <= 70
  else 'Normal' if valor <= 99
  else 'Alterada' if valor <= 125
  else 'Diabetes', valor )
  for valor in glicemia
]
rotulos_valores

[('Diabetes', 129),
 ('Normal', 82),
 ('Hipoglicemia', 60),
 ('Normal', 97),
 ('Alterada', 101),
 ('Hipoglicemia', 65),
 ('Hipoglicemia', 62),
 ('Diabetes', 167),
 ('Normal', 87),
 ('Hipoglicemia', 53),
 ('Hipoglicemia', 58),
 ('Normal', 92),
 ('Hipoglicemia', 66),
 ('Alterada', 120),
 ('Alterada', 109),
 ('Hipoglicemia', 62),
 ('Normal', 86),
 ('Normal', 96),
 ('Alterada', 103),
 ('Normal', 88),
 ('Diabetes', 155),
 ('Hipoglicemia', 52),
 ('Normal', 89),
 ('Normal', 73)]

#### Questão 8

Um e-commerce possui as informações de id de venda, quantidade vendida e preço do produto divididos nas seguintes listas:

In [73]:
id = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
quantidade = [15, 12, 1, 15, 2, 11, 2, 12, 2, 4]
preco = [93.0, 102.0, 18.0, 41.0, 122.0, 14.0, 71.0, 48.0, 14.0, 144.0]

O e-commerce precisa estruturar esses dados em uma tabela contendo o valor total da venda, que é obtida multiplicando a quantidade pelo preço unitário. Além disso, a tabela precisa conter um cabeçalho indicando as colunas: `'id'`, `'quantidade'`, `'preco'` e `'total'`.

Crie uma lista de tuplas em que cada tupla tenha `id`, `quantidade`, `preço` e `valor total`, na qual a primeira tupla é o cabeçalho da tabela.

In [77]:
tuplas = [ (i, q, p, q*p) for i, q, p in zip(id, quantidade, preco) ]
tuplas

[(0, 15, 93.0, 1395.0),
 (1, 12, 102.0, 1224.0),
 (2, 1, 18.0, 18.0),
 (3, 15, 41.0, 615.0),
 (4, 2, 122.0, 244.0),
 (5, 11, 14.0, 154.0),
 (6, 2, 71.0, 142.0),
 (7, 12, 48.0, 576.0),
 (8, 2, 14.0, 28.0),
 (9, 4, 144.0, 576.0)]

#### Questão 9

Uma empresa possui filiais espalhadas nos Estados da região Sudeste do Brasil. Em uma das tabelas de cadastro das filiais há uma coluna contendo a informação de qual é o Estado a que pertence:

In [78]:
estados = ['SP', 'ES', 'MG', 'MG', 'SP', 'MG', 'ES', 'ES', 'ES', 'SP', 'SP', 'MG',
           'ES', 'SP', 'RJ', 'MG', 'RJ', 'SP', 'MG', 'SP', 'ES', 'SP', 'MG']

A empresa sempre está abrindo novas filiais, de modo que a tabela está constantemente recebendo novos registros e o gestor gostaria de possuir a informação atualizada da quantidade de filiais em cada Estado.

A partir da coluna com a informação dos Estados, crie um dicionário usando dict comprehension com a chave sendo o nome de um Estado e o valor sendo a contagem de vezes em que o Estado aparece na lista.

`Dica: Você pode fazer um passo intermediário para gerar uma lista de listas em que cada uma das listas possui o nome de apenas um Estado com valores repetidos.`

In [84]:
estados_ocorrencias = { uf: estados.count(uf) for uf in sorted(set(estados)) }
estados_ocorrencias

{'ES': 6, 'MG': 7, 'RJ': 2, 'SP': 8}

#### Questão 10

Nessa mesma tabela de cadastro de filiais, há uma coluna com as informações da quantidade de pessoas colaboradoras e o(a) gestor(a) gostaria de ter um agrupamento da soma dessas pessoas para cada estado. As informações contidas na tabela são:

In [86]:
funcionarios = [('SP', 16), ('ES', 8), ('MG', 9), ('MG', 6), ('SP', 10), ('MG', 4), ('ES',9), ('ES', 7),
                ('ES', 12), ('SP', 7), ('SP', 11), ('MG',8), ('ES',8), ('SP',9), ('RJ', 13), ('MG', 5),
                ('RJ', 9), ('SP', 12), ('MG', 10), ('SP', 7), ('ES', 14), ('SP', 10), ('MG', 12)]

A partir da lista de tuplas, crie um dicionário em que as chaves são os nomes dos Estados únicos e os valores são as listas com o número de colaboradores(as) referentes ao Estado.

`Dica: Você pode fazer um passo intermediário para gerar uma lista de listas em que cada uma das listas possui apenas os valores numéricos de funcionários(as) de cada Estado.`

In [113]:
dicionario_listas = { uf: [] for uf, qtd in funcionarios }

for uf, qtd in funcionarios:
  dicionario_listas[uf].append(qtd)

dicionario_listas

{'SP': [16, 10, 7, 11, 9, 12, 7, 10],
 'ES': [8, 9, 7, 12, 8, 14],
 'MG': [9, 6, 4, 8, 5, 10, 12],
 'RJ': [13, 9]}

Crie também um dicionário em que as chaves são os nomes dos Estados e os valores são a soma de colaboradores(as) por Estado.

In [114]:
{
  uf: sum(lista)
  for uf, lista in dicionario_listas.items()
}

{'SP': 82, 'ES': 58, 'MG': 54, 'RJ': 22}