# Ada - Data Journey 

Neste módulo, você será capaz de trabalhar em problemas básicos na área de dados utilizando `Numpy` e `Pandas`. 

Professor da disciplina: Thiago Medeiros.

Algumas diretrizes importantes:

- As aulas já estão disponíveis na pasta, mas podem sofrer alterações eventuais. Você pode acessar todas as aulas, mas esteja ciente que o notebook da aula no dia pode ter uma pequena modificação. 

- Para as primeiras aulas, teremos exercícios de fixação, exercícios **e** desafios, para as pessoas que quiserem continuar exercitando após a aula.

- Os exercícios serão resolvidos em grupos.

- A avaliação (qualitativa, basicamente) terá como base: participação em sala de aula, **participação nos grupos de exercícios**, alguns checkpoints pontuais e o **projeto final** do módulo, que será apresentado na quarta aula. 

Antes de tratarmos sobre o assunto deste módulo, vamos sanar potenciais dúvidas (e dívidas) do módulo anterior. 

Problema básico do dia: Como podemos manipular informações numéricas em Python?

Suponha que a gente tenha em mãos o histórico de uma informação muito importante, como o valor da taxa de câmbio de uma moeda. Até o presente momento, que tipo de variavel teríamos que usar para armazenar e fazer as análises dos valores históricos?

Quão difícil isso pode ser? 

Tente fazer as seguintes operações: 
- O valor médio dos valores históricos.
- A variância dos valores históricos.
- A diferença da série (i.e. y(t) - y(t-1))

In [None]:
vals = [1584, 1656.5, 1629.8, 1712, 1647, 1736,
       1681, 1757, 1689, 1730, 1697, 1809, 1789, 1840,
       1867, 1930, 1865, 1885, 1914, 1932, 1894, 1891,
       1965, 1946, 1939, 2061, 1962, 2296, 2029, 2080,
       1974, 2083, 1949, 2007, 2090, 2081, 2117, 2149,
       2105, 2326, 2050, 2140, 2342, 2163, 2207, 2239,
       2236, 2343, 2290, 2380, 2350, 2538, 2416, 2397,
       2564, 2407, 2562, 2407, 2403, 2592, 2507, 2501,
       2448, 2619, 2626, 2694, 2476, 2548, 2540, 2486,
       2523, 2638, 2485, 2733, 2555, 2753, 2654, 2643,
       2797, 2692, 2655, 2518, 2710, 2767, 2741, 2907,
       2787, 3018, 2936, 2711, 2870, 2985, 2945, 2884,
       3038, 3028, 3053, 3197, 3082, 3430, 3157, 3274,
       3113, 3225, 3020, 3104, 3217, 3174, 3207, 3241,
       3181, 3581, 3345, 3301, 3550, 3258, 3320, 3291,
       3171, 3501, 3443, 3367, 3408, 3528, 3636, 3476,
       3717, 3555, 3547, 3609, 3530, 3844, 3704, 3808,
       3701, 4090, 3865, 3954, 4107, 3917, 3934, 3713,
       3871, 4103, 4125, 4290, 3982, 4425, 4240, 4059,
       4204, 4256, 4268, 4050, 4291, 4276, 4272, 4440]

O NumPy (abreviação para Numerical Python) é uma poderosa biblioteca matemática para Python, sendo um dos cernes da computação científica em Python. A biblioteca realiza cálculos em cima de Arrays Multidimensionais (equivalente a vetores, matrizes e tensores na matemática), ou seja, listas de listas de listas de..., de forma eficiente, o que nos dá muita velocidade.

Esta biblioteca está presente na maioria dos pacotes tradicionais que fazem uso de cálculo numérico, como `scikit-learn`. 

## O que o Numpy é capaz de fazer?

Como declarar um numpy array? 

O que o numpy array tem de tão especial? 

### Os diferentes tipos de numpy array

Um `np.array` não é necessariamente igual a uma lista. 

Uma das principais diferenças é que os elementos de um vetor devem ser do **mesmo** tipo.

Exemplo: tente criar uma lista que contenha valores inteiros e uma string. Tente acessar o elemento numérico e veja qual é o tipo da variável. Por que isso acontece?

Agora tente criar um vetor contendo inteiros e um valor float. Qual será o tipo do vetor neste caso? 

Basicamente temos uma hierarquia de tipos de variáveis no Numpy. A imagem abaixo ajuda a ilustrar melhor como funciona. 

![image.png](attachment:image.png)

### Operações lógicas com Numpy

Existem inúmeras vantagens do Numpy para o dia-a-dia de quem trabalha na área de dados. 

Talvez uma das principais seja a facilidade para operações lógicas e aritméticas. 

Neste primeiro momento, daremos uma atenção maior para operações lógicas.

### Indexing, slicing and masking.

Sabemos como podemos acessar e gerar fatias com listas. Felizmente, para o `np.array` o procedimento é bem semelhante.

Inclusive de filtrar dados que gostaríamos de receber. 

**Atenção** Ao alterar o pedaço da vetor recortado, você altera o objeto original! 

In [None]:
my_vec = np.array([1,3,4,5])

my_slice = my_vec[1:]

In [None]:
my_slice[0] = 100 

print(my_slice)

In [None]:
#O que vai acontecer com my_vec?
print(my_vec)

E por que isso ocorre?

## Matemática com Numpy 

O grande trunfo do Numpy é, sem dúvidas, o seu uso para cálculo, o que o torna uma ferramente importantíssima para qualquer pessoa que queira mexer com dados. 

Vamos supor dois vetores, `a` e `b`, de mesma dimensão. Podemos fazer todas as operações possíveis:

- Soma ou subtração de vetores (`a + b`).
- Multiplicação de vetores. (`a * b`)
- Divisão de vetores. (`a / b`)

O mesmo vale para matrizes e tensores (veremos na próxima aula!).

O que acontece se fizermos as seguintes operações?

In [None]:
my_vec = np.zeros(3) 

my_vec = my_vec + 3

print(my_vec)

In [None]:
my_vec * 5

Nas primeiras operações mostradas, falamos que as contas são feitas de forma `element-wise`. Isto é, o primeiro elemento do primeiro vetor realiza a operação com o primeiro elemento do segundo vetor, e assim segue. No segundo caso, o `numpy` compreende a operação que deve ser realizada (e.g. somar 5 em todos os elementos do vetor) e faz uma operação que chamamos de *stretch* 

![Exemplo de stretch](https://numpy.org/doc/stable/_images/broadcasting_1.png)

E funciona também com matrizes, sempre que for possível. Isso também veremos na próxima aula!

![Exemplo](https://numpy.org/doc/stable/_images/broadcasting_2.png)

O numpy tem uma quantidade enorme de "artifícios" para manipulação matemática. Basicamente todas as operações elementais estão presentes, assim como algumas operações vetoriais e matriciais. 

- Produto escalar `np.dot`

- Produto vetorial `np.cross` 

- Multiplicação de matrizes `np.matmul` (próxima aula)

- Valores máximos e mínimos `np.max`, `np.min`

- Índices onde os valores são máximos `np.argmax` ou mínimos `np.argmin`. 


Dica pessoal: qualquer outra operação desejada para o uso em Python, pesquise na [documentação do Numpy](https://numpy.org/doc/stable/index.html).

## Exercícios de fixação

1. Escreva um programa para criar um array Numpy e encontrar os índices de todos os elementos iguais a um valor específico.

2. Escreva um programa para criar um array Numpy e extrair todos os elementos maiores que um valor específico usando slicing e masking.

3. Escreva um programa para criar um array Numpy e usar indexação para extrair elementos em uma linha e coluna específicas.

4. Escreva um programa para criar um array Numpy e calcular a soma de todos os elementos maiores que um valor específico.

5. Escreva um programa que faça a soma de todos os elementos pares de um numpy array. 

6. Escreva um programa que readeque todos os valores de um array Numpy entre 0 e 5. Para isso, valores menores que 0 devem ser substituídos por 0, e valores maiores que 5 devem ser substituídas por 5.

7. Faça um programa que cria uma lista de listas e transforme em Numpy.

## Exercícios

1. Dois amigos, que frequentaram sempre a mesma escola, são muito competitivos quando se trata de **notas**. Ambos estão ansiosos para saber quem foi melhor em qual bimestre escolar, e portanto gostariam de uma resposta o quanto antes. Para auxiliar nessa tarefa, crie uma função que receberá dois vetores como entrada, correspondendo às notas dos dois amigos. O sistema deve retornar:

- A quantidade de vezes em que os dois alunos tiraram a mesma nota final
- A média anual dos alunos.
- A quantidade de bimestres que o aluno A tirou melhor nota que B.
- O ano e bimestre que o aluno A teve a maior diferença absoluta em relação a B.

Suponha que um vetor de entrada `nota_aluno_A` dessa função tenha o seguinte formato:

`nota_aluno_A = np.array([7, 7.5, 6, 8.8, 9, 10, 9.5, 8])` onde cada valor representa uma nota em um bimestre. Os quatro primeiros valores representam a nota no primeiro ano. 

In [None]:
import numpy as np 

In [None]:
nota_a = np.array([6.0, 7.0, 8.0, 6.0, 6.0, 7.0, 8.0, 6.0, 5.0, 3.5])

nota_b = np.array([6.0, 7.0, 3.0, 6.0, 6.0, 5.0, 7.0, 6.0, 6.0, 8.5])

In [None]:
def get_anual_mean(nota):
    nota_mod = np.append(nota, [0]*(4 - nota.shape[0]%4)) if nota.shape[0]%4 != 0 else nota
    media_anual = np.array([np.mean(nota_mod[4*i:4*i+4]) for i in range(nota_mod.shape[0]//4)])
    return media_anual

def get_results(nota_a: any, nota_b):
    
    notas_iguais = np.sum(nota_a == nota_b)
    anual_a = get_anual_mean(nota_a)
    anual_b = get_anual_mean(nota_b)
    melhor_a = np.sum(nota_a > nota_b)
    abs_dif = abs(nota_a - nota_b)
    idx_dif = np.argwhere(abs_dif == abs_dif.max()).flatten()
    list_idx = [f'Ano {i//4 + 1} - {i%4 + 1}o Bimestre' for i in idx_dif]

    return notas_iguais, (anual_a, anual_b), melhor_a, list_idx

In [None]:
res = get_results(nota_a, nota_b)

2. Uma empresa de confecção de vergalhões está automatizando a esteira de produção e gostaria de aumentar o controle de qualidade de seus produtos. Para isto, devemos criar um sistema que avalie se o comprimento do vergalhão está dentro do padrão estabelecido pela empresa, que varia entre 1 e 4 metros. Produtos que não passam por este teste de qualidade são descartados e considerados reprovados. 

Crie uma código que gere duas listas, uma contendo apenas os produtos que passaram pelo teste de qualidade e outra contendo os produtos reprovados. No final, mostre na tela:

- o percentual de produtos que passaram no teste.

- o comprimento **mediano** dos produtos aprovados.

- o comprimento máximo dos produtos reprovados.

- a diferença entre o maior e o menor produto.

Considere que existe um array Numpy `prods` contendo os comprimentos dos vergalhões, em metros. 

3. No mercado financeiro, é comum verificar as variações de um ticker ao longo do dia. Crie um código que mostre a quantidade de vezes que esse ticker aumentou relativamente o seu valor. 

Considere que os últimos valores cotados deste papel estão contidos em uma lista com 24 valores. 

4. Um jovem criou um jogo de cartas alternativo, chamado de Blackjack reverso. Neste jogo, desenvolvido para um total de 4 participadas, cada participante começa com a pontuação igual a 21 e, conforme cada um vai recebendo uma carta a cada rodada, o valor desta é subtraído de sua pontuação total. 

A última rodada acontecerá quando pelo menos uma pessoa obtiver a pontuação final negativa, e a pessoa vencedora será aquela que obtiver a menor pontuação possível. 
Crie um código para indicar o índice da pessoa que ganhou o jogo. 

Considere que as cartas estão armazenadas em uma variável do tipo `list`.

OBS: os valores das cartas variam de 1 a 10.

Exemplo de jogo:

> cartas = [10, 5, 7, 8, 5, 3, 4, 3, 9, 8, 5, 10, 7, 6, 5]
> 
> 1ª rodada
> 
> Usuário 1: Tirou 10 = Pontuação 11
> 
> Usuário 2: Tirou 5 = Pontuação 16
> 
> Usuário 3: Tirou 7 = Pontuação 14
> 
> Usuário 4: Tirou 8 = Pontuação 13
> 
> 2ª rodada:
> 
> Usuário 1: Tirou 5 = Pontuação 6
> 
> Usuário 2: Tirou 3 = Pontuação 13
> 
> Usuário 3: Tirou 4 = Pontuação 10
> 
> Usuário 4: Tirou 3 = Pontuação 10
> 
> 3ª rodada:
> 
> Usuário 1: Tirou 9 = Pontuação -3 -> **ÚLTIMA RODADA** 
> 
> Usuário 2: Tirou 8 = Pontuação 5
> 
> Usuário 3: Tirou 5 = Pontuação 5
> 
> Usuário 4: Tirou 10 = Pontuação 0
> 
> **Final**: Vencedor foi Usuário 1