# Exercícios - Manipulação de Dados 🎲 em Alto Desempenho 🚀 🧞‍♂️

## Familiarizando-se com a biblioteca Numpy

O objetivo dessa série de exercícios iniciais é familiarizar-se com as funcionalidades e operações básicas da biblioteca Numpy.

### Criação e inspeção de arrays

Importe a biblioteca Numpy. Escreva uma função que receba como parâmetros o número de elementos **n** e retorne um array uni-dimensional preenchido com **n** números inteiros aleatórios entre 1 e 1000.

In [2]:
import numpy as np
def create_array_1D(n):
    '''Cria uma array uni-dimensional de tamanho n e o retorna preenchido com números randômicos.'''
    arr_1d = np.random.randint(1,1000,n)
    return arr_1d

In [3]:
print(create_array_1D(5))
type(create_array_1D(5))

[357 956  37 453 488]


numpy.ndarray

Agora crie uma função que receba como parâmetros o número de linhas e de colunas e retorne um array bi-dimensional preenchidos com números aleatórios inteiros entre 1 e 1000.

In [12]:
def create_array_2D(n,m):
    arr_2d = np.random.randint(1,1000,(n, m))
    return arr_2d

In [84]:
print(create_array_2D(2,4))

[[180 363 898 190]
 [897 519 762 676]]


In [19]:
#Função alternativa, que poderá criar uma array uni-dimensional ou bi-dimensional (caso o m não seja passado como parâmetro).
def create_array(n,m=0):
    '''Cria uma array uni-dimensional de tamanho n (caso o m não seja passado como parâmetro) ou
    bi-dimensional, e o retorna preenchido com números randômicos.'''
    if (m == 0):
        return np.random.randint(1,1000,n)
    else:
        return np.random.randint(1,1000,(n,m))
    
print(create_array(10))
print(create_array(10,5))

[450  87 994 644 560 324 350 399 330 420]
[[579 856 878 713 612]
 [588 268 562 204  73]
 [197 801 958  29 484]
 [600 819 748 680 441]
 [855  86 831 352 171]
 [556  69 681 313 105]
 [346 595 485 993 531]
 [582 941 439 748 437]
 [452 919 777 354 562]
 [623 462 699 355 214]]


Utilizando as funções criadas acima, crie dois arrays, um dimensional e o outro bi-dimensional. Visualize o formato, o tamanho e os tipos de dados de ambos os arrays.

In [85]:
arr_1d = create_array_1D(10)
arr_2d = create_array_2D(2,4)
print(arr_1d.shape, arr_1d.size, arr_1d.dtype)
print(arr_2d.shape, arr_2d.size, arr_2d.dtype)

(10,) 10 int64
(2, 4) 8 int64


### Indexação, Slicing, e Iteração

Execute os seguintes passos:
1. Crie um array uni-dimensional com 20 elementos. Acesse e imprima o terceiro elemento.
2. Crie um array bi-dimensional (4,4). Acesse e imprima o elemento da segunda linha e terceira coluna.
3. Fatie (faça o slicing) e imprima os 5 primeiros elementos do array uni-dimensional.
4. Itere sobre o array bi-dimensional linha a linha e imprima cada linha inteira.

In [15]:
#Indexação
arr_1D = create_array_1D(20)
print(arr_1D[2])
arr_2D = create_array_2D(4,4)
print(arr_2D[1,2])

# Slicing
print(arr_1D[0:5])
print(arr_1D[:5])

# Iteração
for row in arr_2D:
    print(row)

695
753
[261 436 695  40 852]
[261 436 695  40 852]
[405 977  94 380]
[ 93 889 753  28]
[317 235 828 791]
[420  91 953 881]


### Operações estatísticas e matemáticas

Execute os seguintes passos:
1. Calcule e imprima a média, a mediana, a soma e o desvio padrão do array uni-dimensional criado no exercício acima.
2. Ache e imprima os valores mínimo e máximo do array bi-dimensional criado no exercício acima.
3. Use uma função universal, como np.sqrt, sobre o array uni-dimensional criado no exercício anterior e imprima o resultado.

In [20]:
#média
print(np.mean(arr_1D))
#mediana
print(np.median(arr_1D))
#soma
print(np.sum(arr_1D))
#desvio padrão
print(np.std(arr_1D))
#valor mínimo
print(np.min(arr_2D))
#valor máximo
print(np.max(arr_2D))
#função universal np.sqrt
print(np.sqrt(arr_1D))

358.8
308.5
7176
262.8736578662838
28
977
[16.15549442 20.88061302 26.36285265  6.32455532 29.18903904  3.
 17.88854382 27.23967694 14.56021978 12.489996   20.27313493 22.7815715
 20.1246118   5.91607978 17.23368794 13.82027496 29.54657341  9.16515139
 11.78982612 22.3383079 ]


## Manipulação de dados com Numpy

Vamos comparar o desempenho de um array Python e um array numpy. Carregue o arquivo 'Base-COFOG-2022.csv', que contém a base de despesas da União classificadas de acordo com o padrão COFOG (classificação por função), utilizando o pacote **csv**. Retorne um array a lista do valor das despesa realizadas no ano de 2022.

Utilize o seguinte caminho para o arquivo:
```
caminho_arquivo = './data/Base-COFOG-2022.csv'
```

In [21]:
import csv

filepath = './data/Base-COFOG-2022.csv'

lista_desp_valor = []
with open(filepath, encoding = 'ISO-8859-1') as csvfile:
    csvreader = csv.reader(csvfile, delimiter=';')
    
    next(csvreader) #pula o cabeçalho
    
    # Iterate over each row in the CSV
    for csv_row in csvreader:
        lista_desp_valor.append(float(csv_row[9].replace('.','').replace(',','.')))

In [22]:
lista_desp_valor

[0.16,
 0.42,
 1.06,
 24.91,
 3.61,
 0.79,
 13.41,
 1.02,
 10.3,
 0.45,
 6.09,
 15.84,
 39.61,
 934.41,
 135.52,
 29.75,
 503.08,
 38.16,
 386.53,
 17.06,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.01,
 0.03,
 0.06,
 1.51,
 0.22,
 0.05,
 0.81,
 0.06,
 0.63,
 0.03,
 0.08,
 0.04,
 0.0,
 0.02,
 2.18,
 0.23,
 0.03,
 1.07,
 0.03,
 0.34,
 0.01,
 17.31,
 7.32,
 0.83,
 3.56,
 451.18,
 48.62,
 5.96,
 221.43,
 5.81,
 71.17,
 2.36,
 0.0,
 0.0,
 0.0,
 0.0,
 0.02,
 0.0,
 0.0,
 0.01,
 0.0,
 0.0,
 0.0,
 10763.55,
 1452.17,
 53.08,
 3094.09,
 1131.1,
 1264.9,
 347.72,
 5329.88,
 26.72,
 21847.95,
 0.0,
 204.95,
 2304.49,
 2917.73,
 1281.44,
 592.31,
 1638.42,
 363.03,
 196.65,
 3311.34,
 109.96,
 585.74,
 23.93,
 67.49,
 1.56,
 62.26,
 5.98,
 9602.27,
 280.93,
 812.94,
 2963.55,
 2.66,
 209.51,
 385.11,
 224.51,
 29565.06,
 31.3,
 176.38,
 302.39,
 0.66,
 111.26,
 2274.8,
 0.09,
 3.19,
 0.0,
 0.61,
 22.04,
 0.0,
 0.0,
 0.0

In [9]:
len(lista_desp_valor)

74547

Crie uma função que receberá como parâmetro o array criado e retornará a despesa total realizada pela União

In [10]:
def calcula_despesa_total_pure_python(lista_desp_cofog):
    desp_total = sum(row for row in lista_desp_cofog)
    return desp_total

In [11]:
print(calcula_despesa_total_pure_python(lista_desp_valor))

3246370.6499997475


Agora crie um array **numpy** a partir do array anterior..

In [12]:
import numpy as np

In [13]:
lista_desp_valor_np = np.array(lista_desp_valor).astype(float)
lista_desp_valor

[0.16,
 0.42,
 1.06,
 24.91,
 3.61,
 0.79,
 13.41,
 1.02,
 10.3,
 0.45,
 6.09,
 15.84,
 39.61,
 934.41,
 135.52,
 29.75,
 503.08,
 38.16,
 386.53,
 17.06,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.01,
 0.03,
 0.06,
 1.51,
 0.22,
 0.05,
 0.81,
 0.06,
 0.63,
 0.03,
 0.08,
 0.04,
 0.0,
 0.02,
 2.18,
 0.23,
 0.03,
 1.07,
 0.03,
 0.34,
 0.01,
 17.31,
 7.32,
 0.83,
 3.56,
 451.18,
 48.62,
 5.96,
 221.43,
 5.81,
 71.17,
 2.36,
 0.0,
 0.0,
 0.0,
 0.0,
 0.02,
 0.0,
 0.0,
 0.01,
 0.0,
 0.0,
 0.0,
 10763.55,
 1452.17,
 53.08,
 3094.09,
 1131.1,
 1264.9,
 347.72,
 5329.88,
 26.72,
 21847.95,
 0.0,
 204.95,
 2304.49,
 2917.73,
 1281.44,
 592.31,
 1638.42,
 363.03,
 196.65,
 3311.34,
 109.96,
 585.74,
 23.93,
 67.49,
 1.56,
 62.26,
 5.98,
 9602.27,
 280.93,
 812.94,
 2963.55,
 2.66,
 209.51,
 385.11,
 224.51,
 29565.06,
 31.3,
 176.38,
 302.39,
 0.66,
 111.26,
 2274.8,
 0.09,
 3.19,
 0.0,
 0.61,
 22.04,
 0.0,
 0.0,
 0.0

Agora crie a função para calcular o valor total das despesas da União, recebendo como parâmetro o array numpy. Imprima também o tempo necessário para execução do cálculo utilizando Python nativo e Numpy.

In [14]:
def calcula_despesa_total_numpy(lista_desp_cofog):
    desp_total = lista_desp_cofog.sum()
    return desp_total

In [15]:
print(calcula_despesa_total_numpy(lista_desp_valor_np))

3246370.6500000004


In [16]:
%%time

desp_total = calcula_despesa_total_pure_python(lista_desp_valor)

print('Com Python Puro;')
print('Despesa total da União segundo a classificação COFOG, no ano de 2022: ' +
      f'{desp_total:.2}.')

Com Python Puro;
Despesa total da União segundo a classificação COFOG, no ano de 2022: 3.2e+06.
CPU times: user 3.56 ms, sys: 127 µs, total: 3.69 ms
Wall time: 3.69 ms


In [17]:
%%time

desp_total = calcula_despesa_total_numpy(lista_desp_valor_np)

print('Com NumPy;')
print('Despesa total da União segundo a classificação COFOG, no ano de 2022: ' +
      f'{desp_total:.2}.')

Com NumPy;
Despesa total da União segundo a classificação COFOG, no ano de 2022: 3.2e+06.
CPU times: user 561 µs, sys: 189 µs, total: 750 µs
Wall time: 637 µs


Por fim, calcule a razão entre os tempos de execução das duas funções acima.

In [18]:
import time

def calcula_timing_despesa_total_numpy(lista_desp_cofog):
    start = time.time()
    desp_total = lista_desp_cofog.sum()
    end = time.time()
    return end-start

def calcula_timing_despesa_total_pure_python(lista_desp_cofog):
    start = time.time()
    desp_total = sum(row for row in lista_desp_cofog)
    end = time.time()
    return end-start

In [19]:
pure_python_timing = calcula_timing_despesa_total_pure_python(lista_desp_valor)

numpy_timing = calcula_timing_despesa_total_numpy(lista_desp_valor_np)

faster = round(pure_python_timing/numpy_timing)

print('Tempo de execução em python puro: ' +
      f'{pure_python_timing:.2} segundos.')
print('Tempo de execução em numpy: ' +
      f'{numpy_timing:.2} segundos.')
print('Observe que a mesma manipulação de dados em NumPy foi ' +
      f'{faster-1} vezes mais rápido do que no python nativo.')

Tempo de execução em python puro: 0.0038 segundos.
Tempo de execução em numpy: 0.00039 segundos.
Observe que a mesma manipulação de dados em NumPy foi 9 vezes mais rápido do que no python nativo.
