# Aula 5 - Operações Matriciais Numpy

### Preparando o ambiente

In [None]:
!pip install pandas numpy
import pandas as pd
import numpy as np

### Gerando um dataset fictício

In [85]:
# Definindo a seed para que os resultados possam ser reproduzidos.
np.random.seed(50)

# Criando um dataset fictício de 30 linhas (30 funcionários) com as colunas ID, Idade, Salário, Anos de Experiência.

# Primeiro de tudo, dizemos o número "n" do linhas.
n = 30

# Definindo a coluna de ID, que vai de 1 até 30.
ids = np.arange(1, n + 1)

# Definindo a coluna de idade, que está entre 20 e 60 anos.
idades = np.random.randint(20, 60, size=n)

# Definindo a coluna de salário que vai de 1500 até 20000.
salarios = np.random.randint(1500, 20000, size=n)

# Definindo a coluna de anos de experiência, que vai de 1 até 30.
anos_experiencia = np.random.randint(1, 30, size=n)

# Agora vamos juntar essas listas em um array (o nosso dataset).
dataset = np.column_stack((ids, idades, salarios, anos_experiencia))

# Feito isso já temos nosso dataset, e para manipular esses dados podemos transformá-lo num dataframe.
df = pd.DataFrame(dataset, columns=['ID', 'Idade', 'Salário', 'Anos de experiência'])

# Vamos agora visualizar o dataframe de forma resumida.
df.head()

Unnamed: 0,ID,Idade,Salário,Anos de experiência
0,1,52,8773,1
1,2,31,11135,20
2,3,53,7119,16
3,4,50,16408,6
4,5,24,1871,29


## Exercícios

##### 1. Redimensionar o dataset (por exemplo, transformar 30 linhas em 10 linhas e 12 colunas)

In [None]:
# Primeiro de tudo vamos ver como é a disposição de linhas e colunas no nosso dataframe.
df.shape

In [70]:
# Feito isso vamos redimensioná-lo. Note que o produto das linhas com as colunas deve permanecer igual (30 * 4 = 10 * 12).
df_redimensionado = pd.DataFrame(df.values.reshape(10, 12))

#### 2. Acessar o primeiro elemento (primeira linha) do dataset

In [None]:
# Quando usamos o método values transformamos o dataframe em um array, possibilitando a manipulação numérica com numpy.
df.values[0]

#### 3. Acessar o salário (terceira coluna) da terceira pessoa

In [None]:
df.values[2, 2]

#### 4. Selecionar os salários de todos os funcionários

In [None]:
df.values[:, 2]

#### 5. Concatenar o dataset com um array de bônus (por exemplo, uma nova coluna)

In [None]:
# Vamos criar uma nova coluna com random number generator e concatenar com nosso dataset.

# Primeiro criamos um gerador de números aleatórios mais moderno e recomendado do NumPy, chamado Generator. Depois usamos ele para gerar os valores da coluna.
rng = np.random.default_rng()
bonus = rng.random((30,1))

# Agora vamos concatenar com o nosso dataset (lembrando que estamos manipulando o dataset e não o dataframe, já que estamos utilizando numpy).
concatenado = np.concatenate((dataset, bonus), axis = 1)

# Agora só precisamos ajustar a saída para que apareça de forma mais legível e enfim printar na tela o dataset novo.
np.set_printoptions(suppress=True, precision=2)
concatenado


#### 6. Transpor o dataset

In [None]:
ds_transposto = np.transpose(dataset)

ds_transposto

#### 7. Calcular a soma dos salários

In [83]:
np.sum(dataset[:, 2])

np.int64(341816)

#### 8. Calcular a média dos anos de experiência

In [84]:
np.mean(dataset[:, 3])

np.float64(13.7)

#### 9. Calcular o desvio padrão das idades

In [86]:
np.std(dataset[:, 1])

np.float64(11.837041672460039)

#### 10. Multiplicar o salário e os anos de experiência de cada funcionário

In [87]:
np.multiply(dataset[:, 2], dataset[:, 3])

array([  8773, 222700, 113904,  98448,  54259,  88984,   4984,  69590,
        69342,  68940, 220389, 415976, 297510,  56910, 179400,  92820,
       381640,  11802,  69750,  56763, 168350,  75600,  33880, 126665,
       339500, 353115, 393255, 147600, 521565,  35019])

#### 11. Calcular o produto da matriz transposta do dataset com ela mesma

In [92]:
dataset@ds_transposto

array([[ 76968235,  97688989,  62457762, 143949994,  16415565, 111523741,
         21865289, 122103979,  28970660, 120963439, 148729837, 165882570,
        174005114,  99855553,  68431206,  67862043, 167408919, 103541409,
        101988542,  55333732, 113611736,  55272014,  74309989, 158749598,
        106373718, 163047602, 127780827,  51796989, 157784283,  34138382],
       [ 97688989, 123989590,  79272034, 182704758,  20834919, 141549078,
         27750241, 154977852,  36769510, 153530275, 188772619, 210542625,
        220852753, 126739442,  86854544,  86131202, 212479992, 131416783,
        129445959,  70230091, 144199358,  70152024,  94315157, 201489284,
        135013105, 206945213, 162183078,  65742278, 200264698,  43328075],
       [ 62457762,  79272034,  50683235, 116811310,  13321400,  90498236,
         17743622,  99083724,  23509527,  98158207, 120689814, 134609143,
        141199956,  81029852,  55530415,  55068620, 135847673,  84020999,
         82760966,  44902175,  92192

#### 12. Filtrar funcionários com salários maiores que 10.000 (adaptei porque o meu dataset foi gerado com salários de até 20.000)

In [95]:
funcionarios_filtrados = dataset[dataset[:, 2] > 10000]

print(funcionarios_filtrados)

# OBS: também é possível fazer "filtro = dataset[:, 2] > 10000" e passar o filtro em "dataset[filtro]"

[[    2    31 11135    20]
 [    4    50 16408     6]
 [    6    26 12712     7]
 [    8    26 13918     5]
 [   10    25 13788     5]
 [   11    22 16953    13]
 [   12    51 18908    22]
 [   13    27 19834    15]
 [   14    24 11382     5]
 [   17    48 19082    20]
 [   18    47 11802     1]
 [   19    46 11625     6]
 [   21    26 12950    13]
 [   24    41 18095     7]
 [   25    20 12125    28]
 [   26    26 18585    19]
 [   27    39 14565    27]
 [   29    35 17985    29]]


#### 13. Ordenar o dataset pelo salário

In [101]:
dataset[np.argsort(dataset[:, 2])[::-1]]

array([[   13,    27, 19834,    15],
       [   17,    48, 19082,    20],
       [   12,    51, 18908,    22],
       [   26,    26, 18585,    19],
       [   24,    41, 18095,     7],
       [   29,    35, 17985,    29],
       [   11,    22, 16953,    13],
       [    4,    50, 16408,     6],
       [   27,    39, 14565,    27],
       [    8,    26, 13918,     5],
       [   10,    25, 13788,     5],
       [   21,    26, 12950,    13],
       [    6,    26, 12712,     7],
       [   25,    20, 12125,    28],
       [   18,    47, 11802,     1],
       [   19,    46, 11625,     6],
       [   14,    24, 11382,     5],
       [    2,    31, 11135,    20],
       [    1,    52,  8773,     1],
       [   23,    51,  8470,     4],
       [   15,    34,  7800,    23],
       [   16,    55,  7735,    12],
       [    3,    53,  7119,    16],
       [   20,    46,  6307,     9],
       [   22,    40,  6300,    12],
       [   28,    22,  5904,    25],
       [   30,    50,  3891,     9],
 

#### 14. Criar uma cópia do dataset

In [102]:
ds_copia = dataset.copy()