In [1]:
import numpy as np
import pandas as pd

# Definindo uma semente para garantir que os dados sejam reprodutíveis
np.random.seed(42)

# Criando um dataset fictício de 30 linhas (30 funcionários) com as colunas ID, Idade, Salário, Anos de Experiência
n = 30
id = np.arange(1, n + 1)  # IDs de 1 a 30
idades = np.random.randint(20, 60, size=n)  # Idades entre 20 e 60 anos
salarios = np.random.randint(40000, 100000, size=n)  # Salários entre 40.000 e 100.000
anos_experiencia = np.random.randint(1, 35, size=n)  # Anos de experiência entre 1 e 35 anos

# Combinando os dados em um array
dataset = np.column_stack((id, idades, salarios, anos_experiencia))

# Convertendo para DataFrame para visualização
df = pd.DataFrame(dataset, columns=['ID', 'Idade', 'Salário', 'Anos de Experiência'])

# Exibindo o DataFrame
print(df)


    ID  Idade  Salário  Anos de Experiência
0    1     58    40189                    7
1    2     48    59118                    8
2    3     34    75773                   14
3    4     27    93810                   17
4    5     40    41899                    4
5    6     58    96886                    2
6    7     38    41267                    6
7    8     42    71551                    4
8    9     30    90680                   29
9   10     30    51394                   18
10  11     43    43556                   26
11  12     55    43890                   34
12  13     59    81606                   10
13  14     43    70740                   14
14  15     22    54502                   31
15  16     41    61777                   15
16  17     21    50627                    8
17  18     43    48792                   14
18  19     49    83323                   23
19  20     57    83021                   21
20  21     21    48433                   16
21  22     40    83001          

Redimensionar o dataset (por exemplo, transformar 30 linhas em 10 linhas e 12 colunas)

In [21]:
resized = np.resize(dataset,(10,12))
print(resized)

[[    1    58 40189     7     2    48 59118     8     3    34 75773    14]
 [    4    27 93810    17     5    40 41899     4     6    58 96886     2]
 [    7    38 41267     6     8    42 71551     4     9    30 90680    29]
 [   10    30 51394    18    11    43 43556    26    12    55 43890    34]
 [   13    59 81606    10    14    43 70740    14    15    22 54502    31]
 [   16    41 61777    15    17    21 50627     8    18    43 48792    14]
 [   19    49 83323    23    20    57 83021    21    21    21 48433    16]
 [   22    40 83001    18    23    52 51016    24    24    31 63897    26]
 [   25    41 42612    25    26    44 96193    29    27    46 98707    15]
 [   28    47 95387     1    29    35 94638    25    30    34 63483     7]]


Acessar o primeiro elemento (primeira linha) do dataset

In [7]:
first_element = dataset[0,:]
print(first_element)

[    1    58 40189     7]


Acessar o salário (terceira coluna) da terceira pessoa

In [8]:
third_salary = dataset[2,2]
print(third_salary)

75773


Selecionar os salários de todos os funcionários

In [26]:
salaries = dataset[:,2]
print(salaries)

[40189 59118 75773 93810 41899 96886 41267 71551 90680 51394 43556 43890
 81606 70740 54502 61777 50627 48792 83323 83021 48433 83001 51016 63897
 42612 96193 98707 95387 94638 63483]


Concatenar o dataset com um array de bônus (por exemplo, uma nova coluna)

In [13]:
sexo = ['M', 'F']
new_column = np.random.choice(sexo, size=n)
new_dataset = np.column_stack((dataset,new_column))
print(new_dataset)

[['1' '58' '40189' '7' 'M']
 ['2' '48' '59118' '8' 'M']
 ['3' '34' '75773' '14' 'F']
 ['4' '27' '93810' '17' 'M']
 ['5' '40' '41899' '4' 'M']
 ['6' '58' '96886' '2' 'F']
 ['7' '38' '41267' '6' 'M']
 ['8' '42' '71551' '4' 'F']
 ['9' '30' '90680' '29' 'F']
 ['10' '30' '51394' '18' 'F']
 ['11' '43' '43556' '26' 'M']
 ['12' '55' '43890' '34' 'M']
 ['13' '59' '81606' '10' 'M']
 ['14' '43' '70740' '14' 'M']
 ['15' '22' '54502' '31' 'M']
 ['16' '41' '61777' '15' 'M']
 ['17' '21' '50627' '8' 'M']
 ['18' '43' '48792' '14' 'F']
 ['19' '49' '83323' '23' 'M']
 ['20' '57' '83021' '21' 'F']
 ['21' '21' '48433' '16' 'M']
 ['22' '40' '83001' '18' 'M']
 ['23' '52' '51016' '24' 'M']
 ['24' '31' '63897' '26' 'F']
 ['25' '41' '42612' '25' 'F']
 ['26' '44' '96193' '29' 'F']
 ['27' '46' '98707' '15' 'F']
 ['28' '47' '95387' '1' 'M']
 ['29' '35' '94638' '25' 'F']
 ['30' '34' '63483' '7' 'M']]


Transpor o dataset

In [14]:
transposed = dataset.T
print(transposed)

[[    1     2     3     4     5     6     7     8     9    10    11    12
     13    14    15    16    17    18    19    20    21    22    23    24
     25    26    27    28    29    30]
 [   58    48    34    27    40    58    38    42    30    30    43    55
     59    43    22    41    21    43    49    57    21    40    52    31
     41    44    46    47    35    34]
 [40189 59118 75773 93810 41899 96886 41267 71551 90680 51394 43556 43890
  81606 70740 54502 61777 50627 48792 83323 83021 48433 83001 51016 63897
  42612 96193 98707 95387 94638 63483]
 [    7     8    14    17     4     2     6     4    29    18    26    34
     10    14    31    15     8    14    23    21    16    18    24    26
     25    29    15     1    25     7]]


Calcular a soma dos salários

In [25]:
salaries = dataset[:,2]
soma = salaries.sum()
print(soma)

2021768


Calcular a média dos anos de experiência

In [19]:
years = dataset[:,3]
average = years.mean()
print(round(average,2))

16.37


Calcular o desvio padrão das idades

In [20]:
ages = dataset[:,1]
standard_deviation = ages.std()
print(round(standard_deviation,2))

10.82


Multiplicar o salário e os anos de experiência de cada funcionário

In [22]:
result = dataset[:,1] * dataset[:,2]
print(result)

[2330962 2837664 2576282 2532870 1675960 5619388 1568146 3005142 2720400
 1541820 1872908 2413950 4814754 3041820 1199044 2532857 1063167 2098056
 4082827 4732197 1017093 3320040 2652832 1980807 1747092 4232492 4540522
 4483189 3312330 2158422]


Calcular o produto da matriz transposta do dataset com ela mesma

In [24]:
transposed = dataset.T
product = transposed * transposed
print(product)

[[         1          4          9         16         25         36
          49         64         81        100        121        144
         169        196        225        256        289        324
         361        400        441        484        529        576
         625        676        729        784        841        900]
 [      3364       2304       1156        729       1600       3364
        1444       1764        900        900       1849       3025
        3481       1849        484       1681        441       1849
        2401       3249        441       1600       2704        961
        1681       1936       2116       2209       1225       1156]
 [1615155721 3494937924 5741547529 8800316100 1755526201 9386896996
  1702965289 5119545601 8222862400 2641343236 1897125136 1926332100
  6659539236 5004147600 2970468004 3816397729 2563093129 2380659264
  6942722329 6892486441 2345755489 6889166001 2602632256 4082826609
  1815782544 9253093249 9743071849 9098679769 

Filtrar funcionários com salários maiores que 60.000

In [27]:
big_salaries = dataset[dataset[:,2] > 60000]
print(big_salaries)

[[    3    34 75773    14]
 [    4    27 93810    17]
 [    6    58 96886     2]
 [    8    42 71551     4]
 [    9    30 90680    29]
 [   13    59 81606    10]
 [   14    43 70740    14]
 [   16    41 61777    15]
 [   19    49 83323    23]
 [   20    57 83021    21]
 [   22    40 83001    18]
 [   24    31 63897    26]
 [   26    44 96193    29]
 [   27    46 98707    15]
 [   28    47 95387     1]
 [   29    35 94638    25]
 [   30    34 63483     7]]


Ordenar o dataset pelo salário

In [30]:
salary_column = dataset[:,2]
ordered_indexes = np.argsort(salary_column)[::-1] # Ordena de forma descrescente
ordered_dataset = dataset[ordered_indexes]
print(ordered_dataset)

[[   27    46 98707    15]
 [    6    58 96886     2]
 [   26    44 96193    29]
 [   28    47 95387     1]
 [   29    35 94638    25]
 [    4    27 93810    17]
 [    9    30 90680    29]
 [   19    49 83323    23]
 [   20    57 83021    21]
 [   22    40 83001    18]
 [   13    59 81606    10]
 [    3    34 75773    14]
 [    8    42 71551     4]
 [   14    43 70740    14]
 [   24    31 63897    26]
 [   30    34 63483     7]
 [   16    41 61777    15]
 [    2    48 59118     8]
 [   15    22 54502    31]
 [   10    30 51394    18]
 [   23    52 51016    24]
 [   17    21 50627     8]
 [   18    43 48792    14]
 [   21    21 48433    16]
 [   12    55 43890    34]
 [   11    43 43556    26]
 [   25    41 42612    25]
 [    5    40 41899     4]
 [    7    38 41267     6]
 [    1    58 40189     7]]


Criar uma cópia do dataset

In [31]:
copy_dataset = dataset.copy()
print(copy_dataset)

[[    1    58 40189     7]
 [    2    48 59118     8]
 [    3    34 75773    14]
 [    4    27 93810    17]
 [    5    40 41899     4]
 [    6    58 96886     2]
 [    7    38 41267     6]
 [    8    42 71551     4]
 [    9    30 90680    29]
 [   10    30 51394    18]
 [   11    43 43556    26]
 [   12    55 43890    34]
 [   13    59 81606    10]
 [   14    43 70740    14]
 [   15    22 54502    31]
 [   16    41 61777    15]
 [   17    21 50627     8]
 [   18    43 48792    14]
 [   19    49 83323    23]
 [   20    57 83021    21]
 [   21    21 48433    16]
 [   22    40 83001    18]
 [   23    52 51016    24]
 [   24    31 63897    26]
 [   25    41 42612    25]
 [   26    44 96193    29]
 [   27    46 98707    15]
 [   28    47 95387     1]
 [   29    35 94638    25]
 [   30    34 63483     7]]
