# Numpy

**Relembrando**  
  
A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [1]:
# A gente importa o numpy sempre chamando ele de "np"
import numpy as np

In [2]:
py_array = [1, 2, 3]
np_array = np.array(py_array)

print(np_array)
print(type(np_array))

[1 2 3]
<class 'numpy.ndarray'>


In [4]:
print(type(np_array[0]))

<class 'numpy.int32'>


In [5]:
# Vamos fazer uma comparação com um vetor do numpy
py_matriz = [[1, 2, 3],
             [4, 5, 6],
             [7, 8, 9],
             [10, 11, 12]]

np_matriz = np.array(py_matriz)

print(np_matriz)
print(type(np_matriz))

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
<class 'numpy.ndarray'>


In [6]:
np_matriz[0]

array([1, 2, 3])

In [7]:
print(type(np_matriz[0]))

<class 'numpy.ndarray'>


In [8]:
# acessando um elemento específico dentro da matriz
np_matriz[0,0] # acessando a linha e a coluna
np_matriz[0][0] # Funciona da mesma maneira

1

In [10]:
# 3 atributos básicos pra um ndarray
print(np_matriz.shape) # O Formato da Matriz
print(np_matriz.ndim) # Quantidade de dimensões
print(np_matriz.dtype) # Tipo de dado dos elementos da matriz

(4, 3)
2
int32


In [13]:
x = np.array([1, 2, 3])
print(x)
print(type(x))
print(x.dtype)

[1 2 3]
<class 'numpy.ndarray'>
int32


In [14]:
# O dtype de um array do numpy pode ser controlado na hora que a gente cria.
py_matriz = [[1, 2, 3],
             [4, 5, 6],
             [7, 8, 9],
             [10, 11, 12]]

matriz = np.array(py_matriz, dtype=np.float64)

In [16]:
print(matriz)
print(matriz.dtype)

[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]
float64


In [17]:
# Para selecionar um elemento de uma tabela no Python e no Numpy, tem uma ligeira diferença.

print(matriz[0][0])
print(matriz[0,0])



1.0
1.0


Slicing com matriz

In [21]:
# Slicing funciona no numpy!
print(matriz, end = '\n\n')

print(matriz[:,:], end = '\n\n')  # Assim eu pego todas as colunas

print(matriz[:,1:], end = '\n\n') # pegando da segunda coluna em diante

print(matriz[1:,:], end = '\n\n') # pegando da seguna linha em diante

print(matriz[1,::-1], end = '\n\n') # pegando a segunda linha e invertendo ela


[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]

[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]

[[ 2.  3.]
 [ 5.  6.]
 [ 8.  9.]
 [11. 12.]]

[[ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]

[6. 5. 4.]



**Funções numpy**  
O numpy também tem diversas funções para facilitar criação de matrizes.

In [25]:
print(np.zeros((2,3)), end = '\n\n')
print(np.ones((3, 2)), end = '\n\n')
print(np.identity(3), end = '\n\n')


[[0. 0. 0.]
 [0. 0. 0.]]

[[1. 1.]
 [1. 1.]
 [1. 1.]]

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]



# Manipulações de matrizes

In [26]:
matriz

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.],
       [ 7.,  8.,  9.],
       [10., 11., 12.]])

In [27]:
# Transposição de matrizes

matriz.T # quando as linhas viram colunas e colunas viram linha, com o .T

#matriz.transpose()
#np.transpose(matriz)

# todos essas fazem a transposição.

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [29]:
np.transpose(matriz)

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [None]:
matriz.transpose()

In [31]:
x = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9])

In [33]:
# Redimensionamento
x.reshape(3,3) # Eu transformo um array em uma matriz, porem ele deve conseguir ser redimensionado, ou seja no caso 9 elementos viram uma matriz 3x3

#x.reshape(-1,9)  # consigo definir 

array([[0.1, 0.4, 1. , 0.2, 0.7, 1.2, 1.1, 1. , 0.9]])

In [None]:
# 

In [None]:
y = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9, 2.0,
              1.5, 1.6])

In [None]:
# Vejam o que acontece se as dimensões não são condizentes

In [None]:
# E se eu quiser retornar para um vetor
x = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

In [34]:
# Também é possível utilizar o flatten
x.flatten()

array([0.1, 0.4, 1. , 0.2, 0.7, 1.2, 1.1, 1. , 0.9])

In [38]:
# Também podemos combinar arrays diferentes.
# Imagina que temos duas features, altura e peso de pessoas físicas.
x1 = np.array([[1.67, 89.],
               [1.79, 85.],
               [1.69, 65.],
               [1.54, 57.],
               [1.50, 45.]])

# Porém, nós queremos testar agora adicionar uma terceira feature, se a pessoa é homem ou mulher.
# 1 é mulher, 0 é homem
x2 = np.array([1, 0, 1, 0, 1])

# Como podemos fazer?

In [39]:
x2.reshape(-1,1)

# primeiro eu transformo o x2 em coluna e não em linha

array([[1],
       [0],
       [1],
       [0],
       [1]])

# O Concatenate é o mais usado

In [41]:
#Podemos utilizar o concatenate

np.concatenate((x1, x2.reshape(-1,1)), axis=1)  # No reshape, o -1 me permite que eu não saiba a quantidade de linhas. 

# Por exemplo se eu estiver concatenando e não souber quantas linhas tem eu posso usar o -1, pois caso contrário eu precisaria inserir exata
#mente a qtde de linhas que estão sendo contatenadas.

# Ja o reshape transforma ele em coluna para ser inserido

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [None]:
np.concatenate(((x1, x2.T)))

In [42]:
np.append(x1, x2.reshape(-1,1), axis=1) # o axis 0 é para inserir em linhas, ja o axis= 1 insere em colunas

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [43]:
# caso eu não quera inserir a coluna no final e sim em outro local

# eu uso o insert

np.insert(x1, 1, x2, axis=1) # Então aqui eu estou falando primeira matriz (x), onde quero inserir '1'(ou seja segunda coluna), x2 o que eu 
# estou inserindo, e axis = 1 indicando que estou inserindo uma coluna

array([[ 1.67,  1.  , 89.  ],
       [ 1.79,  0.  , 85.  ],
       [ 1.69,  1.  , 65.  ],
       [ 1.54,  0.  , 57.  ],
       [ 1.5 ,  1.  , 45.  ]])

In [45]:
np.vstack([x1.T, x2]).T # vertical stack, une dados verticalmente. Ou seja obrigatoriamente coloca uma coluna

# O Vstack é mais um concatenate. Acima eu precisei transpor o X1 e depois transpor a matriz toda.

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [46]:
np.hstack([x1, x2.reshape(-1,1)]) # mesma coisa que vstarck, só que horizontalmente. Ou seja adiciona linha

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [47]:
np.column_stack([x1,x2])

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [53]:
# Agora temos a tabela de dados abaixo.
table = np.array([[1.67, 89., 1],
                  [1.79, 85., 0],
                  [1.69, 65., 1],
                  [1.54, 57., 0],
                  [1.50, 45., 1]])

# Mas tinhamos esquecido de outras 3 pessoas!
new_table = np.array([[1.78, 91, 0],
                      [1.72, 67, 1],
                      [1.77, 76, 1]])

In [55]:
# Como podemos juntar as tabelas?

#np.vstack([table, new_table])
#np.concatenate((table, new_table), axis=0)
np.append(table,new_table, axis=0)

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ],
       [ 1.78, 91.  ,  0.  ],
       [ 1.72, 67.  ,  1.  ],
       [ 1.77, 76.  ,  1.  ]])

Extra

In [56]:
# Inversão de matriz

A = np.array(
    [[6, 1, 1],
     [4, -2, 5],
     [2, 8, 7]] 
)

np.linalg.inv(A)

array([[ 0.17647059, -0.00326797, -0.02287582],
       [ 0.05882353, -0.13071895,  0.08496732],
       [-0.11764706,  0.1503268 ,  0.05228758]])

# Operações Básicas

In [57]:
#Podemos multiplicar por um escalar
matriz_dobro = 2 * matriz
matriz_dobro
# multiplica cada elemento por 2.

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.],
       [14., 16., 18.],
       [20., 22., 24.]])

In [58]:
# Podemos somar duas matrizes
print(matriz + matriz_dobro)

[[ 3.  6.  9.]
 [12. 15. 18.]
 [21. 24. 27.]
 [30. 33. 36.]]


In [59]:
# Multiplicação elemento por elemento
print(matriz * matriz_dobro)

[[  2.   8.  18.]
 [ 32.  50.  72.]
 [ 98. 128. 162.]
 [200. 242. 288.]]


In [60]:
print(matriz.shape)
print(matriz_dobro.shape)

(4, 3)
(4, 3)


In [62]:
# Produto matricial
# Para fazer a multiplicação matricial eu preciso ter o numero de linhas igual ao numero de colunas da 
# outra matriz

# Portanto nesse caso eu transponho uma das matrizes.
print(matriz @ matriz_dobro.T)

[[ 28.  64. 100. 136.]
 [ 64. 154. 244. 334.]
 [100. 244. 388. 532.]
 [136. 334. 532. 730.]]


**Bora praticar!**  
  
Transforme os dados presentes no arquivo csv **dados_artificiais.csv**, que está na pasta **dados** em um numpy array (matriz). Apenas para facilitar o exercício, os dados do arquivo já se encontram na célula abaixo, mas aqui cabe ressaltar o motivo de estarmos utilizando o numpy para análise de dados.

In [63]:
lista_artificial        =      [[1.78881069287776, 65.6481019432242, 0],
                                [1.5667844336950, 76.6427679834926, 0],
                                [2.0921930548074, 55.4681853258539, 1],
                                [1.7824709172724, 67.28199736248, 1],
                                [1.7357669765411, 69.2890076331505, 0],
                                [1.6869746476945, 56.8400511361321, 0],
                                [1.7971046329794, 65.2089732846482, 1],
                                [1.1873490549389, 48.1647639458379, 0],
                                [1.5958914364289, 45.4106481398706, 1],
                                [1.3962817760658, 67.9301133367375, 0],
                                [1.6061481645731, 67.7196040973561, 0],
                                [1.7075899674617, 45.6093326162225, 0],
                                [1.7355131159863, 64.8454515098479, 0],
                                [1.6720551819612, 39.7059515043444, 1],
                                [1.7233770692063, 50.0588802056305, 1],
                                [1.6845742723083, 56.5450873826135, 1],
                                [1.7332589297219, 37.5121875909276, 0],
                                [1.7578996592814, 57.3624223948134, 0],
                                [1.9133377051681, 69.3072463864561, 1],
                                [1.4560483434458, 69.3423371108747, 0]
]

Utilize esta matriz para calcular o IMC, utilizando a equação

```
IMC = peso / altura**2
```
e insira na nova tabela

In [75]:
dadosMatriz = np.array(lista_artificial)

In [82]:
dadosMatriz = np.array(lista_artificial)

IMC = [i[1] / (i[0] ** 2) for i in dadosMatriz]
IMC_matriz = np.array(IMC)
#print(IMC)
#np.insert(lista_artificial, 2, IMC, axis = 1)

lista_artificial_com_IMC = np.insert(dadosMatriz, 2, IMC_matriz.T, axis=1)

print(lista_artificial_com_IMC)

[[ 1.78881069 65.64810194 20.51603397  0.        ]
 [ 1.56678443 76.64276798 31.22142239  0.        ]
 [ 2.09219305 55.46818533 12.67186232  1.        ]
 [ 1.78247092 67.28199736 21.17648965  1.        ]
 [ 1.73576698 69.28900763 22.99754611  0.        ]
 [ 1.68697465 56.84005114 19.97272618  0.        ]
 [ 1.79710463 65.20897328 20.19113045  1.        ]
 [ 1.18734905 48.16476395 34.16430689  0.        ]
 [ 1.59589144 45.41064814 17.8299864   1.        ]
 [ 1.39628178 67.93011334 34.84305285  0.        ]
 [ 1.60614816 67.7196041  26.25083964  0.        ]
 [ 1.70758997 45.60933262 15.64179279  0.        ]
 [ 1.73551312 64.84545151 21.52899308  0.        ]
 [ 1.67205518 39.7059515  14.20215982  1.        ]
 [ 1.72337707 50.05888021 16.85467995  1.        ]
 [ 1.68457427 56.54508738 19.92574427  1.        ]
 [ 1.73325893 37.51218759 12.48663736  0.        ]
 [ 1.75789966 57.36242239 18.56262192  0.        ]
 [ 1.91333771 69.30724639 18.93195155  1.        ]
 [ 1.45604834 69.34233711 32.70

| IMC             | Categoria           |   |
|-----------------|---------------------|---|
| abaixo de 16,00 | Baixo peso Grau III |   |
| 16,00 a 16,99   | Baixo peso Grau II  |   |
| 17,00 a 18.49   | Baixo peso Grau I   |   |
| 18,50 a 24,99   | Peso ideal          |   |
| 25,00 a 29,99   | Sobrepeso           |   |
| 30,00 a 34,99   | Obesidade Grau I    |   |
| 35,00 a 39,99   | Obesidade Grau II   |   |
| 40,0 e acima    | Obesidade Grau III  |   |

Agora utilize a tabela acima para indicar a qual categoria cada valor de IMC se enquadra. Insira novamente na tabela.

In [73]:
import numpy as np

In [89]:
categorias_IMC = np.array([
    "Baixo peso Grau III" if imc < 16.00
    else "Baixo peso Grau II" if 16.00 <= imc <= 16.99
    else "Baixo peso Grau I" if 17.00 <= imc <= 18.49
    else "Peso ideal" if 18.50 <= imc <= 24.99
    else "Sobrepeso" if 25.00 <= imc <= 29.99
    else "Obesidade Grau I" if 30.00 <= imc <= 34.99
    else "Obesidade Grau II" if 35.00 <= imc <= 39.99
    else "Obesidade Grau III"
    for imc in lista_artificial_com_IMC[:, 2]
], dtype=object)

# Adiciona coluna de categorias à matriz
lista_artificial_com_categorias = np.column_stack((lista_artificial_com_IMC, categorias_IMC))

print(lista_artificial_com_categorias)

[[1.78881069287776 65.6481019432242 20.516033969644194 0.0 'Peso ideal']
 [1.566784433695 76.6427679834926 31.221422393286545 0.0
  'Obesidade Grau I']
 [2.0921930548074 55.4681853258539 12.671862322378622 1.0
  'Baixo peso Grau III']
 [1.7824709172724 67.28199736248 21.17648965106973 1.0 'Peso ideal']
 [1.7357669765411 69.2890076331505 22.99754610962119 0.0 'Peso ideal']
 [1.6869746476945 56.8400511361321 19.972726183561296 0.0 'Peso ideal']
 [1.7971046329794 65.2089732846482 20.191130450290462 1.0 'Peso ideal']
 [1.1873490549389 48.1647639458379 34.16430688742957 0.0
  'Obesidade Grau I']
 [1.5958914364289 45.4106481398706 17.82998640186705 1.0
  'Baixo peso Grau I']
 [1.3962817760658 67.9301133367375 34.84305285178067 0.0
  'Obesidade Grau I']
 [1.6061481645731 67.7196040973561 26.250839638369474 0.0 'Sobrepeso']
 [1.7075899674617 45.6093326162225 15.641792787462661 0.0
  'Baixo peso Grau III']
 [1.7355131159863 64.8454515098479 21.528993082184783 0.0 'Peso ideal']
 [1.6720551819612

In [83]:


# # Fazendo a categorização
# categorias_IMC = []

# for imc_valor in IMC_matriz:
#     if imc_valor < 16.00:
#         categorias_IMC.append("Baixo peso Grau III")
#     elif 16.00 <= imc_valor <= 16.99:
#         categorias_IMC.append("Baixo peso Grau II")
#     elif 17.00 <= imc_valor <= 18.49:
#         categorias_IMC.append("Baixo peso Grau I")
#     elif 18.50 <= imc_valor <= 24.99:
#         categorias_IMC.append("Peso ideal")
#     elif 25.00 <= imc_valor <= 29.99:
#         categorias_IMC.append("Sobrepeso")
#     elif 30.00 <= imc_valor <= 34.99:
#         categorias_IMC.append("Obesidade Grau I")
#     elif 35.00 <= imc_valor <= 39.99:
#         categorias_IMC.append("Obesidade Grau II")
#     else:
#         categorias_IMC.append("Obesidade Grau III")


# lista_artificial_com_IMC = np.insert(lista_artificial_com_IMC, 3, categorias_IMC, axis=1)

# print(lista_artificial_com_IMC)

ValueError: could not convert string to float: 'Peso ideal'

In [None]:
categorias_IMC = []

for imc_valor in IMC:
    if imc_valor < 16.00:
        categorias_IMC.append("Baixo peso Grau III")
    elif 16.00 <= imc_valor <= 16.99:
        categorias_IMC.append("Baixo peso Grau II")
    elif 17.00 <= imc_valor <= 18.49:
        categorias_IMC.append("Baixo peso Grau I")
    elif 18.50 <= imc_valor <= 24.99:
        categorias_IMC.append("Peso ideal")
    elif 25.00 <= imc_valor <= 29.99:
        categorias_IMC.append("Sobrepeso")
    elif 30.00 <= imc_valor <= 34.99:
        categorias_IMC.append("Obesidade Grau I")
    elif 35.00 <= imc_valor <= 39.99:
        categorias_IMC.append("Obesidade Grau II")
    else:
        categorias_IMC.append("Obesidade Grau III")

            

### Tipos de dados

Primeiro vamos falar do infinito (e além).

Quando fazemos operações de ponto flutuante no computador, existe um padrão técnico (definido pela IEEE, o Instituto de Engenheiros Eletro-eletrônicos) que define algumas coisas que uma biblioteca tem que ter.

Especificamente, aqui vamos falar de duas coisas:
- Not a Number (NAN)
- Infinito

In [None]:
# Not a Number é o resultado de operações inválidas.
# Embora ele exista no Python, operações inválidas tendem a levantar um erro.

# são exemplos de operações inválidas tais quais dividir por 0

In [90]:
# Para usá-lo no python, temos que converter string para float.
float('NaN')

nan

In [92]:
# No numpy, temos o objeto nan.
print(np.nan)
print(type(np.nan))

nan
<class 'float'>


In [98]:
# Já no numpy, operações inválidas retornam NaN mesmo.
x1 = np.array([1, 0, 1, 0])
x2 = np.array([2, 1, 2, 0])

print(x1/x2, end = '\n\n')
print(x2/x1)

[0.5 0.  0.5 nan]

[ 2. inf  2. nan]


  print(x1/x2, end = '\n\n')
  print(x2/x1)
  print(x2/x1)


In [94]:
# "Infinito", no padrão, pode ser pensado como um número que é maior que qualquer outro número.
# No caso de "-infinito", temos um número que é menor que qualquer outro número.

1/0

ZeroDivisionError: division by zero

In [96]:
print(float('inf'))
print(float('inf')> 100000000000000000) 
print(-float('inf') < -100000000000000)

inf
True
True


In [97]:
# No Numpy, não seria diferente.
print(np.inf)
print(np.inf > 10000000000000000000)
print(-np.inf < -10000000000000000000)
print(type(np.inf))

inf
True
True
<class 'float'>


In [None]:
# No numpy, algumas operações podem gerar infinitos.

Notou que tanto infinito quanto NaN são do tipo "float"? Não são float64, nem float32, nem nada assim.

Isso é devido à hierarquia de dtypes do numpy.

![hierarchy](https://numpy.org/doc/stable/_images/dtype-hierarchy.png)

## Mini tarefa

Utilizando numpy crie duas matrizes com 5 linhas e 4 colunas, sendo uma delas apenas contendo números 1 e a segunda uma matriz olho (eye). Após isso, some as duas matrizes. Envie o código para realizar esta operação através do [link](https://forms.gle/SDCiDSG9FhmqXQTG6).

In [107]:
m1 = np.ones((5, 4))
m2 = np.eye(5,4)
mSoma = (m1 + m2)

print(m1, '\n\n', m2, '\n\n', f'A soma das duas matrizes é: \n\n {mSoma}')


[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]] 

 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]
 [0. 0. 0. 0.]] 

 A soma das duas matrizes é: 

 [[2. 1. 1. 1.]
 [1. 2. 1. 1.]
 [1. 1. 2. 1.]
 [1. 1. 1. 2.]
 [1. 1. 1. 1.]]


In [99]:
# print(np.zeros((2,3)), end = '\n\n')
# print(np.ones((3, 2)), end = '\n\n')
# print(np.identity(3), end = '\n\n')
# print(np.eye(3), end = '\n\n')

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

