# Numpy

**Relembrando**  
  
A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [1]:
# A gente importa o numpy sempre chamando ele de "np"
import numpy as np

In [2]:
py_array = [1,   2,  3]

np_array = np.array(py_array)

print(np_array)
print(type(np_array))

[1 2 3]
<class 'numpy.ndarray'>


In [3]:
print(type(np_array[0]))

<class 'numpy.int32'>


In [4]:
# Vamos fazer uma comparação com um vetor do numpy
py_matriz = [[1,   2,  3],
            [4,   5,  6],
            [7,   8,  9],
            [10, 11, 12]]

np_matriz = np.array(py_matriz)

print(np_matriz)
print(type(np_matriz))

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
<class 'numpy.ndarray'>


In [5]:
print(type(np_matriz[0]))

<class 'numpy.ndarray'>


In [6]:
print(type(np_matriz[0][0]))

<class 'numpy.int32'>


In [7]:
# 3 atributos básicos pra um ndarray
print(np_matriz.shape)   # O formato dele
print(np_matriz.ndim)    # Quantas dimensões ele tem
print(np_matriz.dtype)   # O "dtype", que é o tipo dos elementos (número, letra, ...) dele

(4, 3)
2
int32


In [8]:
x = np.array([1, 2, 3]) # Um vetor também é um ndarray
print(type(x))
print(x.dtype)

<class 'numpy.ndarray'>
int32


In [9]:
# O dtype de um array do numpy pode ser controlado na hora que a gente cria.
py_matriz = [[1,   2,  3],
            [4,   5,  6],
            [7,   8,  9],
            [10, 11, 12]]

matriz = np.array(py_matriz, dtype=np.float64)

In [10]:
print(matriz)
print(matriz.dtype)

[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]
float64


In [11]:
# Para selecionar um elemento de uma tabela no Python e no Numpy, tem uma ligeira diferença.
print((matriz[0][0])) # Python: Pega a primeira linha. Dela, pega o primeiro elemento.
print((matriz[0,0]))  # Numpy: Pega o elemento da linha 0, coluna 0.

1.0
1.0


Slicing com matriz

In [12]:
# Slicing funciona no numpy!
print(matriz)
print(matriz[:,2]) # Pegando a terceira coluna
print(matriz[1,:]) # Pegando a segunda linha
print(matriz[1,::-1]) # Pegando a segunda linha, e invertendo seus elementos de trás pra frente.

[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]
[ 3.  6.  9. 12.]
[4. 5. 6.]
[6. 5. 4.]


**Funções numpy**  
O numpy também tem diversas funções para facilitar criação de matrizes.

In [13]:
print(np.zeros((10, 3)), end='\n\n') # O "end" muda o que o Python encaixa no fim do que ele mostra pra gente.
print(np.ones((5,2)), end='\n\n') # \n é pular linha, e é o default. \n\n pula 2 linhas.
# Alguns spoilers
print(np.identity(4), end='\n\n')
print(np.eye(4, 3), end='\n\n')

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 0.]]



# Manipulações de matrizes

In [14]:
# Transposição de matrizes
matriz.T

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [15]:
np.transpose(matriz)

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [16]:
matriz.transpose()

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [17]:
# Redimensionamento
x = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9])

x.reshape(3, 3)

array([[0.1, 0.4, 1. ],
       [0.2, 0.7, 1.2],
       [1.1, 1. , 0.9]])

In [18]:
# Vejam o que acontece se as dimensões não são condizentes

y = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9, 2.0,
              1.5, 1.6])
y.reshape(3,3)

ValueError: cannot reshape array of size 12 into shape (3,3)

In [19]:
# E se eu quiser retornar para um vetor
x = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

x.reshape((1, 9))

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [20]:
# Também é possível utilizar o flatten
x.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
# Também podemos combinar arrays diferentes.
# Imagina que temos duas features, altura e peso de pessoas físicas.
x1 = np.array([[1.67, 89.],
               [1.79, 85.],
               [1.69, 65.],
               [1.54, 57.],
               [1.50, 45.]])

# Porém, nós queremos testar agora adicionar uma terceira feature, se a pessoa é homem ou mulher.
# 1 é mulher, 0 é homem
x2 = np.array([1, 0, 1, 0, 1])

# Como podemos fazer?

In [22]:
#Podemos utilizar o concatenate
np.concatenate((x1, x2.reshape(-1, 1)), axis=1) # O valor -1 no reshape significa que não sabemos quantas linhas teremos, o próprio numpy irá definir

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [24]:
np.append(x1, x2.reshape(-1, 1), axis=1) 

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [25]:
np.vstack([x1.T, x2]).T

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [26]:
np.insert(x1, 1, x2, axis=1)

array([[ 1.67,  1.  , 89.  ],
       [ 1.79,  0.  , 85.  ],
       [ 1.69,  1.  , 65.  ],
       [ 1.54,  0.  , 57.  ],
       [ 1.5 ,  1.  , 45.  ]])

In [27]:
np.column_stack([x1, x2])

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [28]:
# Agora temos a tabela de dados abaixo.
table = np.array([[1.67, 89., 1],
                  [1.79, 85., 0],
                  [1.69, 65., 1],
                  [1.54, 57., 0],
                  [1.50, 45., 1]])

# Mas tinhamos esquecido de outras 3 pessoas!
new_table = np.array([[1.78, 91, 0],
                      [1.72, 67, 1],
                      [1.77, 76, 1]])

In [29]:
# Como podemos juntar as tabelas?



# Operações Básicas

In [30]:
#Podemos multiplicar por um escalar
matriz_dobro = 2 * matriz
matriz_dobro

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.],
       [14., 16., 18.],
       [20., 22., 24.]])

In [31]:
# Podemos somar duas matrizes
print(matriz + matriz_dobro)

[[ 3.  6.  9.]
 [12. 15. 18.]
 [21. 24. 27.]
 [30. 33. 36.]]


In [32]:
# Multiplicação elemento por elemento
print(matriz * matriz_dobro)

[[  2.   8.  18.]
 [ 32.  50.  72.]
 [ 98. 128. 162.]
 [200. 242. 288.]]


In [33]:
# Produto matricial
print(matriz @ matriz_dobro.T)

# Outra forma de escrever a mesma coisa
print(matriz.dot(matriz_dobro.T))

[[ 28.  64. 100. 136.]
 [ 64. 154. 244. 334.]
 [100. 244. 388. 532.]
 [136. 334. 532. 730.]]
[[ 28.  64. 100. 136.]
 [ 64. 154. 244. 334.]
 [100. 244. 388. 532.]
 [136. 334. 532. 730.]]


**Bora praticar!**  
  
Transforme o csv **dados_artificiais** que está na pasta **dados** para um numpy array (matriz)

Agora utilize esta matriz para calcular o IMC, utilizando a equação

```
IMC = peso / altura**2
```
e insira na nova tabela

array([['1.67', '89.0', '1.0', 'Normal'],
       ['1.79', '85.0', '0.0', 'Normal'],
       ['1.69', '65.0', '1.0', 'Normal'],
       ['1.54', '57.0', '0.0', 'Normal'],
       ['1.5', '45.0', '1.0', 'Normal']], dtype='<U32')

| IMC             | Categoria           |   |
|-----------------|---------------------|---|
| abaixo de 16,00 | Baixo peso Grau III |   |
| 16,00 a 16,99   | Baixo peso Grau II  |   |
| 17,00 a 18.49   | Baixo peso Grau I   |   |
| 18,50 a 24,99   | Peso ideal          |   |
| 25,00 a 29,99   | Sobrepeso           |   |
| 30,00 a 34,99   | Obesidade Grau I    |   |
| 35,00 a 39,99   | Obesidade Grau II   |   |
| 40,0 e acima    | Obesidade Grau III  |   |

Agora utilize a tabela acima para indicar a qual categoria cada valor de IMC se enquadra. Insira novamente na tabela.

### Tipos de dados

Primeiro vamos falar do infinito (e além).

Quando fazemos operações de ponto flutuante no computador, existe um padrão técnico (definido pela IEEE, o Instituto de Engenheiros Eletro-eletrônicos) que define algumas coisas que uma biblioteca tem que ter.

Especificamente, aqui vamos falar de duas coisas:
- Not a Number (NAN)
- Infinito

In [34]:
# Not a Number é o resultado de operações inválidas.
# Embora ele exista no Python, operações inválidas tendem a levantar um erro.
0/0

ZeroDivisionError: division by zero

In [35]:
# Para usá-lo no python, temos que converter string para float.
float('NaN')

nan

In [36]:
# No numpy, temos o objeto nan.
print(np.nan)
print(type(np.nan))

nan
<class 'float'>


In [37]:
# Já no numpy, operações inválidas retornam NaN mesmo.
x1 = np.array([1, 0, 1, 0])
x2 = np.array([2, 1, 2, 0])

print(x1 / x2)

[0.5 0.  0.5 nan]


  print(x1 / x2)


In [38]:
# "Infinito", no padrão, pode ser pensado como um número que é maior que qualquer outro número.
# No caso de "-infinito", temos um número que é menor que qualquer outro número.
1/0

ZeroDivisionError: division by zero

In [39]:
print(float('inf'))
print(float('inf') > 293818943824723984.928)
print(-float('inf') < -293818943824723984.928)

inf
True
True


In [40]:
# No Numpy, não seria diferente.
print(np.inf)
print(np.inf > 293818943824723984.928)
print(-np.inf < -293818943824723984.928)
print(type(np.inf))

inf
True
True
<class 'float'>


In [41]:
# No numpy, algumas operações podem gerar infinitos.
x1 = np.array([1, 0, 1, 0])
x2 = np.array([2, 1, 2, 0])

print(x2 / x1)

[ 2. inf  2. nan]


  print(x2 / x1)
  print(x2 / x1)


Notou que tanto infinito quanto NaN são do tipo "float"? Não são float64, nem float32, nem anda assim.

Isso é devido à hierarquia de dtypes do numpy.

![hierarchy](https://numpy.org/doc/stable/_images/dtype-hierarchy.png)