# Numpy

**Relembrando**  
  
A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [None]:
# A gente importa o numpy sempre chamando ele de "np"
import numpy as np

In [None]:
py_array = [1,  2,  3]

np_array = np.array(py_array)

print(np_array)
print(type(np_array))

In [None]:
print(type(np_array[0]))

In [None]:
# Vamos fazer uma comparação com um vetor do numpy
py_matriz = [[1,   2,  3],
            [4,   5,  6],
            [7,   8,  9],
            [10, 11, 12]]

np_matriz = np.array(py_matriz)

print(np_matriz)
print(type(np_matriz))

In [None]:
np_matriz[0]

In [None]:
print(type(np_matriz[0]))

In [None]:
print(type(np_matriz[0][0]))

In [None]:
# 3 atributos básicos pra um ndarray
print(np_matriz.shape)   # O formato dele
print(np_matriz.ndim)    # Quantas dimensões ele tem
print(np_matriz.dtype)   # O "dtype", que é o tipo dos elementos (número, letra, ...) dele

In [None]:
x = np.array([1, 2, 3]) # Um vetor também é um ndarray
print(type(x))
print(x.dtype)

In [None]:
# O dtype de um array do numpy pode ser controlado na hora que a gente cria.
py_matriz = [[1,   2,  3],
            [4,   5,  6],
            [7,   8,  9],
            [10, 11, 12]]

matriz = np.array(py_matriz, dtype=np.float64)

In [None]:
print(matriz)
print(matriz.dtype)

In [None]:
# Para selecionar um elemento de uma tabela no Python e no Numpy, tem uma ligeira diferença.
print((matriz[0][0])) # Python: Pega a primeira linha. Dela, pega o primeiro elemento.
print((matriz[0,0]))  # Numpy: Pega o elemento da linha 0, coluna 0.

Slicing com matriz

In [None]:
# Slicing funciona no numpy!
print(matriz)
print('------')
print(matriz[:,1:]) # Pegando a terceira coluna
print('------')
print(matriz[1,:]) # Pegando a segunda linha
print('------')
print(matriz[1,::-1]) # Pegando a segunda linha, e invertendo seus elementos de trás pra frente.

**Funções numpy**  
O numpy também tem diversas funções para facilitar criação de matrizes.

In [None]:
print(np.zeros((10, 3)), end='\n\n') # O "end" muda o que o Python encaixa no fim do que ele mostra pra gente.
print(np.ones((5,2)), end='\n\n') # \n é pular linha, e é o default. \n\n pula 2 linhas.
print(np.identity(4), end='\n\n')
print(np.eye(4, 3), end='\n\n')

# Manipulações de matrizes

In [None]:
matriz

In [None]:
# Transposição de matrizes
matriz.T

In [None]:
array_transposto = np.transpose(matriz)
array_transposto

In [None]:
matriz.transpose()

In [None]:
x = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9])
x.shape

In [None]:
# Redimensionamento
x.reshape(3, 3)

In [None]:
y = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9, 2.0,
              1.5, 1.6])
y.shape

In [None]:
# Vejam o que acontece se as dimensões não são condizentes
y.reshape(3, 3)

In [None]:
# E se eu quiser retornar para um vetor
x = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

x.reshape((-1, 9))

In [None]:
# Também é possível utilizar o flatten
x.flatten()

In [None]:
# Também podemos combinar arrays diferentes.
# Imagina que temos duas features, altura e peso de pessoas físicas.
x1 = np.array([[1.67, 89.],
               [1.79, 85.],
               [1.69, 65.],
               [1.54, 57.],
               [1.50, 45.]])

# Porém, nós queremos testar agora adicionar uma terceira feature, se a pessoa é homem ou mulher.
# 1 é mulher, 0 é homem
x2 = np.array([1, 0, 1, 0, 1])

# Como podemos fazer?

In [None]:
#Podemos utilizar o concatenate
np.concatenate((x1, x2.reshape(-1, 1)), axis=1) # O valor -1 no reshape significa que não sabemos quantas linhas teremos, o próprio numpy irá definir

In [None]:
np.concatenate((x1, x2.T), axis=1) 

In [None]:
np.append(x1, x2.reshape(-1, 1), axis=1) 

In [None]:
np.insert(x1, 1, x2, axis=1)

In [None]:
np.vstack([x1.T, x2])

In [None]:
np.vstack([x1.T, x2]).T

In [None]:
np.hstack([x1, x2.reshape(-1, 1)])

In [None]:
np.column_stack([x1, x2])

In [None]:
# Agora temos a tabela de dados abaixo.
table = np.array([[1.67, 89., 1],
                  [1.79, 85., 0],
                  [1.69, 65., 1],
                  [1.54, 57., 0],
                  [1.50, 45., 1]])

# Mas tinhamos esquecido de outras 3 pessoas!
new_table = np.array([[1.78, 91, 0],
                      [1.72, 67, 1],
                      [1.77, 76, 1]])

In [None]:
# Como podemos juntar as tabelas?
np.vstack([table, new_table])

In [None]:
np.append(table, new_table, axis=0)

In [None]:
np.append(table, new_table).reshape(-1, 3)

# Operações Básicas

In [None]:
vec1 = np.arange(0, 10, 1)
print(vec1)
print(vec1 * 2)

In [None]:
matriz

In [None]:
#Podemos multiplicar por um escalar
matriz_dobro = 2 * matriz
matriz_dobro

In [None]:
# Podemos somar duas matrizes
print(matriz + matriz_dobro)

In [None]:
# Multiplicação elemento por elemento
print(matriz * matriz_dobro)

In [None]:
print(matriz.shape)
print(matriz_dobro.shape)

In [None]:
# Produto matricial
print(matriz @ matriz_dobro.T)

print('----------------------------')
# Outra forma de escrever a mesma coisa
print(matriz.dot(matriz_dobro.T))

**Bora praticar!**  
  
Transforme o csv **dados_artificiais**, que está na pasta **dados**, para um numpy array (matriz)

Agora utilize esta matriz para calcular o IMC, utilizando a equação

```
IMC = peso / altura**2
```
e insira na nova tabela

| IMC             | Categoria           |   |
|-----------------|---------------------|---|
| abaixo de 16,00 | Baixo peso Grau III |   |
| 16,00 a 16,99   | Baixo peso Grau II  |   |
| 17,00 a 18.49   | Baixo peso Grau I   |   |
| 18,50 a 24,99   | Peso ideal          |   |
| 25,00 a 29,99   | Sobrepeso           |   |
| 30,00 a 34,99   | Obesidade Grau I    |   |
| 35,00 a 39,99   | Obesidade Grau II   |   |
| 40,0 e acima    | Obesidade Grau III  |   |

Agora utilize a tabela acima para indicar a qual categoria cada valor de IMC se enquadra. Insira novamente na tabela.

### Tipos de dados

Primeiro vamos falar do infinito (e além).

Quando fazemos operações de ponto flutuante no computador, existe um padrão técnico (definido pela IEEE, o Instituto de Engenheiros Eletro-eletrônicos) que define algumas coisas que uma biblioteca tem que ter.

Especificamente, aqui vamos falar de duas coisas:
- Not a Number (NAN)
- Infinito

In [None]:
# Not a Number é o resultado de operações inválidas.
# Embora ele exista no Python, operações inválidas tendem a levantar um erro.
0/0

In [None]:
# Para usá-lo no python, temos que converter string para float.
float('NaN')

In [None]:
# No numpy, temos o objeto nan.
print(np.nan)
print(type(np.nan))

In [None]:
# Já no numpy, operações inválidas retornam NaN mesmo.
x1 = np.array([1, 0, 1, 0])
x2 = np.array([2, 1, 2, 0])

print(x1 / x2)

In [None]:
# "Infinito", no padrão, pode ser pensado como um número que é maior que qualquer outro número.
# No caso de "-infinito", temos um número que é menor que qualquer outro número.
1/0

In [None]:
print(float('inf'))
print(float('inf') > 293818943824723984.928)
print(-float('inf') < -293818943824723984.928)

In [None]:
# No Numpy, não seria diferente.
print(np.inf)
print(np.inf > 293818943824723984.928)
print(-np.inf < -293818943824723984.928)
print(type(np.inf))

In [None]:
# No numpy, algumas operações podem gerar infinitos.
x1 = np.array([1, 0, 1, 0])
x2 = np.array([2, 1, 2, 0])

print(x2 / x1)

Notou que tanto infinito quanto NaN são do tipo "float"? Não são float64, nem float32, nem anda assim.

Isso é devido à hierarquia de dtypes do numpy.

![hierarchy](https://numpy.org/doc/stable/_images/dtype-hierarchy.png)