# Numpy

**Relembrando**  
  
A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [1]:
# A gente importa o numpy sempre chamando ele de "np"
import numpy as np

In [None]:
py_array = [1,2,3]

print(py_array)
print(type(py_array))

In [None]:
print(type(py_array[0]))

In [3]:
# Vamos fazer uma comparação com um vetor do numpy
py_matriz = [[1,2,3],
             [3,4,5],
             [7,8,9],
             [10,11,12],
             ]

np_matriz = np.array(py_matriz)

print(np_matriz)
print(type(np_matriz))

[[ 1  2  3]
 [ 3  4  5]
 [ 7  8  9]
 [10 11 12]]
<class 'numpy.ndarray'>


In [9]:
array_np = np_matriz[0]
print(array_np)
print(type(np_matriz[0]))


[1 2 3]
<class 'numpy.ndarray'>


In [11]:
# Existem 2 formas de capturar um dado dentro da matriz

array_np = np_matriz[0,0]
array_np2 = np_matriz[0][0]
print(array_np)
print(array_np2)
print(type(array_np))

1
1
<class 'numpy.int64'>


In [14]:
# 3 atributos básicos pra um ndarray

print(np_matriz.shape) # Mostra o formato da matriz
print(np_matriz.ndim) # Mostra a quantidade de dimensões
print(np_matriz.dtype) # Mostra o tipo de dado dos elementos da matriz

(4, 3)
2
int64


In [15]:
x = np.array([1,2,3])
print(type(x))
print(x.dtype)

<class 'numpy.ndarray'>
int64


In [30]:
# O dtype de um array do numpy pode ser controlado na hora que a gente cria.
py_matriz = [[1,2,3],
             [4,5,6],
             [7,8,9],
             [10,11,12],
             ]

matriz = np.array(py_matriz, dtype=np.float64)

In [31]:
print(matriz)
print(matriz.dtype)

[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]
float64


In [32]:
# Para selecionar um elemento de uma tabela no Python e no Numpy, tem uma ligeira diferença.

print(matriz[0][0])
print(matriz[0,0])

1.0
1.0


Slicing com matriz

In [41]:
# Slicing funciona no numpy!

print(matriz)

# print(matriz[linhas:colunas:step])

print('\nRetirando a primeira coluna')
print(matriz[:,1:])

print('\nRetirando a primeira linha')
print(matriz[1:,:])

print('\nCaptura a segunda linha e inverte os valores')
print(matriz[1,::-1])

print('\nCaptura somente alguns valores na matriz')
print(matriz[1:-1,-1:])


[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]

Retirando a primeira coluna
[[ 2.  3.]
 [ 5.  6.]
 [ 8.  9.]
 [11. 12.]]

Retirando a primeira linha
[[ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]

Captura a segunda linha e inverte os valores
[6. 5. 4.]

Captura somente alguns valores na matriz
[[6.]
 [9.]]


**Funções numpy**  
O numpy também tem diversas funções para facilitar criação de matrizes.

In [46]:
print(np.zeros((2,3)))
print(np.ones((3,2)))
print(np.identity((3)))
print(np.eye(4,4))

[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


# Manipulações de matrizes

In [47]:
matriz

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.],
       [ 7.,  8.,  9.],
       [10., 11., 12.]])

In [48]:
# Transposição de matrizes (quando as linhas viram colunas)

matriz.T

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [49]:

np.transpose(matriz)

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [50]:
matriz.transpose()

array([[ 1.,  4.,  7., 10.],
       [ 2.,  5.,  8., 11.],
       [ 3.,  6.,  9., 12.]])

In [51]:
x = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9])
x.shape

(9,)

In [52]:
# Redimensionamento
x.reshape(3,3)

array([[0.1, 0.4, 1. ],
       [0.2, 0.7, 1.2],
       [1.1, 1. , 0.9]])

In [53]:
y = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9, 2.0,
              1.5, 1.6])
y.shape

(12,)

In [54]:
# Vejam o que acontece se as dimensões não são condizentes
y.reshape(4,4)

ValueError: cannot reshape array of size 12 into shape (4,4)

In [55]:
# E se eu quiser retornar para um vetor
x = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

x.reshape(-1,9)

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [56]:
# Também é possível utilizar o flatten
x.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [64]:
# Também podemos combinar arrays diferentes.
# Imagina que temos duas features, altura e peso de pessoas físicas.
x1 = np.array([[1.67, 89.],
               [1.79, 85.],
               [1.69, 65.],
               [1.54, 57.],
               [1.50, 45.]])

# Porém, nós queremos testar agora adicionar uma terceira feature, se a pessoa é homem ou mulher.
# 1 é mulher, 0 é homem
x2 = np.array([1, 0, 1, 0, 1])

# Como podemos fazer?

In [62]:
#Podemos utilizar o concatenate (forma mais utilizada para concatenar bases)

#Organizando o dado(linha) para incluir na matriz
# nova_coluna = x2.reshape(linhas, colunas) # Use o -1 nas linhas para não definir a quantidade de linhas (funciona para colunas tbm)
nova_coluna = x2.reshape(-1,1)

#Juntando o novo dado a coluna
np.concatenate((x1, nova_coluna), axis=1)

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [67]:
transpondo = x2.T
np.concatenate((x1, transpondo), axis=1)

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

In [68]:
np.append(x1, x2.reshape(-1, 1), axis=1)

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [70]:
# O insert tem a vantagem de não precisar transpor a linhas que será inseriada às coluna
np.insert(x1, 1, x2, axis=1)

array([[ 1.67,  1.  , 89.  ],
       [ 1.79,  0.  , 85.  ],
       [ 1.69,  1.  , 65.  ],
       [ 1.54,  0.  , 57.  ],
       [ 1.5 ,  1.  , 45.  ]])

In [71]:
# unido dados verticalmente adicionando uma linha
np.vstack([x1.T, x2])

array([[ 1.67,  1.79,  1.69,  1.54,  1.5 ],
       [89.  , 85.  , 65.  , 57.  , 45.  ],
       [ 1.  ,  0.  ,  1.  ,  0.  ,  1.  ]])

In [72]:
np.vstack([x1.T, x2]).T

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [73]:
# unindo dados horizontalmente adicionando uma nova coluna

np.hstack([x1, x2.reshape(-1,1)])

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [75]:
np.column_stack([x1, x2])

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ]])

In [79]:
# Agora temos a tabela de dados abaixo.
table = np.array([[1.67, 89., 1],
                  [1.79, 85., 0],
                  [1.69, 65., 1],
                  [1.54, 57., 0],
                  [1.50, 45., 1]])

# Mas tinhamos esquecido de outras 3 pessoas!
new_table = np.array([[1.78, 91, 0],
                      [1.72, 67, 1],
                      [1.77, 76, 1]])

In [81]:
# Como podemos juntar as tabelas?


np.concatenate((table, new_table), axis=0)


array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ],
       [ 1.78, 91.  ,  0.  ],
       [ 1.72, 67.  ,  1.  ],
       [ 1.77, 76.  ,  1.  ]])

In [82]:
np.append(table, new_table, axis=0)

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ],
       [ 1.78, 91.  ,  0.  ],
       [ 1.72, 67.  ,  1.  ],
       [ 1.77, 76.  ,  1.  ]])

In [83]:
np.vstack([table, new_table])

array([[ 1.67, 89.  ,  1.  ],
       [ 1.79, 85.  ,  0.  ],
       [ 1.69, 65.  ,  1.  ],
       [ 1.54, 57.  ,  0.  ],
       [ 1.5 , 45.  ,  1.  ],
       [ 1.78, 91.  ,  0.  ],
       [ 1.72, 67.  ,  1.  ],
       [ 1.77, 76.  ,  1.  ]])

Extra

In [84]:
# Inversão de matriz

A = np.array(
    [[6,1,1],
    [4,-2,5],
    [2,8,7]]
)
np.linalg.inv(A)

array([[ 0.17647059, -0.00326797, -0.02287582],
       [ 0.05882353, -0.13071895,  0.08496732],
       [-0.11764706,  0.1503268 ,  0.05228758]])

# Operações Básicas

In [85]:
matriz

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.],
       [ 7.,  8.,  9.],
       [10., 11., 12.]])

In [87]:
#Podemos multiplicar por um escalar
matriz_dobro = 2 * matriz
matriz_dobro

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.],
       [14., 16., 18.],
       [20., 22., 24.]])

In [88]:
# Podemos somar duas matrizes

print(matriz + matriz_dobro)

[[ 3.  6.  9.]
 [12. 15. 18.]
 [21. 24. 27.]
 [30. 33. 36.]]


In [89]:
# Multiplicação elemento por elemento
print(matriz * matriz_dobro)

[[  2.   8.  18.]
 [ 32.  50.  72.]
 [ 98. 128. 162.]
 [200. 242. 288.]]


In [90]:
print(matriz.shape)
print(matriz_dobro.shape)

(4, 3)
(4, 3)


In [92]:
# Produto matricial (lembre-se de que as matrizes precisam estar com mesmas dimensssões)

print(matriz @ matriz_dobro.T)

[[ 28.  64. 100. 136.]
 [ 64. 154. 244. 334.]
 [100. 244. 388. 532.]
 [136. 334. 532. 730.]]


**Bora praticar!**  
  
Transforme os dados presentes no arquivo csv **dados_artificiais.csv**, que está na pasta **dados** em um numpy array (matriz). Apenas para facilitar o exercício, os dados do arquivo já se encontram na célula abaixo, mas aqui cabe ressaltar o motivo de estarmos utilizando o numpy para análise de dados.

In [178]:
lista_artificial        =      [[1.78881069287776, 65.6481019432242, 0],
                                [1.5667844336950, 76.6427679834926, 0],
                                [2.0921930548074, 55.4681853258539, 1],
                                [1.7824709172724, 67.28199736248, 1],
                                [1.7357669765411, 69.2890076331505, 0],
                                [1.6869746476945, 56.8400511361321, 0],
                                [1.7971046329794, 65.2089732846482, 1],
                                [1.1873490549389, 48.1647639458379, 0],
                                [1.5958914364289, 45.4106481398706, 1],
                                [1.3962817760658, 67.9301133367375, 0],
                                [1.6061481645731, 67.7196040973561, 0],
                                [1.7075899674617, 45.6093326162225, 0],
                                [1.7355131159863, 64.8454515098479, 0],
                                [1.6720551819612, 39.7059515043444, 1],
                                [1.7233770692063, 50.0588802056305, 1],
                                [1.6845742723083, 56.5450873826135, 1],
                                [1.7332589297219, 37.5121875909276, 0],
                                [1.7578996592814, 57.3624223948134, 0],
                                [1.9133377051681, 69.3072463864561, 1],
                                [1.4560483434458, 69.3423371108747, 0]
]

matriz_imc = np.array(lista_artificial)
print(matriz_imc)

[[ 1.78881069 65.64810194  0.        ]
 [ 1.56678443 76.64276798  0.        ]
 [ 2.09219305 55.46818533  1.        ]
 [ 1.78247092 67.28199736  1.        ]
 [ 1.73576698 69.28900763  0.        ]
 [ 1.68697465 56.84005114  0.        ]
 [ 1.79710463 65.20897328  1.        ]
 [ 1.18734905 48.16476395  0.        ]
 [ 1.59589144 45.41064814  1.        ]
 [ 1.39628178 67.93011334  0.        ]
 [ 1.60614816 67.7196041   0.        ]
 [ 1.70758997 45.60933262  0.        ]
 [ 1.73551312 64.84545151  0.        ]
 [ 1.67205518 39.7059515   1.        ]
 [ 1.72337707 50.05888021  1.        ]
 [ 1.68457427 56.54508738  1.        ]
 [ 1.73325893 37.51218759  0.        ]
 [ 1.75789966 57.36242239  0.        ]
 [ 1.91333771 69.30724639  1.        ]
 [ 1.45604834 69.34233711  0.        ]]


Utilize esta matriz para calcular o IMC, utilizando a equação

```
IMC = peso / altura**2
```
e insira na nova tabela

In [179]:

peso   = matriz_imc[:,1]
altura = matriz_imc[:,0]

imc = peso / (altura**2)

matriz_imc = np.column_stack((matriz_imc, imc))
print(matriz_imc)


[[ 1.78881069 65.64810194  0.         20.51603397]
 [ 1.56678443 76.64276798  0.         31.22142239]
 [ 2.09219305 55.46818533  1.         12.67186232]
 [ 1.78247092 67.28199736  1.         21.17648965]
 [ 1.73576698 69.28900763  0.         22.99754611]
 [ 1.68697465 56.84005114  0.         19.97272618]
 [ 1.79710463 65.20897328  1.         20.19113045]
 [ 1.18734905 48.16476395  0.         34.16430689]
 [ 1.59589144 45.41064814  1.         17.8299864 ]
 [ 1.39628178 67.93011334  0.         34.84305285]
 [ 1.60614816 67.7196041   0.         26.25083964]
 [ 1.70758997 45.60933262  0.         15.64179279]
 [ 1.73551312 64.84545151  0.         21.52899308]
 [ 1.67205518 39.7059515   1.         14.20215982]
 [ 1.72337707 50.05888021  1.         16.85467995]
 [ 1.68457427 56.54508738  1.         19.92574427]
 [ 1.73325893 37.51218759  0.         12.48663736]
 [ 1.75789966 57.36242239  0.         18.56262192]
 [ 1.91333771 69.30724639  1.         18.93195155]
 [ 1.45604834 69.34233711  0.  

| IMC             | Categoria           |   |
|-----------------|---------------------|---|
| abaixo de 16,00 | Baixo peso Grau III |   |
| 16,00 a 16,99   | Baixo peso Grau II  |   |
| 17,00 a 18.49   | Baixo peso Grau I   |   |
| 18,50 a 24,99   | Peso ideal          |   |
| 25,00 a 29,99   | Sobrepeso           |   |
| 30,00 a 34,99   | Obesidade Grau I    |   |
| 35,00 a 39,99   | Obesidade Grau II   |   |
| 40,0 e acima    | Obesidade Grau III  |   |

Agora utilize a tabela acima para indicar a qual categoria cada valor de IMC se enquadra. Insira novamente na tabela.

In [183]:

def categorizar(imc):
    if imc < 16.00:
        return 'Baixo peso Grau III'
    elif 16.00 <= imc <= 16.99:
        return 'Baixo peso Grau II'
    elif 17.00 <= imc <= 18.49:
        return 'Baixo peso Grau I'
    elif 18.50 <= imc <= 24.99:
        return 'Peso ideal'
    elif 25.00 <= imc <= 29.99:
        return 'Sobrepeso'
    elif 30.00 <= imc <= 34.99:
        return 'Obesidade Grau I'
    elif 35.00 <= imc <= 39.99:
        return 'Obesidade Grau II'
    else:
        return 'Obesidade Grau III'

# Usando a funçao vectorize e adicionando uma coluna
# matriz_imc = np.column_stack((matriz_imc, np.vectorize(categorizar)(imc)))

categorias = np.array([categorizar(i) for i in imc])
matriz_imc = np.column_stack((matriz_imc, categorias))
print(matriz_imc)
    
        
        

[20.51603397 31.22142239 12.67186232 21.17648965 22.99754611 19.97272618
 20.19113045 34.16430689 17.8299864  34.84305285 26.25083964 15.64179279
 21.52899308 14.20215982 16.85467995 19.92574427 12.48663736 18.56262192
 18.93195155 32.70746504]
[['1.78881069287776' '65.6481019432242' '0.0' '20.516033969644194'
  'Peso ideal' 'Peso ideal' 'Peso ideal' 'Peso ideal']
 ['1.566784433695' '76.6427679834926' '0.0' '31.221422393286545'
  'Obesidade Grau I' 'Obesidade Grau I' 'Obesidade Grau I'
  'Obesidade Grau I']
 ['2.0921930548074' '55.4681853258539' '1.0' '12.671862322378622'
  'Baixo peso Grau III' 'Baixo peso Grau III' 'Baixo peso Grau III'
  'Baixo peso Grau III']
 ['1.7824709172724' '67.28199736248' '1.0' '21.17648965106973'
  'Peso ideal' 'Peso ideal' 'Peso ideal' 'Peso ideal']
 ['1.7357669765411' '69.2890076331505' '0.0' '22.99754610962119'
  'Peso ideal' 'Peso ideal' 'Peso ideal' 'Peso ideal']
 ['1.6869746476945' '56.8400511361321' '0.0' '19.972726183561296'
  'Peso ideal' 'Peso ide

### Tipos de dados

Primeiro vamos falar do infinito (e além).

Quando fazemos operações de ponto flutuante no computador, existe um padrão técnico (definido pela IEEE, o Instituto de Engenheiros Eletro-eletrônicos) que define algumas coisas que uma biblioteca tem que ter.

Especificamente, aqui vamos falar de duas coisas:
- Not a Number (NAN)
- Infinito

In [184]:
# Not a Number é o resultado de operações inválidas.
# Embora ele exista no Python, operações inválidas tendem a levantar um erro.
0/0

ZeroDivisionError: division by zero

In [185]:
# Para usá-lo no python, temos que converter string para float.
float('NaN')

nan

In [187]:
# No numpy, temos o objeto nan.
print(np.nan)
print(type(np.nan))

nan
<class 'float'>


In [190]:
# Já no numpy, operações inválidas retornam NaN mesmo.
x1 = np.array([1,0,1,0])
x2 = np.array([2,1,2,0])
print((x1 / x2))

[0.5 0.  0.5 nan]


  print((x1 / x2))


In [191]:
# "Infinito", no padrão, pode ser pensado como um número que é maior que qualquer outro número.
# No caso de "-infinito", temos um número que é menor que qualquer outro número.

1/0

ZeroDivisionError: division by zero

In [193]:
# representando o infinito no python
print(float('inf'))
print(float('inf') > 1000000000000)

print(-float('inf')< -10000000000000)

inf
True
True


In [197]:
# No Numpy, não seria diferente.

print(np.inf)
print(type(np.inf))
print(np.inf > 10000000000000)
print(-np.inf < -10000000000000)

inf
<class 'float'>
True
True


In [200]:
# No numpy, algumas operações podem gerar infinitos.

x1 = np.array([1,0,1,0])
x2 = np.array([2,1,2,0])
print(x2 / x1)

[ 2. inf  2. nan]


  print(x2 / x1)
  print(x2 / x1)


Notou que tanto infinito quanto NaN são do tipo "float"? Não são float64, nem float32, nem nada assim.

Isso é devido à hierarquia de dtypes do numpy.

![hierarchy](https://numpy.org/doc/stable/_images/dtype-hierarchy.png)

## Mini tarefa

Utilizando numpy crie duas matrizes com 5 linhas e 4 colunas, sendo uma delas apenas contendo números 1 e a segunda uma matriz olho (eye). Após isso, some as duas matrizes. Envie o código para realizar esta operação através do [link](https://forms.gle/SDCiDSG9FhmqXQTG6).

In [203]:
import numpy as np

matriz_1 = np.ones((5, 4))
matriz_2 = np.eye(5, 4)
soma_matrizes = matriz_1 + matriz_2

print("Matriz 1:\n", matriz_1)
print("\nMatriz 2:\n", matriz_2)
print("\nSoma das matrizes:\n", soma_matrizes)


Matriz 1:
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

Matriz 2:
 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]
 [0. 0. 0. 0.]]

Soma das matrizes:
 [[2. 1. 1. 1.]
 [1. 2. 1. 1.]
 [1. 1. 2. 1.]
 [1. 1. 1. 2.]
 [1. 1. 1. 1.]]
