# Numpy

**Relembrando**  
  
A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [1]:
# A gente importa o numpy sempre chamando ele de "np"
import numpy as np

In [None]:
py_array = [1, 2, 3]

np_array = np.array(py_array)

print(np_array)
print(type(np_array))

In [None]:
print(type(np_array[0]))

In [None]:
# Vamos fazer uma comparação com um vetor do numpy
py_matriz = [[1, 2, 3],
             [4, 5, 6],
             [7, 8, 9],
             [10, 11, 12]]

np_matriz = np.array(py_matriz)

print(np_matriz)
print(type(np_matriz))

In [None]:
np_matriz[0]

In [None]:
print(type(np_matriz[0]))

In [None]:
np_matriz[0,0]

In [None]:
np_matriz[0][0]

In [None]:
# 3 atributos básicos pra um ndarray
print(np_matriz.shape) # O formato da matriz
print(np_matriz.ndim)  # Quantidade de dimensões
print(np_matriz.dtype) # Tipo de dado dos elementos da matriz

In [None]:
x = np.array([1, 2, 3])
print(type(x))
print(x.dtype)

In [11]:
# O dtype de um array do numpy pode ser controlado na hora que a gente cria.
py_matriz = [[1, 2, 3],
             [4, 5, 6],
             [7, 8, 9],
             [10, 11, 12]]

matriz = np.array(py_matriz, dtype=np.float64)

In [None]:
print(matriz)
print(matriz.dtype)

In [None]:
# Para selecionar um elemento de uma tabela no Python e no Numpy, tem uma ligeira diferença.
print(matriz[0][0])
print(matriz[0, 0])

Slicing com matriz

In [None]:
y = np.array([1, 2, 3, 4, 5, 6, 7])
print(y)

In [None]:
print(y[1:-1])
print('')
print(y[::2])
print('')
print(y[-1:])

In [None]:
matriz[1]

In [None]:
# Slicing funciona no numpy!
print(matriz)
print('')
print(matriz[:,1:])
print('')
print(matriz[1:,:])
print('')
print(matriz[1,::-1])
print('')
print(matriz[1:-1,-1:])

**Funções numpy**  
O numpy também tem diversas funções para facilitar criação de matrizes.

In [None]:
print(np.zeros((2, 3)))
print(np.ones((3, 2)))
print(np.identity(3))
print(np.eye(4, 3))

# Manipulações de matrizes

In [None]:
matriz

In [None]:
# Transposição de matrizes
matriz.T

In [None]:
np.transpose(matriz)

In [None]:
matriz.transpose()

In [None]:
x = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9])
x.shape

In [None]:
# Redimensionamento
x.reshape(3, 3)

In [None]:
y = np.array([0.1, 0.4, 1.0, 0.2, 0.7, 1.2, 1.1, 1.0, 0.9, 2.0,
              1.5, 1.6])
y.shape

In [26]:
# Vejam o que acontece se as dimensões não são condizentes
# y.reshape(3, 3)

In [None]:
# E se eu quiser retornar para um vetor
x = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
x.reshape(-1, 9)

In [None]:
# Também é possível utilizar o flatten
x.flatten()

In [29]:
# Também podemos combinar arrays diferentes.
# Imagina que temos duas features, altura e peso de pessoas físicas.
x1 = np.array([[1.67, 89.],
               [1.79, 85.],
               [1.69, 65.],
               [1.54, 57.],
               [1.50, 45.]])

# Porém, nós queremos testar agora adicionar uma terceira feature, se a pessoa é homem ou mulher.
# 1 é mulher, 0 é homem
x2 = np.array([1, 0, 1, 0, 1])

# Como podemos fazer?

In [None]:
x2.reshape(-1, 1)

In [None]:
# Podemos utilizar o concatenate
np.concatenate((x1, x2.reshape(-1, 1)), axis=1)

In [None]:
np.concatenate((x1, x2.T), axis=1)

O erro ocorre porque a função `np.concatenate()` exige que todos os arrays fornecidos como entrada tenham o mesmo número de dimensões. No seu código, o array `x1` tem 2 dimensões, mas o array `x2.T` (após a transposição) tem 1 dimensão.

### Análise detalhada:

- **`x1`**: Esse array tem 2 dimensões (provavelmente uma matriz ou uma tabela).
- **`x2`**: Esse array parece ser 1D (um vetor). Após a transposição (`x2.T`), ele permanece 1D porque a transposição de um array 1D não altera sua forma.
  
- **`np.concatenate()`**: Para concatenar arrays ao longo de um eixo específico, todos os arrays devem ter o mesmo número de dimensões. No caso, você está tentando concatenar ao longo do eixo `1` (`axis=1`), que requer que ambos os arrays tenham pelo menos 2 dimensões. No entanto, o `x2.T` ainda é 1D, causando o erro.

### Solução:
Se você deseja concatenar `x1` com `x2`, você precisa garantir que ambos os arrays tenham o mesmo número de dimensões. Uma solução é expandir a dimensão de `x2` para torná-lo 2D.


In [None]:
x2 = x2[:, np.newaxis]  # Expande o array 1D para 2D, transformando-o em uma coluna
np.concatenate((x1, x2), axis=1)

### Explicação da Solução:
- **`x2[:, np.newaxis]`**: Isso transforma o array 1D `x2` em um array 2D com uma única coluna, compatível com o número de dimensões de `x1`. Agora ambos os arrays têm 2 dimensões, permitindo que `np.concatenate()` funcione sem erro.

Com essa mudança, o código deve funcionar corretamente sem gerar o erro de dimensões.

In [None]:
np.append(x1, x2.reshape(-1, 1), axis=1)

In [None]:
np.insert(x1, 0, x2, axis=1)

In [None]:
np.vstack([x1.T,x2]).T

In [None]:
np.hstack([x1, x2.reshape(-1, 1)])

In [None]:
np.column_stack([x1, x2])

In [None]:
np.row_stack([x1.T, x2])

In [68]:
# Agora temos a tabela de dados abaixo.
table = np.array([[1.67, 89., 1],
                  [1.79, 85., 0],
                  [1.69, 65., 1],
                  [1.54, 57., 0],
                  [1.50, 45., 1]])

# Mas tinhamos esquecido de outras 3 pessoas!
new_table = np.array([[1.78, 91, 0],
                      [1.72, 67, 1],
                      [1.77, 76, 1]])

In [None]:
# Como podemos juntar as tabelas?
np.vstack([table, new_table])

In [None]:
np.concatenate((table, new_table), axis=0)

In [None]:
np.append(table, new_table, axis=0)

Extra

In [None]:
# Inversão de matriz
A = np.array(
    [[6, 1, 1],
     [4, -2, 5],
     [2, 8, 7]]
)
np.linalg.inv(A)

# Operações Básicas

In [None]:
matriz

In [None]:
#Podemos multiplicar por um escalar
matriz_dobro = 2 * matriz
matriz_dobro

In [None]:
# Podemos somar duas matrizes
print(matriz + matriz_dobro)

In [None]:
# Multiplicação elemento por elemento
print(matriz * matriz_dobro)

In [None]:
print(matriz.shape)
print(matriz_dobro.shape)

In [None]:
# Produto matricial
print(matriz @ matriz_dobro.T)

**Bora praticar!**  
  
Transforme os dados presentes no arquivo csv **dados_artificiais.csv**, que está na pasta **dados** em um numpy array (matriz). Apenas para facilitar o exercício, os dados do arquivo já se encontram na célula abaixo, mas aqui cabe ressaltar o motivo de estarmos utilizando o numpy para análise de dados.

In [None]:
lista_artificial =  [[1.78881069287776, 65.6481019432242, 0],
                    [1.5667844336950, 76.6427679834926, 0],
                    [2.0921930548074, 55.4681853258539, 1],
                    [1.7824709172724, 67.28199736248, 1],
                    [1.7357669765411, 69.2890076331505, 0],
                    [1.6869746476945, 56.8400511361321, 0],
                    [1.7971046329794, 65.2089732846482, 1],
                    [1.1873490549389, 48.1647639458379, 0],
                    [1.5958914364289, 45.4106481398706, 1],
                    [1.3962817760658, 67.9301133367375, 0],
                    [1.6061481645731, 67.7196040973561, 0],
                    [1.7075899674617, 45.6093326162225, 0],
                    [1.7355131159863, 64.8454515098479, 0],
                    [1.6720551819612, 39.7059515043444, 1],
                    [1.7233770692063, 50.0588802056305, 1],
                    [1.6845742723083, 56.5450873826135, 1],
                    [1.7332589297219, 37.5121875909276, 0],
                    [1.7578996592814, 57.3624223948134, 0],
                    [1.9133377051681, 69.3072463864561, 1],
                    [1.4560483434458, 69.3423371108747, 0]
]

dados_matriz = np.array(lista_artificial)
print(dados_matriz)

Utilize esta matriz para calcular o IMC, utilizando a equação

```
IMC = peso / altura**2
```
e insira na nova tabela

| IMC             | Categoria           |   |
|-----------------|---------------------|---|
| abaixo de 16,00 | Baixo peso Grau III |   |
| 16,00 a 16,99   | Baixo peso Grau II  |   |
| 17,00 a 18.49   | Baixo peso Grau I   |   |
| 18,50 a 24,99   | Peso ideal          |   |
| 25,00 a 29,99   | Sobrepeso           |   |
| 30,00 a 34,99   | Obesidade Grau I    |   |
| 35,00 a 39,99   | Obesidade Grau II   |   |
| 40,0 e acima    | Obesidade Grau III  |   |

Agora utilize a tabela acima para indicar a qual categoria cada valor de IMC se enquadra. Insira novamente na tabela.

### Tipos de dados

Primeiro vamos falar do infinito (e além).

Quando fazemos operações de ponto flutuante no computador, existe um padrão técnico (definido pela IEEE, o Instituto de Engenheiros Eletro-eletrônicos) que define algumas coisas que uma biblioteca tem que ter.

Especificamente, aqui vamos falar de duas coisas:
- Not a Number (NAN)
- Infinito

In [None]:
# Not a Number é o resultado de operações inválidas.
# Embora ele exista no Python, operações inválidas tendem a levantar um erro.
0/0

In [None]:
# Para usá-lo no python, temos que converter string para float.
float('NaN')

In [None]:
# No numpy, temos o objeto nan.
print(np.nan)
print(type(np.nan))

In [None]:
# Já no numpy, operações inválidas retornam NaN mesmo.
x1 = np.array([1, 0, 1, 0])
x2 = np.array([2, 1, 2, 0])

print(x1/x2)

In [None]:
# "Infinito", no padrão, pode ser pensado como um número que é maior que qualquer outro número.
# No caso de "-infinito", temos um número que é menor que qualquer outro número.
1/0

In [None]:
print(float('inf'))
print(float('inf') > 10000000000000000000000000000)
print(-float('inf') < -10000000000000000000000000000)

In [None]:
# No Numpy, não seria diferente.
print(np.inf)
print(np.inf > 10000000000000000000000000000)
print(-np.inf < -10000000000000000000000000000)
print(type(np.inf))

In [None]:
# No numpy, algumas operações podem gerar infinitos.
x1 = np.array([1, 0, 1, 0])
x2 = np.array([2, 1, 2, 0])

print(x2/x1)

Notou que tanto infinito quanto NaN são do tipo "float"? Não são float64, nem float32, nem nada assim.

Isso é devido à hierarquia de dtypes do numpy.

![hierarchy](https://numpy.org/doc/stable/_images/dtype-hierarchy.png)

## Mini tarefa

Utilizando numpy crie duas matrizes com 5 linhas e 4 colunas, sendo uma delas apenas contendo números 1 e a segunda uma matriz olho (eye). Após isso, some as duas matrizes.