# NumPy - Manipulando Dados Numéricos

## O que é o NumPy?

O *NumPy* é uma biblioteca para a Linguagem de Programação Python, que da suporte à linguagem para trabalhar com grandes matrizes e vetores multidimensionais, juntamente com uma ampla coleção de funções matemáticas de alto nível.

Especificamente, essa bibioteca fornece ao Python, objetos *arrays* multidimensionais e vários objetos derivados (p. ex.: masked arrays e matrices), com um conjunto de funções para operações rápidas em vetores e a Computação Numérica, por exemplo: 

* Funções Matemáticas e Lógicas;
* Manipulação de Formas;
* Ordenação;
* Seleção;
* Leitura de Dados (E/S);
* Transformada Discreta de Fourier;
* Álgebra Linear Básica;
* Operações Estatísticas Básicas;
* Simulação Aleatória.

No núcleo da biblioteca NumPy temos o objeto *narray* que encapsula vetores n-dimensionais com tipos de dados homgêneos e muitas operações executadas no código compilado a fim de desempenho. 

### NumPy X Sequências Padrão do Python

Existem várias diferenças importantes entre os vetores do NumPy e as sequências padrão do Python, são elas: 

* **Vetores Estáticos:** os vetores do NumPy têm tamanho fixo em sua criação, diferente das listas do Python que podem crescer dinamicamente em tempo de execução. Logo, quando alteramos o tamanho de um objeto *narray*, será criado um novo vetor e excluído o original;

* **Tipo de Dados Homogêneo dos Itens:**  todos os elementos dos vetores em NumPy, devem ser obrigatoriamente do mesmo tipo de dados, logo, eles irão ter o mesmo tamanho em memória;

* **Operações Matemáticas Avançadas:** os vetores do NumPy otimizam operações matemáticas avançadas e qualquer tipo de outras operações para um grande número de dados. Na prática, essas operações são executadas mais eficientemente e com menos código do que se usarmos as sequências padrão do Python;

In [2]:
# NumPy na Prática
import numpy as np  # Importa a biblioteca NumPy para seu projeto
import timeit       # Biblioteca Python para medir o tempo de execução de pequenos trechos de código


vetor = np.array([0, 1, 2, 3]) # instancia um vetor (array) em NumPy
vetor                          # Imprime seu conteúdo

array([0, 1, 2, 3])

## Criação de Vetores

### Construção Manual de Vetores

In [3]:
# CONSTRUÇÃO MANUAL DE VETORES
# Unidimencional (1D)

vetor_numpy = np.array([0, 1, 2, 3, 4])

print(vetor_numpy)        # Imprime o vetor
print(vetor_numpy.ndim)   # Retorna o número de dimensões do vetor
print(vetor_numpy.shape)  # Retorna a forma do vetor ou atribui uma tupla para as dimnesões do vetor
print(len(vetor_numpy))   # Retorna o número de elementos do vetor

# Multi-dimencional (n-D)

# Matriz Bidimensional 2 (linhas) X 3 (colunas)
matriz_numpy = np.array([[0, 1, 2], [3, 4, 5]]) 

print(matriz_numpy)
print(matriz_numpy.ndim)
print(matriz_numpy.shape)
len(matriz_numpy)         # Retorna o tamanho da primeira dimensão do vetor (linhas)

[0 1 2 3 4]
1
(5,)
5
[[0 1 2]
 [3 4 5]]
2
(2, 3)


2

### Funções para Criação de Vetores

In [38]:
# Vetores Igualmente Espaçado
print("Vetores Igualmente Espaçado")
vetor = np.arange(10) # 0 .. n - 1
print(vetor)

vetor_impar = np.arange(1, 9, 2) # Início, Fim e Incremento
print(vetor_impar)

# Vetores por números de pontos
print("\nVetores por Números de Pontos")
numero_pontos = np.linspace(0, 1, 6) # Início, Fim, Número de Pontos
print(numero_pontos)

# Matrizes Populares
print("\nMATRIZES POPULARES")
print("\nMatriz de Uns")
matriz_de_uns = np.ones((3, 3)) # Tupla (3, 3)
print(matriz_de_uns)

print("\nMatriz de Zeros")
matriz_de_zeros = np.zeros((2, 2))
print(matriz_de_zeros)

print("\nMatriz Zerada com Diagonal de Uns")
matriz_zeros_diagonal_uns = np.eye(4)
print(matriz_zeros_diagonal_uns)

print("\nMatriz Zerada com Diagonal de Permutações")
matriz_diagonal_permutacao = np.diag(np.array([1, 2, 3, 4]))
print(matriz_diagonal_permutacao)

print("\nVETORES ALEATÓRIOS")
print("\nVetor Aleatório Uniforme")
vetor_uniforme_aleatorio = np.random.rand(4)
print(vetor_uniforme_aleatorio)

print("\nVetor Aleatório Gaussiano")
vetor_aleatorio_gaussiano = np.random.randn(4)
print(vetor_aleatorio_gaussiano)

np.random.seed(1234) # Definindo a semente aleatória

Vetores Igualmente Espaçado
[0 1 2 3 4 5 6 7 8 9]
[1 3 5 7]

Vetores por Números de Pontos
[0.  0.2 0.4 0.6 0.8 1. ]

MATRIZES POPULARES

Matriz de Uns
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

Matriz de Zeros
[[0. 0.]
 [0. 0.]]

Matriz Zerada com Diagonal de Uns
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

Matriz Zerada com Diagonal de Permutações
[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]

VETORES ALEATÓRIOS

Vetor Aleatório Uniforme
[0.15930433 0.52876987 0.07148569 0.23524535]

Vetor Aleatório Gaussiano
[ 2.70163077 -0.16291675  0.55468287  0.2753472 ]


# Exercícios

1. Crie uma matriz NumPy 100 x 100 contendo somente números pares na primeira linha, números ímpares na segunda e assim sucessivamente.

2. Dado 2 vetores numpy, obtenha os itens em comum entre eles. **Entrada:** vetor_a = np.array([1,2,3,2,3,4,3,4,5,6]) e vetor_b = np.array([7,2,10,2,7,4,9,4,9,8]); **Saída:** array([2, 4]).

3. Considerando o vetor_a = np.array([1,2,3,4,5]), remova todo os itens contidos no vetor_b = np.array([5,6,7,8,9]). **Saída:** array([1,2,3,4])

4. Obtenha as posições (índices) dos vetores onde seus itens são iguais. Por exemplo: **Entrada:** vetor_a = np.array([1,2,3,2,3,4,3,4,5,6]) e vetor_b = = np.array([7,2,10,2,7,4,9,4,9,8]); **Saída:** [1, 3, 5, 7]

5. Pegue todos os itens entre os índices 5 e 10 de um vetor em NumPy.  Por exemplo: **Entrada:** vetor_a = np.array([2, 6, 1, 9, 10, 3, 27]) **Saída:** [6, 9, 10]

6. Altere a função *maior(x, y):* abaixo de tal forma que que funcione para dois vetores, ou seja, a função deverá retornar um vetor onde cada elemento corresponde ao maior número entre cada uma das posições dos dois vetores.


```python
def maior(x, y): # maior(1, 5) - Saída: 5
    """Retorna o maior número"""
    if x >= y:
        return x
    else:
        return y

# Saída Esperada
#
# vetor_a = np.array([5, 7, 9, 8, 6, 4, 5])
# vetor_b = np.array([6, 3, 4, 8, 9, 7, 1])
#
# maior(vetor_a, vetor_b)
#
# [ 6,  7,  9,  8,  9,  7,  5]

```

7. Limite o número de itens imprimidos em um vetor NumPy para no máximo 10 elementos. **Entrada:** array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14]); **Saída:** array([ 0,  1,  2,  3,  4,  ... 10, 11, 12, 13, 14])

8. Usando NumPy, importe o [dataset iris](https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data) mantendo o seu conteúdo intacto.

9. Extraia a coluna *species* do dataset importado na questão anterior para um vetor unidimensional.

10. Calcule a média, mediana e desvio padrão da primeira coluna (sepallength) do dataset Iris.

11. Normalize a coluna (sepallength) do dataset iris de tal forma que o valor mínimo seja zero (0) e o valor máximo seja 1.

12. Encontre o 5º e o 95º percentil do comprimento das pétalas (sepallength) do dataset Iris.

13. Encontre a quantidade de valores ausentes, bem como a posição deles da primeira coluna da coluna comprimento das pétalas (sepallength), dentro do vetor abaixo:

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float')
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan
```

14. Filtre o vetor iris_2d do exercício anterior para que ele tenha: (terceira coluna (petallength) > 1.5) && (primeira coluna (sepallength) < 5.0)

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
```

15. Selecione as linhas do vetor iris_2d que não contenham valores nan (Not a Number).

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
```
any_nan_in_row = np.array([~np.any(np.isnan(row)) for row in iris_2d])
iris_2d[any_nan_in_row][:5]

16. Encontre a correlação entre a primeira coluna (sepallength) e a (terceira coluna (petallength) no vetor iris_2d.

iris = np.genfromtxt(iris_dataset_url, delimiter',', dtype='float', usecols=[0,2])
np.corrcoef(iris[:,0], iris[:,2])[0, 1]

17. Verifique se o vetor iris_2d possui qualquer valor faltante, caso possui deverá retornar True caso contrário False.


```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
```


18. Substitua todas as ocorrências de nan (Not a Number) por zeros em um vetor NumPy.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

iris_2d[np.isnan(iris_2d)] = 0
iris_2d[:,4]

19. Encontre e conte os valores únicos da coluna species

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```
#Obtém a coluna species para um vetor

species = np.array([]linha.tolist()[4] for linha in iris])
np.unique(species, return_counts=True)


20. Mapeie terceira coluna (petallength) de tal forma que os valores numéricos sejam substituídos por valores textuais, seguindo de acordo com a tabela abaixo:

| Número               | Classificação                
|:---------------------|:--------------|
| Menor do que 3       | Pequena       |
| entre 3 e 5          | Média         |
| Maior ou Igual a 5   | Grande        |

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```
#Cria os intervalos de petallength
petal_length_intervalos = np.digitize(iris[:,2].astype('float'), [0, 3, 5, 10])

#Mapeia para as respectivas categorias
mapeamento_rotulos = [1: 'Pequena', 2: 'Média', 3: 'Grande', 4: np.nan]
petal_length_categorizada = [mapeamento_rotulos[i] for i is petal_length_intervalos]

#Visualiza
petal_length_categorizada[:4]

21. Crie uma nova coluna chamada *volume*, preenchida com dados resultantes da seguinte equação:

$$volume=\frac{(~ Pi ~x~ Petallength ~x~ Sepal Length^2 ~)}{3}$$

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

#Calcula o volume
sepallength = iris_2d[:,0].astype('float')
petallength = iris_2d[:,2].astype('float')

22. Usando NumPy e o dataset iris responda: Qual é o segundo maior valor de comprimento de pétala (petallength) da espécie setosa?

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

#calcula o volume
sepallength = iris_2d[:,0].astype('float')
petallength = iris_2d[:,2].astype('float')
volume = (np.pi * petallength + (sepalllength**2))/

#cria uma nova dimensão
volume = volume[:, np.newaxis]

#Adiciona uma nova coluna com a dimensão criada
saida = np.hstack([iris_2d, volume])

iris = np.genfromtxt(iris_dataset_url, delimiter=',', dtype='object')

#obtem as colunas species e petal length
petal_len_setosa = iris[iris[:, 4] == b'Iris

23. Ordene o dataset iris com base na coluna sepallength de maneira crescente.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

24. Encontre o valor mais frequente da terceira coluna (petallength) do dataset iris.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

25. Encontre a posição da primeira ocorrência de um valor maior do que 1.0 da quarta coluna (petalwidth) do dataset iris.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
```

26. Obtenha a posição dos top 5 valores maíximos do vetor abaixo:

```python
# Entrada
np.random.seed(100)
vetor = np.random.uniform(1,50, 20)
```

27. Encontre a média de uma coluna numérica agrupada por uma coluna categórica em uma matriz (vetor numpy 2D)

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

# Saída Esperada
#>  [[b'Iris-setosa', 3.418],
#>  [b'Iris-versicolor', 2.770],
#>  [b'Iris-virginica', 2.974]] 
```


In [16]:
#Exercício 8

import numpy as np

iris_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
coluna = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

iris = np.genfromtxt(iris_url, delimiter=',', dtype='object', encoding='ascii')

iris[:4]





array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa'],
       [b'4.6', b'3.1', b'1.5', b'0.2', b'Iris-setosa']], dtype=object)