# NumPy - Manipulando Dados Numéricos

## O que é o NumPy?

O *NumPy* é uma biblioteca para a Linguagem de Programação Python, que da suporte à linguagem para trabalhar com grandes matrizes e vetores multidimensionais, juntamente com uma ampla coleção de funções matemáticas de alto nível.

Especificamente, essa bibioteca fornece ao Python, objetos *arrays* multidimensionais e vários objetos derivados (p. ex.: masked arrays e matrices), com um conjunto de funções para operações rápidas em vetores e a Computação Numérica, por exemplo: 

* Funções Matemáticas e Lógicas;
* Manipulação de Formas;
* Ordenação;
* Seleção;
* Leitura de Dados (E/S);
* Transformada Discreta de Fourier;
* Álgebra Linear Básica;
* Operações Estatísticas Básicas;
* Simulação Aleatória.

No núcleo da biblioteca NumPy temos o objeto *narray* que encapsula vetores n-dimensionais com tipos de dados homgêneos e muitas operações executadas no código compilado a fim de desempenho. 

### NumPy X Sequências Padrão do Python

Existem várias diferenças importantes entre os vetores do NumPy e as sequências padrão do Python, são elas: 

* **Vetores Estáticos:** os vetores do NumPy têm tamanho fixo em sua criação, diferente das listas do Python que podem crescer dinamicamente em tempo de execução. Logo, quando alteramos o tamanho de um objeto *narray*, será criado um novo vetor e excluído o original;

* **Tipo de Dados Homogêneo dos Itens:**  todos os elementos dos vetores em NumPy, devem ser obrigatoriamente do mesmo tipo de dados, logo, eles irão ter o mesmo tamanho em memória;

* **Operações Matemáticas Avançadas:** os vetores do NumPy otimizam operações matemáticas avançadas e qualquer tipo de outras operações para um grande número de dados. Na prática, essas operações são executadas mais eficientemente e com menos código do que se usarmos as sequências padrão do Python;

In [3]:
# NumPy na Prática
import numpy as np  # Importa a biblioteca NumPy para seu projeto
import timeit       # Biblioteca Python para medir o tempo de execução de pequenos trechos de código


vetor = np.array([0, 1, 2, 3, 4]) # instancia um vetor (array) em NumPy
vetor                          # Imprime seu conteúdo

array([0, 1, 2, 3, 4])

## Criação de Vetores

### Construção Manual de Vetores

In [4]:
# CONSTRUÇÃO MANUAL DE VETORES
# Unidimencional (1D)

vetor_numpy = np.array([0, 1, 2, 3, 4])

print(vetor_numpy)        # Imprime o vetor
print(vetor_numpy.ndim)   # Retorna o número de dimensões do vetor
print(vetor_numpy.shape)  # Retorna a forma do vetor ou atribui uma tupla para as dimnesões do vetor
print(len(vetor_numpy))   # Retorna o número de elementos do vetor

# Multi-dimencional (n-D)

# Matriz Bidimensional 2 (linhas) X 3 (colunas)
matriz_numpy = np.array([['A', 'B', 2], [3, 4, 5]]) 

print(matriz_numpy)
print(matriz_numpy.ndim)
print(matriz_numpy.shape)

[0 1 2 3 4]
1
(5,)
5
[['A' 'B' '2']
 ['3' '4' '5']]
2
(2, 3)


### Funções para Criação de Vetores

In [5]:
# Vetores Igualmente Espaçado
print("Vetores Igualmente Espaçado")
vetor = np.arange(10) # 0 .. n - 1
print(vetor)

vetor_impar = np.arange(1, 9, 2) # Início, Fim e Incremento
print(vetor_impar)

# Vetores por números de pontos
print("\nVetores por Números de Pontos")
numero_pontos = np.linspace(0, 1, 6) # Início, Fim, Número de Pontos
print(numero_pontos)

# Matrizes Populares
print("\nMATRIZES POPULARES")
print("\nMatriz de Uns")
matriz_de_uns = np.ones((3, 3)) # Tupla (3, 3)
print(matriz_de_uns)

print("\nMatriz de Zeros")
matriz_de_zeros = np.zeros((2, 2))
print(matriz_de_zeros)

print("\nMatriz Zerada com Diagonal de Uns")
matriz_zeros_diagonal_uns = np.eye(4)
print(matriz_zeros_diagonal_uns)

print("\nMatriz Zerada com Diagonal de Permutações")
matriz_diagonal_permutacao = np.diag(np.array([1, 2, 3, 4]))
print(matriz_diagonal_permutacao)

print("\nVETORES ALEATÓRIOS")
print("\nVetor Aleatório Uniforme")
vetor_uniforme_aleatorio = np.random.rand(4)
print(vetor_uniforme_aleatorio)

print("\nVetor Aleatório Gaussiano")
vetor_aleatorio_gaussiano = np.random.randn(4)
print(vetor_aleatorio_gaussiano)

np.random.seed(1234) # Definindo a semente aleatória

Vetores Igualmente Espaçado
[0 1 2 3 4 5 6 7 8 9]
[1 3 5 7]

Vetores por Números de Pontos
[0.  0.2 0.4 0.6 0.8 1. ]

MATRIZES POPULARES

Matriz de Uns
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

Matriz de Zeros
[[0. 0.]
 [0. 0.]]

Matriz Zerada com Diagonal de Uns
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

Matriz Zerada com Diagonal de Permutações
[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]

VETORES ALEATÓRIOS

Vetor Aleatório Uniforme
[0.89111361 0.79647131 0.89595051 0.26282673]

Vetor Aleatório Gaussiano
[-0.07036852  1.60959095 -1.28810649  1.458688  ]


# Exercícios

1. Usando NumPy, importe o [dataset iris](https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data) mantendo o seu conteúdo intacto.

2. Extraia a coluna *species* do dataset importado na questão anterior para um vetor unidimensional.

3. Calcule a média, mediana e desvio padrão da primeira coluna (sepallength) do dataset Iris.

4. Normalize a coluna (sepallength) do dataset iris de tal forma que o valor mínimo seja zero (0) e o valor máximo seja 1.

5. Encontre o 5º e o 95º percentil do comprimento das pétalas (sepallength) do dataset Iris.

6. Encontre a quantidade de valores ausentes, bem como a posição deles da primeira coluna da coluna comprimento das pétalas (sepallength), dentro do vetor abaixo:

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float')
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan
```

7. Filtre o vetor iris_2d do exercício anterior para que ele tenha: (terceira coluna (petallength) > 1.5) && (primeira coluna (sepallength) < 5.0)

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
```

8. Selecione as linhas do vetor iris_2d que não contenham valores nan (Not a Number).

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
```

9. Encontre a correlação entre a primeira coluna (sepallength) e a (terceira coluna (petallength) no vetor iris_2d.

10. Verifique se o vetor iris_2d possui qualquer valor faltante, caso possui deverá retornar True caso contrário False.


```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
```


11. Substitua todas as ocorrências de nan (Not a Number) por zeros em um vetor NumPy.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan
```

12. Encontre e conte os valores únicos da coluna species

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```


13. Mapeie terceira coluna (petallength) de tal forma que os valores numéricos sejam substituídos por valores textuais, seguindo de acordo com a tabela abaixo:

| Número               | Classificação                
|:---------------------|:--------------|
| Menor do que 3       | Pequena       |
| entre 3 e 5          | Média         |
| Maior ou Igual a 5   | Grande        |

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

14. Crie uma nova coluna chamada *volume*, preenchida com dados resultantes da seguinte equação:

$$volume=\frac{(~ Pi ~x~ Petallength ~x~ Sepal Length^2 ~)}{3}$$

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

15. Usando NumPy e o dataset iris responda: Qual é o segundo maior valor de comprimento de pétala (petallength) da espécie setosa?

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

16. Ordene o dataset iris com base na coluna sepallength de maneira crescente.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

17. Encontre o valor mais frequente da terceira coluna (petallength) do dataset iris.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
```

18. Encontre a posição da primeira ocorrência de um valor maior do que 1.0 da quarta coluna (petalwidth) do dataset iris.

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
```

19. Obtenha a posição dos top 5 valores maíximos do vetor abaixo:

```python
# Entrada
np.random.seed(100)
vetor = np.random.uniform(1,50, 20)
```

20. Encontre a média de uma coluna numérica agrupada por uma coluna categórica em uma matriz (vetor numpy 2D)

```python
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

# Saída Esperada
#>  [[b'Iris-setosa', 3.418],
#>  [b'Iris-versicolor', 2.770],
#>  [b'Iris-virginica', 2.974]] 
```


import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')
iris = np.genfromtxt(url, delimiter=',', dtype='object', encoding='ascii')

iris[:3]

In [6]:
#EXERCICIO01 Usando NumPy, importe o dataset iris mantendo o seu conteúdo intacto.
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data' 
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species') 
iris = np.genfromtxt(url, delimiter=',', dtype='object', encoding='ascii')

iris[:3]

array([[b'5.1', b'3.5', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.9', b'3.0', b'1.4', b'0.2', b'Iris-setosa'],
       [b'4.7', b'3.2', b'1.3', b'0.2', b'Iris-setosa']], dtype=object)

In [7]:
#EXERCICIO02 Extraia a coluna species do dataset importado na questão anterior para um vetor unidimensional.
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data' 
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species') 
iris = np.genfromtxt(url, delimiter=',', dtype='object', encoding='ascii')

species = iris[:,4].astype(str)
print(species)

['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor

In [8]:
#EXERCICIO03 Calcule a média, mediana e desvio padrão da primeira coluna (sepallength) do dataset Iris.
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data' 
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species') 
iris = np.genfromtxt(url, delimiter=',', dtype='object', encoding='ascii')

sepallength = iris[:,0].astype(float)
media_sepallength = sepallength.mean()
mediana_sepallength = np.median(sepallength)
desvio_sepallength = np.std(sepallength)

print('A média é:', media_sepallength)
print('A mediana é:', mediana_sepallength)
print('O desvio é:', desvio_sepallength)

A média é: 5.843333333333334
A mediana é: 5.8
O desvio é: 0.8253012917851409


In [5]:
#EXERCICIO04 Normalize a coluna (sepallength) do dataset iris de tal forma que o valor mínimo seja zero (0) e o valor máximo seja 1.
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data' 
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species') 
iris = np.genfromtxt(url, delimiter=',', dtype='object', encoding='ascii')

sepallength = iris[:,0].astype(float)
sepal_length_max = sepallength.max()
sepal_length_min = sepallength.min()

sepal_length_normalizada = (sepallength - sepal_length_min) / (sepal_length_max - sepal_length_min )

print('A sepallength é:', sepallength[:2])
print('A normalização é:', sepal_length_normalizada[:2])

A sepallength é: [5.1 4.9]
A normalização é: [0.22222222 0.16666667]


In [6]:
#EXERCICIO05 Encontre o 5º e o 95º percentil do comprimento das pétalas (sepallength) do dataset Iris.
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data' 
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species') 
iris = np.genfromtxt(url, delimiter=',', dtype='object', encoding='ascii')

sepallength = iris[:,0].astype(float)

print('A 5º e 95º Percentil é:', np.percentile(sepallength, q=[5,95]))

A 5º e 95º Percentil é: [4.6   7.255]


In [7]:
#EXERCICIO06 Encontre a quantidade de valores ausentes, bem como a posição deles da primeira coluna da coluna comprimento das pétalas (sepallength), dentro do vetor abaixo:
# Entrada
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species') 
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float')
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

print("Quantidade de valores ausentes:",np.isnan(iris_2d[:,0]).sum())
print("Posicao deos valores ausentes:", np.where(np.isnan(iris_2d[:,0])))

Quantidade de valores ausentes: 5
Posicao deos valores ausentes: (array([ 21,  43,  80,  94, 136], dtype=int32),)


In [8]:
#EXERCICIO 07 Filtre o vetor iris_2d do exercício anterior para que ele tenha: (terceira coluna (petallength) > 1.5) && (primeira coluna (sepallength) < 5.0)
# Entrada
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
colunas = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species') 
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3], encoding='ascii')

condicao = (iris_2d[:,2]>1.5) & (iris_2d[:,0] < 5.0)
iris_2d[condicao]


array([[4.8, 3.4, 1.6, 0.2],
       [4.8, 3.4, 1.9, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [4.9, 2.4, 3.3, 1. ],
       [4.9, 2.5, 4.5, 1.7]])

In [9]:
#EXERCICIO08 Selecione as linhas do vetor iris_2d que não contenham valores nan (Not a Number).
import numpy as np

# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

any_nam_in_row = np.array([~np.any(np.isnan(row)) for row in iris_2d])
iris_2d[any_nam_in_row][:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [10]:
#EXERCICIO09 Encontre a correlação entre a primeira coluna (sepallength) e a (terceira coluna (petallength) no vetor iris_2d.
import numpy as np

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

iris = np.genfromtxt(url, delimiter =',' , dtype = 'float', usecols=[0,1,2,3])
np.corrcoef(iris[:,0], iris[:,2])[0, 1]

0.8717541573048709

In [11]:
#EXERCICIO10 Verifique se o vetor iris_2d possui qualquer valor faltante, caso possui deverá retornar True caso contrário False.
import numpy as np

# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

np.isnan(iris_2d).any()

False

In [12]:
#EXERCICIO11 Substitua todas as ocorrências de nan (Not a Number) por zeros em um vetor NumPy.
import numpy as np

# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

iris_2d[np.isnan(iris_2d)] = 0
iris_2d[:4]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2]])

In [13]:
#EXERCICIO12 Encontre e conte os valores únicos da coluna species
# Entrada
import numpy as np
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

species = np.array([linha.tolist()[4] for linha in iris])
np.unique(species, return_counts=True)

(array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'],
       dtype='|S15'), array([50, 50, 50]))

In [14]:
#EXERCICIO13 Mapeie terceira coluna (petallength) de tal forma que os valores numéricos sejam substituídos por valores textuais, seguindo de acordo com a tabela abaixo:
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

#Cria os intervalos de petallenght
petal_lenght_intervalos = np.digitize(iris[:, 2].astype('float'),[0,3,5,10])

#Mapeia para as respectivas categorias
mapeamento_rotulos = {1: 'Pequeno', 2: 'Medio', 3: 'Grande', 4: np.nan}
petal_lenght_categorizada = [mapeamento_rotulos[i] for i in petal_lenght_intervalos]

#Visualiza
petal_lenght_categorizada[:4]

['Pequeno', 'Pequeno', 'Pequeno', 'Pequeno']

In [15]:
#EXERCICIO14 Crie uma nova coluna chamada volume, preenchida com dados resultantes da seguinte equação:
# Entrada
import numpy as np
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

#Calcula o volume
sepallength = iris_2d[:, 0].astype('float')
petallength = iris_2d[:, 2].astype('float')
volume = (np.pi * petallength * (sepallength**2)) / 3

#Cria uma nova dimensão
volume = volume[:, np.newaxis]

#Adiciona uma nova coluna com a dimensão criada
saida = np.hstack([iris_2d, volume])

In [16]:
#EXERCICIO15 Usando NumPy e o dataset iris responda: Qual é o segundo maior valor de comprimento de pétala (petallength) da espécie setosa?
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

#Obtem as colunas species e petal length
petal_len_setosa = iris[iris[:, 4] == b'Iris-setosa' , [2]].astype('float')

# Ordena e pega o segundo maior valor
np.unique(np.sort(petal_len_setosa))[-2]

1.7

In [17]:
#EXERCICIO16 Ordene o dataset iris com base na coluna sepallength de maneira crescente.
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

#Ordena pela coluna na posição 0: Sepallength
print(iris[iris[:,0].argsort()][:20])

[[b'4.3' b'3.0' b'1.1' b'0.1' b'Iris-setosa']
 [b'4.4' b'3.2' b'1.3' b'0.2' b'Iris-setosa']
 [b'4.4' b'3.0' b'1.3' b'0.2' b'Iris-setosa']
 [b'4.4' b'2.9' b'1.4' b'0.2' b'Iris-setosa']
 [b'4.5' b'2.3' b'1.3' b'0.3' b'Iris-setosa']
 [b'4.6' b'3.6' b'1.0' b'0.2' b'Iris-setosa']
 [b'4.6' b'3.1' b'1.5' b'0.2' b'Iris-setosa']
 [b'4.6' b'3.4' b'1.4' b'0.3' b'Iris-setosa']
 [b'4.6' b'3.2' b'1.4' b'0.2' b'Iris-setosa']
 [b'4.7' b'3.2' b'1.3' b'0.2' b'Iris-setosa']
 [b'4.7' b'3.2' b'1.6' b'0.2' b'Iris-setosa']
 [b'4.8' b'3.0' b'1.4' b'0.1' b'Iris-setosa']
 [b'4.8' b'3.0' b'1.4' b'0.3' b'Iris-setosa']
 [b'4.8' b'3.4' b'1.9' b'0.2' b'Iris-setosa']
 [b'4.8' b'3.4' b'1.6' b'0.2' b'Iris-setosa']
 [b'4.8' b'3.1' b'1.6' b'0.2' b'Iris-setosa']
 [b'4.9' b'2.4' b'3.3' b'1.0' b'Iris-versicolor']
 [b'4.9' b'2.5' b'4.5' b'1.7' b'Iris-virginica']
 [b'4.9' b'3.1' b'1.5' b'0.1' b'Iris-setosa']
 [b'4.9' b'3.1' b'1.5' b'0.1' b'Iris-setosa']]


In [18]:
#EXERCICIO17 Encontre o valor mais frequente da terceira coluna (petallength) do dataset iris.
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
nomes = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

valores, contagens = np.unique(iris[:,2], return_counts=True)
print(valores)
print(contagens)
print(valores[np.argmax(contagens)])

[b'1.0' b'1.1' b'1.2' b'1.3' b'1.4' b'1.5' b'1.6' b'1.7' b'1.9' b'3.0'
 b'3.3' b'3.5' b'3.6' b'3.7' b'3.8' b'3.9' b'4.0' b'4.1' b'4.2' b'4.3'
 b'4.4' b'4.5' b'4.6' b'4.7' b'4.8' b'4.9' b'5.0' b'5.1' b'5.2' b'5.3'
 b'5.4' b'5.5' b'5.6' b'5.7' b'5.8' b'5.9' b'6.0' b'6.1' b'6.3' b'6.4'
 b'6.6' b'6.7' b'6.9']
[ 1  1  2  7 12 14  7  4  2  1  2  2  1  1  1  3  5  3  4  2  4  8  3  5
  4  5  4  8  2  2  2  3  6  3  3  2  2  3  1  1  1  2  1]
b'1.5'


In [19]:
#EXERCICIO18 Encontre a posição da primeira ocorrência de um valor maior do que 1.0 da quarta coluna (petalwidth) do dataset iris.
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')

np.argwhere(iris[:,3].astype(float) > 1.0) [0]

array([50], dtype=int32)

In [20]:
#EXERCICIO19 Obtenha a posição dos top 5 valores maximos do vetor abaixo:
# Entrada
np.random.seed(100)
vetor = np.random.uniform(1,50, 20)

print(vetor.argsort())

np.argpartition(-vetor, 5)[:5]

[ 4 13  5  8 17 12 11 14 19  1  2  0  9  6 16 18  7  3 10 15]


array([15, 10,  3,  7, 18], dtype=int32)

In [21]:
#EXERCICIO20 Encontre a média de uma coluna numérica agrupada por uma coluna categórica em uma matriz (vetor numpy 2D)
# Entrada
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'species')

# Saída Esperada
#>  [[b'Iris-setosa', 3.418],
#>  [b'Iris-versicolor', 2.770],
#>  [b'Iris-virginica', 2.974]] 

coluna_numerica = iris[:, 1].astype('float') #sepalwidth
coluna_categoria = iris[:, 4] #species

saida = []

for categoria in np.unique(coluna_categoria):
    saida.append([categoria, coluna_numerica[coluna_categoria == categoria].mean()])
saida

[[b'Iris-setosa', 3.418],
 [b'Iris-versicolor', 2.7700000000000005],
 [b'Iris-virginica', 2.974]]