# NumPy - Manipulando Dados Numéricos

## O que é o NumPy?

O *NumPy* é uma biblioteca para a Linguagem de Programação Python, que da suporte à linguagem para trabalhar com grandes matrizes e vetores multidimensionais, juntamente com uma ampla coleção de funções matemáticas de alto nível.

Especificamente, essa bibioteca fornece ao Python, objetos *arrays* multidimensionais e vários objetos derivados (p. ex.: masked arrays e matrices), com um conjunto de funções para operações rápidas em vetores e a Computação Numérica, por exemplo: 

* Funções Matemáticas e Lógicas;
* Manipulação de Formas;
* Ordenação;
* Seleção;
* Leitura de Dados (E/S);
* Transformada Discreta de Fourier;
* Álgebra Linear Básica;
* Operações Estatísticas Básicas;
* Simulação Aleatória.

No núcleo da biblioteca NumPy temos o objeto *narray* que encapsula vetores n-dimensionais com tipos de dados homgêneos e muitas operações executadas no código compilado a fim de desempenho. 

### NumPy X Sequências Padrão do Python

Existem várias diferenças importantes entre os vetores do NumPy e as sequências padrão do Python, são elas: 

* **Vetores Estáticos:** os vetores do NumPy têm tamanho fixo em sua criação, diferente das listas do Python que podem crescer dinamicamente em tempo de execução. Logo, quando alteramos o tamanho de um objeto *narray*, será criado um novo vetor e excluído o original;

* **Tipo de Dados Homogêneo dos Itens:**  todos os elementos dos vetores em NumPy, devem ser obrigatoriamente do mesmo tipo de dados, logo, eles irão ter o mesmo tamanho em memória;

* **Operações Matemáticas Avançadas:** os vetores do NumPy otimizam operações matemáticas avançadas e qualquer tipo de outras operações para um grande número de dados. Na prática, essas operações são executadas mais eficientemente e com menos código do que se usarmos as sequências padrão do Python;

In [0]:
# NumPy na Prática
import numpy as np             # Importa a biblioteca NumPy para seu projeto

vetor = np.array([0, 1, 2, 3]) # instancia um vetor (array) em NumPy
vetor                          # Imprime seu conteúdo

## Tipos de Dados

| Tipo de Dado | Descrição                                            |
|:-------------|:-----------------------------------------------------|
| np.int64     | Números inteiros de 64bits                           |
| np.float32   | Números de ponto flutuante de precisão dupla (Reais) |
| np.complex   | Números Complexos                                    |
| np.bool      | Tipo lógico (Booleano)                               |
| np.object    | Tipo object do Python                                |
| np.string_   | Cadeia de Caracteres Fixa (String)                   |
| np.unicode_  | Cadeia de Caracteres Unicode Fixa (String)           |

## Criação de Vetores

### Construção Manual de Vetores

In [0]:
# CONSTRUÇÃO MANUAL DE VETORES
# Unidimencional (1D)

vetor_numpy = np.array([0, 1, 2, 3, 4])

print(vetor_numpy)        # Imprime o vetor
print(vetor_numpy.ndim)   # Retorna o número de dimensões do vetor
print(vetor_numpy.shape)  # Retorna a forma do vetor ou atribui uma tupla para as dimnesões do vetor
print(len(vetor_numpy))   # Retorna o número de elementos do vetor

# Multi-dimencional (n-D)

# Matriz Bidimensional 2 (linhas) X 3 (colunas)
matriz_numpy = np.array([[0, 1, 2], [3, 4, 5]]) 

print(matriz_numpy)
print(matriz_numpy.ndim)
print(matriz_numpy.shape)
print(len(matriz_numpy))         # Retorna o tamanho da primeira dimensão do vetor (linhas)

### Funções para Criação de Vetores

In [0]:
# Vetores Igualmente Espaçado
print("Vetores Igualmente Espaçado")
vetor = np.arange(10) # 0 .. n - 1
print(vetor)

vetor_impar = np.arange(1, 9, 2) # Início, Fim e Incremento
print(vetor_impar)

# Vetores por números de pontos
print("\nVetores por Números de Pontos")
numero_pontos = np.linspace(0, 1, 6) # Início, Fim, Número de Pontos
print(numero_pontos)

# Matrizes Populares
print("\nMATRIZES POPULARES")
print("\nMatriz de Uns")
matriz_de_uns = np.ones((3, 3)) # Tupla (3, 3)
print(matriz_de_uns)

print("\nMatriz de Zeros")
matriz_de_zeros = np.zeros((2, 2))
print(matriz_de_zeros)

print("\nMatriz Zerada com Diagonal de Uns")
matriz_zeros_diagonal_uns = np.eye(4)
print(matriz_zeros_diagonal_uns)

print("\nMatriz Zerada com Diagonal de Permutações")
matriz_diagonal_permutacao = np.diag(np.array([1, 2, 3, 4]))
print(matriz_diagonal_permutacao)

print("\nVETORES ALEATÓRIOS")
print("\nVetor Aleatório Uniforme")
vetor_uniforme_aleatorio = np.random.rand(4)
print(vetor_uniforme_aleatorio)

print("\nVetor Aleatório Gaussiano")
vetor_aleatorio_gaussiano = np.random.randn(4)
print(vetor_aleatorio_gaussiano)

np.random.seed(1234) # Definindo a semente aleatória

### Operações Matemáticas com Vetores

In [0]:
import numpy as np

vetor_a = np.array([1, 2, 3])
vetor_b = np.array([4, 5, 6])


# Adição
vetor_a + vetor_b              # Usando operador aritmético
np.add(vetor_a, vetor_b)       # Usando função definida do NumPy

# Subtração
vetor_a - vetor_b              # Usando operador aritmético
np.subtract(vetor_a, vetor_b)  # Usando função definida do NumPy

# Multiplicação
vetor_a * vetor_b              # Usando operador aritmético
np.multiply(vetor_a, vetor_b)  # Usando função definida do NumPy

# Divisão
vetor_a / vetor_b              # Usando operador aritmético
np.divide(vetor_a, vetor_b)    # Usando função definida do NumPy

# Raiz Quadrada
np.sqrt(vetor_a)

# Função Exponencia
np.exp(vetor_a)                

# Seno
np.sin(vetor_a)

# Coseno
np.cos(vetor_a)

# Logaritmo Natural
np.log(vetor_a)

### Comparação

In [0]:
import numpy as np

vetor_a = np.array([1, 2, 3])
vetor_b = np.array([4, 5, 6])

# Compara cada um dos elementos dos vetores
# Retorna um vetor booleano com os resultados da comparação
vetor_a == vetor_b
vetor_a != vetor_b

vetor_a > vetor_b
vetor_a >= vetor_b

vetor_a < vetor_b
vetor_a <= vetor_b

### Funções Agregadas

In [0]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])

vetor.sum()         # Soma todos os elementos do vetor
vetor.cumsum()      # Soma acumulada de todos os elementos do vetor

vetor.min()         # Retorna o menor elemento do vetor numérico
vetor.max()         # Retorna o maior elemento do vetor numérico

vetor.mean()        # Média
np.median(vetor)    # Mediana
np.corrcoef(vetor)  # Coeficiente de Correlação
np.std(vetor)       # Desvio Padrão

### Copiando Vetores

In [0]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])

copia_vetor = np.copy(vetor)
print(copia_vetor)

copia = vetor.copy()  
print(copia)

visao = vetor.view()  # Cria uma visão (view) do vetor [representação virutal em memória]
print(visao)

### Ordenando Vetores

In [0]:
import numpy as np

vetor = np.array([9, 8, 7, 6, 5, 4, 3, 2, 1])
vetor.sort()
vetor

### Subconjunto, Fatiamento e Indexação

In [0]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])
matriz = np.array([(1, 2, 3), (4, 5, 6), (7, 8, 9)])


print(vetor[2])        # vetor[i] = Pega o elemento do vetor na posição (i)
print(matriz[1, 2])    # vetor[linha, coluna] = Pega um elemento em uma matriz


print(vetor[0:3])      # vetor[inicio:quantidade] = Retorna 3 elementos contados à partir da posição de início ([0] 
print(matriz[1:2])     # Seleciona todos elementos da primeira linha até a terceira coluna
print(matriz[0:3, 1])  # matriz[inicio:quantidade, coluna] Seleciona 3 elementos da segunda coluna [1], à partir da primeira linha [0]

print(matriz[:1])      # Seleciona todos os itens da primeira linha
print(matriz[:2])      # Seleciona todos os itens da primeira linha e segunda linha

print(vetor[ : :-1])   # Seleciona todos os elementos de trás pra frente (invertido)

# Indexação Lógica
print(vetor[vetor <= 3]) # Seleciona todos os elementos dos índices menores iguais a 3
print(vetor[1 + 3])      # Calcula dinamicamente a posição do vetor


print(matriz[[1, 0, 1, 0]]) # Retorna uma matriz com as linhas 1 e 0 repetidas

## Entrada/Saída (I/O)

In [0]:
import numpy as np
from io import StringIO

data = u"1, 2, 3\n4, 5, 6"
vetor = np.genfromtxt(StringIO(data), delimiter=",") # Converte dados para vetor
np.savetxt("nome_arquivo.txt", vetor, delimiter=" ") # Salva o vetor como arquivo

```python
# Exemplo - Carregamento de Arquivos
np.genfromtxt("nome_arquivo.csv", delimiter=',')
np.loadtxt("nome_arquivo.txt")
```

# Exercícios

1. Importe o pacote numpy com o nome np.

In [0]:
import numpy as np

2. Crie o seguinte vetor unidimensional (1D):

| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|

In [129]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print (vetor)

[0 1 2 3 4 5 6 7 8 9]


3. Qual é o comprimento `len` do vetor?

In [130]:
x = len(vetor)
print (x)

10


4. Quantas dimensões `ndim` o vetor possui?

In [131]:
print (vetor.ndim)

1


5. O que a função `shape` retorna?

In [132]:
print (vetor.shape)

(10,)


**Resposta**:

6. Crie a variável *pares* e extraia todos os números pares do vetor para ela:

7. Substitua todos os elementos ímpares do vetor por -1, em seguida, ordene os resultados:

8. Converta o vetor unidimensional (1D) abaixo para uma matriz (2D) com 4 linhas. **Dica:** `reshape`.

In [135]:
novovetor = vetor.reshape(4,3)
print(novovetor)
 

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


9. Obtenha os itens em comum, ou seja, a intersecção dos vetores `a` e `b` abaixo:
**Saída**: [2, 4, 6]

In [165]:
a = [1, 2, 3, 4, 6]
b = [2, 4, 6, 8, 10]

print (set(a).intersection(b))

#professor, não entendi muito bem a questão quando fala os vetores a e b abaixo, então criei um qualquer.

{2, 4, 6}


10. Retorne os valores únicos do vetor `a` que não estão no vetor `b` (diferença).
**Saída**: [1, 3]

In [164]:
print (set(a).difference(b))

{1, 3}


11. Retorne um vetor com as posições (índices) onde os elementos do vetor `a` sãos iguais aos elementos do vetor `b`. **Dica**: `where`.
**Saída**: [2, 3, 5]

12. Obtenha todos os itens entre 5 e 15 do vetor `a = [0, 1, 2, 3, . . ., 20]`.

13. Crie e imprima um vetor com 5 números aleatórios, sem seguida, obtenha os valores máximo e mínimo dele e mostre na tela.

In [122]:
vetor = np.array ([25, 12, 36, 85, 41])
print(vetor)

print(vetor.min())
print(vetor.max())

[25 12 36 85 41]
12
85


14. Crie a seguinte matriz:

|   |   |   |
|:-:|:-:|:-:|
| 7 | 8 | 9 |
| 4 | 5 | 6 |
| 1 | 2 | 3 |

In [113]:
matriz = np.array([[7, 8, 9], [4, 5, 6], [1, 2, 3]])

print (matriz)

[[7 8 9]
 [4 5 6]
 [1 2 3]]


15. Troque de lugar a primeira coluna com a útllima coluna da matriz.

16. Troque de lugar a primeira linha com a útllima linha da matriz.

17. Crie uma matriz  7 × 5 preenchida com números decimais aleatórios entre 1 e 5.

In [138]:
matriz2 = np.array([[1.1,1.2,1.3,1.4,1.5], [2.1,2.2,2.3,2.4,2.5], [3.1,3.2,3.3,3.4,3.5], [4.1,4.2,4.3,4.4,4.5], [2.7,2.8,2.9,2.6,3.7], [3.6,3.8,3.9,4.6,4.7], [1.6,1.7,1.8,1.9,4.8]])
print(matriz2)

[[1.1 1.2 1.3 1.4 1.5]
 [2.1 2.2 2.3 2.4 2.5]
 [3.1 3.2 3.3 3.4 3.5]
 [4.1 4.2 4.3 4.4 4.5]
 [2.7 2.8 2.9 2.6 3.7]
 [3.6 3.8 3.9 4.6 4.7]
 [1.6 1.7 1.8 1.9 4.8]]


18. Qual é o comprimento `len` da matriz?

In [139]:
z = len(matriz2)
print(z)

7


19. Quantas dimensões `ndim` a matriz possui?

In [140]:
np.ndim(matriz2)

2

20. O que a função `shape` retorna?

In [141]:
print (matriz2.shape)

(7, 5)


**Resposta**:

# EXERCÍCIO: Análise de Dados dos Jogadores da FIFA ⚽

Neste exercício, iremos usar a biblioteca NumPy para fazer uma análise de dados de jogares de futebol da FIFA disponíveis em [`data/fifa.csv`](data/fifa.csv). O conjunto de dados (dataset) foi adaptado da versão original disponibilizada nas plataformas: [Kaggle](https://www.kaggle.com/karangadiya/fifa19/data) e [GitHub](https://github.com/amanthedorkknight/fifa18-all-player-statistics).

## Dicionário de Dados

| Coluna        | Descrição                                        |
|:--------------|:-------------------------------------------------|
| id            | Identificador único do jogador                   |
| nome          | Nome do jogador                                  |
| foto          | URL da fotografia do jogador.                    |
| nacionalidade | País do jogador.                                 |
| avaliacao     | Avaliação geral do jogador.                      |
| potencial     | Indicador da classificação potencial do jogador. |
| time          | Nome do time do jogador.                         |
| pe_preferido  | Direito (Destro), Esquerdo (Canhoto).            |
| reputacao     | Reputação Internacional do jogador.              |
| altura_cm     | Altura do jogador em centímetros (cm).           |
| peso_kg       | Peso do jogador em kilos (kg).                   |
| posicao       | Posição do jogador no time.                      |
| numero_camisa | Número da camisa do jogador.                     |

1. Importe o pacote numpy com o nome np.

In [0]:
import numpy as np

2. Carregue o conjunto de dados da Fifa disponível na pasta (`data/fifa.csv`), ignorando a coluna `foto`, para uma matriz em uma variavel chamada `dados`. **Dicas:**
    - Pesquise pela função `genfromtxt`; 
    - Não esqueça de especificar a codificação (encoding) como UTF-8;
    - Ignore o cabeçalho dos dados usando o parâmetro `skip_header=True`

In [58]:
dados = np.genfromtxt('fifa.csv', 
                      delimiter=',', 
                      encoding='utf-8', 
                      dtype=object, 
                      skip_header=True,
                      usecols=[0, 1, 2, 4, 5, 6, 7, 8, 9, 10, 11, 12])

dados

array([[b'158023', b'L. Messi', b'31', ..., b'170', b'72.121', b'RF'],
       [b'20801', b'Cristiano Ronaldo', b'33', ..., b'188', b'83.007',
        b'ST'],
       [b'190871', b'Neymar Jr', b'26', ..., b'175', b'68.039', b'LW'],
       ...,
       [b'241638', b'B. Worman', b'16', ..., b'173', b'67.132', b'ST'],
       [b'246268', b'D. Walker-Rice', b'17', ..., b'152', b'69.853',
        b'RW'],
       [b'246269', b'G. Nugent', b'16', ..., b'152', b'79.832', b'CM']],
      dtype=object)

3. Quantas linhas foram lidas do arquivo?

In [13]:
len(dados)

18207

4. Quantas dimensões sua variável `dados` possui?

In [23]:
np.ndim(dados)

2

5. O que a função shape retorna?

In [30]:
np.shape(dados)

(18207, 11)

**Resposta**:

6. Mostre o dado que está na 3ª linha da 4ª coluna?

In [31]:
dados[2, 3]

b'Brasil'

7. Exiba os dados da primeira linha do dataset.

In [34]:
dados[0]

array([b'158023', b'L. Messi', b'31', b'Argentina', b'94', b'94',
       b'FC Barcelona', b'Esquerdo', b'5', b'170', b'72.121'],
      dtype=object)

8. Mostre as 5 primeiras linhas do conjunto de dados.

In [35]:
dados[:5]

array([[b'158023', b'L. Messi', b'31', b'Argentina', b'94', b'94',
        b'FC Barcelona', b'Esquerdo', b'5', b'170', b'72.121'],
       [b'20801', b'Cristiano Ronaldo', b'33', b'Portugal', b'94', b'94',
        b'Juventus', b'Direito', b'5', b'188', b'83.007'],
       [b'190871', b'Neymar Jr', b'26', b'Brasil', b'92', b'93',
        b'Paris Saint-Germain', b'Direito', b'5', b'175', b'68.039'],
       [b'193080', b'De Gea', b'27', b'Espanha', b'91', b'93',
        b'Manchester United', b'Direito', b'4', b'193', b'76.204'],
       [b'192985', b'K. De Bruyne', b'27', b'B\xe9lgica', b'91', b'92',
        b'Manchester City', b'Direito', b'4', b'155', b'69.853']],
      dtype=object)

9. Selecione todas as linhas da coluna `nome` (segunda coluna). **Dica:** use o operador `:`

In [36]:
dados[:,1]

array([b'L. Messi', b'Cristiano Ronaldo', b'Neymar Jr', ..., b'B. Worman',
       b'D. Walker-Rice', b'G. Nugent'], dtype=object)

10. Inicialize um vetor de inteiros NumPy chamado: **idades**; com todas as linhas da coluna `idade` (3ª coluna).

In [39]:
idades = np.array(dados[:, 2], dtype=int)
idades 

array([31, 33, 26, ..., 16, 17, 16])

11. Qual é a média de idades dos jogadores?

In [40]:
idades.mean()

25.122205745043114

12. Qual é a maior idade do conjunto de dados?

In [41]:
idades.max()

45

13. Qual é a menor idade do conjunto de dados?

In [42]:
idades.min()

16

14. Selecione todos os jogadores que possuem a maior idade deste conjunto de dados. Quantas linhas retornaram? 

In [49]:
maior_idade = idades.max()
condicao = dados[:, 2].astype(int) == maior_idade

dados[condicao, :]
len(dados[condicao, :])

1

15. Selecione todos os jogadores que possuem a menor idade deste conjunto de dados. Quantas linhas retornaram? 

In [51]:
menor_idade = idades.min()
result = dados[:, 2].astype(int) == menor_idade

dados[result, :]
len(dados[result, :])


42

16. Selecione todos os jogadores brasileiros para uma variável chamada dados_brasil. Use `b'Brasil'` para fazer a comparação.

In [91]:
condicao = dados [:,3] == b'Brasil'
dados_brasil = dados[condicao, :]


len(dados_brasil)

69

17. Quantos são os jogadores brasileiros?

In [0]:
len(dados_brasil)

18. Para as colunas `idade`, `altura` e `peso`, calcule:
    - Média
    - Mediana
    - Máximo
    - Mínimo

In [116]:
condicao_vazio = dados[:, 2] != b''
idade = dados[condicao_vazio, 2].astype(int)

print(idade.mean(), np.median(idade), idade.max(), idade.min())

condicao_vazio = dados[:, 9] != b''
altura = dados[condicao_vazio, 9].astype(float)

print(altura.mean(), np.median(altura), altura.max(), altura.min())

condicao_vazio = dados[:, 10] != b''
peso = dados[condicao_vazio, 10].astype(float)

print(peso.mean(), np.median(peso), peso.max(), peso.min())



25.122205745043114 25.0 45 16
174.7126493749656 175.0 206.0 152.0
75.28690153642822 74.843 110.223 49.895


19. Calcule o desvio padrão da `reputação` dos jogadores brasileiros

In [114]:
desvio_padrao = dados_brasil[:,8].astype(int)

np.std(desvio_padrao)

1.0093034983466755

20. Qual jogador brasileiro tem menor pontencial?

In [94]:
menor_potencial = dados_brasil[:,5]

menor_potencial.min()


b'79'