<a href="https://colab.research.google.com/github/gcsoares8/analise_dados/blob/master/Copy_of_1_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPy - Manipulando Dados Numéricos

## O que é o NumPy?

O *NumPy* é uma biblioteca para a Linguagem de Programação Python, que da suporte à linguagem para trabalhar com grandes matrizes e vetores multidimensionais, juntamente com uma ampla coleção de funções matemáticas de alto nível.

Especificamente, essa bibioteca fornece ao Python, objetos *arrays* multidimensionais e vários objetos derivados (p. ex.: masked arrays e matrices), com um conjunto de funções para operações rápidas em vetores e a Computação Numérica, por exemplo: 

* Funções Matemáticas e Lógicas;
* Manipulação de Formas;
* Ordenação;
* Seleção;
* Leitura de Dados (E/S);
* Transformada Discreta de Fourier;
* Álgebra Linear Básica;
* Operações Estatísticas Básicas;
* Simulação Aleatória.

No núcleo da biblioteca NumPy temos o objeto *narray* que encapsula vetores n-dimensionais com tipos de dados homgêneos e muitas operações executadas no código compilado a fim de desempenho. 

### NumPy X Sequências Padrão do Python

Existem várias diferenças importantes entre os vetores do NumPy e as sequências padrão do Python, são elas: 

* **Vetores Estáticos:** os vetores do NumPy têm tamanho fixo em sua criação, diferente das listas do Python que podem crescer dinamicamente em tempo de execução. Logo, quando alteramos o tamanho de um objeto *narray*, será criado um novo vetor e excluído o original;

* **Tipo de Dados Homogêneo dos Itens:**  todos os elementos dos vetores em NumPy, devem ser obrigatoriamente do mesmo tipo de dados, logo, eles irão ter o mesmo tamanho em memória;

* **Operações Matemáticas Avançadas:** os vetores do NumPy otimizam operações matemáticas avançadas e qualquer tipo de outras operações para um grande número de dados. Na prática, essas operações são executadas mais eficientemente e com menos código do que se usarmos as sequências padrão do Python;

In [0]:
# NumPy na Prática
import numpy as np             # Importa a biblioteca NumPy para seu projeto

vetor = np.array([0, 1, 2, 3]) # instancia um vetor (array) em NumPy
vetor                          # Imprime seu conteúdo

## Tipos de Dados

| Tipo de Dado | Descrição                                            |
|:-------------|:-----------------------------------------------------|
| np.int64     | Números inteiros de 64bits                           |
| np.float32   | Números de ponto flutuante de precisão dupla (Reais) |
| np.complex   | Números Complexos                                    |
| np.bool      | Tipo lógico (Booleano)                               |
| np.object    | Tipo object do Python                                |
| np.string_   | Cadeia de Caracteres Fixa (String)                   |
| np.unicode_  | Cadeia de Caracteres Unicode Fixa (String)           |

## Criação de Vetores

### Construção Manual de Vetores

In [0]:
# CONSTRUÇÃO MANUAL DE VETORES
# Unidimencional (1D)

vetor_numpy = np.array([0, 1, 2, 3, 4])

print(vetor_numpy)        # Imprime o vetor
print(vetor_numpy.ndim)   # Retorna o número de dimensões do vetor
print(vetor_numpy.shape)  # Retorna a forma do vetor ou atribui uma tupla para as dimnesões do vetor
print(len(vetor_numpy))   # Retorna o número de elementos do vetor

# Multi-dimencional (n-D)

# Matriz Bidimensional 2 (linhas) X 3 (colunas)
matriz_numpy = np.array([[0, 1, 2], [3, 4, 5]]) 

print(matriz_numpy)
print(matriz_numpy.ndim)
print(matriz_numpy.shape)
print(len(matriz_numpy))         # Retorna o tamanho da primeira dimensão do vetor (linhas)

### Funções para Criação de Vetores

In [0]:
# Vetores Igualmente Espaçado
print("Vetores Igualmente Espaçado")
vetor = np.arange(10) # 0 .. n - 1
print(vetor)

vetor_impar = np.arange(1, 9, 2) # Início, Fim e Incremento
print(vetor_impar)

# Vetores por números de pontos
print("\nVetores por Números de Pontos")
numero_pontos = np.linspace(0, 1, 6) # Início, Fim, Número de Pontos
print(numero_pontos)

# Matrizes Populares
print("\nMATRIZES POPULARES")
print("\nMatriz de Uns")
matriz_de_uns = np.ones((3, 3)) # Tupla (3, 3)
print(matriz_de_uns)

print("\nMatriz de Zeros")
matriz_de_zeros = np.zeros((2, 2))
print(matriz_de_zeros)

print("\nMatriz Zerada com Diagonal de Uns")
matriz_zeros_diagonal_uns = np.eye(4)
print(matriz_zeros_diagonal_uns)

print("\nMatriz Zerada com Diagonal de Permutações")
matriz_diagonal_permutacao = np.diag(np.array([1, 2, 3, 4]))
print(matriz_diagonal_permutacao)

print("\nVETORES ALEATÓRIOS")
print("\nVetor Aleatório Uniforme")
vetor_uniforme_aleatorio = np.random.rand(4)
print(vetor_uniforme_aleatorio)

print("\nVetor Aleatório Gaussiano")
vetor_aleatorio_gaussiano = np.random.randn(4)
print(vetor_aleatorio_gaussiano)

np.random.seed(1234) # Definindo a semente aleatória

### Operações Matemáticas com Vetores

In [0]:
import numpy as np

vetor_a = np.array([1, 2, 3])
vetor_b = np.array([4, 5, 6])


# Adição
vetor_a + vetor_b              # Usando operador aritmético
np.add(vetor_a, vetor_b)       # Usando função definida do NumPy

# Subtração
vetor_a - vetor_b              # Usando operador aritmético
np.subtract(vetor_a, vetor_b)  # Usando função definida do NumPy

# Multiplicação
vetor_a * vetor_b              # Usando operador aritmético
np.multiply(vetor_a, vetor_b)  # Usando função definida do NumPy

# Divisão
vetor_a / vetor_b              # Usando operador aritmético
np.divide(vetor_a, vetor_b)    # Usando função definida do NumPy

# Raiz Quadrada
np.sqrt(vetor_a)

# Função Exponencia
np.exp(vetor_a)                

# Seno
np.sin(vetor_a)

# Coseno
np.cos(vetor_a)

# Logaritmo Natural
np.log(vetor_a)

### Comparação

In [0]:
import numpy as np

vetor_a = np.array([1, 2, 3])
vetor_b = np.array([4, 5, 6])

# Compara cada um dos elementos dos vetores
# Retorna um vetor booleano com os resultados da comparação
vetor_a == vetor_b
vetor_a != vetor_b

vetor_a > vetor_b
vetor_a >= vetor_b

vetor_a < vetor_b
vetor_a <= vetor_b

### Funções Agregadas

In [0]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])

vetor.sum()         # Soma todos os elementos do vetor
vetor.cumsum()      # Soma acumulada de todos os elementos do vetor

vetor.min()         # Retorna o menor elemento do vetor numérico
vetor.max()         # Retorna o maior elemento do vetor numérico

vetor.mean()        # Média
np.median(vetor)    # Mediana
np.corrcoef(vetor)  # Coeficiente de Correlação
np.std(vetor)       # Desvio Padrão

### Copiando Vetores

In [0]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])

copia_vetor = np.copy(vetor)
print(copia_vetor)

copia = vetor.copy()  
print(copia)

visao = vetor.view()  # Cria uma visão (view) do vetor [representação virutal em memória]
print(visao)

### Ordenando Vetores

In [0]:
import numpy as np

vetor = np.array([9, 8, 7, 6, 5, 4, 3, 2, 1])
vetor.sort()
vetor

### Subconjunto, Fatiamento e Indexação

In [0]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])
matriz = np.array([(1, 2, 3), (4, 5, 6), (7, 8, 9)])


print(vetor[2])        # vetor[i] = Pega o elemento do vetor na posição (i)
print(matriz[1, 2])    # vetor[linha, coluna] = Pega um elemento em uma matriz


print(vetor[0:3])      # vetor[inicio:quantidade] = Retorna 3 elementos contados à partir da posição de início ([0] 
print(matriz[1:2])     # Seleciona todos elementos da primeira linha até a terceira coluna
print(matriz[0:3, 1])  # matriz[inicio:quantidade, coluna] Seleciona 3 elementos da segunda coluna [1], à partir da primeira linha [0]

print(matriz[:1])      # Seleciona todos os itens da primeira linha
print(matriz[:2])      # Seleciona todos os itens da primeira linha e segunda linha

print(vetor[ : :-1])   # Seleciona todos os elementos de trás pra frente (invertido)

# Indexação Lógica
print(vetor[vetor <= 3]) # Seleciona todos os elementos dos índices menores iguais a 3
print(vetor[1 + 3])      # Calcula dinamicamente a posição do vetor


print(matriz[[1, 0, 1, 0]]) # Retorna uma matriz com as linhas 1 e 0 repetidas

## Entrada/Saída (I/O)

In [0]:
import numpy as np
from io import StringIO

data = u"1, 2, 3\n4, 5, 6"
vetor = np.genfromtxt(StringIO(data), delimiter=",") # Converte dados para vetor
np.savetxt("nome_arquivo.txt", vetor, delimiter=" ") # Salva o vetor como arquivo

```python
# Exemplo - Carregamento de Arquivos
np.genfromtxt("nome_arquivo.csv", delimiter=',')
np.loadtxt("nome_arquivo.txt")
```

# Exercícios

1. Importe o pacote numpy com o nome np.

In [0]:
import numpy as np


2. Crie o seguinte vetor unidimensional (1D):

| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


3. Qual é o comprimento `len` do vetor?

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print(len(vetor));

4. Quantas dimensões `ndim` o vetor possui?

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print(np.ndim(vetor));



5. O que a função `shape` retorna?

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print(np.shape(vetor));

**Resposta**:

6. Crie a variável *pares* e extraia todos os números pares do vetor para ela:

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

pares = ([vetor[0],vetor[2],vetor[4],vetor[6],vetor[8]]);

print(pares)

7. Substitua todos os elementos ímpares do vetor por -1, em seguida, ordene os resultados:

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print(np.where(vetor%2!=0,-1,vetor));

8. Converta o vetor unidimensional (1D) abaixo para uma matriz (2D) com 4 linhas. **Dica:** `reshape`.

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]);

print(np.arange(8).reshape((2, 4)));

9. Obtenha os itens em comum, ou seja, a intersecção dos vetores `a` e `b` abaixo:
**Saída**: [2, 4, 6]

In [0]:
a = np.array([0, 1, 2, 3, 4, 5, 6,]);
b = np.array([8, 7, 2, 8, 4, 9, 6]);

vetor = (np.where(a == b, b ,a==b));

vetor = np.array([vetor[2] , vetor[4] , vetor[6]]);

print(vetor)


10. Retorne os valores únicos do vetor `a` que não estão no vetor `b` (diferença).
**Saída**: [1, 3]

In [0]:
a = np.array([0, 1, 2, 3, 4, 5, 6,]);
b = np.array([0, 7, 2, 8, 4, 5, 6]);

vetor = (np.where(a != b, a ,a != b));

vetor = np.array([vetor[1] , vetor[3]]);

print(vetor)

11. Retorne um vetor com as posições (índices) onde os elementos do vetor `a` sãos iguais aos elementos do vetor `b`. **Dica**: `where`.
**Saída**: [2, 3, 5]

In [0]:
a = np.array([0, 1, 2, 3, 4, 5, 6,]);
b = np.array([0, 7, 2, 8, 4, 5, 6]);

vetor = (np.where(a != b, a ,a != b));

vetor = np.indices([vetor[1] , vetor[3]]);

print(vetor)


12. Obtenha todos os itens entre 5 e 15 do vetor `a = [0, 1, 2, 3, . . ., 20]`.

In [0]:
vetor = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

print(np.arange(4,20));

13. Crie e imprima um vetor com 5 números aleatórios, sem seguida, obtenha os valores máximo e mínimo dele e mostre na tela.

In [0]:
vetor = np.array([ 9, 10, 11, 12, 13]);

print(np.max(vetor))
print(np.min(vetor))

14. Crie a seguinte matriz:

|   |   |   |
|:-:|:-:|:-:|
| 7 | 8 | 9 |
| 4 | 5 | 6 |
| 1 | 2 | 3 |

In [0]:
vetor = np.array([[ 7, 8, 9],[4,5,6],[1,2,3]])

print(vetor)

15. Troque de lugar a primeira coluna com a útllima coluna da matriz.

In [0]:
vetor = np.array([[ 7, 8, 9],[4,5,6],[1,2,3]]);

vetor = np.arange(9)
vetor = vetor.reshape(3,3)

vetor[[0, 2]] = vetor[[2, 0]]

print(vetor)

16. Troque de lugar a primeira linha com a útllima linha da matriz.

In [0]:
vetor = np.array([[ 7, 8, 9],[4,5,6],[1,2,3]]);

vetor[(0,2), :] = vetor[(2,0), :]

print(vetor)

17. Crie uma matriz  7 × 5 preenchida com números decimais aleatórios entre 1 e 5.

In [0]:
vetor = np.random.randint(1,6, size=(7, 5))

print(vetor)


18. Qual é o comprimento `len` da matriz?

In [0]:
vetor = np.random.randint(5, size=(7, 5))

print(len(vetor))

19. Quantas dimensões `ndim` a matriz possui?

In [0]:
vetor = np.random.randint(5, size=(7, 5))

print(np.ndim(vetor))

20. O que a função `shape` retorna?

In [0]:
# Escreva seu código aqui

vetor = np.random.randint(5, size=(7, 5))

print(np.shape(vetor))

**Resposta**:

# EXERCÍCIO: Análise de Dados dos Jogadores da FIFA ⚽

Neste exercício, iremos usar a biblioteca NumPy para fazer uma análise de dados de jogares de futebol da FIFA disponíveis em [`data/fifa.csv`](data/fifa.csv). O conjunto de dados (dataset) foi adaptado da versão original disponibilizada nas plataformas: [Kaggle](https://www.kaggle.com/karangadiya/fifa19/data) e [GitHub](https://github.com/amanthedorkknight/fifa18-all-player-statistics).

## Dicionário de Dados

| Coluna        | Descrição                                        |
|:--------------|:-------------------------------------------------|
| id            | Identificador único do jogador                   |
| nome          | Nome do jogador                                  |
| foto          | URL da fotografia do jogador.                    |
| nacionalidade | País do jogador.                                 |
| avaliacao     | Avaliação geral do jogador.                      |
| potencial     | Indicador da classificação potencial do jogador. |
| time          | Nome do time do jogador.                         |
| pe_preferido  | Direito (Destro), Esquerdo (Canhoto).            |
| reputacao     | Reputação Internacional do jogador.              |
| altura_cm     | Altura do jogador em centímetros (cm).           |
| peso_kg       | Peso do jogador em kilos (kg).                   |
| posicao       | Posição do jogador no time.                      |
| numero_camisa | Número da camisa do jogador.                     |

1. Importe o pacote numpy com o nome np.

In [0]:
import numpy as np

2. Carregue o conjunto de dados da Fifa disponível na pasta (`data/fifa.csv`), ignorando a coluna `foto`, para uma matriz em uma variavel chamada `dados`. **Dicas:**
    - Pesquise pela função `genfromtxt`; 
    - Não esqueça de especificar a codificação (encoding) como UTF-8;
    - Ignore o cabeçalho dos dados usando o parâmetro `skip_header=True`

In [0]:
dados = np.genfromtxt('fifa.csv', delimiter= ' . ', encoding= 'utf-8', dtype=object, skip_header=true,  usecols=[0,1,2,3,4,5,6,7,8,9,10,11])
dados

3. Quantas linhas foram lidas do arquivo?

In [0]:
len(dados)

4. Quantas dimensões sua variável `dados` possui?

In [0]:
np.dim(dados)

5. O que a função shape retorna?

In [0]:
np.shapes(dados)


**Resposta**:

6. Mostre o dado que está na 3ª linha da 4ª coluna?

In [0]:
# 0, 1, 2, 3, ..., n
dados[]


7. Exiba os dados da primeira linha do dataset.

In [0]:
dados[0]

8. Mostre as 5 primeiras linhas do conjunto de dados.

In [0]:
dados[:5]

9. Selecione todas as linhas da coluna `nome` (segunda coluna). **Dica:** use o operador `:`

In [0]:
dados[:,1]

10. Inicialize um vetor de inteiros NumPy chamado: **idades**; com todas as linhas da coluna `idade` (3ª coluna).

In [0]:
 idades = np.array(dados[:, 2], dtype=int)
idades
  

11. Qual é a média de idades dos jogadores?

In [0]:
idades.mean()

12. Qual é a maior idade do conjunto de dados?

In [0]:
idades.max()

13. Qual é a menor idade do conjunto de dados?

In [0]:
idades.min()


14. Selecione todos os jogadores que possuem a maior idade deste conjunto de dados. Quantas linhas retornaram? 

In [0]:
maior_idade = idades.max()
condicao = dados[:, 2].astype(int) == maior.idade

15. Selecione todos os jogadores que possuem a menor idade deste conjunto de dados. Quantas linhas retornaram? 

In [0]:
menor_idade = idades.min()
condicao = dados[:, 2].astype(int) == menor.idade

16. Selecione todos os jogadores brasileiros para uma variável chamada dados_brasil. Use `b'Brasil'` para fazer a comparação.

In [0]:
# 'Brasil'
condicao = dados[:,3] == b'Brasil'
dados_brasil = dados[condicao,:]
print(dados_brasil)
len(dados_brasil)



17. Quantos são os jogadores brasileiros?

In [0]:
 len(dados_brasil)


18. Para as colunas `idade`, `altura` e `peso`, calcule:
    - Média
    - Mediana
    - Máximo
    - Mínimo

In [0]:
 #altura
altura = dados[:, 8]
altura
#print(altura.mean())

#peso
condicao_vazio = dados[:,10] != b''
peso = dados[condicao_vazio, 10].astype(float)
peso.mean()
peso

19. Calcule o desvio padrão da `reputação` dos jogadores brasileiros

In [0]:
reputacao_vazio = dados[:,8] != b''
reputacao = dados[reputacao_vazio,8].astype(int)

np.std(reputacao)

20. Qual jogador brasileiro tem menor pontencial?

In [0]:
condicao = dados[:, 3] == b'Brasil'
brasil_dados = dados[condicao,:]

potencial = brasil_dados[:,5]

potencial.min()