# Numpy
Numpy é um pacote do Python utilizado nas análises de computação científica. As listas geradas utilizando o Numpy conferem um alto performance nas análises de um grande volume de dados e também flexibilidade para manipular matematicamente os dados.

Mais informações sobre este pacote pode ser encontrado em https://docs.scipy.org/doc/numpy/user/quickstart.html.

## Instalação
O pacote Numpy vem junto com a distribuição [Anaconda](anaconda.org). Se você não tem o Anaconda instalado, pode instalar o Numpy utilizando o pip:

``` 
python -m pip install --user numpy
```

## Utilizando o Numpy

In [2]:
import numpy as np

## Criando uma lista

In [3]:
# Criando uma lista com uma dimensão (eixo)
x = np.array([1,2,3])
print(x)

[1 2 3]


In [4]:
# Criando uma lista com duas dimensões (eixos)
x2 = np.array([[1,2,3],
               [4,5,6]])
print(x2)

[[1 2 3]
 [4 5 6]]


In [5]:
# Erro comum ao criar uma lista do numpy
x_err = np.array(1,2,3)
print(x_err)

ValueError: only 2 non-keyword arguments accepted

In [6]:
# criando listas de sequências de números
print(np.arange( 10, 30, 5 ))

[10 15 20 25]


In [7]:
# criando uma lista de números distribuídos em um determinado intervalo
print(np.linspace(0,10,101))

[ 0.   0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.   1.1  1.2  1.3
  1.4  1.5  1.6  1.7  1.8  1.9  2.   2.1  2.2  2.3  2.4  2.5  2.6  2.7
  2.8  2.9  3.   3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.   4.1
  4.2  4.3  4.4  4.5  4.6  4.7  4.8  4.9  5.   5.1  5.2  5.3  5.4  5.5
  5.6  5.7  5.8  5.9  6.   6.1  6.2  6.3  6.4  6.5  6.6  6.7  6.8  6.9
  7.   7.1  7.2  7.3  7.4  7.5  7.6  7.7  7.8  7.9  8.   8.1  8.2  8.3
  8.4  8.5  8.6  8.7  8.8  8.9  9.   9.1  9.2  9.3  9.4  9.5  9.6  9.7
  9.8  9.9 10. ]


## Acessando os elementos

In [8]:
# acessando os elementos
x = np.array([1,2,3])
print(x[0], x[1], x[2])

1 2 3


## Acessando elementos em listas multidimensionais

In [9]:
# acessando um elemento
x2 = np.array([[1,2,3],
               [4,5,6]])
print(x2[1][2])

6


In [10]:
# acessando uma linha inteira
print(x2[1])

[4 5 6]


In [11]:
# acessando uma coluna inteira
print(x2[:,1])

[2 5]


## Atributos

In [12]:
# número de dimensões
print(x2.ndim)

2


In [13]:
# formato
print(x2.shape)

(2, 3)


In [14]:
# tamanho
print(x2.size)

6


In [15]:
# tipo dos dados
print(x2.dtype)

int32


## Funções agregadas

In [20]:
x2 = np.array([[1,2,3],
               [4,5,6]])
# soma
x2.sum()

9

In [17]:
# média
x2.mean()

3.5

In [18]:
# valor máximo
x2.max()

6

In [19]:
# valor mínimo
x2.min()

1

### Q. Como calcular a soma de uma linha?

In [21]:
# Escreva o seu código aqui:
x2[0].sum() # calculando a soma da primeira linha

6

### Q. Como calcular a soma de uma coluna?

In [22]:
# Escreva o seu código aqui:
x2[:,1].sum() # calculando a soma da segunda coluna

7

In [23]:
# soma do primeiro eixo (todas as colunas separadamente)
x2.sum(axis=0)

array([5, 7, 9])

In [24]:
# soma do segundo eixo (todas as linhas separadamente)
x2.sum(axis=1)

array([ 6, 15])

## Operações básicas

In [25]:
a = np.array( [20,30,40,50] )
b = np.arange( 4 )
print(a)
print(b)

[20 30 40 50]
[0 1 2 3]


In [26]:
# Realizar operações matemáticas ("+","-", "*", "/", "**", "%", "//")
print(a-b)

[20 29 38 47]


In [27]:
# o sinal de "*" não se refere ao produto de uma matriz.
# ao invés disso usa-se "@" (Python 3.5+) ou a função .dot():
A = np.array( [[1,1],
               [0,1]] )
B = np.array( [[2,0],
              [3,4]] )

print(A.dot(B))
print(A @ B)

[[5 4]
 [3 4]]
[[5 4]
 [3 4]]


In [28]:
# Testar condição para cada elemento
test = a<35
print(test)

[ True  True False False]


### Q. Como eu poderia verificar quantos foram verdadeiros?

In [None]:
# Escreva o seu código aqui
test.sum()

### Q. Como eu poderia verificar quantos foram falsos?

In [35]:
# Escreva o seu código aqui:
test.size - test.sum()
len(test) - test.sum()

2

### Q. Como eu poderia recuperar apenas aqueles valores que satisfazem a condição?

In [None]:
# Escreva o seu código aqui:
print(a[a < 35])

## Acessando arquivos
Acesse o site do [WHO](http://apps.who.int/gho/data/node.main.SDGPOP?lang=en) e baixe a tabela com os dados populacionais dos países no formato CSV e deixe-o no mesmo diretório onde este notebook se encontra.

A tabela está organizada da seguinte forma:
1. Nome do país
2. População total (em milhares)
3. População abaixo de 15 (%)
4. População acima de 60 (%)
5. Taxa de fertilidade (por mulher)

Execute o código abaixo para formatar a tabela de forma a facilitar a análise e responda as questões logo abaixo.

In [91]:
f = open("data.csv", "r")    # ler o arquivo

firstLine = f.readline()     # pega a primeira linha (1o cabeçalho)
cells = firstLine.split(",") # 
ncol = len(cells)            # determina o número de colunas
secondLine = f.readline()    # pega e descarta a linha seguinte (2o cabeçalho)

country = []                 # armazena a ordem dos países
data = np.empty((0,ncol-1))    # armazena os dados numéricos
                             # 1o coluna: índice do país
                             # 2o coluna: População total (em milhares)
                             # 3o coluna: População abaixo de 15 (%)
                             # 4o coluna: População acima de 60 (%)
                             # 5o coluna: Taxa de fertilidade (por mulher)

idx = 0                      # contador de linhas; ele determinará o índice

# Formatar o arquivo
for row in f:
    
    # pula linhas vazias
    if not row.strip():  
        continue
    
    row = row.strip() # retira a quebra de linha
    
    # retira caracteres indesejáveis
    row = row.replace("\"", "")  
    row = row.replace(" ", "")
    
    cells = row.split(",") # dividir a linha por ","
    
    # armazena o país em country e atribui um índice para cada um deles
    country.append(cells[0]) 
    #cells[0] = idx
    #idx += 1
    
    # transformar os valores númericos (a princípio string) em float
    # dados faltantes considerado -1
    for y in range(1,len(cells)):
        if(cells[y]):
            cells[y] = float(cells[y])
        else:
            cells[y] = -1
    
    # transformar lista numa lista do numpy e armazenar em data
    #print(cells)
    ins = np.array([cells[1:]]) 
    data = np.append(data, ins, axis=0)

country = np.array(country)
print(country[0:5])
print(data[0:5])


PapuaNewGuinea
[[ 3.4656e+04  4.3900e+01  4.1000e+00  4.6000e+00]
 [ 2.9260e+03  1.7700e+01  1.6000e+00  1.7000e+00]
 [ 4.0606e+04  2.9000e+01  1.0700e+01  2.8000e+00]
 [ 7.7000e+01  1.4800e+01  1.0000e-01 -1.0000e+00]
 [ 2.8813e+04  4.7000e+01  3.3000e+00  5.7000e+00]]


### Q. Qual a média do tamanho da população dos países?

In [72]:
# Escreva o seu código aqui:
data[:,0].mean()

38300.31443298969

### Q. Quais são os 10 países com maior porcentagem de população jovem?
**dica**: usar lista ordenada pode te ajudar. Veja este [link](https://stackoverflow.com/a/2828121)

In [85]:
# Escreva o seu código aqui:
sortedByCol2 = data[:,1].argsort()
print(sortedByCol2[-10:])
print(country[sortedByCol2[-10:]])


[192  26  64  47 159   4  33 105 180 124]
['Zambia' 'BurkinaFaso' 'Gambia' 'DemocraticRepublicoftheCongo' 'Somalia'
 'Angola' 'Chad' 'Mali' 'Uganda' 'Niger']


### Q. Qual país tem a maior taxa de fertilidade?
**dica**: veja a função [argmax()](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.argmax.html)

In [None]:
# Escreva o seu código aqui:
maxTFidx = data[:,3].argmax()
print(country[maxTFidx])

### Q. Qual(is) país(es) possui(em) a menor taxa de fertilidade?
**Obs1.**: Verifique se mais de um país possui a mesma taxa.

**Obs2.**: Dados faltantes estão representados como -1

In [97]:
# Escreva o seu código aqui:

# guardar os dados da coluna 0 e 4
subData = data[:,3]

# eliminar as linhas com dados faltantes
subData = subData[subData != -1]

# obter os índices de subData ordenado pela 2a coluna
sortedIdx = subData.argsort()

# obter o valor mínimo da taxa de fertilidade
minFert = subData[sortedIdx[0]]

# imprimir os 10 países
for i in sortedIdx:
    if subData[i] == minFert:
        print(country[int(i)])
    else:
        break


PapuaNewGuinea
Pakistan
SaintLucia


## Resumo dos comandos do Numpy
https://goo.gl/0eWPy6

## Referências

Scipy - página oficial dos criadores do Numpy: https://scipy.org/

Tutorial do Numpy:http://cs231n.github.io/python-numpy-tutorial/#numpy

WHO - World Health Organization: http://www.who.int/en/