<b>Definitive NumPy Toolkit</b>

Este Notebook tem por objetivo abordar conceietos essenciais de uma das principais bibliotecas envolvidas no processo de Análise de Dados em Python: NumPy.

O NumPy oferece as bases matemáticas necessárias para a construção de modelos de Machine Learning, Deep Learning e aplicações de Inteligência Artificial. Seus objetos nativos proporcionam a criação de _arrays_ e _matrizes_ de maneira rápida e simples, bem como funções matemáticas para operações com estes objetos.

Entre suas principais funcionalidades: criação de arrays multidimensionais, ferramentas para leitura de Datasets baseados em arrays e, por fim, operações de álgebra linear. A tranferência, em um processo de Análise de Dados, de um algorítimo para outro, pode ser feita através de objetos do NumPy.

[Site-Oficial](http://www.numpy.org/)

# Introdução

Um array NumPy é um conjunto de valores, todos do _mesmo tipo_ (normalmente booleano ou numérico, como int ou float), indexados por uma _tupla_ de valores não negativos. O uso de _arrays_ são muitos semelhantes as _listas_ da linguagem Python, entretanto sua eficiência é extremamente maior, proporcionando o processamento grandes conjuntos de dados numéricos em um curto período de tempo, sem o gasto de memória excessiva.

![array.jpg](attachment:array.jpg)

# DataCamp

## Arrays Unidimensionais

### Teoria

Vamos realizar uma simples comparação entre arrays e listas em Python. Imagine que seja necessário realizar o cálculo do IMC (Índice de Massa Corporal) através de dois pacotes de informações (listas) em Python, com a primeira contendo informações sobre o <b>peso</b> e a segunda contendo informações sobre a <b>altura</b> de uma quantidade _n_ de pessoas.

In [26]:
# Criando Listas
height = [1.72, 1.68, 1.71, 1.89, 1.79]
weight = [65.4, 59.2, 63.6, 88.4, 68.7]

print(f'Alturas: {height}')
print(f'Pesos: {weight}')

Alturas: [1.72, 1.68, 1.71, 1.89, 1.79]
Pesos: [65.4, 59.2, 63.6, 88.4, 68.7]


In [27]:
# Realizando o cálculo de IMC em todos os dados
imc = weight / height ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Foi lançada uma excessão. Infelizmente, não é possível realizar esse tipo de operação com os objetos do tipo lista. Isto pois, as listas não são capazes de realizar cálculos em todos os dados instantaneamente.

Para tal, precisaríamos percorrer cada elemento de cada uma das listas e realizar os cálculos adequados. Entretanto, este fluxo não é nada eficiente.

In [1]:
# Utilizando NumPy
import numpy as np

np_height = np.array(height)
np_weight = np.array(weight)

NameError: name 'height' is not defined

In [29]:
# Verificando objetos
print(f'Alturas: {np_height}')
print(f'Pesos: {np_weight}')

Alturas: [1.72 1.68 1.71 1.89 1.79]
Pesos: [65.4 59.2 63.6 88.4 68.7]


In [31]:
# Calculando imc
imc = np_weight / np_height ** 2

In [32]:
# Verificando resultado
imc

array([22.10654408, 20.97505669, 21.75028214, 24.7473475 , 21.44127836])

Lembrando que isto foi possível por conta de uma exigência dos arrays: todos os elementos <b>devem</b> ser do mesmo tipo. Caso haja a tentativa de criação de arrays de tipos diferentes, o Python entende que todos os elementos são _strings_. Vejamos:

In [33]:
# Diferentes elementos
diff = np.array([1.0, 'datacamp', True])
diff

array(['1.0', 'datacamp', 'True'], dtype='<U32')

Apesar de enviarmos um comando para que o Python criasse um array contendo um _float_, uma _string_ e um _booleano_, no final, todos os elementos foram convertidos para _string_.

In [34]:
# Algumas outras diferenças
python_list = [1, 2, 3]
numpy_array = np.array([1, 2, 3])

print(python_list + python_list)
print(numpy_array + numpy_array)

[1, 2, 3, 1, 2, 3]
[2 4 6]


Interessante como no primeiro caso as listas foram _concatenadas_ e, no segundo, os objetos do tipo array foram _somados_.

In [35]:
# Indexando arrays
print(imc)

[22.10654408 20.97505669 21.75028214 24.7473475  21.44127836]


In [36]:
# Selecionando elemento de índice 1
imc[1]

20.97505668934241

In [37]:
# Criando um array de booleanos
imc > 23

array([False, False, False,  True, False])

In [38]:
# Slice and dice (array de booleanos)
imc[imc > 23]

array([24.7473475])

### Exercícios

#### Baseball player's height

You are a huge baseball fan. You decide to call the MLB (Major League Baseball) and ask around for some more statistics on the height of the main players. They pass along data on more than a thousand players, which is stored as a regular Python list: height. The height is expressed in inches. Can you make a numpy array out of it and convert the units to meters?

height is already available and the numpy package is loaded, so you can start straight away ([Source](stat.ucla.edu)).

In [65]:
# Criando lista com elementos aleatórios para alturas em polegadas
import random
height = []
for i in range(100):
    height.append(random.randrange(70, 80))
print(height)

[70, 70, 76, 72, 73, 73, 78, 75, 74, 71, 77, 76, 77, 71, 72, 79, 72, 70, 76, 78, 75, 70, 77, 77, 75, 78, 76, 72, 75, 76, 75, 71, 71, 70, 74, 76, 76, 78, 79, 73, 72, 77, 79, 72, 73, 75, 78, 72, 74, 78, 77, 73, 77, 72, 78, 72, 75, 72, 78, 75, 76, 74, 72, 78, 79, 76, 73, 70, 74, 78, 75, 72, 76, 73, 74, 76, 71, 79, 76, 79, 74, 73, 78, 71, 74, 78, 74, 75, 73, 73, 73, 78, 78, 79, 75, 75, 75, 76, 70, 73]


In [64]:
# Criando array do NumPy
np_heights = np.array(height)
np_heights

array([71, 78, 74, 78, 78, 74, 73, 74, 77, 79, 74, 78, 76, 71, 77, 78, 73,
       72, 71, 74, 70, 78, 78, 72, 76, 75, 71, 75, 73, 75, 70, 74, 76, 78,
       77, 70, 75, 79, 74, 72, 71, 77, 76, 73, 70, 73, 73, 73, 78, 77, 75,
       72, 79, 79, 76, 71, 77, 73, 74, 77, 78, 72, 73, 77, 74, 79, 73, 74,
       73, 77, 74, 79, 75, 73, 74, 75, 73, 78, 73, 77, 71, 79, 76, 73, 78,
       74, 75, 74, 76, 70, 76, 78, 75, 79, 78, 71, 77, 79, 75, 70])

In [67]:
# Transformando polegadas em centímetros em todo o array
np_heights_m = np_heights * 0.0254
np_heights_m

array([1.8034, 1.9812, 1.8796, 1.9812, 1.9812, 1.8796, 1.8542, 1.8796,
       1.9558, 2.0066, 1.8796, 1.9812, 1.9304, 1.8034, 1.9558, 1.9812,
       1.8542, 1.8288, 1.8034, 1.8796, 1.778 , 1.9812, 1.9812, 1.8288,
       1.9304, 1.905 , 1.8034, 1.905 , 1.8542, 1.905 , 1.778 , 1.8796,
       1.9304, 1.9812, 1.9558, 1.778 , 1.905 , 2.0066, 1.8796, 1.8288,
       1.8034, 1.9558, 1.9304, 1.8542, 1.778 , 1.8542, 1.8542, 1.8542,
       1.9812, 1.9558, 1.905 , 1.8288, 2.0066, 2.0066, 1.9304, 1.8034,
       1.9558, 1.8542, 1.8796, 1.9558, 1.9812, 1.8288, 1.8542, 1.9558,
       1.8796, 2.0066, 1.8542, 1.8796, 1.8542, 1.9558, 1.8796, 2.0066,
       1.905 , 1.8542, 1.8796, 1.905 , 1.8542, 1.9812, 1.8542, 1.9558,
       1.8034, 2.0066, 1.9304, 1.8542, 1.9812, 1.8796, 1.905 , 1.8796,
       1.9304, 1.778 , 1.9304, 1.9812, 1.905 , 2.0066, 1.9812, 1.8034,
       1.9558, 2.0066, 1.905 , 1.778 ])

#### Baseball player's bmi

The MLB also offers to let you analyze their weight data. Again, both are available as regular Python lists: height and weight. height is in inches and weight is in pounds.

It's now possible to calculate the BMI of each baseball player. Python code to convert height to a numpy array with the correct units is already available in the workspace. Follow the instructions step by step and finish the game!

Steps:

* Create a numpy array from the `weight` list with the correct units. Multiply by `0.453592` to go from pounds to kilograms. Store the resulting numpy array as `np_weight_kg`.

* Use `np_height_m` and `np_weight_kg` to calculate the BMI of each player. Save the resulting numpy array as `bmi`.

* Print out `bmi`.

In [68]:
# Criando lista de pesos em pounds
import random
weight = []
for i in range(100):
    weight.append(random.randrange(180, 210))
print(weight)

[187, 180, 207, 183, 184, 198, 209, 185, 189, 196, 202, 187, 182, 192, 188, 183, 182, 209, 204, 194, 187, 184, 192, 189, 184, 198, 196, 184, 209, 181, 206, 203, 202, 182, 182, 199, 197, 201, 182, 194, 185, 197, 186, 186, 186, 188, 185, 207, 208, 206, 180, 203, 205, 185, 190, 193, 200, 191, 208, 194, 183, 209, 207, 199, 204, 207, 194, 209, 202, 190, 199, 199, 187, 184, 203, 208, 208, 204, 195, 181, 195, 208, 183, 190, 184, 209, 184, 190, 193, 198, 188, 204, 187, 188, 209, 191, 204, 200, 196, 183]


In [69]:
# Criando um array para armazenar pesos em pounds e outro para armazenar o valor convertido em kg
np_weight = np.array(weight)
np_weight_kg = np_weight * 0.453592

np_weight_kg

array([84.821704, 81.64656 , 93.893544, 83.007336, 83.460928, 89.811216,
       94.800728, 83.91452 , 85.728888, 88.904032, 91.625584, 84.821704,
       82.553744, 87.089664, 85.275296, 83.007336, 82.553744, 94.800728,
       92.532768, 87.996848, 84.821704, 83.460928, 87.089664, 85.728888,
       83.460928, 89.811216, 88.904032, 83.460928, 94.800728, 82.100152,
       93.439952, 92.079176, 91.625584, 82.553744, 82.553744, 90.264808,
       89.357624, 91.171992, 82.553744, 87.996848, 83.91452 , 89.357624,
       84.368112, 84.368112, 84.368112, 85.275296, 83.91452 , 93.893544,
       94.347136, 93.439952, 81.64656 , 92.079176, 92.98636 , 83.91452 ,
       86.18248 , 87.543256, 90.7184  , 86.636072, 94.347136, 87.996848,
       83.007336, 94.800728, 93.893544, 90.264808, 92.532768, 93.893544,
       87.996848, 94.800728, 91.625584, 86.18248 , 90.264808, 90.264808,
       84.821704, 83.460928, 92.079176, 94.347136, 94.347136, 92.532768,
       88.45044 , 82.100152, 88.45044 , 94.347136, 

In [70]:
# Calculando bmi utilizando np_heights_m já calculado no exercício acima
bmi = np_weight_kg / np_heights_m ** 2
bmi

array([26.08091731, 20.80085817, 26.57693285, 21.14753914, 21.26309946,
       25.42141403, 27.57392049, 23.75233129, 22.41188095, 22.08003929,
       25.93497795, 21.60978043, 22.15349015, 26.77826804, 22.29329957,
       21.14753914, 24.01173937, 28.34518177, 28.45190979, 24.90785011,
       26.83140901, 21.26309946, 22.18758205, 25.63272418, 22.3969351 ,
       24.74802902, 27.33614862, 22.99816838, 27.57392049, 22.62319824,
       29.55759495, 26.06336893, 24.58793962, 21.03197882, 21.58181129,
       28.55321066, 24.62303897, 22.6433056 , 23.36715835, 26.31083858,
       25.80197702, 23.360532  , 22.64038005, 24.53946991, 26.68792554,
       24.80333518, 24.40753727, 27.31005522, 24.03654722, 24.42776442,
       22.4982082 , 27.53144449, 23.09391864, 20.84085341, 23.12726994,
       26.91773818, 23.71627614, 25.19913308, 26.70532383, 23.00478785,
       21.14753914, 28.34518177, 27.31005522, 23.59769476, 26.19175991,
       23.31922517, 25.59493098, 26.83371481, 26.65039205, 22.53

#### Lightweight baseball players

Subset with booleans

* Create a boolean numpy array: the element of the array should be True if the corresponding baseball player's BMI is below 21. You can use the < operator for this. Name the array light.
* Print the array light.
* Print out a numpy array with the BMIs of all baseball players whose BMI is below 21. Use light inside square brackets to do a selection on the bmi array.

In [73]:
# Verficando array de booleanos 
# IMC de jogadores < 21
light = bmi < 21
light

array([False,  True, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False,  True,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False])

In [74]:
# Slice and dice
light = bmi[bmi < 21]
light

array([20.80085817, 20.84085341])

## Arrays Bidimensionais

Ainda dentro do universo do Baseball, verificamos que os arrays criados para heights e weights poderiam ser alocados em uma única estrutura do tipo array, visto que o NumPy oferece _ndarrays_, ou seja, arrays de N dimensões.

### Teoria

In [75]:
# Criando o primeiro 2D_array
np_2d = np.array([[1.72, 1.68, 1.71, 1.89, 1.79],
                  [65.4, 59.2, 63.2, 88.4, 68.7]])
np_2d

array([[ 1.72,  1.68,  1.71,  1.89,  1.79],
       [65.4 , 59.2 , 63.2 , 88.4 , 68.7 ]])

In [76]:
# Vamos verificar algumas propriedades deste array
np_2d.shape

(2, 5)

O comando shape indicou que este array possui 2 linhas e 5 colunas

<b>Indexação: </b>

![indexing_2darray.jpg](attachment:indexing_2darray.jpg)

In [78]:
# Indexando e selecionando elementos

# Primeira linha
np_2d[0]

array([1.72, 1.68, 1.71, 1.89, 1.79])

In [79]:
# Terceiro elemento da primeira linha
np_2d[0][2]

1.71

In [81]:
# Forma mais elegante (utilizando [linha, coluna])
np_2d[0, 2]

1.71

Slice:

np-array[_linhas_ : _colunas_]

In [82]:
# Todas as linhas entre colunas 1 e 3
np_2d[:, 1:3]

array([[ 1.68,  1.71],
       [59.2 , 63.2 ]])

In [85]:
# Todas as colunas da segunda linha
np_2d[1, :]

array([65.4, 59.2, 63.2, 88.4, 68.7])

In [86]:
# Todas as linhas da segunda coluna
np_2d[:, 1]

array([ 1.68, 59.2 ])

## Estatística básica com NumPy

Na grande maioria das vezes, os objetos do tipo _array_ irão armazenar uma estrondosa quantidade de dados e, sendo estes instrumentos para resolução de problemas, é necessário a realização de alguns procedimentos para a retirada de _insights_ sobre os dados. Alguns métodos do objeto array do NumPy auxiliam nessa análise.

In [8]:
# Criando lista de exemplos (np_city = [ heights , weights ])
import numpy as np
import random

for i in range(10):
    print(round(random.uniform(1, 10), 2))


6.12
4.83
8.23
3.63
3.21
4.77
1.96
8.01
4.16
8.24


Iremos trabalhar em cima do array np_city, um array bidimensional contendo dados de altura e peso de milhares de moradores de uma determinada cidade. Para tal, utilizaremos dados randômicos.

In [23]:
# Criando lista
import numpy as np
import random as rd

heights = [round(rd.uniform(1.60, 2.00), 2) for i in range(5000)]
weights = [round(rd.uniform(65.00, 80.00), 2) for i in range(5000)]

sample = [[heights[i], weights[i]] for i in range(5000)]

np_city = np.array(sample)

In [24]:
# Verificando dados
np_city[-5:]

array([[ 1.79, 71.79],
       [ 1.78, 78.35],
       [ 1.68, 78.43],
       [ 1.68, 66.95],
       [ 1.63, 70.5 ]])

In [25]:
# Shape
np_city.shape

(5000, 2)

In [26]:
# Calculando a média de alturas
np.mean(np_city[:, 0]) # todas as linhas da coluna 0 (alturas)

1.8000739999999997

In [28]:
# Calculando a mediana de alturas
np.median(np_city[:, 0])

1.8

In [29]:
# Correlação entre elementos do array (alturas e peso)
np.corrcoef(np_city[:,0], np_city[:, 1])

array([[ 1.        , -0.00142983],
       [-0.00142983,  1.        ]])

In [30]:
# Desvio padrão de alturas
np.std(np_city[:, 0])

0.1162403308839062

<b>Dica:</b>

Ao final da video aula, Philipp comentou sobre como foram gerados os dados para np_city. Diferente de como foi realizado no início deste tópico (list comprehensions), Philipp utilizou funções do objeto array para criação de valores aleatórios.


![random-data-numpy.png](attachment:random-data-numpy.png)

# Data Science Academy

## Criando Arrays

In [1]:
# Importando biblioteca
import numpy as np

In [4]:
# np.array(list)
first_array = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8])
first_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [3]:
# Verificando o tipo do objeto criado
type(first_array)

numpy.ndarray

O tipo ndarray significa que o objeto é um array de _n_ dimensões.

In [6]:
# Slicing
first_array[3:]

array([3, 4, 5, 6, 7, 8])

In [7]:
# Verificando formato do array
first_array.shape

(9,)

O resultado acima indica que trata-se de um array <b>Unidimensional</b> (uma única dimensão apenas) e 9 colunas (atributos).

In [13]:
# Array com a função .arange(start, stop, step)
sec_array = np.arange(0., 16.0, 2.5)
sec_array

array([ 0. ,  2.5,  5. ,  7.5, 10. , 12.5, 15. ])

In [14]:
# Verificando tipo e shape
print(type(sec_array))
print(sec_array.shape)

<class 'numpy.ndarray'>
(7,)


In [17]:
# Verificando o tipo dos elementos desste array
sec_array.dtype

dtype('float64')

Há diversas formas de se criar _arrays_ com NumPy. Algumas funções já retornam arrays prontos, como poderá ser visto logo abaixo:

In [18]:
# Array de zeros .zeros(n)
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [19]:
# Matriz identidade .eye(x)
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [21]:
# Matriz com diagonal definida .diag(array)
np.diag(np.array([1, 2, 3, 4]))

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

In [22]:
# O método linspace (linearly spaced vector) retorna um número de 
# valores igualmente distribuídos no intervalo especificado 
np.linspace(0, 5)

array([0.        , 0.10204082, 0.20408163, 0.30612245, 0.40816327,
       0.51020408, 0.6122449 , 0.71428571, 0.81632653, 0.91836735,
       1.02040816, 1.12244898, 1.2244898 , 1.32653061, 1.42857143,
       1.53061224, 1.63265306, 1.73469388, 1.83673469, 1.93877551,
       2.04081633, 2.14285714, 2.24489796, 2.34693878, 2.44897959,
       2.55102041, 2.65306122, 2.75510204, 2.85714286, 2.95918367,
       3.06122449, 3.16326531, 3.26530612, 3.36734694, 3.46938776,
       3.57142857, 3.67346939, 3.7755102 , 3.87755102, 3.97959184,
       4.08163265, 4.18367347, 4.28571429, 4.3877551 , 4.48979592,
       4.59183673, 4.69387755, 4.79591837, 4.89795918, 5.        ])

In [24]:
# Especificando a quantidade de elementos
np.linspace(0, 5, 10)

array([0.        , 0.55555556, 1.11111111, 1.66666667, 2.22222222,
       2.77777778, 3.33333333, 3.88888889, 4.44444444, 5.        ])