# Python para Análise de Dados - Numpy

In [1]:
import numpy as np

In [9]:
# Cria um array de 1 dimensão
one_dim = np.array([1,2,3,4])
one_dim

array([1, 2, 3, 4])

In [10]:
one_dim.ndim

1

In [11]:
# Cria um array de 2 dimensões
two_dim = np.array([(1,2,3), (4,5,6)])
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [12]:
two_dim.ndim

2

In [13]:
# Cria um array com valores aleatorios
# 5 linhas e 2 dimensões
np.random.random((5,2))

array([[0.11280491, 0.92102805],
       [0.66236548, 0.1475216 ],
       [0.57487271, 0.88223229],
       [0.20103741, 0.70633612],
       [0.41120472, 0.82547414]])

In [14]:
# Cria um array com valores esparsos iniciando com o valor 10, menor que 50 e incrementando de 5 em 5.
np.arange(10, 50, 5)

array([10, 15, 20, 25, 30, 35, 40, 45])

In [15]:
# Cria um array linear de 0 a 2 de no máximo 9 elementos.
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [16]:
# Cria um array de valores zero.
# Cria um array com 3 linhas e 4 dimensões.
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

# Numpy Arrays vs Listas

* Arrays Numpy permitem fazermos operações em **arrays inteiros** de forma rapida.
* Listas nao permitem operações em todos os elementos da lista.
* Para operações em todos os elementos é preciso iterar sobre toda a lista.
* Listas em Python armazenam diferentes tipos de objetos.
* Arrays Numpy considera todos os elementos de tipos distintos como strings

In [17]:
# Criando uma lista em Python
lista = [1,2,3]

In [18]:
# Multiplicar valores da lista por 2.
lista * 2

[1, 2, 3, 1, 2, 3]

In [19]:
# Transforme a variavel lista em um array Numpy
lista = np.array(lista)

In [20]:
# Imprimindo o tipo do objeto.
type(lista)

numpy.ndarray

In [21]:
# Multiplicando cada elemento por 2
lista * 2

array([2, 4, 6])

In [22]:
# Calcular IMC de pessoas.
pesos = [67, 81, 120, 90]
altura = [1.68, 1.70, 1.75, 1.85]

In [23]:
# Faz o cálculo usando as listas
pesos / altura ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

In [24]:
# Convertendo as listas para array
pesos = np.array(pesos)
altura = np.array(altura)

In [25]:
# Faz o cálculo usando os arrays
pesos / altura ** 2

array([23.73866213, 28.02768166, 39.18367347, 26.29656684])

In [26]:
# Arrays Numpy armazena elementos como strings quando estes não são inteiros ou float
a = np.array([1, 3, 'Casa', True])

In [29]:
a

array(['1', '3', 'Casa', 'True'], dtype='<U11')

In [30]:
a * 2

UFuncTypeError: ufunc 'multiply' did not contain a loop with signature matching types (dtype('<U11'), dtype('<U11')) -> dtype('<U11')

# Métodos e Atributos Úteis

In [31]:
# Métodos disponíveis (digite o. pressione tab).
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [33]:
# Retorna a forma do array
two_dim.shape

(2, 3)

In [34]:
# Retorna a quantidade de dimensões
two_dim.ndim

2

In [35]:
# Imprimindo o valor mínimo.
two_dim.min()

1

In [36]:
# Imprimindo o valor máximo.
two_dim.max()

6

In [37]:
# Imprimindo a média.
two_dim.mean()

3.5

In [38]:
# Imprimindo o desvio padrão.
two_dim.std()

1.707825127659933

In [40]:
# Tipo de dados do array
two_dim.dtype

dtype('int32')

In [41]:
# Quantidade de elementos no array
two_dim.size

6

In [42]:
# Quantidade dos elementos em bytes
two_dim.itemsize

4

In [43]:
# Somando todos os elementos do array.
two_dim.sum()

21

## Transformando Arrays 

In [44]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [46]:
# Gera a transposta da Matriz (Linha -> coluna)
two_dim.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [47]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [48]:
# Transposta em uma matriz de uma lista.
# E muito comum em bibliotecas como scikit-learn e Keras
two_dim.reshape(-1)

array([1, 2, 3, 4, 5, 6])

In [49]:
tree = np.random.random((5,3))

In [50]:
tree.shape

(5, 3)

In [51]:
# Transofmra em uma matriz com 3 linhas e 5 colunas
tree.reshape(3, 5)

array([[0.68445708, 0.98042744, 0.1665756 , 0.46524659, 0.99263439],
       [0.5476594 , 0.39929892, 0.89987649, 0.51689144, 0.68580043],
       [0.35631724, 0.32741977, 0.36189293, 0.56674327, 0.90368211]])

In [52]:
tree.reshape(-1).shape

(15,)

In [53]:
t = tree.reshape(1,15)
t.shape

(1, 15)

In [61]:
two_dim

array([2, 3, 4, 5, 6])

In [54]:
# Adicionando elementos a um array.
two_dim = np.insert(two_dim, 0, 10)

In [56]:
# Transforma em um array de uma linha.
two_dim

array([10,  1,  2,  3,  4,  5,  6])

In [59]:
# Apagando o elemento da primeira posição
two_dim = np.delete(two_dim, [0])
two_dim

array([2, 3, 4, 5, 6])

In [62]:
# Gerando um arquivo .txt a partir de um array
np.savetxt('dataset_array.txt', two_dim, delimiter=',')

# Acessando Dimensões no Array

In [63]:
# Gera um array aleatorio de 10 linhas e 2 colunas
# formato linha,coluna
my_array = np.random.random([10,2])

In [64]:
my_array

array([[0.37716717, 0.76097231],
       [0.12406866, 0.32381066],
       [0.48939733, 0.10039578],
       [0.3609162 , 0.03502409],
       [0.90482845, 0.69573713],
       [0.34593502, 0.79443605],
       [0.71249947, 0.29082008],
       [0.58141467, 0.88178546],
       [0.50786033, 0.07040052],
       [0.55701932, 0.24858312]])

In [65]:
# Imprimindo o primeiro elemento (1 linha)
my_array[0]

array([0.37716717, 0.76097231])

In [66]:
# Imprimindo o primeiro elemento da coluna 0 (1 linha)
my_array[0][0]

0.37716716800464234

In [67]:
# Primeiro elemento da coluna 1
my_array[0][1]

0.7609723091483334

In [68]:
# Segundo elemento da coluna 1
my_array[1][1]

0.3238106645011761

In [69]:
# Segundo elemento da coluna escrito com virgula.
# O primeiro valor especifica a linha e o segundo valor a coluna
my_array[1,1]

0.3238106645011761

In [70]:
# Imprimindo até 3 valores da coluna 1
my_array[:3,1]

array([0.76097231, 0.32381066, 0.10039578])

In [71]:
# Imprime todas as linhas da coluna 2 * 10
my_array[:, 1] * 10

array([7.60972309, 3.23810665, 1.00395777, 0.35024093, 6.95737126,
       7.94436054, 2.90820075, 8.81785459, 0.70400523, 2.48583118])

In [72]:
# Comparação retorna indices
my_array > 0.50

array([[False,  True],
       [False, False],
       [False, False],
       [False, False],
       [ True,  True],
       [False,  True],
       [ True, False],
       [ True,  True],
       [ True, False],
       [ True, False]])

In [73]:
# Acessando os elementos da comparação
my_array[my_array > 0.50]

array([0.76097231, 0.90482845, 0.69573713, 0.79443605, 0.71249947,
       0.58141467, 0.88178546, 0.50786033, 0.55701932])

# Carregar Arrays Numpy a partir de arquivos de texto

In [74]:
dataset = np.loadtxt('dataset_array.txt', delimiter=',')

In [75]:
dataset.shape

(5,)

In [85]:
# Carregando um arquivo dividido em 3 arrays
# skiprows = 1 ( pula a linha do nome das colunas)
a, b, c = np.loadtxt('dataset_valores.txt', skiprows=1, unpack=True)

In [86]:
# Array a
a

array([0.48, 0.12, 0.17, 0.76, 0.59])

In [87]:
# Array b
b

array([0.45, 0.68, 0.3 , 0.58, 0.43])

In [88]:
# Array c
c

array([0.35, 0.65, 0.89, 0.2 , 0.74])

In [93]:
# Carrega o arquivo ignorando as 2 primeiras linhas e preenchendo os valores vazio por 0
# Obs: os valores string também são convertidos!
dataset = np.genfromtxt('dataset_valores_vazio.txt', skip_header=2, filling_values=0)

In [94]:
dataset

array([[0.  , 0.45, 0.35],
       [0.12, 0.68, 0.  ],
       [0.17, 0.3 , 0.89],
       [0.  , 0.58, 0.2 ],
       [0.59, 0.43, 0.74]])