## Python para Análise de Dados - Numpy

In [1]:
## Numpy é mais eficiente para trabalhar com dados numéricos.
## Importando a biblioteca Numpy
import numpy as np

In [2]:
## Criando um array de uma dimensão.
one_dim = np.array([1, 2, 3, 4])
one_dim

array([1, 2, 3, 4])

In [3]:
type(one_dim)

numpy.ndarray

In [4]:
## Imprimindo a dimensão do array.
one_dim.ndim

1

In [48]:
## Criando um array de duas dimensões.
two_dim = np.array([(1, 2, 3), (4, 5, 6)])
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [7]:
## Criando arrays de números aleatórios.
## Array de 5 linhas e 2 dimensões.
np.random.random((5, 2))

array([[0.54601573, 0.51281439],
       [0.76119017, 0.54232815],
       [0.2262543 , 0.98907405],
       [0.74665737, 0.92772722],
       [0.6034424 , 0.13004621]])

In [8]:
## Array com valores de [10, 50) incrementando de 5 em 5.
np.arange(10, 50, 5)

array([10, 15, 20, 25, 30, 35, 40, 45])

In [9]:
## Array linear de 0 a 2 de no máximo 9 elementos.
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [10]:
## Array de valores zero.
## Array de três de linhas e quatro dimensões.
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### Arrays vs Listas

In [None]:
# Arrays Numpy consideram todos os elementos de tipos distintos (!= números)
# como strings.

# Listas em Python armazenam diferentes tipos de elementos.

In [11]:
## Lista:
lista = [1, 2, 3]

In [12]:
## Multiplicando os valores da lista por 2:
lista*2

[1, 2, 3, 1, 2, 3]

In [14]:
## O array facilita as operações numéricas.
lista = np.array(lista)

In [15]:
## Imprimindo o tipo de objeto:
type(lista)

numpy.ndarray

In [16]:
## Multiplicando cada elemento por 2:
lista*2

array([2, 4, 6])

In [17]:
## Calcular o IMC de pessoas:
pesos = [67, 81, 120, 90]
altura = [1.68, 1.7, 1.75, 1.85]

In [18]:
## Cálculo usando as listas:
pesos/altura**2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

In [19]:
## Transformando as listas em arrays numpy:
pesos = np.array(pesos)
altura = np.array(altura)

In [20]:
## Cálculo usando os arrays:
pesos/altura**2

array([23.73866213, 28.02768166, 39.18367347, 26.29656684])

In [22]:
## Arrays numpy armazenam elementos como strings quando estes não são inteiros ou floats.

a = np.array([1, 3, 'Casa', True])
a

array(['1', '3', 'Casa', 'True'], dtype='<U11')

In [23]:
a*2

UFuncTypeError: ufunc 'multiply' did not contain a loop with signature matching types (dtype('<U11'), dtype('<U11')) -> dtype('<U11')

### Métodos e atributos úteis

In [None]:
## Métodos disponíveis (digite o . e pressione tab):
two_dim.

In [24]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [25]:
## Retorna a forma do array no formato linhas e colunas.
two_dim.shape

(2, 3)

In [26]:
## Retorna a quantidade de dimensões (número de eixos).
two_dim.ndim

2

In [27]:
## Imprime o valor máximo do array.
two_dim.max()

6

In [28]:
## Valor mínimo do array.
two_dim.min()

1

In [29]:
## Valor médio do array.
two_dim.mean()

3.5

In [31]:
## Desvio padrão do array.
round(two_dim.std(), 2)

1.71

In [32]:
## Tipo de dado do array.
two_dim.dtype

dtype('int32')

In [33]:
## Quantidade de elementos do array.
two_dim.size

6

In [34]:
## Quantidade em bytes.
two_dim.itemsize

4

In [35]:
## Soma todos os elementos do array.
two_dim.sum()

21

## Transformando Arrays

In [36]:
## Matriz transposta (linha -> coluna).
two_dim.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [38]:
## Matriz de uma linha.
two_dim.reshape(-1)

array([1, 2, 3, 4, 5, 6])

In [40]:
three = np.random.random([5, 3])
three.shape

(5, 3)

In [41]:
three

array([[0.06347179, 0.03671855, 0.45932665],
       [0.33385893, 0.66130752, 0.09794269],
       [0.24633055, 0.58706728, 0.71727809],
       [0.36995715, 0.7565687 , 0.23391422],
       [0.8573997 , 0.5653808 , 0.50192345]])

In [42]:
three.reshape(3, 5)
## Mesma coisa que o three.T.

array([[0.06347179, 0.03671855, 0.45932665, 0.33385893, 0.66130752],
       [0.09794269, 0.24633055, 0.58706728, 0.71727809, 0.36995715],
       [0.7565687 , 0.23391422, 0.8573997 , 0.5653808 , 0.50192345]])

In [44]:
three.reshape(-1).shape

(15,)

In [45]:
t = three.reshape(1, 15)
t

array([[0.06347179, 0.03671855, 0.45932665, 0.33385893, 0.66130752,
        0.09794269, 0.24633055, 0.58706728, 0.71727809, 0.36995715,
        0.7565687 , 0.23391422, 0.8573997 , 0.5653808 , 0.50192345]])

In [49]:
## Adicionando elementos ao array.
two_dim = np.insert(two_dim, 0, 10)
two_dim

array([10,  1,  2,  3,  4,  5,  6])

In [50]:
## Deletar o elemento da primeira posição do array.
two_dim = np.delete(two_dim, [0])
two_dim

array([1, 2, 3, 4, 5, 6])

In [51]:
## Gerando um arquivo .txt a partir de um array.
np.savetxt('dataset_array.txt', two_dim, delimiter = ',')

## Acessando dimensões no array

In [52]:
## Importando o Numpy
import numpy as np

In [53]:
## Array aleatório de 10 linhas e 2 colunas.
my_array = np.random.random([10, 2])
my_array

array([[0.99968273, 0.43666474],
       [0.38047262, 0.445305  ],
       [0.1246438 , 0.15790705],
       [0.80816663, 0.51602039],
       [0.08838889, 0.00395994],
       [0.22725194, 0.11705982],
       [0.25696457, 0.43920113],
       [0.99671174, 0.28643198],
       [0.74224097, 0.50613917],
       [0.21421491, 0.70598632]])

In [55]:
## Imprime o primeiro elemento (linha 1):
my_array[0]

array([0.99968273, 0.43666474])

In [56]:
## Imprime o primeiro elemento da coluna 0 ([linha][coluna]):
my_array[0][0]

0.9996827282387262

In [57]:
## Primeiro elemento da coluna 1:
my_array[0][1]

0.4366647404719024

In [58]:
## Segundo elemento da coluna 1:
my_array[1][1]

0.4453050020885426

In [59]:
## Notação alternativa: o primeiro valor especifica a linha e o segundo valor
## especifica a coluna.
my_array[1, 1]

0.4453050020885426

In [60]:
## Três valores da coluna 1:
my_array[:3, 1]

array([0.43666474, 0.445305  , 0.15790705])

In [61]:
## Todas as linhas da coluna 1*10:
my_array[:, 1]*10

array([4.3666474 , 4.45305002, 1.57907051, 5.16020392, 0.03959937,
       1.17059818, 4.39201132, 2.86431984, 5.06139173, 7.05986324])

In [62]:
## Comparação retorna índices:
my_array > 0.5

array([[ True, False],
       [False, False],
       [False, False],
       [ True,  True],
       [False, False],
       [False, False],
       [False, False],
       [ True, False],
       [ True,  True],
       [False,  True]])

In [63]:
## Acessando valores por índices:
my_array[my_array > 0.5]

array([0.99968273, 0.80816663, 0.51602039, 0.99671174, 0.74224097,
       0.50613917, 0.70598632])

## Carregar arrays Numpy a partir de arquivos de texto

In [64]:
import numpy as np

In [67]:
## Lendo o arquivo de texto:
dataset = np.loadtxt('dataset_array.txt', delimiter = ',')
dataset

array([1., 2., 3., 4., 5., 6.])

In [66]:
dataset.shape

(6,)

In [68]:
## Carregando um arquivo dividido em três arrays.

a, b, c = np.loadtxt('dataset_valores.txt', skiprows = 1, unpack = True)

In [69]:
## Array a:
a

array([0.4839, 0.1292, 0.1781, 0.7676, 0.5993])

In [70]:
## Array b:
b

array([0.4536, 0.6875, 0.3049, 0.5801, 0.4357])

In [71]:
## Array c:
c

array([0.3561, 0.6565, 0.8928, 0.2038, 0.741 ])

In [73]:
## Carrega o arquivo ignorando as duas primeiras linhas e preenche os valores
## 'vazio' por zero.

dataset = np.genfromtxt('dataset_valores_vazio.txt', skip_header = 2, filling_values = 0)

In [74]:
dataset

array([[0.4839, 0.4536, 0.3561],
       [0.1292, 0.6875, 0.    ],
       [0.1781, 0.3049, 0.8928],
       [0.    , 0.5801, 0.2038],
       [0.5993, 0.4357, 0.741 ]])