# Aula 01 - Introdução ao Numpy

## Principais Comentários

- Uma das bibliotecas mais importantes na rotina de um cientista de dados
- O Numpy é uma biblioteca para **operações numéricas** em Python
- Essa biblioteca suporta operações com **vetores e matrizes**
- É uma biblioteca extremamente poderosa e contém uma coleção de ferramentas que podem ser usadas para **resolver problemas matemáticos**
- Possui um **objeto do tipo ARRAY** de alta performance e permite realizar **operações complexas com matrizes**, ou seja, com o Numpy, podemos realizar multiplicação, soma e subtração de matrizes de forma bem performática
- Os **numpy arrays** são MATRIZES!

# Aula 02 - Trabalhando com Arrays Numpy

## Importação da biblioteca Numpy

In [0]:
import numpy as np

## Criação de Array Numpy de 1D ( [a,b,c,d] )

In [2]:
# Criando um array numpy de 1D
one_dim = np.array([1,2,3,4])
one_dim

array([1, 2, 3, 4])

In [3]:
# Verificação do tipo de objeto criado
type(one_dim)

numpy.ndarray

## array.ndim

- Mostra quantas dimensões determinado array apresenta

In [4]:
# O nosso array apresenta 1D
one_dim.ndim

1

## Criação de Array Numpy de 2D ( [ (a,b,c,...), (d,e,f,...) ] )

In [5]:
# Criação de um array numpy 2D
two_dim = np.array([(1,2,3), (4,5,6)])
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [6]:
# Verificação do número de dimensões
two_dim.ndim

2

## Criação de Arrays Numpy utilizando números aleatórios

### np.random.random ( (nrow,ncol) )

- O número de colunas corresponde ao número de dimensões do array numpy
- Cada vez que executa-se, valores diferentes são gerados

In [7]:
np.random.random ((5,2))

array([[0.91643022, 0.27733683],
       [0.75111345, 0.37918504],
       [0.37220329, 0.60215644],
       [0.96432159, 0.31883751],
       [0.08996428, 0.69470402]])

In [8]:
# Verificando número de dimensões
np.random.random ((5,2)).ndim

2

### np.arange ( first_numb, limit, lag )

- Cria um array numpy a partir de um número inicial (first_numb) e menor que um limite (limit), com um determinado passo (lag)
- Os números gerados são sempre os mesmos e não são aleatórios

In [9]:
np.arange(10,50,5)

array([10, 15, 20, 25, 30, 35, 40, 45])

### np.linspace ( first_numb, last_numb, n_elem )

- Cria um array numpy **LINEAR** de um número inicial(first_numb) até um número final (last_numb) com determinado número de elementos (n_elem)
- Os números gerados são sempre os mesmos e não são aleatórios

In [10]:
np.linspace(0,2,9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

### np.zeros ( ( nrow, ncol ) )

- Cria um array numpy que contém APENAS ZEROS, com determinado número de linhas (nrow) e determinado número de colunas/dimensões (ncol)
- Isso é último quando queremos iniciar um algorítmo com uma array com elementos nulos e, à medida que é feito algum processamento/cálculo, esse array numpy zerado é constantemente atualizado. Algorítmos de ML utilizam bastante este tipo de técnica

In [11]:
# Criação de um array numpy zerado com 3 linhas e 4 dimensões/colunas
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

# Aula 03 - Diferenças entre Numpy Arrays x Listas

- Não é possível multiplicar listas por uma constante para obter cada um de seus elementos multiplicados pela constante. O que ocorre quando multiplicamos uma lista por uma constante é a replicação desses elementos n (constante) vezes. Isso já é possível por meio de numpy arrays
- Não é possível realizar operações elementares entre duas listas (e.g. lista1 / lista2), pois ocorre um erro. Isso já é possível com numpy arrays
- Caso apenas um elemento de um numpy array for uma string, todos os seus elementos (incluindo floats e ints) serão considerados strings. Nesse caso, as operações descritas nos dois tópicos anteriores não são possíveis
- Para executar essas operações descritas acima, podemos transformar listas em numpy arrays

## Numpy Arrays x Listas

- Arrays Numpy permitem fazermos operações em **arrays inteiros** de forma rápida (os numpy arrays permitem que façamos operações de forma simples com todos os elementos desse array, sem a necessidade de se interar sobre cada elemento)
- Listas não permitem operações em todos os elementos da lista
- Para operações em todos os elementos é preciso interar sobre toda a lista
- Listas em Python armazenam diferentes tipos de objetos
- Arrays Numpy consideram todos os elementos de tipos distintos como strings (caso o numpy array tenha 20 elementos, sendo 19 ints ou floats e 1 deles uma string, todos os seus elementos serão considerados strings)

In [12]:
# Criando uma lista
lista = [1,2,3]
# Imprimindo lista
lista

[1, 2, 3]

In [13]:
# Se eu quiser multiplicar cada elemento da lista por 2, isso não é possível
# apenas fazendo "lista * 2". Se eu faço isso, o Python duplica cada elemento
# da lista:
lista * 2

[1, 2, 3, 1, 2, 3]

## list = np.array (list)

- Transforma uma lista em um array numpy

In [14]:
# Tranformando a lista em um array numpy
lista = np.array(lista)
lista

array([1, 2, 3])

## Situação - multiplicação de cada elemento de um objeto (lista ou array numpy) por uma constante

- Se fizermos "lista * 2", cada elemento da lista será duplicado e não multiplicado por 2
- Se fizermos "array * 2", cada elemento do array será multiplicado por 2
- Portanto, se quisermos multipicar cada elemento de uma lista por 2, devemos iterar (usando um laço "for", p.e.) sobre cada elemento da lista para atingir esse resultado, o que é muuuuito mais difícil do que transformar uma lista para numpy array e, simplesmente multiplicar esse array por 2

In [15]:
# Agora, se multiplicarmos o Numpy Array por uma constante, cada elemento do
# array será multiplicado pela constante:
lista * 2

array([2, 4, 6])

## Situação: temos duas listas e precisamos realizar operações matemáticas que envolvem ambas - cálculo do IMC

- Operar elementos de duas listas não é possível
- Entretanto, operar elementos de dois numpy arrays é possível
- Caso quiséssemos, ainda sim, operarmos os elementos de duas listas, deveríamos iterar sobre cada elemento

In [0]:
# Criando duas listas para cálculo do IMC
pesos = [67,81,120,90]
altura = [1.68,1.70,1.75,1.85]

In [0]:
# Vamos tentar calcular o IMC a partir das duas listas. Isso não é possível (o
# Python dá um erro), pois ele não consegue operar (soma, divisão, etc) em duas
# listas ao mesmo tempo (por isso deixei comentado abaixo)

# pesos / altura ** 2

In [18]:
# Tranformando as duas listas em arrays numpy
pesos = np.array(pesos)
altura = np.array(altura)
print(type(pesos))
print(type(altura))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [19]:
# Agora podemos calcular o IMC de cada indivíduo, já que convertemos cada lista
# em um numpy array
pesos / altura ** 2

array([23.73866213, 28.02768166, 39.18367347, 26.29656684])

## Situação: Numpy arrays com floats, ints, strings e booleans

- Caso um dos elementos de um numpy array seja uma string, todos os outros elementos (incluindo floats e ints) serão considerados strings também

In [20]:
# Note que, pelo fato de um dos elementos ser do tipo string, todos os outros
# elementos foram também considerados como strings
a = np.array ([1,2.4,'casa',3,5,67,8.8,9.5,6.77])
a

array(['1', '2.4', 'casa', '3', '5', '67', '8.8', '9.5', '6.77'],
      dtype='<U32')

In [0]:
# Dessa forma, como todos os elementos do numpy array são strings, não é mais 
# possível executar operações com eles (por isso deixei comentado)

#a * 2

# Aula 4 - Métodos e Atributos da Biblioteca Numpy

## array.shape

- Mostra o número de linhas e colunas de um numpy array

In [22]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [23]:
# Temos um numpy array de 2 linhas e 3 colunas
two_dim.shape

(2, 3)

## array.ndim

- Retorna a quantidade de dimensões de um numpy array
- Na biblioteca Numpy, o número de dimensões de um array é igual ao seu número de eixos
- Uma forma análoga de se obter o número de dimensões de um array é usando:
  - len (array)

In [24]:
# Temos um array de 2 dimensões
two_dim.ndim

2

## array.max ( )

- Retorna o MAIOR valor dentro de um numpy array

In [25]:
two_dim.max ()

6

## array.min ( )

- Retorna o MENOR valor dentro de um numpy array

In [26]:
two_dim.min ()

1

## array.mean ( )

- Retorna a média aritmética entre todos os elementos contidos em um numpy array

In [27]:
two_dim.mean()

3.5

## array.std ( )

- Retorna o desvio padrão entre todos os elementos contidos em um numpy array

In [28]:
two_dim.std()

1.707825127659933

## array.dtype

- Retorna os tipos de dados presentes em um numpy array
- É um ATRIBUTO e não um método

In [29]:
# Nota-se que o array é constituído por ints
two_dim.dtype

dtype('int64')

In [30]:
# Observe que quando um dos elementos de um array é do tipo float, todos os
# elementos são convertidos também para floats (considerando que existem apenas
# ints e floats no array)
b = np.array([1,2,3,4.6,5.2,3])
b.dtype

dtype('float64')

## array.size

- Retorna a quantidade de elementos que um numpy array apresenta
- É um ATRIBUTO

In [31]:
two_dim.size

6

## array.itemsize

- Retorna a quantidade de informação de um numpy array em **bytes**
- É um ATRIBUTO

In [32]:
two_dim.itemsize

8

## array.sum ( )

- Esse MÉTODO soma todos os elementos do numpy array

In [33]:
two_dim.sum()

21

## Transformação de Numpy Arrays

- Lembre-se que numpy arrays são matrizes!

### array.T

- Calcula a transposta de um numpy array (linhas viram colunas)
- Realizar transposição de listas seria muito mais complexa, pois envolveria laços

In [36]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [35]:
# Repare que as linhas viraram colunas
two_dim.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### array.reshape (-1)

- Transforma um numpy array de várias linhas em um numpy array de apenas UMA linha
- Isso é muito utilizado nas bibliotecas Keras e Sklearn

In [37]:
two_dim.reshape(-1)

array([1, 2, 3, 4, 5, 6])

In [39]:
# Repare que esse numpy array apresenta agora 1D
two_dim.reshape(-1).ndim

1

### array.shape

- O atributo "shape" mostra a quantidade de LINHAS e COLUNAS, respectivamente

In [42]:
tree = np.random.random((5,3))
tree

array([[0.65126245, 0.10835003, 0.42202193],
       [0.25980514, 0.74744889, 0.20208146],
       [0.12378014, 0.52725522, 0.25860436],
       [0.43934935, 0.31015996, 0.62425197],
       [0.92960261, 0.8219681 , 0.44899051]])

In [44]:
# Esse numpy array apresenta 5 linhas e 3 colunas
tree.shape

(5, 3)

### array.reshape(nrow,ncol)

- Transforma determinado numpy array em um outro numpy array de "nrow" linhas e "ncol" colunas
- Para utilizar esse método, é necessário que (nrow x ncol) do array original seja igual a (nrow x ncol) do array resultante após a aplicação desse método

In [50]:
tree

array([[0.65126245, 0.10835003, 0.42202193],
       [0.25980514, 0.74744889, 0.20208146],
       [0.12378014, 0.52725522, 0.25860436],
       [0.43934935, 0.31015996, 0.62425197],
       [0.92960261, 0.8219681 , 0.44899051]])

In [46]:
# Observe que não produz o mesmo resultado que "tree.T" produz
tree.reshape(3,5)

array([[0.65126245, 0.10835003, 0.42202193, 0.25980514, 0.74744889],
       [0.20208146, 0.12378014, 0.52725522, 0.25860436, 0.43934935],
       [0.31015996, 0.62425197, 0.92960261, 0.8219681 , 0.44899051]])

In [47]:
# Vamos tranformar agora esse numpy array em um array de 1 linha só
tree.reshape(-1)

array([0.65126245, 0.10835003, 0.42202193, 0.25980514, 0.74744889,
       0.20208146, 0.12378014, 0.52725522, 0.25860436, 0.43934935,
       0.31015996, 0.62425197, 0.92960261, 0.8219681 , 0.44899051])

In [48]:
# Vamos verificar a quantidade de linhas e colunas desse novo array. Ele
# apresenta 15 elementos em uma única linha
tree.reshape(-1).shape

(15,)

In [49]:
# Queremos colocar toda a informação em uma linha e em 15 colunas
tree.reshape(1,15)

array([[0.65126245, 0.10835003, 0.42202193, 0.25980514, 0.74744889,
        0.20208146, 0.12378014, 0.52725522, 0.25860436, 0.43934935,
        0.31015996, 0.62425197, 0.92960261, 0.8219681 , 0.44899051]])

## array = np.insert (array,index_position,value)

- Adiciona um valor "value" ao numpy array "array" na posição de índice "index_position)
- Retorna sempre um array de 1D (1 linha)
- Para salvar as alterações desse método, deve-se atualizar a variável

In [51]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [53]:
# Adicionou o "value" 10 na posição "index_position" 0 (primeira posição) do
# "array" two_dim
t = np.insert(two_dim,0,10)
t

array([10,  1,  2,  3,  4,  5,  6])

## array = np.delete (array, [ i ] )

- Deleta um elemento de posição/índice "[ i ]" de um array "array"
- Caso deseje salvar o array resultante, deve-se atualizar a variável (array) em questão

In [54]:
# Deleta o elemento da posição [0] (primeira posição) do array t
t = np.delete(t,[0])
t

array([1, 2, 3, 4, 5, 6])

## np.savetxt ( "file_name.txt", array, delimiter = ' , ' )

- Salva um numpy array "array" em um arquivo txt chamado "file_name". Os elementos desse numpy array são separados por vírgula (poderia ser outro caracter também), o que é settado pelo parâmetro "delimiter = ' , ' "
- O arquivo txt resultante apresenta um número de linhas e colunas iguais ao do array

In [55]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [0]:
# Deixei comentado para não ficar gerando um txt toda hora que eu der Run All
#np.savetxt("a_teste.txt",two_dim,delimiter=',',)

# Aula 05A - Acessando Numpy Arrays

In [0]:
import numpy as np

In [58]:
# Criação de um numpy array de 10 linhas e 2 colunas de elementos aleatórios
ar = np.random.random([10,2])
ar

array([[0.68726089, 0.80183044],
       [0.04379299, 0.89873153],
       [0.33432678, 0.11861874],
       [0.20370203, 0.66469159],
       [0.68780108, 0.2316334 ],
       [0.40703601, 0.24710585],
       [0.80603811, 0.51010854],
       [0.93471305, 0.27237215],
       [0.91415383, 0.7532019 ],
       [0.47215352, 0.52283439]])

## array [ i ]

- Retorna a linha " i " de um numpy array

In [60]:
# Retorna a segunda linha do array
ar[1]

array([0.04379299, 0.89873153])

In [61]:
# Retorna a sexta linha do array
ar[5]

array([0.40703601, 0.24710585])

In [63]:
# Retorna a nona linha do array
ar[8]

array([0.91415383, 0.7532019 ])

## array [ i ] [ j ] ou array [ i , j ]

- Retorna o elemento [ i , j ] do numpy array
- É igual ao acesso de elementos de listas e tuplas aninhadas

In [64]:
# Retorna o elemento da linha 2 e coluna 2
ar[1][1]

0.89873153157584

In [65]:
# Retorna o elemento da linha 5 e coluna 1
ar[4][0]

0.6878010784392133

In [66]:
# Retorna o elemento da linha 10 e coluna 2
ar[9][1]

0.5228343892354308

In [67]:
# Retorna o elemento da linha 2 e coluna 2
ar[1,1]

0.89873153157584

In [68]:
# Retorna o elemento da linha 5 e coluna 1
ar[4,0]

0.6878010784392133

In [69]:
# Retorna o elemento da linha 10 e coluna 2
ar[9,1]

0.5228343892354308

## Slicing

- array [ : , j ] --> imprime coluna j
- array [ i , : ] --> imprime linha i
- array [ : , j ] * k --> cada elemento da coluna j multiplicado por uma constante "k"

In [71]:
# Imprime os 3 primeiros elementos da coluna 2
ar[:3,1]

array([0.80183044, 0.89873153, 0.11861874])

In [72]:
# Imprime a coluna 2 inteira
ar[:,1]

array([0.80183044, 0.89873153, 0.11861874, 0.66469159, 0.2316334 ,
       0.24710585, 0.51010854, 0.27237215, 0.7532019 , 0.52283439])

In [74]:
# Imprime a linha 2 inteira
ar[1,:]

array([0.04379299, 0.89873153])

In [75]:
# Retorna todos elementos da coluna 2 multiplicados por 10
ar[:,1] * 10

array([8.01830438, 8.98731532, 1.18618735, 6.64691595, 2.316334  ,
       2.47105851, 5.10108543, 2.72372155, 7.53201899, 5.22834389])

## array > k

- Compara todos os valores do numpy array e devolve valores BOOLEANOS T e F
- No lugar de ">", pode ser qualquer operador lógico

In [76]:
# Retorna valores booleanos maiores que 0.5 (T) e menores ou iguais a 0.5 (F)
ar > 0.5

array([[ True,  True],
       [False,  True],
       [False, False],
       [False,  True],
       [ True, False],
       [False, False],
       [ True,  True],
       [ True, False],
       [ True,  True],
       [False,  True]])

## array [ array > k ]

- Retorna apenas os VALORES maiores que a constante "k"
- No lugar de ">", pode ser qualquer operador lógico

In [77]:
ar[ar > 0.5]

array([0.68726089, 0.80183044, 0.89873153, 0.66469159, 0.68780108,
       0.80603811, 0.51010854, 0.93471305, 0.91415383, 0.7532019 ,
       0.52283439])

In [78]:
ar[ar < 0.5]

array([0.04379299, 0.33432678, 0.11861874, 0.20370203, 0.2316334 ,
       0.40703601, 0.24710585, 0.27237215, 0.47215352])

# Aula 05B - Carregando Numpy Arrays a partir de Arquivos de Texto (txt)

## dataset = np.loadtxt ( 'array.txt', delimiter = ' , ' )

- Lê arquivos de texto como numpy arrays
- Preserva a informação de linhas e colunas do arquivo txt

In [80]:
dataset = np.loadtxt('a_teste.txt',delimiter=',')
dataset

array([[1., 2., 3.],
       [4., 5., 6.]])

In [82]:
# Tranformando o numpy array em um array de apenas 1 linha
dataset = dataset.reshape(-1)
dataset

array([1., 2., 3., 4., 5., 6.])

## a, b, c = np.loadtxt ( 'array.txt', skiprows = 1, unpack = True )

- Esse comando é utilizado para ler um arquivo de texto "array.txt" e separar cada coluna desse arquivo em um numpy array distinto "a", "b" e "c"
- Parâmetro "skiprow" --> se é settado como 1, entende que deve-se pular a primeira linha do arquivo de texto, pois ela se trata dos nomes de cada coluna. Se fosse settado como 2, ignoraria as primeiras 2 linhas do arquivo
- Parâmetro "unpack" --> se é settado como "True", entende-se que o arquivo de texto será separado em diferentes numpy arrays

In [0]:
path = '/content/drive/My Drive/Colab Notebooks/Data Science do ZERO/5 - Python para Análise de Dados/Materiais Disponibilizados/Numpy - Materiais de Apoio/dataset_valores.txt'
a,b,c = np.loadtxt(path,skiprows=1,unpack=True)

In [85]:
# Imprimindo numpy array da primeira coluna do arquivo de texto
a

array([0.4839, 0.1292, 0.1781, 0.7676, 0.5993])

In [86]:
# Imprimindo numpy array da segunda coluna do arquivo de texto
b

array([0.4536, 0.6875, 0.3049, 0.5801, 0.4357])

In [87]:
# Imprimindo numpy array da terceira coluna do arquivo de texto
c

array([0.3561, 0.6565, 0.8928, 0.2038, 0.741 ])

## dataset = np.genfromtxt ( 'array.txt', skip_header = n, filling_values = k )

- Lê um arquivo de texto pulando as "n" primeiras linhas e substitui os valores não numéricos por um número "k"
- Esses valores não numéricos são automaticamente convertidos para ints ou floats
- Parâmetro "skip_header" --> número de linhas do arquivo que devem ser puladas
- Parâmetro "filling_values" --> valor que substituirá os elementos não numéricos do arquivo de texto
- Caso o arquivo de texto apresente elementos do tipo não numérico, esse método é o único que pode ser utilizado para abrir arquivos de texto como numpy arrays

In [0]:
path1 = '/content/drive/My Drive/Colab Notebooks/Data Science do ZERO/5 - Python para Análise de Dados/Materiais Disponibilizados/Numpy - Materiais de Apoio/dataset_valores_vazio.txt'
dataset = np.genfromtxt(path1, skip_header=2, filling_values=0)

In [89]:
dataset

array([[0.4839, 0.4536, 0.3561],
       [0.1292, 0.6875, 0.    ],
       [0.1781, 0.3049, 0.8928],
       [0.    , 0.5801, 0.2038],
       [0.5993, 0.4357, 0.741 ]])