# Introdução à Data Science com Python - Data ICMC-USP

Esse material foi desenvolvido pelo Data, grupo de extensão de aprendizado e ciência de dados compostos por alunos do Instituto de Ciências Matemáticas e de Computação da USP.

Esse notebook é acompanhado de um curso em video, que pode ser encontrado em [aqui](https://www.youtube.com/playlist?list=PLFE-LjWAAP9SfEuLXf3qrpw4szKWjlYq9)

Para saber mais sobre as atividades do Data entre no nosso site e nos siga e nossas redes sociais:
- [Site](http://data.icmc.usp.br/)
- [Twitter](https://twitter.com/data_icmc)
- [LinkedIn](https://www.linkedin.com/school/data-icmc/)
- [Facebook](https://www.facebook.com/dataICMC/)

Aproveite o material!


## NumPy

NumPy é uma biblioteca para manipulação de vetores e matrizes, possuindo várias funções para lidar com esses dados. A biblioteca é muito eficiente e é usada como base para diversar outras bibliotecas de ciência de dados em Python. Iremos ver o material básico importante de NumPy, mas é muito recomendado conferir a documentação oficial em https://numpy.org/doc/, lá é possível encontrar exemplos de uso para todas as funcionalidades da biblioteca. 

In [3]:
# É comum importar o numpy o chamando só de np 
import numpy as np

### Arrays

Arrays são a generalização de vetores e matrizes com qualquer número de dimensões. O `np.array` é o elemento central do NumPy, e é com eles que precisamos saber trabalhar.

Como foi dito, um array numpy pode ter qualquer número de dimenções, vamos observar os exemplos na imagem a baixo:

<img src="https://www.oreilly.com/library/view/elegant-scipy/9781491922927/assets/elsp_0105.png">

([fonte da imagem](https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html))

Certo, então é possível ver que os arrays tem uma dimensão e uma tamanho em cada uma dessas dimenções. Cada dimensão é identificada por um eixo (*axis*) como podemos ver na imagem.

Vamos trabalhar com um exemplo simples:

In [5]:
# Vamos criar nosso primeiro array
a = np.array([2, 3, 5, 7, 11])
a

array([ 2,  3,  5,  7, 11])

In [3]:
# O atributo ndim do array guarda seu número de dimenções
a.ndim

1

In [4]:
# O shape (formato) do array é um atributo ainda mais importante
a.shape

(5,)

In [5]:
# Podemos acessar um entrada do array como fizemos com listas
a[2]

5

In [6]:
# Podemos também alterar uma entrada do array
a[3] = 42
a

array([ 2,  3,  5, 42, 11])

Tudo que fizemos aqui funciona para qualquer número de dimensões, vamos ver:

In [7]:
# Criando uma matriz
b = np.array([[10, 20], 
              [30, 40], 
              [50, 60]])
b

array([[10, 20],
       [30, 40],
       [50, 60]])

In [8]:
# Visualizando número de dimensões e shape
print(b.ndim)
print(b.shape)

2
(3, 2)


In [9]:
# Agora precisamos informar a posição em cada eixo para acessar elementos
b[2, 1]

60

In [10]:
# Também podemos mudar entradas
b[1, 0] = 23
b

array([[10, 20],
       [23, 40],
       [50, 60]])

**Pergunta:** Qual o shape de uma imagem em tons de cinza de tamanho 200x200? E de uma imagem RGB do mesmo tamanho?

![image.png](imgs/img_array.png)

A imagem cinza teria um shape: (200, 200) -> logo, é um 2D
Já a imagem RGB teria um shape: (200, 200, 3) -> isso acontece pois o RGB é divido em três camadas de cores, logo 3D

### Gerando arrays
Até aqui criamos todos nossos arrays definindo valores na mão utilizando listas em Python. Porém o NumPy possui funções convenientes para criar novos arrays

In [21]:
# Cria um array tupla só com zeros com shape (2,2)
a = np.zeros((2,2))
a


array([[0., 0.],
       [0., 0.]])

In [22]:
# Cria um array só com uns com shape (2,2)
a = np.ones((5, 2, 3))
a

array([[[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]]])

In [23]:
# Cria um array de shape (3,2) com valores aleatórios
a = np.random.random((3,2))
a

array([[0.14817777, 0.84384574],
       [0.26297548, 0.09925787],
       [0.42641373, 0.69696146]])

In [24]:
# Cria um array com valores aleatorios inteiros (20 é o valor maxímo)
a = np.random.randint(20, size=(3,2))
a

array([[ 5,  7],
       [ 6, 10],
       [19,  4]])

In [25]:
# Cria um vetor de 0 a 4
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

Não temos tempo de ver todas as funções desse tipo que existem, tente dar uma olhada em `np.zeros_like`, `np.full`, `np.linspace`, entre outras.

### Operações matemáticas

Até agora pode não ter ficado muito claro o motivo de estarmos usando arrays do NumPy ao invés de usar simplesmente listas nativas do Python. A vantagem está justamente nas várias operações suportadas por arrays. Vamos ver alguns exemplos

In [26]:
# Vamos criar um vetor aleatorio que iremos utilizar
a = np.random.randint(10, size=(5,))
a

array([1, 6, 7, 9, 1])

In [28]:
# Podemos realizar varias operaçoes

print(a + 10) # Soma

print(a - 4) # Subtração

print(a * 3) # Multiplicação

print(a / 2) # Divisão

print(a ** 2) # Exponenciação

print(a < 5) # Comparação

[11 16 17 19 11]
[-3  2  3  5 -3]
[ 3 18 21 27  3]
[0.5 3.  3.5 4.5 0.5]
[ 1 36 49 81  1]
[ True False False False  True]


In [42]:
# Caso eu queira fazer o mesmo com um list, não funciona
# listaQualquer = [1, 2, 3, 4]
# listaQualquer + 4

# contudo, com np
listaNumpy = np.array([1, 2, 3]) + 4
listaNumpy

array([5, 6, 7])

Também podemos realizar operações entre arrays

In [43]:
# Vamos criar dois vetores aleatorios que iremos utilizar
a = np.random.randint(10, size=(5,))
b = np.random.randint(10, size=(5,))

print(a)
print(b)

[5 2 6 8 1]
[7 3 9 5 3]


In [44]:
# Podemos realizar soma (ou subtração) elemento a elemento
print(a + b)

[12  5 15 13  4]


In [45]:
# Também podemos realizar multiplicação (ou divisão) elemento a elemento
print(a * b)

[35  6 54 40  3]


In [46]:
# Para isso é muito importante que os shapes sejam iguais
c = np.random.randint(10, size=(7,))
print(a + c)

ValueError: operands could not be broadcast together with shapes (5,) (7,) 

In [47]:
# Também temos operações como o produto escalar entre os vetores
np.dot(a, b)

138

Lembre-se que tudo isso também vale para matrizes

In [48]:
# Vamos criar duas matrizes aleatorias que iremos utilizar
a = np.random.randint(10, size=(3,4))
b = np.random.randint(10, size=(3,4))

print(a)
print('-----')
print(b)

[[7 7 3 2]
 [5 4 3 0]
 [9 8 9 4]]
-----
[[4 0 9 9]
 [3 9 7 8]
 [8 6 2 0]]


In [49]:
# Operações com escalares
print(a + 100)
print('-----')
print(a * 3)

[[107 107 103 102]
 [105 104 103 100]
 [109 108 109 104]]
-----
[[21 21  9  6]
 [15 12  9  0]
 [27 24 27 12]]


In [50]:
# Somando matrizes elemento a elemento
print(a + b)

[[11  7 12 11]
 [ 8 13 10  8]
 [17 14 11  4]]


In [51]:
# Podemos transpor uma matriz
print(b.T)

[[4 3 8]
 [0 9 6]
 [9 7 2]
 [9 8 0]]


In [56]:
# Podemos multiplicar matrizes
# (com np.dot, np.multiply é multiplicação elemento a elemento)
c = np.random.randint(10, size=(4, 2))
print('matriz a: \n', a)
print('matriz c: \n', c)
print('Shapes:', a.shape, c.shape)
print(np.dot(a, c))

matriz a: 
 [[7 7 3 2]
 [5 4 3 0]
 [9 8 9 4]]
matriz c: 
 [[4 8]
 [0 2]
 [2 8]
 [8 9]]
Shapes: (3, 4) (4, 2)
[[ 50 112]
 [ 26  72]
 [ 86 196]]


Pra refrescar a memória, multiplicação de matriz se da na multiplicação de linhas com as colunas da outra matriz.
exemplificando com a primeira linha, seria: (7 * 4) + (7 * 0) + (3 * 2) + (2 * 8) = 50

Podemos fazer operações entre vetores e matrizes. De forma geral isso é chamado de *broadcasting*, mas vamos nos limitar a um caso simples

In [67]:
# Criando nosso vetor e nossa matriz
a = np.random.randint(10, size=(4,))
b = np.random.randint(20, size=(3,4))

print(a)
print() # Imprime linha em branco entre eles
print(b)

[4 7 3 9]

[[18  8  6  3]
 [ 0  9 18 15]
 [ 0 14 17 17]]


In [64]:
# Isso tem o efeito de subtrair cada linha da matriz pelo vetor
b - a

array([[-5, -7, 14, 13],
       [-7, -6, 13, 15],
       [ 1, -8,  5,  7]])

perceba que ele funciona, pois o número de elementos na linha do 'a' é igual o 'b', se fossem diferentes não funcionaria.
Outra coisa, reparou que diferente do list, no np o size (shape) é de trás pra frente? primeiro a dimensão, depois as linhas, depois os elementos/colunas size=(dimensão, linha, coluna)

### Funções importantes

#### Funções de agregação

In [68]:
# Vamos criar um vetor que iremos utilizar
a = np.random.randint(20, size=(5,))
print(a)

[ 5 18 11  0  3]


In [69]:
# Soma
np.sum(a) # ou a.sum()

37

In [70]:
# Média
np.mean(a) # ou a.mean()

7.4

Temos várias outras como `np.median`, `np.std`, `np.max`, `np.min`,...

Isso também funciona com matrizes normalmente, mas também temos a opção de agregar por eixo

In [10]:
# Vamos criar uma matriz que iremos utilizar
a = np.random.randint(10, size=(3, 4))
print(a)

[[9 5 3 0]
 [2 8 3 8]
 [2 2 2 1]]


In [72]:
# Podemos somar toda a matriz
np.sum(a)

52

In [12]:
# Podemos somar as linhas
np.sum(a, axis=1)

array([17, 21,  7])

In [11]:
# Podemos somar as colunas
np.sum(a, axis=0)

array([13, 15,  8,  9])

#### Reshape
Essa é uma função que nos permite alterar a shape de arrays

In [6]:
# Vamos criar um vetor que iremos utilizar
a = np.random.randint(20, size=(18,))
print(a)
a.shape

[ 6 19  9 15 19  1  9 17  9 13  9 10  4 15 13  8 18 10]


(18,)

In [13]:
# Tranformar em matriz 9 por 2
b = a.reshape(9, 2)
print(b.shape)
print(b)
#veja que agora o shape foi alterado.


(9, 2)
[[ 6 19]
 [ 9 15]
 [19  1]
 [ 9 17]
 [ 9 13]
 [ 9 10]
 [ 4 15]
 [13  8]
 [18 10]]


In [15]:
# Tranformar em matriz 3 por 6
c = a.reshape(3, 6)
c

#veja que o reshape feito, alterou a matriz 3 por 6 pra um array de 18 elementos
c.reshape(18)

array([ 6, 19,  9, 15, 19,  1,  9, 17,  9, 13,  9, 10,  4, 15, 13,  8, 18,
       10])

In [16]:
# Tranformar em tensor 3D 3 por 2 por 3
d = a.reshape(3, 2, 3)
# lembrando, dimensão, linha e coluna (DLC)
d

array([[[ 6, 19,  9],
        [15, 19,  1]],

       [[ 9, 17,  9],
        [13,  9, 10]],

       [[ 4, 15, 13],
        [ 8, 18, 10]]])

### Indexação

#### Arrays 1D

In [9]:
# Vamos criar um vetor que iremos utilizar
a = np.random.randint(20, size=(10))
print(a)

[18  2  4 16 12 19  0 18 19 14]


In [10]:
# Como já vimos podemos indexar exatamente como no Python puro
print(a[4])
print(a[5:8]) # relembrando, o da esquerda é fechado, contando de 0. O da direita, não, ele é aberto começando a contagem por 1.

12
[19  0 18]


In [11]:
# Podemos indexar usando um lista dos valores que queremos
print(a[[0, 2, 3]]) # lembre-se de colocar um colchete adicionou nesse caso

[18  4 16]


In [13]:
# Podemos também indexar usando valores booleanos
print(a[[False, True, False, False, False, True, True, False, True, True]]) 
# veja que o retorno dos valores, são apenas aqueles true

print(a[ a > 10])

[ 2 19  0 19 14]
[18 16 12 19 18 19 14]


In [14]:
# A indexação com booleanos é muito util combinado com comparação
maior_que_10 = a > 10
print(maior_que_10)
b = a[maior_que_10]
print(b)

[ True False False  True  True  True False  True  True  True]
[18 16 12 19 18 19 14]


#### Arrays 2D

In [4]:
a = np.random.randint(50, size=(4,6))
print(a)

[[24 46 47 43 47  5]
 [11 48 47 16 47 23]
 [40  9 27 30 44 16]
 [21 25 24 47 46 31]]


In [5]:
# Podemos acessar elementos unicos informando a posição em cada eixo
print(a[2, 4])
a

44


array([[24, 46, 47, 43, 47,  5],
       [11, 48, 47, 16, 47, 23],
       [40,  9, 27, 30, 44, 16],
       [21, 25, 24, 47, 46, 31]])

In [8]:
# Podemos fatiar um pedaço da matriz fatiando em cada eixo
print(a[1:3, 2: 5])

[[47 16 47]
 [27 30 44]]


In [21]:
# Utilizar : sozinho significa que queros todos os valores do eixo em questão
print(a[:, 2]) # Todas linhas da coluna 2
print(a[1, :]) # Todas as colunas da linha 1
print(a[1, 2:4]) # Colunas 2 e 3 da linha 1 

[38 25 13 40]
[ 8  4 25 10 17 15]
[25 10]


In [23]:
a > 25

array([[False,  True,  True, False, False, False],
       [False, False, False, False, False, False],
       [ True,  True, False,  True,  True, False],
       [ True, False,  True, False,  True,  True]])

In [22]:
# Podemos realizar a indexação por booleanos também (mas vira 1D)
a[a > 25]

array([31, 38, 40, 28, 28, 36, 40, 40, 46, 41])

Esses conceitos são totalmente iguais para qualquer número de dimensões.

**Pergunta:** Como podemos extrair apenas o canal verde de uma imagem RGB?

In [51]:
img_rgb = np.random.randint(20, size=(3, 5, 5))
img_rgb.shape

img_rgb

array([[[19,  1,  8,  6,  2],
        [ 2,  4,  4,  3,  6],
        [12,  7, 18, 16,  1],
        [ 6,  6, 17,  2,  5],
        [ 4,  1, 12, 11, 10]],

       [[ 1, 13, 18, 11,  0],
        [14, 11,  3, 10,  0],
        [11,  9, 16, 19, 13],
        [ 3,  6,  5,  1,  9],
        [19,  7,  2,  4,  6]],

       [[18,  6, 14,  8,  8],
        [ 6, 17, 13,  6,  0],
        [ 3,  1,  6, 16, 16],
        [ 9,  0,  3,  5, 15],
        [17,  8,  9, 16,  8]]])

In [52]:
img_rgb[1, :, :]

array([[ 1, 13, 18, 11,  0],
       [14, 11,  3, 10,  0],
       [11,  9, 16, 19, 13],
       [ 3,  6,  5,  1,  9],
       [19,  7,  2,  4,  6]])

### Velocidade

In [78]:
a = [[j for j in range(10000)] for _ in range(1000)]
b = np.array(a)

b

array([[   0,    1,    2, ..., 9997, 9998, 9999],
       [   0,    1,    2, ..., 9997, 9998, 9999],
       [   0,    1,    2, ..., 9997, 9998, 9999],
       ...,
       [   0,    1,    2, ..., 9997, 9998, 9999],
       [   0,    1,    2, ..., 9997, 9998, 9999],
       [   0,    1,    2, ..., 9997, 9998, 9999]])

In [79]:
print(len(a))

1000


In [80]:
%%time
for i in range(len(a)):
    for j in range(len(a[0])):
        a[i][j] *= 10

Wall time: 2.11 s


In [81]:
%%time
b *= 10

Wall time: 9.98 ms
