<a href="https://colab.research.google.com/github/julianovale/DATA_DataSciencePython/blob/main/Aula05_DataSciencePython.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução à Data Science com Python - Data ICMC-USP

Esse material foi desenvolvido pelo Data, grupo de extensão de aprendizado e ciência de dados compostos por alunos do Instituto de Ciências Matemáticas e de Computação da USP.

Esse notebook é acompanhado de um curso em video, que pode ser encontrado em [aqui](https://www.youtube.com/playlist?list=PLFE-LjWAAP9SfEuLXf3qrpw4szKWjlYq9)

Para saber mais sobre as atividades do Data entre no nosso site e nos siga e nossas redes sociais:
- [Site](http://data.icmc.usp.br/)
- [Twitter](https://twitter.com/data_icmc)
- [LinkedIn](https://www.linkedin.com/school/data-icmc/)
- [Facebook](https://www.facebook.com/dataICMC/)

Aproveite o material!


## NumPy

NumPy é uma biblioteca para manipulação de vetores e matrizes, possuindo várias funções para lidar com esses dados. A biblioteca é muito eficiente e é usada como base para diversar outras bibliotecas de ciência de dados em Python. Iremos ver o material básico importante de NumPy, mas é muito recomendado conferir a documentação oficial em https://numpy.org/doc/, lá é possível encontrar exemplos de uso para todas as funcionalidades da biblioteca. 

In [1]:
# É comum importar o numpy o chamando só de np 
import numpy as np

### Arrays

Arrays são a generalização de vetores e matrizes com qualquer número de dimensões. O `np.array` é o elemento central do NumPy, e é com eles que precisamos saber trabalhar.

Como foi dito, um array numpy pode ter qualquer número de dimenções, vamos observar os exemplos na imagem a baixo:

<img src="https://www.oreilly.com/library/view/elegant-scipy/9781491922927/assets/elsp_0105.png">

([fonte da imagem](https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html))

Certo, então é possível ver que os arrays tem uma dimensão e uma tamanho em cada uma dessas dimenções. Cada dimensão é identificada por um eixo (*axis*) como podemos ver na imagem.

Vamos trabalhar com um exemplo simples:

In [2]:
# Vamos criar nosso primeiro array
a = np.array([2, 3, 5, 7, 11])
a

array([ 2,  3,  5,  7, 11])

In [3]:
# O atributo ndim do array guarda seu número de dimenções
a.ndim

1

In [4]:
# O shape (formato) do array é um atributo ainda mais importante
a.shape

(5,)

In [6]:
# Podemos acessar um entrada do array como fizemos com listas
a[2]

5

In [5]:
# Podemos também alterar uma entrada do array
a[3] = 42
a

array([ 2,  3,  5, 42, 11])

Tudo que fizemos aqui funciona para qualquer número de dimensões, vamos ver:

In [7]:
# Criando uma matriz
b = np.array([[10, 20], 
              [30, 40], 
              [50, 60]])
b

array([[10, 20],
       [30, 40],
       [50, 60]])

In [8]:
# Visualizando número de dimensões e shape
print(b.ndim)
print(b.shape)

2
(3, 2)


In [9]:
# Agora precisamos informar a posição em cada eixo para acessar elementos
b[2, 1]

60

In [10]:
# Também podemos mudar entradas
b[1, 0] = 23
b

array([[10, 20],
       [23, 40],
       [50, 60]])

**Pergunta:** Qual o shape de uma imagem em tons de cinza de tamanho 200x200? E de uma imagem RGB do mesmo tamanho?

https://github.com/julianovale/DATA_DataSciencePython/blob/main/img/img_array.png?raw=true

Tons de cinza: (200, 200) => 2D

Colorida: (200, 200, 3) => 3D

### Gerando arrays
Até aqui criamos todos nossos arrays definindo valores na mão utilizando listas em Python. Porém o NumPy possui funções convenientes para criar novos arrays

In [14]:
# Cria um array só com zeros com shape (2,2)
a = np.zeros((2,2))
a

array([[0., 0.],
       [0., 0.]])

In [15]:
# Cria um array só com uns com shape (2,2)
a = np.ones((2,2))
a

array([[1., 1.],
       [1., 1.]])

In [19]:
# Cria um array de shape (3,2) com valores aleatórios
a = np.random.random((3,2))
a

array([[0.1847498 , 0.39026557],
       [0.02059814, 0.14043459],
       [0.68844631, 0.14386285]])

In [27]:
# Cria um array com valores aleatorios inteiros (20 é o valor maxímo)
a = np.random.randint(20, size=(3,2))
a

array([[10,  1],
       [13, 17],
       [11,  9]])

In [28]:
# Cria um vetor de 0 a 4
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

Não temos tempo de ver todas as funções desse tipo que existem, tente dar uma olhada em `np.zeros_like`, `np.full`, `np.linspace`, entre outras.

### Operações matemáticas

Até agora pode não ter ficado muito claro o motivo de estarmos usando arrays do NumPy ao invés de usar simplesmente listas nativas do Python. A vantagem está justamente nas várias operações suportadas por arrays. Vamos ver alguns exemplos

In [None]:
# Vamos criar um vetor aleatorio que iremos utilizar
a = np.random.randint(10, size=(5,))
a

In [None]:
# Podemos realizar varias operaçoes

print(a + 10) # Soma

print(a - 4) # Subtração

print(a * 3) # Multiplicação

print(a / 2) # Divisão

print(a ** 2) # Exponenciação

print(a < 5) # Comparação

Também podemos realizar operações entre arrays

In [None]:
# Vamos criar dois vetores aleatorios que iremos utilizar
a = np.random.randint(10, size=(5,))
b = np.random.randint(10, size=(5,))

print(a)
print(b)

In [None]:
# Podemos realizar soma (ou subtração) elemento a elemento
print(a + b)

In [None]:
# Também podemos realizar multiplicação (ou divisão) elemento a elemento
print(a * b)

In [None]:
# Para isso é muito importante que os shapes sejam iguais
c = np.random.randint(10, size=(7,))
print(a + c)

In [None]:
# Também temos operações como o produto escalar entre os vetores
np.dot(a, b)

Lembre-se que tudo isso também vale para matrizes

In [None]:
# Vamos criar duas matrizes aleatorias que iremos utilizar
a = np.random.randint(10, size=(3,4))
b = np.random.randint(10, size=(3,4))

print(a)
print('-----')
print(b)

In [None]:
# Operações com escalares
print(a + 100)
print('-----')
print(a * 3)

In [None]:
# Somando matrizes elemento a elemento
print(a + b)

In [None]:
# Podemos transpor uma matriz
print(b.T)

In [None]:
# Podemos multiplicar matrizes
# (com np.dot, np.multiply é multiplicação elemento a elemento)
c = np.random.randint(10, size=(4, 2))
print('Shapes:', a.shape, c.shape)
print(np.dot(a, c))

Podemos fazer operações entre vetores e matrizes. De forma geral isso é chamado de *broadcasting*, mas vamos nos limitar a um caso simples

In [None]:
# Criando nosso vetor e nossa matriz
a = np.random.randint(10, size=(4,))
b = np.random.randint(20, size=(3,4))

print(a)
print() # Imprime linha em branco entre eles
print(b)

In [None]:
# Isso tem o efeito de subtrair cada linha da matriz pelo vetor
b - a

### Funções importantes

#### Funções de agregação

In [None]:
# Vamos criar um vetor que iremos utilizar
a = np.random.randint(20, size=(5,))
print(a)

In [None]:
# Soma
np.sum(a) # ou a.sum()

In [None]:
# Média
np.mean(a) # ou a.mean()

Temos várias outras como `np.median`, `np.std`, `np.max`, `np.min`,...

Isso também funciona com matrizes normalmente, mas também temos a opção de agregar por eixo

In [None]:
# Vamos criar uma matriz que iremos utilizar
a = np.random.randint(10, size=(3, 4))
print(a)

In [None]:
# Podemos somar toda a matriz
np.sum(a)

In [None]:
# Podemos somar as linhas
np.sum(a, axis=1)

In [None]:
# Podemos somar as colunas
np.sum(a, axis=0)

#### Reshape
Essa é uma função que nos permite alterar a shape de arrays

In [None]:
# Vamos criar um vetor que iremos utilizar
a = np.random.randint(20, size=(18,))
print(a)

In [None]:
# Tranformar em matriz 9 por 2
b = a.reshape(9, 2)
b

In [None]:
# Tranformar em matriz 3 por 6
c = a.reshape(3, 6)
c

In [None]:
# Tranformar em tensor 3D 3 por 2 por 3
d = a.reshape(3, 2, 3)
d

### Indexação

#### Arrays 1D

In [None]:
# Vamos criar um vetor que iremos utilizar
a = np.random.randint(20, size=(10,))
print(a)

In [None]:
# Como já vimos podemos indexar exatamente como no Python puro
print(a[4])
print(a[5:8])

In [None]:
# Podemos indexar usando um lista dos valores que queremos
print(a[[0, 2, 3]])

In [None]:
# Podemos também indexar usando valores booleanos
print(a[[False, True, False, False, False, True, True, False, True, True]])

In [None]:
# A indexação com booleanos é muito util combinado com comparação
maior_que_10 = a > 10
print(maior_que_10)
b = a[maior_que_10]
print(b)

#### Arrays 2D

In [None]:
a = np.random.randint(50, size=(4,6))
print(a)

In [None]:
# Podemos acessar elementos unicos informando a posição em cada eixo
print(a[2, 4])

In [None]:
# Podemos fatiar um pedaço da matriz fatiando em cada eixo
print(a[1:3, 2: 5])

In [None]:
# Utilizar : sozinho significa que queros todos os valores do eixo em questão
print(a[:, 2]) # Todas linhas da coluna 2
print(a[1, :]) # Todas as colunas da linha 1
print(a[1, 2:4]) # Colunas 2 e 3 da linha 1 

In [None]:
# Podemos realizar a indexação por booleanos também (mas vira 1D)
a[a > 25]

Esses conceitos são totalmente iguais para qualquer número de dimensões.

**Pergunta:** Como podemos extrair apenas o canal verde de uma imagem RGB?

### Velocidade

In [None]:
a = [[j for j in range(10000)] for _ in range(1000)]
b = np.array(a)

In [None]:
%%time
for i in range(len(a)):
    for j in range(len(a[0])):
        a[i][j] *= 10

In [None]:
%%time
b *= 10