# Introdução ao Python III

## Introdução {.unnumbered}

<!--Motivação da aula-->

<!--TOC dos temas da aula (pra ajudar os alunos a se acharem na aula)-->

<!--Texto (enxuto, objetivo) com os objetivos de aprendizagem principais (o que, principalmente, os alunos tem que sair dessa aula sabendo)-->
<!--Adiantando: Em termos simplistas, vamos apresentar dois novos tipos de dados, os vetores e os dataframes (e como utilizá-los); Adicionalmente, estudaremos as funções para vetores/dataframes separados pelos "tipos de operações", entender essa lógica ajuda a pegar o big picture dos pacotes-->

<!--Ao longo da aula: adicionar mais referências, especialmente sobre onde expandir os conhecimentos sobre cada tema-->

## Vetores e Dataframes

<!--Motivar teoricamente porque estamos interessados em aprender outros tipos de (coleções de) dados, além da lista. O texto abaixo está interessante, mas pode não estar tão didático-->

### O Problema

Considere o código abaixo:

In [126]:
l1 = [1, 2, 3, 4, 5]
print(l1 * 2)
print([i * 2 for i in l1])

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
[2, 4, 6, 8, 10]


A lista não é multiplicada "termo-a-termo", que chato... Porque?

Considere a lista `[1, "a", 3, (1, 2)]`, como você faria a multiplicação termo-a-termo? Não é óbvio.

O problema é que listas não precisam ser **homogêneas**, seus elementos podem ser de tipos diferentes. Como uma mesma operação é definida de maneiras diferentes para cada tipo -- ou as vezes, nem definida está --, não dá para fazer uma operação termo-a-termo.

### Vetores

Vamos ter que considerar um novo tipo de coleção, os **vetores**!

A palavra vetor tem várias definições diferentes, nesta aula, em termos simplistas (!!), pensem em um vetor como uma coleção **homogênea** de dados.

Note que, para ser homogênea, todos os elementos devem ser do mesmo tipo. Tendo essa restrição, conseguimos aplicar **operações vetorizadas**, termo-a-termo, muito mais rápidas que usando um loop/comprehension.

Note que vetores não podem conter vetores (pois estes tem o tipo "array"). Ainda assim, vetores podem ser multi-dimensionais. Pense que são coleções meramente organizadas em linhas/colunas.

Vamos adquirir o conhecimento aplicado sobre vetores em breve.

#### Exemplos

Veja exemplos abaixo, e se poderão ou não ser entendidos como arrays:

- `[1]` poderá.
- `[1, 2]` poderá.
- `[1, "a"]` não poderá, tem elementos de tipos diferentes.
- `[1, [1, 2]]` não poderá, tem elementos de tipos diferentes (inteiro e uma coleção).

Alguns exemplos mais complexos:

- `[[1, 2], [3, 4]]` poderá! Arrays podem "conter si mesmos", mas, especialmente, entenda isso como arrays podem ser "organizados em múltiplas dimensões". No caso, seria um array bidimensional, uma matriz com linhas e colunas.
- `[[1, 2], [3, 4, 5]]` não poderá! Essa é outra novidade, os arrays devem ser "retangulares", dentro de cada dimensão, todos os elementos devem ter o memso tamanho. Isso ficará mais claro a diante.
- E `[[1, 2], [3, "a"]]`? Não poderá. Tudo dentro de um array tem que ter o mesmo tipo. Também podemos pensar que, dentro de uma dimensão, tudo deve poder ser entendida como um array.

Ok, então, um array é um caso específico de uma lista, é uma lista com duas restrições:

- Todos os elementos devem ter o mesmo "tipo".
- Deve ser retangulares.

#### Utilidade dos Vetores

Porque isso é útil? O que ganhamos com essa perda de generalização?

Na vida real, muitas vezes nos deparamos com esse tipo de dado. Em bases de dado, normalmente cada coluna é uma variável, uma coleção de valores de um mesmo tipo. Além disso, são incontáveis os lugares onde matrizes aparecem, e não apenas as bidimensionais.

Criar um framework que seja especializado nesses casos gera três benefícios principais:

- O clássico trade-off especialização-qualificação, o numpy é **muito** eficiente em realizar operações com esse tipo de dado. E o essa é uma das maiores propagandas que o numpy faz.
    - Inclusive, por trás dos panos, a nível técnico, arrays são objetos bem diferentes de listas.
- A criação de ferramentas especialmente intuitivas e úteis para o contexto.
- Facilitação do escopo, fica muito mais simples e intuitivo elencar as ferramentas que queremos ter para trabalhar.
    - Pense em como buscar as ferramentas relevantes para limpar uma base de dados, na documentação dos métodos de listas e bibliotecas math, stat, etc. Versus buscar as ferramentas na documentação do numpy.

### Dataframes

Com o conhecimento de o que são vetores, fica fácil de pensar que é muito comum que o nosso dado de interesse seja um conjunto de vetores.

A palavra dataframe tem várias definições diferentes, nesta aula, em termos simplistas (!!), ela significa uma coleção de vetores (todos do mesmo tamanho).

Vamos adquirir o conhecimento aplicado sobre dataframes em breve.

## Numpy

<!-- Texto (enxuto, objetivo) sobre características básicas do Numpy -->

<!-- Existem muuuitas funções do Numpy. O material da aula passada está bom, mas organizar as funções nos "tipos de operação" (a estrutura abaixo) facilitará o aprendizado -->

<!-- tem que checar na documentação do numpy se não há outras funções/métodos importantes, que queremos falar sobre. Com certeza, tem funções que mereceriam estar pelo menos linkadas aqui -->

O que é Numpy? De acordo com o [site oficial](https://numpy.org/doc/stable/index.html):

> NumPy is the fundamental package for scientific computing in Python. It is a Python library that provides a multidimensional array object, various derived objects (such as masked arrays and matrices), and an assortment of routines for fast operations on arrays, including mathematical, logical, shape manipulation, sorting, selecting, I/O, discrete Fourier transforms, basic linear algebra, basic statistical operations, random simulation and much more.

<!-- falar de outras bibliotecas de vetores de curiosidade, jax -->

Antes de tudo, vamos [instalar](https://numpy.org/install/) e carregar a biblioteca:

In [127]:
import numpy as np

Obs: exemplo de eficiência de operações vetorizadas no Numpy:

In [128]:
n = 1000000
a1 = np.arange(n)
l1 = list(range(n))
%timeit a1 * 2
%timeit [x * 2 for x in l1]

1.89 ms ± 139 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
78.9 ms ± 1.25 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Criação e Características

<!-- buscar uma maneira suave de explicar vetores vs matrizes vs arrays -->

Vamos começar vendo a "cara" dos arrays:

In [129]:
a1 = np.array([1, 1, 1])
a2 = np.array([[1, 0, 1], [3, 4, 1]])
a3 = np.array([[[1, 7, 9], [5, 9, 3]], [[3,2,1], [4,5,6]]])
for a in [a1, a2, a3]: print(a, "\n")

[1 1 1] 

[[1 0 1]
 [3 4 1]] 

[[[1 7 9]
  [5 9 3]]

 [[3 2 1]
  [4 5 6]]] 



<!-- salvar na pasta assets/img e colocar aqui na sintaxe de markdown -->
<img src="https://www.plus2net.com/python/images/np-dimensions.jpg" width="400">

Note que começamos a "contar" pelo vetor, depois pelas linhas, depois pelas matrizes, etc.

Existem várias maneiras de criar vetores. Listá-los seria muita decoreba, então veja-as em [Extras](#numpy-criação-de-vetores).

#### Características
<!-- range, shape, type(), dtype -->
<!-- falar vetores linha vs vetores coluna -->
<!-- Adicionalmente: .copy (ver seção "Variáveis, Novamente" da aula passada!) .tolist -->

### Tipos de arrays

Mais cedo, falamos que todos os elementos de um arrays tem sempre o mesmo "tipo". Em termos simplificados, o nome normalmente associado à "tipo" é _dtype_.

Um elemento (um "escalar") pode ter vários tipos, mas os mais comuns são:

- `int_`: números inteiros (_integer_).
- `float_`: números de ponto flutuante (_floating-point_). O tipo padrão.
- `bool_`: valores booleanos (`True` ou `False`).
- `str_`: _strings_ de texto.
- E outros menos utilizados: `complex_`: números complexos, `object_`: objetos Python genéricos, `datetime64`: datas e horários, `timedelta64`: diferenças entre datas e horários, `category`: categorias ou rótulos.

Veja alguns comentários técnicos na seção [Mais Sobre Tipos](#mais-sobre-tipos).

#### Coerção de Tipos

Mas e se eu tentar criar o array `[1, "a"]`? O numpy usa _coerção_, ele converte todos os elementos a um mesmo tipo, de acordo com uma lista de prioridade. De maneira simples, _int_ → _float_ → _string_. Você também pode converter um array para outro tipo usando o método `x.astype()`. Veja exemplos abaixo.

In [130]:
print(np.array([[1,2], [3.0, 4]]), "\n")
print(np.array([[1,2], [3.0, "4.0"]]), "\n")
print(np.array([[1,2], [3, 4]], dtype = np.complex_), "\n")
print(np.array([[1,2], [3, 4]]).astype(str), "\n")

[[1. 2.]
 [3. 4.]] 

[['1' '2']
 ['3.0' '4.0']] 

[[1.+0.j 2.+0.j]
 [3.+0.j 4.+0.j]] 

[['1' '2']
 ['3' '4']] 



#### Mais Informações

Para mais informações sobre arrays, como funcionam, como são salvos na memória, veja [API Ref. → Array objects](https://numpy.org/doc/stable/reference/arrays.html). Cuidado, muitos temas técnicos e desnecessários (para o momento).

Especialmente, foram ignorados dois tópicos de arrays:

- Os _masked arrays_, arrays com valores faltantes, [API Ref. → Array objects → Masked arrays](https://numpy.org/doc/stable/reference/maskedarray.html).
- E os _datetime arrays_, arrays de datas, [API Ref. → Array objects → Datetimes and Timedeltas](https://numpy.org/doc/stable/reference/arrays.datetime.html).

### Operações Vetorizadas 

Lembre-se que o ponto mais importante é a vetorização. O numpy define "funções universais", funções que podem ser aplicadas de forma vetorizadas.

Listar as funções seria muita decoreba, veja-as em [Extras](#numpy-operações-vetorizadas). Abaixo, explicamos algumas das mais úteis.

<!-- Selecinar as que achar mais úteis e explicá-las BREVEMENTE. até pra deixar a aula mais concreta -->

### Subset

A referência básica está em [User guide → Indexing on ndarrays](https://numpy.org/doc/stable/user/basics.indexing.html).

A indexação de arrays é feita de forma similar à listas, com `a1[algo]`. A maioria das técnicas disponíveis para listas está disponível aqui também.

Essa parte é bem útil, porque lógicas similares de indexação podem ser utilizadas no pandas e em listas.

<!-- fazer paralelo com listas -->
<!-- fazer alguma visualização -->

#### Subseting Básico

Com uma dimensão, é simples. Conseguimos utilizar a técnica de indexes negativos.

In [131]:
import numpy as np
a1 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
print(a1, "\n")

print(a1[0])
print(a1[-1])

[1 2 3 4 5 6 7 8 9] 

1
9


E com duas dimensões? Agora, temos que informar o que queremos pegar de cada dimensão, `a2[algo1, algo2]`:

In [132]:
a2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a2, "\n")

print(a2[0, 1])

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

2


E se eu quiser selecionar mais do que um elemento? Aqui, também é possível utilizar a técnica de slicing `:`.

In [133]:
print(a1[1:3])
print(a1[1:])
print(a1[:2])
print(a1[:])

[2 3]
[2 3 4 5 6 7 8 9]
[1 2]
[1 2 3 4 5 6 7 8 9]


Com duas dimensões é a mesma ideia, lembrando que precisamos falar o que queremos pegar de ambas as dimensões, as possibilidades aumentam.

<!-- cuidado pra falar demais sobre isso, não deixar amendrontador demais -->

In [134]:
print(a2[0, 0:2])
print(a2[0:2, 1])
print(a2[1:, :])

[1 2]
[2 5]
[[4 5 6]
 [7 8 9]]


Com _n_ dimensões é a mesma ideia, com uma entrada em `[]` para cada dimensão.

Se tiver curiosidade, veja dois truques usando `...` e `None` nos índices [aqui](https://numpy.org/doc/stable/user/basics.indexing.html#dimensional-indexing-tools).

In [135]:
import numpy as np
a3 = np.arange(3**3).reshape(3, 3, 3)

print(a3[2, 2, 0])
print(a3[0, :, :])

24
[[0 1 2]
 [3 4 5]
 [6 7 8]]


Quando você ficar pica, vai descobrir que dá para omitir dimensões, como abaixo. Mas por enquanto, não inventa, coloque um "algo" para cada dimensão, nem que o "algo" seja "selecione tudo" (`:`).

In [136]:
print(a3[0:])

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]


Note que essa noção do subset deixa claro qual é a "ordem" dos componentes de um array multidimensional. Isto é, quando pedimos `for i in a3`, o que será passado para `i`? Cada elemento? Cada coluna, cada linha? cada matriz?

In [137]:
for mat in a3:
    for row in mat:
        for item in row: print(item, end = " ")

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 

Vemos que, do array tridimensional `a3`, `i` são as sub-matrizes, `j` são as linhas de uma sub-matriz, e `i` os elementos de cada linha. Isto é, a ordem é da maior/última/mais alta dimensão para a menor/mais baixa.

#### Filter

E se os índices que você quer obter estão em uma coleção? Podemos utilizar coleções de inteiros ou booleanos para acessar índices também!

In [138]:
print(a1[np.array([1, 2])]) #a1[[1, 2]]
print(a1[np.array([True, False, False, True, False, False, False, True, False])])

[2 3]
[1 4 8]


Note que para booleanos, o índice-coleção precisa ser do mesmo tamanho da dimensão relevante.

O legal, é que da para utilizar isso para criar _filtros_:

In [139]:
print(a1[a1 + 1 > 2])

[2 3 4 5 6 7 8 9]


Existem muitas outras técnicas utilizando essas ferramentas. Veja mais [aqui](https://numpy.org/doc/stable/user/basics.indexing.html#advanced-indexing).

Falamos apenas sobre um tipo de operação, "subset". Exitem vários outros que valem a pena saber, veja mais em [Extras](#numpy-outros-tipos-de-operações).

### Repeated Operations
<!-- np.where, for loops, fazer referência às funções universais, mais alguma coisa? -->

**Fim!**

Pronto! Vocês aprenderam o básico de numpy! Agora, podemos aplicar esse novo jeito de pensar para bases de dados, e conhecer a biblioteca especializada nisso, o pandas. Especialmente, relembre do que aprendemos, sobre a maneira de se pensar em dados vetorizados.

Lembre de ver os temas [extras](#extras) depois.

<!--Escolha uma frase remetendo pausa e tire print de alguma arte dela em https://patorjk.com/software/taag/. Exemplo:-->

<hr>

![😎](assets/pause/georgia11.png)

<hr>

## Pandas

<!-- Texto (enxuto, objetivo) sobre características básicas do Pandas. O texto da aula antiga está grande demais -->

<!-- Existem muuuitas funções do Pandas. O material da aula passada está bom, mas organizar as funções nos "tipos de operação" (a estrutura abaixo) facilitará o aprendizado -->

<!-- tem que checar na documentação do pandas se não há outras funções/métodos importantes, que queremos falar sobre. Com certeza, tem funções que mereceriam estar pelo menos linkadas aqui -->

In [140]:
import pandas as pd

### Criação e Características

Antes de falar sobre dataframes, o Pandas tem seu próprio objeto de vetor (porque sim), o `pd.Series`, mas é bem parecido com um `np.array` de uma dimensão.

In [141]:
print(pd.Series([4, 7, -5, 3]))
print(pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"]))

0    4
1    7
2   -5
3    3
dtype: int64
d    4
b    7
a   -5
c    3
dtype: int64


<!-- criação de dataframes falar dos vários métodos (e qual é mais útil), com base em dicionários, em arrays/listas, em arquivos (criar um aquivo de exemplo em assets/materials) -->

<!-- características: shape, types, info, head, tail, dtypes, shape -->
<!-- .copy() ver aula passada! -->

### Subset

<!-- tentar trazer alguma sanidade para os diferentes métodos de fazer coisas parecidas -->
<!-- Exemplo: Quando você ficar pica, vai descobrir que dá para omitir dimensões, como abaixo. Mas por enquanto, não inventa, coloque um "algo" para cada dimensão, nem que o "algo" seja "selecione tudo" (`:`). -->

#### De Colunas
<!-- .columns, ['key'], .key, [[key1, key2]] -->


#### De Linhas
<!-- head, tail, sample,  -->
<!-- [filtro] e .query -->



#### Ambos Juntos
<!-- loc, iloc -->
<!-- apenas fazer referencia (linkar) sobre it e iat -->

### Operate/Create

<!-- criar/deletar/alterar colunas -->
<!-- criar/deletar/alterar linhas -->

<!-- apenas fazer referencia sobre criar/deletar/alterar células -->
<!-- lidar com dados NA -->


### Reorder
<!-- mais algo? criar um exemplo mais concreto? -->

Linhas:

```
df1.sort_values(by='cases', ascending=False)
```

Colunas:

```
df1.reindex(columns=['year', 'cases', 'population', 'country'])
```

### Rename

<!-- mais algo? criar um exemplo mais concreto? -->

Linhas:

```
df1.rename({0: 'Row1', 1: 'Row2', 2: 'Row3', 3: 'Row4', 4: 'Row5', 5: 'Row6'})
```

Colunas:

```
df1.rename(columns={'cases': 'new_cases', 'population': 'new_population'}, inplace=False)
```

Assim como na parte de Numpy, alguns tipos de operações mais avançados não foram tratados aqui. Veja-os em [Extras](#pandas-outros-tipos-de-operações). Parte deles serão tratados nas próximas aulas.

### Repeated Operations

<!-- aplicar uma mesma operação várias colunas, mais algo? -->

<div class="double-hrule"></div>

## Recapitulando {.unnumbered}

<!--Adicionar texto de recapitulando. Em parágrafos, primeiro sobre os principais objetivos de aprendizagem, depois sobre os conceitos teóricos aprendidos, e por fim, dos conceitos "decoreba" aprendidos-->

## Extras

<!-- frizar a importancia de estudar as operações do pandas -->

### Numpy: Criação de Vetores

#### Vetores Placeholder

Também podemos criar arrays com valores comuns, temos várias funções, como:

- [numpy.empty](https://numpy.org/doc/stable/reference/generated/numpy.empty.html): cria um array vazio com a forma especificada.
- [numpy.ones](https://numpy.org/doc/stable/reference/generated/numpy.ones.html): cria um array preenchido com uns.
- [numpy.zeros](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html): cria um array preenchido com zeros.
- [numpy.full](https://numpy.org/doc/stable/reference/generated/numpy.full.html): cria um array preenchido com um valor constante.
- [numpy.eye](https://numpy.org/doc/stable/reference/generated/numpy.eye.html): cria uma matriz identidade.
- [numpy.linspace](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html): cria um array com valores espaçados uniformemente dentro de um intervalo.
- [numpy.arange](https://numpy.org/doc/stable/reference/generated/numpy.arange.html): cria um array com valores espaçados uniformemente dentro de um intervalo especificado.

In [142]:
print("Empty: \n", np.empty((2, 3)), "\n")
print("Ones: \n", np.ones((2, 3)), "\n")
print("Zeros: \n", np.zeros((2, 3)), "\n")
print("Full: \n", np.full((2, 3), 5), "\n")
print("Eye: \n", np.eye(3), "\n")
print("Linspace: \n", np.linspace(0, 10, num=5), "\n")
print("Arange: \n", np.arange(0, 10, 2), "\n")

Empty: 
 [[1.48539705e-313 1.06099790e-313 6.36598738e-314]
 [4.24399158e-314 8.48798316e-314 1.27319747e-313]] 

Ones: 
 [[1. 1. 1.]
 [1. 1. 1.]] 

Zeros: 
 [[0. 0. 0.]
 [0. 0. 0.]] 

Full: 
 [[5 5 5]
 [5 5 5]] 

Eye: 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] 

Linspace: 
 [ 0.   2.5  5.   7.5 10. ] 

Arange: 
 [0 2 4 6 8] 



#### Vetores Aleatórios

O numpy tem uma parte da biblioteca focada na geração de números aleatórios, [numpy.random](https://numpy.org/doc/stable/reference/random/index.html). Se tiver curiosidade, leia mais sobre como computadores geram [números pseudo-aleatórios](https://www.revista-programar.info/artigos/pseudorandom-number-generators-prngs/).

Todas as distribuições que você pensar podem ser geradas pelo numpy:

- Uniforme: [numpy.random.uniform](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.uniform.html).
    - Uniforme 0-1: [numpy.random.random](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.random.html).
    - Uniforme discreta A-B: [numpy.random.integers](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.integers.html).
- Binomial: [numpy.random.binomial](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.binomial.html).
- Normal: [numpy.random.normal](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.normal.html).
- Poisson: [numpy.random.poisson](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.poisson.html).
- Samplear um array: [numpy.random.choice](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.choice.html).

#### Vetores Importados

Podemos salvar arrays em arquivos, usando funções como:

- [numpy.save](https://numpy.org/doc/stable/reference/generated/numpy.save.html): salva como um "arquivo array" ".npy".
- [numpy.savetxt](https://numpy.org/doc/stable/reference/generated/numpy.savetxt.html): salva como um arquivo CSV, adequado apenas para arrays 1D e 2D.
- [A biblioteca pickle](https://docs.python.org/3/library/pickle.html): uma bilbioteca que consegue "conservar" qualquer objeto do python, mas pode ser demorado.

Similarmente, podemos importar arquivos, com funções `numpy.load` e `numpy.loadtxt`.

Por fim, é comum converter outros objetos em arrays. Veja as funções [numpy.asarray](https://numpy.org/doc/stable/reference/generated/numpy.asarray.html) e [pandas.Series.to_numpy](https://pandas.pydata.org/pandas-docs/version/0.24.0rc1/api/generated/pandas.Series.to_numpy.html).

<!-- É esse tipo de comentário com referências para mais conteúdo que deve ser criado com mais frequência, e nas outras aulas!! -->

Para mais informação sobre criação de arrays, veja [API Ref. → Routines → Array creation](https://numpy.org/doc/stable/reference/routines.array-creation.html):

- [Criando por forma e valor](https://numpy.org/doc/stable/reference/routines.array-creation.html#from-shape-or-value).
- [Criando por dados](https://numpy.org/doc/stable/reference/routines.array-creation.html#from-existing-data), e [API Ref. → Routines → I/O](https://numpy.org/doc/stable/reference/routines.io.html).
- [Criando por ranges](https://numpy.org/doc/stable/reference/routines.array-creation.html#numerical-ranges).
- [Criando matrizes](https://numpy.org/doc/stable/reference/routines.array-creation.html#building-matrices).

### Numpy: Mais Sobre Tipos

Na realidade, embora exista o conceito de "número inteiro", e o Python só defina um tipo de dado _integer_, existem muitas maneiras de representar um número na memória do computador. O numpy se importa com isso, e existem vários tipos para cada um dos conceitos acima.

- Por conta disso, o dtype pode aparecer com nomes diferentes como _int64_.
- Se você for muito nerd, talvez isso importe para o seu projeto. Para escolher um tipo específico use a função `np.array` com o argumento `dtype = ...`. Leia mais sobre isso [aqui](https://numpy.org/doc/stable/reference/arrays.scalars.html#arrays-scalars-built-in).
- O tipo de um array `x` pode ser descoberto com `x.dtype` e `x.dtype.name`.

### Numpy: Operações Vetorizadas

#### Operações Aritméticas
<!-- falar sobre min/max, +*-/, mean/median/var/std, sum/prod, cumsum/cumprod, argmax/argmin, round -->

Veja mais em [API Ref. → Routines → Mathematical functions](https://numpy.org/doc/stable/reference/routines.math.html).

In [143]:
a1, a2 = np.array([1,2,3]), np.array([4,5,6])

print(np.subtract(a1, a2), "\n") #a1 + a2
print(np.divide(a1, a2), "\n") #a1 * a2
print(np.exp(a1), "\n")
print(np.sqrt(a1), "\n")
print(np.sin(a1), "\n")
print(np.log(a1), "\n")

[-3 -3 -3] 

[0.25 0.4  0.5 ] 

[ 2.71828183  7.3890561  20.08553692] 

[1.         1.41421356 1.73205081] 

[0.84147098 0.90929743 0.14112001] 

[0.         0.69314718 1.09861229] 



Também considere as constantes abaixo. Mais informações em [API Ref. → Constants](https://numpy.org/doc/stable/reference/constants.html).

In [144]:
np.pi, np.e, np.nan, np.inf

(3.141592653589793, 2.718281828459045, nan, inf)

#### Operações Matriciais

Veja mais em [API Ref. → Routines → Linear algebra](https://numpy.org/doc/stable/reference/routines.linalg.html).

In [145]:
a1, a2 = np.array([(1,2), (-1,-3)]), np.array([(4,5), (-4,-6)]) # Note o uso, indiferenciável, de tuplas

print(a1 * a2, "\n")
print(np.dot(a1, a2), "\n") #a1 @ a2 (produto escalar)
print(np.linalg.matrix_power(a1, 3), "\n") #(potência de matriz)
print(np.linalg.det(a1), "\n") #(determinante)
print(np.linalg.inv(a1), "\n") #(matriz inversa)
print(np.linalg.norm(a1), "\n") #(norma)
print(np.linalg.eig(a1), "\n") #(autovalores e autovertores)

[[ 4 10]
 [ 4 18]] 

[[-4 -7]
 [ 8 13]] 

[[  3  10]
 [ -5 -17]] 

-1.0 

[[ 3.  2.]
 [-1. -1.]] 

3.872983346207417 

EigResult(eigenvalues=array([ 0.41421356, -2.41421356]), eigenvectors=array([[ 0.95968298, -0.50544947],
       [-0.28108464,  0.86285621]])) 



#### Operações com Strings

Veja mais em [API Ref. → Routines → String operations](https://numpy.org/doc/stable/reference/routines.char.html).

In [146]:
a1, a2 = np.array(['olá', 'oi', 'oopa']), np.array([', tudo bem?', ', bem?', ', bão?'])

print(np.char.add(a1, a2), "\n")
print(np.char.multiply(a1, [3, 1, 2]), "\n")
print(np.char.capitalize(a1), "\n")
print(np.char.count(a1, 'o'), "\n")
print(np.char.find(a1, 'o'), "\n")

['olá, tudo bem?' 'oi, bem?' 'oopa, bão?'] 

['oláoláolá' 'oi' 'oopaoopa'] 

['Olá' 'Oi' 'Oopa'] 

[1 1 2] 

[0 0 0] 



#### Operações Lógicas/de Comparação

Veja mais em [API Ref. → Routines → Logic functions](https://numpy.org/doc/stable/reference/routines.logic.html). Também veja operações de sets em [API Ref. → Routines → Set functions](https://numpy.org/doc/stable/reference/routines.set.html).

In [147]:
a1, a2 = np.array([(1,2), (-1,-3)]), np.array([(4,5), (-4,-6)])

print(np.greater(a1, a2), "\n") #a1 > a2
print((a1 == a2).any(), "\n") #note the usage of ()
print(np.logical_or(a1 > 1, a2 < 0), "\n") #a1 > 1 or a2 < 0

[[False False]
 [ True  True]] 

False 

[[False  True]
 [ True  True]] 



#### Operações Estatísticas

Veja mais em [API Ref. → Routines → Statistics](https://numpy.org/doc/stable/reference/routines.statistics.html).

In [148]:
a1 = np.random.normal(0, 1, 100000)
a2 = a1 + np.random.normal(0, 0.5, 100000)

print(np.mean(a1), "\n")
print(np.median(a1), "\n")
print(np.std(a1), "\n")
print(np.quantile(a1, 0.25), "\n")
print(np.corrcoef(a1, a2), "\n")

0.0014274762281511 

0.0025126008047063083 

0.9979381079716622 

-0.6661109489960002 

[[1.         0.89446592]
 [0.89446592 1.        ]] 



### Numpy: Outros Tipos de Operações

#### Operate/Create

Veja os funções:

- `append()`, `insert()`, e `delete()`.

<!-- criar/deletar/alterar elementos (faltam funções abaixo) -->

#### Reorder
<!-- .arrange, .sort, .argsort -->

#### Reshape

Veja as funções/métodos:

- [`.resize()`](https://numpy.org/doc/stable/reference/generated/numpy.resize.html) e [`reshape()`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html): para alterar a forma de um array, passando a nova forma como uma tupla.
- [`transpose()`](https://numpy.org/doc/stable/reference/generated/numpy.transpose.html): transpor arrays.
- [`.flatten()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.flatten.html) e [`.ravel()`](https://numpy.org/doc/stable/reference/generated/numpy.ravel.html): achatar arrays.

#### Combine, Separate e Unite

Veja as funções:

- [`concatenate()`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html).
- [`vstack()`](https://numpy.org/doc/stable/reference/generated/numpy.vstack.html),  e [`hstack()`](https://numpy.org/doc/stable/reference/generated/numpy.hstack.html).

Em oposição, podemos dividir arrays:

- [`.hsplit()`](https://numpy.org/doc/stable/reference/generated/numpy.hsplit.html) e [`.vsplit()`](https://numpy.org/doc/stable/reference/generated/numpy.vsplit.html).

### Numpy: Funções Universais

Existe um último tópico interessante, mas mais avançado. As funções do numpy são bem poderosas e flexíveis. É possível:

- Aplicá-las para cada dimensão separadamente -- usando o argumento `axis=`.
- Filtrar dimensões para não aplicar -- usando o argumento `where=`
- Aplicar de modo a "acumular" ou "reduzir" o resultado -- usando os métodos `.accumulate()` e `.reduce()`.

Aprendam sobre esses tópicos em [Api Ref. ⭢ Universal functions](https://numpy.org/doc/stable/reference/ufuncs.html). Adicionalmente, Também vejam algumas táticas avançadas em [Api Ref. ⭢ Routines ⭢ Functional programming](https://numpy.org/doc/stable/reference/routines.functional.html).

Abaixo apresento alguns exemplos sem contexto nenhum.

In [149]:
a1 = np.array([1,2,3])

np.add.accumulate(a1)
np.add.reduce(a1)

6

In [150]:
a2 = np.array([[1,2], [4,5]])

print(np.add.accumulate(a2, axis = 0))
print(np.add.reduce(a2, axis = 0))

[[1 2]
 [5 7]]
[5 7]


In [152]:
where1 = [True, True, False]
where2 = [[True, False], [False, True]]

print(np.add.reduce(a1, 0, where = where1), "\n")
print(np.add.reduce(a2, 0, where = where2), "\n")

3 

[1 5] 



### Pandas: Outros Tipos de Operações

In [153]:
# Alguns exemplos:

tables_links = {
    'df1': 'https://raw.githubusercontent.com/tidyverse/tidyr/c6c126a61f67a10b5ab9ce6bb1d9dbbb7a380bbd/data-raw/table1.csv',
    'df2': 'https://raw.githubusercontent.com/tidyverse/tidyr/c6c126a61f67a10b5ab9ce6bb1d9dbbb7a380bbd/data-raw/table2.csv',
    'df3': 'https://raw.githubusercontent.com/tidyverse/tidyr/c6c126a61f67a10b5ab9ce6bb1d9dbbb7a380bbd/data-raw/table3.csv',
    'df4a': 'https://raw.githubusercontent.com/tidyverse/tidyr/c6c126a61f67a10b5ab9ce6bb1d9dbbb7a380bbd/data-raw/table4a.csv',
    'df4b': 'https://raw.githubusercontent.com/tidyverse/tidyr/c6c126a61f67a10b5ab9ce6bb1d9dbbb7a380bbd/data-raw/table4b.csv',
    'df5': 'https://raw.githubusercontent.com/tidyverse/tidyr/c6c126a61f67a10b5ab9ce6bb1d9dbbb7a380bbd/data-raw/table6.csv'
}

for i in tables_links.keys():
    globals()[i] = pd.read_csv(tables_links[i])

#### Reshape
<!-- Mais informaçõa -->

Wide to long (melt):

In [154]:
print(df4a)
pd.melt(df4a, id_vars = ["country"], var_name = "year", value_name = "cases")

       country    1999    2000
0  Afghanistan     745    2666
1       Brazil   37737   80488
2        China  212258  213766


Unnamed: 0,country,year,cases
0,Afghanistan,1999,745
1,Brazil,1999,37737
2,China,1999,212258
3,Afghanistan,2000,2666
4,Brazil,2000,80488
5,China,2000,213766


Long to wide (pivot)

In [155]:
print(df2)
pd.pivot(df2, index = ["country", "year"], columns = "type", values = "count")

        country  year        type       count
0   Afghanistan  1999       cases         745
1   Afghanistan  1999  population    19987071
2   Afghanistan  2000       cases        2666
3   Afghanistan  2000  population    20595360
4        Brazil  1999       cases       37737
5        Brazil  1999  population   172006362
6        Brazil  2000       cases       80488
7        Brazil  2000  population   174504898
8         China  1999       cases      212258
9         China  1999  population  1272915272
10        China  2000       cases      213766
11        China  2000  population  1280428583


Unnamed: 0_level_0,type,cases,population
country,year,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,1999,745,19987071
Afghanistan,2000,2666,20595360
Brazil,1999,37737,172006362
Brazil,2000,80488,174504898
China,1999,212258,1272915272
China,2000,213766,1280428583


#### Separate e Unite

Separar:

In [156]:
print(df3, "\n")

df3[["cases", "population"]] = df3["rate"].str.split("/", expand = True)
df3 = df3.drop("rate", axis = 1)
print(df3)

       country  year               rate
0  Afghanistan  1999       745/19987071
1  Afghanistan  2000      2666/20595360
2       Brazil  1999    37737/172006362
3       Brazil  2000    80488/174504898
4        China  1999  212258/1272915272
5        China  2000  213766/1280428583 

       country  year   cases  population
0  Afghanistan  1999     745    19987071
1  Afghanistan  2000    2666    20595360
2       Brazil  1999   37737   172006362
3       Brazil  2000   80488   174504898
4        China  1999  212258  1272915272
5        China  2000  213766  1280428583


Unir:

In [157]:
print(df5, "\n")

df5["year"] = df5["century"] + df5["year"]
df5 = df5.drop("century", axis = 1)
print(df5)

       country  century  year               rate
0  Afghanistan       19    99       745/19987071
1  Afghanistan       20     0      2666/20595360
2       Brazil       19    99    37737/172006362
3       Brazil       20     0    80488/174504898
4        China       19    99  212258/1272915272
5        China       20     0  213766/1280428583 

       country  year               rate
0  Afghanistan   118       745/19987071
1  Afghanistan    20      2666/20595360
2       Brazil   118    37737/172006362
3       Brazil    20    80488/174504898
4        China   118  212258/1272915272
5        China    20  213766/1280428583


#### Combine
<!-- Mais explicação. explicar os tipos de merge (left, inner, outer) -->

Veja a função:
- [`.concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat)

Veja as funções abaixo para [unir dataframes](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html) de maneiras diferentes:

**Standard Joins:**

- [`.merge()`]()


**Filtering Joints:**

- [`.isin()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isin.html?highlight=isin#pandas.DataFrame.isin)


#### Aggregate

<!-- pro futuro -->