# NumPy

## Principais Funções Matemáticas

### Broadcasting

O que fizemos, nas operações com escalar, é um tipo de broadcasting. Você pode imaginar que o que está acontecendo é o seguinte:
- pegue o seu número,
- crie um ndarray, de mesmo formato que o primeiro, mas cujos valores são o seu número.

![broadcasting01](https://s3-sa-east-1.amazonaws.com/lcpi/dec6164e-6fc2-4e13-8e83-047617a2f89b.png "broadcasting escalar")

Na imagem acima (que foi tirada dos tutoriais oficiais do NumPy), nota que o valor 2 é "esticado". Ele é repetido ao longo do eixo 0 até ter um ndarray de formato (3,).

Essa ideia pode ser generalizada. Sempre que fizer sentido "esticar" (ou repetir) o array menor até ele ficar com o mesmo formato do maior, então o NumPy consegue realizar uma operação de broadcasting.

In [1]:
import numpy as np

In [2]:
matrix = np.array([
  [0, 0, 0],
  [10, 10, 10],
  [20, 20, 20],
  [30, 30, 30]
])
matrix

matrix + np.array([1, 2, 3])

array([[ 1,  2,  3],
       [11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

![broadcasting02](https://s3-sa-east-1.amazonaws.com/lcpi/ab17651c-1154-4ea1-a716-09e203f49060.png "broadcasting array")

(**Fonte:** Tutoriais oficiais do NumPy [\[2\]](#2))

A imagem acima mostra o que está acontecendo no código de exemplo que demos.

Mas por que colocamos a expressão "sempre que fizer sentido"? O motivo é que a única coisa que o NumPy aceita fazer é repetir o array menor diversas vezes na direção de uma dimensão. Ele não reajusta o seu array!

![not_broadcasting](https://s3-sa-east-1.amazonaws.com/lcpi/862c983a-f9b3-4474-80e2-b807f15d5a7b.png "not broadcasting")


In [3]:
matrix = np.array([
  [0, 0, 0],
  [10, 10, 10],
  [20, 20, 20],
  [30, 30, 30]
])
vec = np.array([1, 2, 3, 4])
matrix + vec

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [4]:
a = np.array([
  [1, 2, 3, 4],
  [3, 4, 5, 6],
  [7, 8, 9, 10]
])
a

array([[ 1,  2,  3,  4],
       [ 3,  4,  5,  6],
       [ 7,  8,  9, 10]])

In [5]:
b = np.array([10, 20, 30, 40])
b

array([10, 20, 30, 40])

In [6]:
c = np.array([10, 20, 30]).reshape(3,1)
c

array([[10],
       [20],
       [30]])

In [7]:
a * b

array([[ 10,  40,  90, 160],
       [ 30,  80, 150, 240],
       [ 70, 160, 270, 400]])

In [8]:
a * c

array([[ 10,  20,  30,  40],
       [ 60,  80, 100, 120],
       [210, 240, 270, 300]])

### Funções Matemáticas

Além de fazer operações matemáticas entre arrays, também podemos usar funções matemáticas conhecidas. O NumPy possui milhares de funções já implementadas. Por exemplo, ele possui as funções trigonométricas.

Função seno:

In [10]:
x = np.array([2*np.pi, np.pi, np.pi/2])

np.sin(x)

array([-2.4492936e-16,  1.2246468e-16,  1.0000000e+00])

Função cosseno:

In [11]:
np.cos(x)

array([ 1.000000e+00, -1.000000e+00,  6.123234e-17])

Os valores `1.2246468e-16` e `-2.4492936e-16` representam o número zero. O motivo de não estar zerado é que nem todas as operações com números de ponto flutuante (números reais com decimal) conseguem ser perfeitamente representadas pelo computador. Números de ponto flutuante sempre tem um grau de imprecisão. Então dentro da precisão do nosso cálculo, esses valores são basicamente o mesmo que zero.

Depois das funções trigonométricas, vamos ver a função exponencial: $$e^{x}$$.

In [12]:
x = np.array([1, 2, 3, 4])
np.exp(x)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

Como falamos, existem milhares de funções matemáticas nativamente no NumPy, e todas são muito úteis para fazermos cálculos matemáticos computacionais. Porém, se tentarmos listar todas, precisaríamos de um texto insanamente maior. Então melhor ficarmos só com uma ou outra mesmo.

Temos falado, ao longo do texto, sobre o poder e eficiência do NumPy. Do ponto de vista de escrever código, uma enorme vantagem do NumPy é que podemos escrever equações matemáticas complicadas para todos os elementos do nosso array da mesma forma que escreveríamos no papel.

Aqui entra em foco a ideia de "operações vetorizadas", que encontramos antes. No fim das contas, conseguimos escrever tudo de forma vetorizada no NumPy.

Imagine a equação abaixo:
$$ e^{x} + sin(x) $$

Se quisermos achar o valor dela para diversos valores de "x" entre -1 e 2 no Python, teríamos que fazer um loop iterativo. No NumPy, a operação é mais clara e direta.


In [13]:
x = np.linspace(-1, 2, 10)
x

array([-1.        , -0.66666667, -0.33333333,  0.        ,  0.33333333,
        0.66666667,  1.        ,  1.33333333,  1.66666667,  2.        ])

In [14]:
np.exp(x) + np.sin(x)

array([-0.47359154, -0.10495268,  0.38933661,  1.        ,  1.72280712,
        2.56610384,  3.55975281,  4.7656058 ,  6.28989801,  8.29835353])

Por fim, o último conceito essencial de se conhecer quanto a operações matemáticas no NumPy é o de número infinito e de NaN (not a number).

O NumPy possui duas constantes, `np.inf` e `np.NaN` que representam um "número infinito" e um erro, respectivamente.

O "número infinito" é um valor de ponto flutuante que é maior que qualquer outro número. Se colocarmos um sinal negativo, ele vira "menos infinito", e passa a ser menor que qualquer outro número.

In [15]:
np.inf > 999999999999999999999999

True

In [16]:
-np.inf < -999999999999999999999999

True

In [17]:
(np.inf + 1) == np.inf

True

In [18]:
(np.inf + 1) == np.inf

True

In [19]:
np.nan != np.nan

True

In [20]:
np.array([1]) / np.array([0])

  np.array([1]) / np.array([0])


array([inf])

In [21]:
a = np.array([1,2,3,4,5])

In [22]:
a.dtype

dtype('int32')

In [23]:
a[0] = np.nan

ValueError: cannot convert float NaN to integer

In [24]:
a = np.array([np.nan,2,3,4,5])

In [25]:
a.dtype

dtype('float64')

In [26]:
np.float64(0)/np.float64(0)

  np.float64(0)/np.float64(0)


nan

In [27]:
np.NaN + 44

nan

## Álgebra Linear

Da definição do Wikipédia:

Álgebra linear é um ramo da matemática que surgiu do estudo detalhado de sistemas de equações lineares [...]. A álgebra linear utiliza alguns conceitos e estruturas fundamentais da matemática como vetores,[...] e matrizes.

Independente da definição exata, a questão é que a álgebra linear estuda vetores e matrizes. Como vimos até aqui, o NumPy opera de forma bastante análoga à vetores e matrizes.

O que não vimos ainda é como o NumPy nos permite também executar operações típicas da álgebra linear, como "produto entre matrizes".

De fato, o NumPy tem a capacidade de realizar um "produto escalar" entre vetores, de fazer o produto de uma matriz por um vetor, e de fazer o produto entre matrizes.

Vamos relembrar o que são essas operações. O produto escalar de dois vetores consiste em multiplicar os dois, elemento a elemento, e depois somar os resultados de cada par de elementos.

![inner_prod](https://s3-sa-east-1.amazonaws.com/lcpi/d331eb96-4d9e-4cf4-98f6-23fdd8bebf7a.png)

(Exemplo de produto escalar, ou "produto interno") <br>
(**Fonte:** Imagem original Ada)

A sintaxe do NumPy é dada abaixo.

In [28]:
vec1 = np.array([1, 2, 3])
vec2 = np.array([2, 2, 3])

In [29]:
vec1.dot(vec2)

15

In [30]:
vec1 @ vec2

15

O produto de matriz e vetor é dado fazendo algo semelhante ao produto escalar. Para cada linha da matriz, a gente faz o produto escalar entre aquela linha e o vetor. O resultado então vai ser o elemento que se encontra na mesma posição da linha.

![matrix_vec](https://s3-sa-east-1.amazonaws.com/lcpi/364aee03-990f-49ca-a3b8-19881f09be3c.svg)

As possibilidades de sintaxe do NumPy seguem abaixo.

In [31]:
matrix = np.array([
  [1, 1, 1],
  [1, 2, 3],
  [1, 1, 1]
])
vec2 = np.array([2, 2, 3])

In [32]:
matrix.dot(vec2)

array([ 7, 15,  7])

In [33]:
matrix @ vec2

array([ 7, 15,  7])

Na multiplicação entre matrizes, nós multiplicamos a linha da matriz da esquerda pela coluna da matriz da direita, elemento a elemento, e somamos o resultado (produto escalar entre a linha da matriz da esquerda com a coluna da matriz da direita) para obter uma nova matriz.

Neste caso, quando fazemos o produto interno da linha N com a coluna M, nós obtemos o elemento que ficará na posição (N,M) na nova matriz.

![matrix_mult01](https://s3-sa-east-1.amazonaws.com/lcpi/7569206e-95e5-405b-8bff-6b7901590149.svg)

![matrix_mult02](https://s3-sa-east-1.amazonaws.com/lcpi/e7217171-a90e-483e-8af4-0b73a463951c.svg)

Como nos casos anteriores, abaixo temos a sintaxe do NumPy.

In [34]:
matrix1 = np.array([
  [1, 1, 1],
  [1, 2, 3],
  [1, 1, 1]
])
matrix2 = np.array([
  [1, 1, 1],
  [1, 1, 1],
  [1, 1, 1]
])
matrix1.dot(matrix2)

array([[3, 3, 3],
       [6, 6, 6],
       [3, 3, 3]])

No campo da álgebra linear, existem algumas matrizes especiais muito úteis. O NumPy possui métodos de criação para a maioria delas.

A mais importante é a chamada matriz identidade. Ela é uma matriz quadrada (mesmo número de linhas e colunas) com diagonal 1, e os outros valores 0.

In [35]:
np.identity(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [36]:
matrix1

array([[1, 1, 1],
       [1, 2, 3],
       [1, 1, 1]])

In [37]:
matrix1 @ np.identity(3)

array([[1., 1., 1.],
       [1., 2., 3.],
       [1., 1., 1.]])

Ela se chama identidade pois qualquer matriz multiplicada pela identidade (por produto de matrizes) dá a própria matriz.

In [38]:
a = np.array([1,2,3,4,5,6]).reshape((3,2))
a

array([[1, 2],
       [3, 4],
       [5, 6]])

Outra operação comum com matrizes é a transposição.

![transposition](https://s3-sa-east-1.amazonaws.com/lcpi/3d11b2c4-65cb-463a-9ccc-b858b065d2b3.png "Transposição")

(**Fonte:** Imagem original Ada)

A transposição pode ser feita com a função `np.transpose`.

In [39]:
np.transpose(a)

array([[1, 3, 5],
       [2, 4, 6]])

In [40]:
a.T

array([[1, 3, 5],
       [2, 4, 6]])

Operações mais específicas se encontram no módulo `linalg` do NumPy.

Um exemplo é encontrar o determinante de uma matriz. O determinante é um número característico de uma dada matriz, e que se relaciona com diversas propriedades dela.

In [41]:
a = np.array([1,2,3,4,5,6,7,8,9]).reshape((3,3))
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [42]:
np.linalg.det(a)

0.0

In [43]:
c = np.identity(3)
print(c)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [44]:
np.linalg.det(c)

1.0

Para encontrar todas as funções específicas de Álgebra Linear que têm no NumPy, você pode acessar o link https://numpy.org/doc/stable/reference/routines.linalg.html.

Algum exemplo de funções já implementadas na biblioteca:
- Traço
- Decomposição de vetores
- Autovalor/autovetor
- Norma de Matriz
- Inversa
- Etc...

## Estatística

Por fim, o NumPy também possui várias funções básicas de estatística, como mínimo, máximo, média, mediana, etc.

In [45]:
stats = np.array([[1, 2, 3], [4, 5, 6]])
stats

array([[1, 2, 3],
       [4, 5, 6]])

In [46]:
np.min(stats)

1

In [48]:
np.max(stats)

6

In [49]:
np.min(stats, axis=0)

array([1, 2, 3])

In [50]:
np.min(stats, axis=1)

array([1, 4])

In [54]:
teste = np.array([[0,1,3],[4,3,2]])

In [55]:
np.min(teste,axis=0)

array([0, 1, 2])

In [56]:
np.sum(stats)

21

In [57]:
np.sum(stats, axis=1)

array([ 6, 15])

In [58]:
np.mean(stats)

3.5

In [59]:
np.median(stats)

3.5

In [60]:
a = np.array([1,2,3,4,7,20,300])
a

array([  1,   2,   3,   4,   7,  20, 300])

In [61]:
np.mean(a)

48.142857142857146

In [62]:
np.median(a)

4.0

In [63]:
valores = np.array([40000, 60000, 35000, 38000, 280000])
valores

array([ 40000,  60000,  35000,  38000, 280000])

In [64]:
np.mean(valores)

90600.0

In [65]:
np.median(valores)

40000.0

# Pandas

## Introdução

In [67]:
import numpy as np
import pandas as pd

Normalmente, dados costumam vir na forma de tabelas. Nós chamamos dados com esse formato de **dados estruturados**. Isso significa que em geral, dados costumam estar na forma de uma série de linhas (ou uma série de colunas, o que é equivalente) com diversos valores e observações em cada parte da linha. A unidade básica que costumamos pensar é a de células da tabela. Uma célula é uma interseção entre uma dada linha e uma dada coluna da tabela.

Por exemplo, na tabela abaixo, nós podemos dizer que na célula \[2,1\] nós temos o valor 1. No Python, a linha 2 é a terceira, contando de cima pra baixo, em e a coluna 1 é a segunda, contando da esquerda para a direita.

```
[[1, 2, 3],
 [2, 2, 2],
 [0, 1, 0]]
```

Perceba que falar que a linha 2 é a "terceira" (devido ao Python começar a indexação do 0) é algo arbitrário. Se a gente quisesse dar nomes pras linhas, por exemplo, "a", "b" e "c", eu poderia dizer que a linha "c" é a terceira de cima pra baixo. Se os nomes das colunas então fossem "A", "B", "C", eu poderia reescrever a célula como sendo \["c","B"\].

O que o Pandas faz é exatamente isso: Ele cria um array de numpy, porém com linhas (ou índices) com nomes específicos que podemos definir como queremos. As colunas funcionam de forma semelhante, nós podemos dar os nomes que quisermos a elas.

Essa estrutura, com uma tabela, uma lista de índices (nomes das linhas) e uma lista de colunas (nomes das colunas), é o que chamamos de um `DataFrame` do Pandas.

In [68]:
dados = np.array([
  [1.69, 87.0],
  [1.59, 56.5],
  [1.69, 90.3],
  [1.74, 130]
])
dados

array([[  1.69,  87.  ],
       [  1.59,  56.5 ],
       [  1.69,  90.3 ],
       [  1.74, 130.  ]])

In [87]:
df = pd.DataFrame(
    data = dados,
    columns = ['Altura', 'Peso'],
    index = ['Ronaldinho', 'Rivaldo', 'Arrascaeta', 'Gabigol']
)
print(df)

            Altura   Peso
Ronaldinho    1.69   87.0
Rivaldo       1.59   56.5
Arrascaeta    1.69   90.3
Gabigol       1.74  130.0


In [88]:
df.loc['Ronaldinho']

Altura     1.69
Peso      87.00
Name: Ronaldinho, dtype: float64

Uma observação: É comum não passarmos uma lista de índices. Nesses casos, o pandas usa um padrão que é usar índices numéricos em sequência (por exemplo, 0, 1, 2, ...).

In [89]:
df = pd.DataFrame(
    data = dados,
    columns = ['Altura', 'Peso']
)
print(df)

   Altura   Peso
0    1.69   87.0
1    1.59   56.5
2    1.69   90.3
3    1.74  130.0


É interessante ter em mente que o pandas tem uma inspiração fortíssima na linguagem de programação R, muito usada para estatística e análise de dados. Um dos objetos principais para análise de dados com R também é um `DataFrame`. Por isso, para quem tem conhecimentos prévios em R, é um pouco mais fácil de se acostumar com o pandas.

Agora, se olharmos o tipo da nossa variável `df`, veremos que ele é um DataFame do pandas.

In [90]:
type(df)

pandas.core.frame.DataFrame

In [91]:
df['Altura']

0    1.69
1    1.59
2    1.69
3    1.74
Name: Altura, dtype: float64

O outro objeto fundamental em pandas é o objeto `Series`, que nada mais é que uma lista (unidimensional) indexada. Assim como no dataframe, esse índice pode ser alterado para os nomes que quisermos. Por trás dos panos, uma variável `Series` armazena suas informações em um `ndarray`, do numpy (assim como o faz variáveis do tipo `DataFrame`).

In [92]:
serie = pd.Series([87.0, 56.5, 90.3, 78.6], index=['Fulano', 'Sicrana', 'Beltrana', 'João'])

In [93]:
print(serie)

Fulano      87.0
Sicrana     56.5
Beltrana    90.3
João        78.6
dtype: float64


In [94]:
serie['Fulano']

87.0