<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Fundamentos de Matemática
Caderno de **Aula**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Vetorização;</li>
  <li>Arrays Numpy;</li>
  <li>Operações.</li>
</ol>

---

# **Aulas**

## 0\. Abordagens estatísticas

*   **Descritiva**: foco no passado para entender o **presente**.
*   <font color='red'>**Preditiva**</font>: foca no passado para inferir o **futuro**.

## 1\. Vetorização

### **1.1. Introdução** 

Derivado da matemática computacional, **vetorização** é o processo de transformar um código escalar em sua forma vetorial. Na prática, geralmente eliminamos operações matemáticas que lidam com um conjunto reduzido de números por laço de repetição (escalar) por uma única operação com todos os números (vetor).

> A **vetorização** (geralmente) é mais **rápida** e utiliza menos **memória**

Exemplo:

Uma *fintech* quer saber a qualidade dos investimentos dos seus clientes. Para tanto, é proposta a seguinte análise: para um determinado mês, deve-se comparar o retorno de cada cliente obtido através do investimento com o valor corrigido pela inflação. Deve-se então calcular quantos clientes "perderam" para inflação. 

 - Para 1 cliente:

In [75]:
montante = 1000
montante_final = 1001.5 # ~ 0.15% de retorno

In [76]:
ipca = 0.25 / 100
montate_inflacao = montante * (1 + ipca)

print(montate_inflacao)

1002.5


In [77]:
print(montante_final < montate_inflacao)

True


 - Para 100 mil clientes:

In [78]:
lista = [randint(0,5) for _ in range(0,2)]
lista

[0, 3]

In [79]:
from random import random, randint

montante_lista = [randint(0, 5000) for _ in range(0, 100000)]
montante_final_lista = [round(montante * (1 + (0.3 * random() / 100)), 2) for montante in montante_lista]

In [80]:
print(montante_lista[0:5])
print(montante_final_lista[0:5])

[4733, 3183, 2370, 1093, 430]
[4743.08, 3184.27, 2376.26, 1094.72, 431.22]


O laço repetição *for/in* opera de forma **escalar**, ou seja, processa um conjunto limitado de números por repetição.

In [81]:
from time import time

perdeu = list()

# calculo
inicio = time() # inicio da contagem do tempo
for montante, montante_final in zip(montante_lista, montante_final_lista):
  perdeu.append(montante_final - montante * (1 + ipca))
fim = time() # fim da contagem do tempo

# resultado
perdeu = list(filter(lambda val: True if val < 0 else False, perdeu))
print(f"{len(perdeu)} cliente perderam para inflação")

# tempo
tempo_lista = fim - inicio
print(f'{tempo_lista} s')
porcentagem_clientes = round(len(perdeu)/100000 * 100, 2)
print(f'{porcentagem_clientes} %')

83262 cliente perderam para inflação
0.030322790145874023 s
83.26 %


### **1.2. Pacote NumPy** 

Pacote Python para manipulação numérica construido na linguagem de programação C, muitos pacotes o utilizam como base, como o Pandas e SciPy. A documentação pode ser encontrada neste [link](https://numpy.org). A abstração base do NumPy é o *array*, uma estrutura de dados Python de duas ou mais dimensões utilizado para representar vetores, matrizes, tensores, etc.

Vamos vetorizar nosso cálculo através da criação de vetores NumPy.

In [82]:
import numpy as np

montante_array = np.array(montante_lista)
montante_final_array = np.array(montante_final_lista)

In [83]:
print(montante_array)
print(montante_final_array)

[4733 3183 2370 ...  183 4353 3544]
[4743.08 3184.27 2376.26 ...  183.24 4365.77 3553.57]


Vamos então fazer o mesmo cálculo com os vetores NumPy de forma **vetorial**, ou seja, processando todos os números de uma vez.

In [84]:
from time import time

# calculo
inicio = time() # inicio da contagem do tempo
perdeu = montante_final_array - montante_array * (1 + ipca)
fim = time() # fim da contagem do tempo

# resultado
perdeu = list(filter(lambda val: True if val < 0 else False, perdeu))
print(f"{len(perdeu)} cliente perderam para inflação")

# tempo
tempo_array = fim - inicio
print(f"Duração: {tempo_array} s")

83262 cliente perderam para inflação
Duração: 0.0009152889251708984 s


Por fim, vamos comparar os tempos de execução das operações escalares e vetoriais.

In [85]:
tempo_lista / tempo_array

33.1292003125814

## 2\. Arrays Numpy

### **2.1. Arrays vs Listas** 

As listas Python e os arrays NumPy são similares em muitos sentidos: ambos servem param armazenar dados sequencialmente na memória, possuem sintaxe parecidas, etc. Contudo, é importante maximizar as suas diferenças:

 - **Manipulação algébrica**: Arrays apresentam uma sintaxe mais simples e eficiente (velocidade e memória) por realizar operações de forma **vetorial**. Listas sempre trabalham de forma **escalar**. Exemplo:

In [125]:
# escalar

l1 = [1, 2, 3]
l2 = [4, 5, 6]

# soma os elementos
l3 = [a + b for a, b in zip(l1, l2)]
print(l3)

# soma 10 e soma-se cada elemento
l_s10 = [(a+10) + (b+10) for a, b in zip(l1, l2)]
print(l_s10)

[5, 7, 9]
[25, 27, 29]


In [87]:
# vetorial

import numpy as np

a1 = np.array(l1)
a2 = np.array(l2)

a3 = a1 + a2
print(a3)

[5 7 9]


 - **Tipo**: Arrays trabalham melhor com elementos do mesmo tipo.

 - **Mutabilidade**: Arrays são menos eficientes quanto a inserção e remoção de elementes.

### **2.2. Arrays 1D: Vetores** 

Arrays NumPy de uma dimensão (1D) são conhecidos como **vetores**, como listas, de uma linha e uma ou mais colunas.

 - **Criação** 

In [88]:
a1 = np.array([2, 4, 6, 8])
print(a1)

[2 4 6 8]


In [130]:
a1 = np.arange(0, 10, 2)
print(a1)

an = np.arange(0,20,5)
print(an)

[0 2 4 6 8]
[ 0  5 10 15]


In [133]:
a1 = np.zeros(5)
print(a1)

a1 = 3 * np.ones(2)
print(a1)

[0. 0. 0. 0. 0.]
[3. 3.]


 - **Manipulação**

In [134]:
a1 = np.array([2, 4, 6, 8])
print(a1)

[2 4 6 8]


In [135]:
a1[3]

8

In [136]:
a1[0:1]

array([2])

In [137]:
a1[a1 > 2]

array([4, 6, 8])

 - **Atributos**

In [138]:
a1.ndim

1

In [96]:
a1.shape

(4,)

In [139]:
a1.size

4

In [98]:
a1.dtype

dtype('int64')

 - **Métodos**

In [99]:
a1.sort() # "inplace"
print(a1)

[2 4 6 8]


In [100]:
a1.tolist()

[2, 4, 6, 8]

### **2.3. Arrays 2D: Matrizes** 

Arrays NumPy de duas dimensão (2D) são conhecidos como **matrizes**, como tabelas, com linhas e colunas.

 - **Criação** 

In [101]:
m1 = np.array([[1, 2, 3], [4, 5, 6]]) # vetores como linhas
print(m1)

[[1 2 3]
 [4 5 6]]


 - **Manipulação**

In [140]:
m1[1,2] # linha x coluna

6

In [141]:
m1[1,:]

array([4, 5, 6])

In [142]:
m1[:,1]

array([2, 5])

 - **Atributos**

In [105]:
m1.ndim

2

In [106]:
m1.shape

(2, 3)

In [107]:
m1.size

6

In [108]:
m1.dtype

dtype('int64')

 - **Métodos**

In [143]:
m1.sort() # "inplace"
print(m1)

[[1 2 3]
 [4 5 6]]


In [144]:
m1.tolist()

[[1, 2, 3], [4, 5, 6]]

### **2.4. Arrays 3D, 4D, etc.** 

Arrays NumPy de três ou mais dimensões são apenas estruturas de dados com mais de duas dimensões.

## 3\. Operações

O NumPy oferece uma grande quantidade de operações matemáticas, potencialmente vetoriais, além de constantes para auxiliar os cálculos. Também oferece suporte para operações mais avançadas, como álgebra vetorial. Uma lista completa das operações disponíveis está disponível neste [link](https://numpy.org/doc/stable/reference/routines.math.html). Vamos utilizar os seguintes arrays para exemplicar as operações:

In [145]:
a1 = np.array([1, 2, 3])
a2 = np.array([3, 4, 5])

### **3.1. Constantes** 

 - **Numérico**

In [146]:
np.pi # famoso pi, muito usado em trigonometria 

3.141592653589793

In [113]:
np.e # euler, muito usado em logaritmos 

2.718281828459045

 - **Nulo**

In [147]:
np.nan, np.NaN, np.NAN

(nan, nan, nan)

In [148]:
type(np.nan)

float

- **Infinito**

In [149]:
np.inf, np.Inf, np.Infinity

(inf, inf, inf)

In [150]:
type(np.inf)

float

### **3.2. Funções Elementares** 

 - **Soma**

In [151]:
a3 = a1 + a2
print(a3)

a3 = a1 - a2
print(a3)

[4 6 8]
[-2 -2 -2]


 - **Multiplicação**

In [152]:
a3 = a1 * a2
print(a3)

a3 = a1 / a2
print(a3)

[ 3  8 15]
[0.33333333 0.5        0.6       ]


 - **Exponenciação**

In [153]:
a3 = a1 ** 2
print(a3)

a3 = np.exp(a1)
print(a3)

a3 = np.sqrt(a1)
print(a3)

[1 4 9]
[ 2.71828183  7.3890561  20.08553692]
[1.         1.41421356 1.73205081]


 - **Logaritmo**

In [154]:
a3 = np.log(a1)
print(a3)

[0.         0.69314718 1.09861229]


 - **Trigonometria**

In [155]:
a3 = np.sin(a1)
print(a3)

a3 = np.tan(a1)
print(a3)

[0.84147098 0.90929743 0.14112001]
[ 1.55740772 -2.18503986 -0.14254654]


### **3.3. Álgebra Vetorial** 

 - **Produto escalar**

O produto escalar representa a projeção de um vetor em outro. Portanto, é uma operação que leva dois vetores em um escalar. É usando em diversas aplicações da física e engenharia, como o posicionamento de placas solares.

> $\bar{\textbf{x}}, \bar{\textbf{y}} \to z$

Sendo que:

> $\bar{\textbf{x}}, \bar{\textbf{y}}  \in \Re^{i}$

> $z \in \Re$

É calculado pela soma dos produtos dos elementos dos vetores.

> $\bar{\textbf{x}} \cdot \bar{\textbf{y}} = \sum_{i}^{j} x_iy_i$

In [123]:
a1 = np.array([1, 2, 3])
a2 = np.array([3, 4, 5])

a3 = np.dot(a1, a2)
print(a3)

26
