<a href="https://colab.research.google.com/github/diegohugo570/backup-python/blob/main/05_Curso_Python_M%C3%B3dulo_5_Forma%C3%A7%C3%A3o_Engenheiro_de_IA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **M√≥dulo 5: NumPy - A Matem√°tica dos Vetores**

Link do curso: [clique aqui](https://dascia.academy/)

> **Objetivo:** Computadores n√£o leem textos; eles leem n√∫meros. Neste m√≥dulo, vamos aprender como transformar dados em vetores e usar a biblioteca **NumPy** para realizar c√°lculos matem√°ticos ultra-r√°pidos que s√£o a base de qualquer modelo de IA (RAG, Busca Sem√¢ntica, Redes Neurais).

---

## **Aula 1: Introdu√ß√£o ao NumPy e Performance**

O Python puro (listas) √© √≥timo para flexibilidade, mas p√©ssimo para matem√°tica pesada. Ele √© lento porque guarda cada n√∫mero como um "objeto" separado na mem√≥ria.

O **NumPy** (Numerical Python) resolve isso criando arrays: blocos cont√≠guos de mem√≥ria, otimizados em C, que permitem fazer c√°lculos em milh√µes de dados instantaneamente.

### **1.1 Criando Arrays**

In [None]:
# Importa√ß√£o padr√£o universal: np


# 1. Array a partir de uma lista


In [None]:
# 2. Array de Zeros (Muito usado para inicializar pesos de redes neurais)


In [None]:
# 3. Intervalos (Arange)
# Similar ao range() do Python, mas retorna um array


In [None]:
# 4. Matrizes (Arrays Multidimensionais)
# Uma matriz 3x3 preenchida com uns


In [None]:
# 5. Verificando a dimens√£o dos Tensores


### **1.2 Aritm√©tica Vetorial (Broadcasting)**

Aqui est√° a m√°gica. Se voc√™ quiser multiplicar todos os itens de uma lista por 2 em Python puro, precisaria de um loop `for`. No NumPy, voc√™ multiplica o array inteiro de uma vez. O NumPy aplica a opera√ß√£o item a item automaticamente.

In [None]:
# Aritm√©tica
## Inicializando um array


# Multiplica√ß√£o por escalar
# O n√∫mero 2 √© "distribu√≠do" para todos os elementos

# Soma com escalar


# Opera√ß√µes entre dois arrays
# [1, 2] * [1, 2] = [1, 4] -> Multiplica posi√ß√£o por posi√ß√£o (Produto de Hadamard)


# Somando os pr√≥prios elementos do array
# [1, 2, 3] -> 1 + 2 + 3 -> 6


### **1.3 Filtros em Vetores**

Aqui, voc√™ consegue aplicar l√≥gica booleana para poder filtrar elementos do vetor.

In [None]:
# Inicializando um array


# Aplicando l√≥gicas diferentes de filtros


### **1.4 O Teste de Performance (A Prova Real)**

Por que usamos NumPy em IA? Vamos simular um processamento de 10 milh√µes de dados.

In [None]:
# Importando a biblioteca para mensurar o tempo


# Quantidade de dados: 10 Milh√µes


# Cria uma lista, percorre elemento por elemento, multiplica por 2 e acumula a soma

# --- Python Puro (Listas) ---


# --- NumPy ---


# Resultados


> **Nota:** Em IA, onde multiplicamos bilh√µes de par√¢metros, essa diferen√ßa de 50x a 100x √© a diferen√ßa entre treinar um modelo em **dias** ou em **anos**.

### üß† **Exerc√≠cios de Fixa√ß√£o (Aula 1)**

**Exerc√≠cio 1.1: Batch de Pre√ßos**

Voc√™ tem um array com pre√ßos de 5 modelos de IA: `precos = np.array([0.002, 0.05, 0.10, 0.01, 0.03])`.
Houve um aumento de 10% em todos os servi√ßos. Use NumPy para calcular os novos pre√ßos (multiplique por 1.1) e imprima.

In [None]:
# Escreva seu c√≥digo aqui


**Exerc√≠cio 1.2: Matriz de Zeros e Uns**

Crie uma matriz 4x4 preenchida com zeros. Depois, some 5 a todos os elementos e multiplique por uma matriz 4x1 apenas com uns usando `np.dot()`.

Imprima o resultado da multiplica√ß√£o e as dimens√µes da matriz resultante.

In [None]:
# Escreva seu c√≥digo aqui


---

## **Aula 2: Vetores e Similaridade (A Alma do RAG)**

Como sabemos se a frase "eu gosto de cachorros" √© parecida com "eu amo c√£es"?
Para o computador, transformamos frases em **Vetores** (listas de n√∫meros chamadas *Embeddings*).

Se desenharmos esses vetores num gr√°fico, frases com significados parecidos apontar√£o para a mesma dire√ß√£o.

### **2.1 A Matem√°tica da Similaridade**

Para medir essa proximidade, usamos a **Similaridade de Cosseno**, definida a partir de opera√ß√µes fundamentais da √°lgebra linear.

Essa m√©trica depende de dois componentes:

1. **Produto Escalar (*dot product*):**  
   Mede o grau de alinhamento entre dois vetores, definido formalmente por  

   $$
   \langle \mathbf{x}, \mathbf{y} \rangle = \sum_{i=1}^{n} x_i\,y_i
   $$

2. **Norma (*norm*):**  
   Representa o comprimento (ou magnitude) de um vetor. Na forma geral (norma $L_p$):

   $$
   \|\mathbf{x}\| = \left(\sum_{i=1}^{n} |x_i|^{p}\right)^{\frac{1}{p}}
   $$

   No caso mais comum, a **norma euclidiana (L2)**:

   $$
   \|\mathbf{x}\|_2 = \left({\sum_{i=1}^{n} x_i^2}\right)^{\frac{1}{2}}
   $$

Se o valor da **similaridade de cosseno** for **1.0**, os vetores s√£o id√™nticos (mesma dire√ß√£o).  
Se for **0.0**, s√£o ortogonais (sem rela√ß√£o).  
Se for **-1.0**, s√£o opostos (dire√ß√µes contr√°rias).

In [None]:
# Vamos imaginar vetores de 2 dimens√µes para facilitar
# Ex: [Fator "Tecnologia", Fator "Natureza"]

# v1: Alta tecnologia, baixa natureza (ex: "Computador")
v1 = np.array([0.9, 0.1])

# v2: Baixa tecnologia, alta natureza (ex: "√Årvore")
v2 = np.array([0.1, 0.9])

# v3: Alta tecnologia, baixa natureza (ex: "Notebook") - Parecido com v1
v3 = np.array([0.8, 0.2])

In [None]:
# Gr√°fico dos vetores (ignore o c√≥digo por enquanto)
import matplotlib.pyplot as plt

# Plot
plt.figure(figsize=(6, 6))

# Vetores como setas
plt.quiver(0, 0, v1[0], v1[1], angles='xy', scale_units='xy', scale=1)
plt.quiver(0, 0, v2[0], v2[1], angles='xy', scale_units='xy', scale=1)
plt.quiver(0, 0, v3[0], v3[1], angles='xy', scale_units='xy', scale=1)

# Labels
plt.text(v1[0] + 0.02, v1[1], 'v1 (Computador)')
plt.text(v2[0] + 0.02, v2[1], 'v2 (√Årvore)')
plt.text(v3[0] + 0.02, v3[1], 'v3 (Notebook)')

# Eixos
plt.xlim(0, 1)
plt.ylim(0, 1)
plt.xlabel('Tecnologia')
plt.ylabel('Natureza')
plt.title('Espa√ßo Vetorial e Similaridade')

# Grid e propor√ß√£o correta
plt.grid(True)
plt.gca().set_aspect('equal', adjustable='box')

plt.show()

In [None]:
# 1. M√≥dulo do vetor, ou norma L2 (Tamanho da seta)
norma_v1 = np.linalg.norm(v1)
norma_v2 = np.linalg.norm(v2)
norma_v3 = np.linalg.norm(v3)
print(f"Tamanho do vetor v1: {norma_v1}")
print(f"Tamanho do vetor v2: {norma_v2}")
print(f"Tamanho do vetor v3: {norma_v3}")

In [None]:
# 2. Produto Escalar (Dot Product)
dot_product_v1_v2 = np.dot(v1, v2)
dot_product_v1_v3 = np.dot(v1, v3)
dot_product_v2_v3 = np.dot(v2, v3)

print(f"Produto Escalar (v1 . v2): {dot_product_v1_v2}")
print(f"Produto Escalar (v1 . v3): {dot_product_v1_v3}")
print(f"Produto Escalar (v2 . v3): {dot_product_v2_v3}")

A **Similaridade de Cosseno** deriva diretamente da rela√ß√£o geom√©trica entre dois vetores:

$$
\langle \mathbf{x}, \mathbf{y} \rangle
=
\|\mathbf{x}\|_2 \, \|\mathbf{y}\|_2 \, \cos(\theta)
$$

Isolando o cosseno do √¢ngulo $\theta$, obtemos a medida de similaridade:

$$
\text{Similaridade}(\mathbf{x}, \mathbf{y})
=
\cos(\theta)
=
\frac{\langle \mathbf{x}, \mathbf{y} \rangle}
{\|\mathbf{x}\|_2 \, \|\mathbf{y}\|_2}
$$

Essa m√©trica mede o **alinhamento direcional** entre os vetores, independentemente de sua magnitude.

In [None]:
# 3. Similaridade de Cosseno
sim_v1_v2 = dot_product_v1_v2 / (norma_v1 * norma_v2)
sim_v1_v3 = dot_product_v1_v3 / (norma_v1 * norma_v3)
sim_v2_v3 = dot_product_v2_v3 / (norma_v2 * norma_v3)

print(f"Similaridade Computador x √Årvore: {sim_v1_v2:.4f}")
print(f"Similaridade Computador x Notebook: {sim_v1_v3:.4f}")
print(f"Similaridade √Årvore x Notebook: {sim_v2_v3:.4f}")

### **2.2 Dist√¢ncia vs Similaridade**

√Äs vezes queremos saber a **dist√¢ncia** entre vetores (o qu√£o longe eles est√£o).

* **Similaridade:** Quanto maior, mais parecidos (m√°x. 1).
* **Dist√¢ncia:** Quanto menor, mais parecidos (m√≠n. 0).

A dist√¢ncia baseada na **Similaridade de Cosseno** √© definida como:

$$
\text{Dist√¢ncia}(\mathbf{x}, \mathbf{y})
=
1
-
\frac{\langle \mathbf{x}, \mathbf{y} \rangle}
{\|\mathbf{x}\|_2 \, \|\mathbf{y}\|_2}
$$

In [None]:
# Dist√¢ncia de Cosseno
dist_v1_v2 = 1 - sim_v1_v2
dist_v1_v3 = 1 - sim_v1_v3
dist_v2_v3 = 1 - sim_v2_v3

print(f"Dist√¢ncia Computador x √Årvore: {dist_v1_v2:.4f}")
print(f"Dist√¢ncia Computador x Notebook: {dist_v1_v3:.4f}")
print(f"Dist√¢ncia √Årvore x Notebook: {dist_v2_v3:.4f}")

In [None]:
# Convertendo para √¢ngulo

# np.arccos retorna o √¢ngulo em radianos
theta_rad = np.arccos(sim_v1_v2)

# np.degrees transforma rad em graus
theta_graus = np.degrees(theta_rad)

print(f"√Çngulo entre Computador e √Årvore: {theta_graus:.1f} graus")
# Note: Vetores ortogonais (90 graus) t√™m similaridade 0.

### üß† **Exerc√≠cios de Fixa√ß√£o (Aula 2)**

**Exerc√≠cio 2.1: Calculadora de Embeddings Manual**

Dados dois vetores simples: `A = np.array([1, 0, 1])` e `B = np.array([0, 1, 1])`.
Calcule a similaridade de cosseno entre eles passo a passo (calcule o dot, calcule as normas e divida).

In [None]:
# Escreva seu c√≥digo aqui


**Exerc√≠cio 2.2: O Motor de Busca Miniatura**

Voc√™ tem o vetor de busca `query = np.array([1, 1])`.
Voc√™ tem uma lista de documentos (vetores):

* `docA = np.array([1, 0.9])`
* `docB = np.array([0.1, 0])`
Calcule qual documento √© mais similar √† query usando `np.dot` (pode ignorar a norma neste exerc√≠cio simples, assumindo que s√£o unit√°rios).

In [None]:
# Escreva seu c√≥digo aqui


---

## **üöÄ Pr√≥ximo Passo: Projeto no Cursor**

Agora voc√™ entende a matem√°tica que faz o ChatGPT encontrar respostas nos seus documentos.

**Vamos para a IDE Cursor construir o "Simple Vector Store".**

Neste projeto, voc√™ n√£o vai usar bibliotecas prontas de vetores (como ChromaDB ou Pinecone). Voc√™ vai **construir a sua pr√≥pria**.

* Voc√™ criar√° uma classe `VectorStore` que guarda documentos e vetores na mem√≥ria.
* Voc√™ implementar√° o m√©todo `query` que recebe uma pergunta (vetor), varre todos os documentos, calcula o cosseno de cada um e retorna os "Top K" mais parecidos.
* √â a engenharia pura por tr√°s do RAG (Retrieval Augmented Generation).

Prepare seu NumPy e vamos para o Cursor!