# **CIÊNCIA DE DADOS** - DCA3501

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE, NATAL/RN

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO

(C) 2025-2026 CARLOS M D VIEGAS

https://github.com/cmdviegas

# VI. Introdução ao `numpy`

Este notebook é um guia **prático** para estudar a biblioteca `numpy`. O `numpy` (*numerical python*) é uma biblioteca do Python para cálculo numérico e computação científica. Serve como base para outras bibliotecas como pandas, scipy, scikit-learn e etc, pois fornece estruturas de dados e operações para lidar com arrays multidimensionais.

Principais características do numpy:
- Fornece array n-dimensional (**ndarray**): estrutura central do numpy, mais rápida e compacta que as listas do Python.
- Operações vetorizadas: você pode aplicar operações matemáticas em todo um array de uma vez, sem precisar de laços **for**.
- Funções matemáticas otimizadas: inclui soma, média, raiz quadrada, trigonometria, exponenciais, estatísticas e álgebra linear.
- Base para dados científicos: usado em aprendizado de máquina, estatística, gráficos, simulações etc.

Em aulas anteriores aprendemos a programação básica em Python: estudamos tipos de dados, condicionais, listas, dicionários, manipulação de arquivos, entre outros. A partir de agora, vamos abordar bibliotecas que facilitam e permitem a análise e manipulação de dados em larga escala, como o `numpy` (para trabalhar com arrays e operações numéricas de alto desempenho) e o `pandas` (para organizar, transformar e explorar dados de forma estruturada e eficiente).

In [None]:
# Importação da biblioteca

#import numpy
import numpy as np # mais prático

np.__version__ # exibe a versão instalada (opcional)

## 1. Criando arrays com `numpy`

Em **Python**, todas as variáveis são **tipadas dinamicamente**, ou seja, o tipo de dado associado a uma variável é definido no momento da atribuição e pode mudar ao longo da execução. Isso traz grande flexibilidade, mas também tem implicações importantes:

- Como o Python é implementado em **C**, cada variável em Python é representada internamente como uma estrutura em C.  
  - Essa abordagem traz **sobrecarga (overhead)** de desempenho.
- Para tipos complexos, como **listas**, a eficiência pode ser bastante comprometida quando lidamos com grandes volumes de dados.

Assim, surge um dilema entre **flexibilidade** e **desempenho**:

- Se uma lista contém apenas elementos de um mesmo tipo, é possível otimizar seu armazenamento e manipulação.
- É nesse ponto que entra o **NumPy**, oferecendo **arrays** altamente eficientes e homogêneos.
 - No NumPy, esses arrays são implementados através do objeto `ndarray`. Um `ndarray` é como uma lista do Python, mas mais eficiente para cálculos.

- Vale lembrar que o **tipo `array` nativo do Python** não é o mesmo que o `ndarray` do `numpy`. 


In [None]:
# Criando ndarrays
a = np.array([1, 2, 3, 4, 5]) # no python seria uma lista comum a = [1, 2, 3, 4, 5]
b = np.array([[1, 2, 3], [4, 5, 6]])

print("Array de 1 dimensão:", a)
print("\nArray de 2 dimensões:\n", b)

In [None]:
# Verificando tipos de arrays (comparação lista, array e ndarray)
# python list
L = list(range(10))
print(type(L), L)

# python array
from array import array
A = array('i', L)
print(type(A), A)

# numpy array
print(type(a), a)


O `ndarray` possui algumas características que facilitam a conversão do tipo de dados.

In [None]:
# O Numpy tentará transformar todos os elementos para um mesmo tipo de dados
c = np.array([3.14, 4, 2, 3])
print(c) # todos os elementos foram convertidos para float

In [None]:
# É possível determinar/forçar o tipo do dado
d = np.array([1.2, 2.0, 3.9, 4], dtype='int')
print(d)

## 2. Criação de `ndarrays` especiais

In [None]:
print("Array de 0's", np.zeros(4, dtype='int')) # array só de 0's (int)
print("Array de 1's", np.ones(4, dtype='float')) # array só de 1's (float)
print()

print("Matriz de 0's:\n", np.zeros((2, 3))) # matriz só de zeros
print("Matriz de 1's:\n", np.ones((2, 3))) # matriz só de uns
print()

print("Matriz de identidade:\n", np.eye(3)) # matriz identidade NxN
print("Matriz preenchida com todos os valores iguais:\n", np.full((3, 5), 3.14)) # matriz 3x5 preenchida com 3.14
print()

print("Sequências:\n", np.arange(0, 10, 2)) # sequência de 0 a 8, passo 2
print("Valores igual espaçados em um intervalo:\n", np.linspace(0, 1, 5)) # 5 valores igualmente espaçados entre 0 e 1
print()

print("Array como lista de lista", np.array([range(i, i + 3) for i in [2, 4, 6]])) # array a partir de uma lista de listas

print()
print(np.empty(4)) # cria um array vazio (com 4 posições) (aloca em memória)


## 3. Lendo propriedades de um `ndarray`
Um `ndarray` possui atributos que podem úteis para determinar algumas operações, como por exemplo:

In [None]:
print("Shape:", b.shape)  # formato do array (linhas, colunas)
print("Dimensões:", b.ndim) # número de dimensões (1D, 2D, 3D, ...)
print("Tamanho:", b.size)  # quantidade total de elementos
print("Tipo:", b.dtype)    # tipo dos elementos (int32, float64, etc.)
print("Tipo estrutura:", type(b))    # tipo da estrutura que contém os elementos do array
print("Tamanho de cada elemento:", b.itemsize, "bytes") # tamanho em bytes de cada elemento
print("Tamanho total do array:", b.nbytes, "bytes") # tamanho total em bytes do array

## 4. Gerando números aleatórios com `np.random`

O módulo `numpy.random` permite criar arrays com valores aleatórios de diferentes distribuições estatísticas.  
Por exemplo, vamos gerar alguns arrays de números aleatórios:



In [None]:
# Números aleatórios entre 0 e 1 (distribuição uniforme)
valores_uniformes = np.random.rand(5) # .rand() gera números entre 0 e 1
print("Números aleatórios uniformes:", valores_uniformes)

# Inteiros aleatórios entre 0 e 10
valores_inteiros = np.random.randint(0, 10, size=5) # .randint() gera inteiros em um intervalo [low, high)
print("\nInteiros aleatórios de 0 a 9:", valores_inteiros)

# Números aleatórios de uma distribuição normal (média=0, desvio padrão=1)
valores_normais = np.random.randn(10) # .randn() gera números com média 0 e desvio padrão 1
print("\nNúmeros aleatórios (distribuição normal):", valores_normais)

# Matriz 3x3 com valores aleatórios entre 0 e 1
matriz_random = np.random.random((3,3))
print("\nMatriz 3x3 com valores aleatórios:\n", matriz_random)

In [None]:
# Gerando os gráficos das distribuições anteriores (exemplo para visualização)
import matplotlib.pyplot as plt

# ! pip install matplotlib # para instalar no colab, caso necessário

# Criando a figura
plt.figure(figsize=(15, 4)) # tamanho em polegadas

# Distribuição Uniforme [0,1)
# Todos os valores no intervalo têm a mesma probabilidade de ocorrer.
plt.subplot(1, 3, 1) # Cria uma grade de 1 linha e 3 colunas e seleciona o primeiro eixo (o gráfico da esquerda) 
plt.hist(valores_uniformes, bins=20, color="skyblue", edgecolor="black")
plt.title("Distribuição Uniforme [0,1)")
plt.xlabel("Valor")
plt.ylabel("Frequência")

# Distribuição Discreta de Inteiros [0,9]
# Cada número inteiro no intervalo tem chance igual de ser sorteado.
plt.subplot(1, 3, 2) # Cria uma grade de 1 linha e 3 colunas e seleciona o segundo eixo (o gráfico do centro) 
plt.hist(valores_inteiros, bins=np.arange(-0.5, 10.5, 1), rwidth=0.8,
         color="lightgreen", edgecolor="black")
plt.title("Distribuição Discreta de Inteiros [0,9]")
plt.xlabel("Inteiro")
plt.ylabel("Frequência")

# Distribuição Normal (Gaussiana)
# Os valores se concentram em torno da média, seguindo o formato de sino, com menor probabilidade à medida que se afastam dela.
plt.subplot(1, 3, 3) # Cria uma grade de 1 linha e 3 colunas e seleciona o terceiro eixo (o gráfico da direita) 
plt.hist(valores_normais, bins=30, color="salmon", edgecolor="black")
plt.title("Distribuição Normal (média=0, σ=1)")
plt.xlabel("Valor")
plt.ylabel("Frequência")

# Ajustar espaçamento
plt.tight_layout()
plt.show()

### Exercícios de fixação: Criando *ndarrays* no NumPy

Neste exercício, vamos praticar diferentes formas de criar **arrays** em NumPy.  

#### 1. Criando arrays a partir de listas
- Crie um array 1D a partir da lista `[1, 2, 3, 4, 5]`.
- Crie um array 2D a partir da lista `[[1, 2, 3], [4, 5, 6]]`.
- Verifique os atributos `.shape`, `.ndim` e `.dtype` de cada array.

#### 2. Arrays de valores especiais
- Crie um array de zeros com tamanho `10`.
- Crie um array de uns com tamanho `5x5`.
- Crie uma matriz identidade de dimensão `4x4`.
- Crie um array preenchido com o valor `7`, de tamanho `3x3`.

#### 3. Arrays com intervalos numéricos
- Use `np.arange` para criar um array de `0` até `20`, pulando de `2` em `2`.
- Use `np.linspace` para criar um array com **10 valores igualmente espaçados** entre `0` e `1`.

#### 4. Arrays aleatórios
- Gere um array `3x3` com valores aleatórios entre `0` e `1`.
- Gere um array `5x5` de inteiros aleatórios entre `10` e `50`.

Obs: explore funções como `np.array`, `np.zeros`, `np.ones`, `np.eye`, `np.full`, `np.arange`, `np.linspace` e `np.random`.


In [None]:
###
# Espaço destinado para respostas do exercício proposto:


##  5. Indexação e fatiamento (*slicing*)

Similar ao Python puro (já estudamos anteriormente).

In [None]:
# Indexação
a = np.array([10, 20, 30, 40, 50])
print(a[0])      # primeiro elemento
print()
print(a[-1])     # último elemento
print()
print(a[1:4])    # fatia

# Slicing
b = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(b[0, 1])   # elemento linha 0, coluna 1
print()
print(b[:, 1])   # toda a coluna 1
print()
print(b[1, :])   # toda a linha 1
print()
print(b[::2])      # de 2 em 2
print()
print(b[1:8:3])    # do 1 ao 7 pulando 3
print()
print(b[::-1])     # invertido

In [None]:
# Indexação de sub-arrays (arrays multidimensionais)
print("b[:2, :3] = ")
print(b[:2, :3]) # primeiras 2 linhas e primeiras 3 colunas

print("\nb[:3, ::2] = ")
print(b[:3, ::2]) # todas as linhas e colunas de 2 em 2

b

## 6. Concatenação e separação de arrays

É possível juntar ou separar arrays no `numpy` utilizando funções como:
- `concatenate` → junta arrays ao longo de um eixo já existente.  
- `hstack` → empilha arrays **horizontalmente** (colunas).  
- `vstack` → empilha arrays **verticalmente** (linhas).  
- `split` → divide um array em partes ao longo de um eixo.  
- `hsplit` → divide arrays **horizontalmente** (colunas).  
- `vsplit` → divide arrays **verticalmente** (linhas).  


In [None]:
# Concatenação com .concatenate()

# Arrays 1D
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print("Concatenando 1D:", np.concatenate([a, b]))

# Arrays 2D (matrizes)
M1 = np.array([[1, 2],
               [3, 4]])
M2 = np.array([[5, 6]])
print("\nConcatenando ao longo das linhas (axis=0):")
print(np.concatenate([M1, M2], axis=0)) # M1 concat M2
# une por baixo

M3 = np.array([[7],
               [8]])
print("\nConcatenando ao longo das colunas (axis=1):")
print(np.concatenate([M1, M3], axis=1)) # M1 concat M3
# une pela direita


In [None]:
# Concatenção com .vstack() e .hstack()

A = np.array([1, 2, 3])
B = np.array([4, 5, 6])

print("Vertical stack (linhas):")
print(np.vstack([A, B]))
# → [[1 2 3]
#    [4 5 6]]

print("\nHorizontal stack (colunas):")
print(np.hstack([A, B]))
# → [1 2 3 4 5 6]

In [None]:
# Separação / Divisão com .split()

x = np.arange(1, 10)  # [1 2 3 4 5 6 7 8 9]

# Dividir em 3 partes iguais
partes = np.split(x, 3)
print("Split em 3 partes iguais:", partes)

# Dividir em posições específicas
partes2 = np.split(x, [3, 7])
print("Split em posições [3,7]:", partes2)


In [None]:
# Separação / Divisão com .hsplit() e .vsplit()

M = np.arange(16).reshape(4, 4)
print("Matriz M:\n", M)

# Dividir verticalmente em 2 partes
print("\nDividindo com vsplit:")
print(np.vsplit(M, 2))   # divide em 2 blocos de linhas

# Dividir horizontalmente em 2 partes
print("\nDividindo com hsplit:")
print(np.hsplit(M, 2))   # divide em 2 blocos de colunas


In [None]:
# Exercício rápido:
# Divida um array aleatório de 12 elementos em outros 3 arrays de mesmo tamanho e atribua cada um a variáveis.


## 7. Operações vetorizadas

Os operadores matemáticos em Numpy operam elemento-a-elemento.

In [None]:
x = np.array([1, 2, 3, 4])
print(x * 2) # multiplicação por escalar
print(x + 10) # adição por escalar
print(x ** 2) # potência por escalar
print(np.sqrt(x)) # raiz quadrada
print(np.log(x))  # logaritmo natural
print(np.exp(x))  # exponencial

### Operadores matemáticos são chamadas de métodos em Numpy
- Operador **adição (+)**, equivale a `np.add` (por exemplo, 1 + 1 = 2)
- Operador **subtração (-)**, equivale a `np.subtract` (por exemplo, 3 - 2 = 1)
- Operador **negativo unário (-)**, equivale a `np.negative` (por exemplo, -2)
- Operador **multiplicação (*)**, equivale a `np.multiply` (por exemplo, 2 * 3 = 6)
- Operador **divisão (/)**, equivale a `np.divide` (por exemplo, 3 / 2 = 1.5)
- Operador **divisão inteira (//)**, equivale a `np.floor_divide` (por exemplo, 7 // 2 = 3)
- Operador **exponenciação**, equivale a `np.power`
- Operador **módulo (%)**, equivale a `np.mod` (por exemplo, 7 % 2 = 1)

In [None]:
# Exercício rápido 2:
# Mostre exemplos comparativos de todas operações acima conforme o exemplo:
print(np.add(x,10))
print(x + 10)

print(np.subtract(x,1))
print(x - 1)

print(np.negative(x))
...
# continue



## 8. Constantes matemáticas

O `numpy` possui um rico suporte de funções e constantes matemáticas. Exemplos de funções de trigonometria:  
- Valor de pi --> `np.pi`  
- Valor de e --> `np.e`  
- Função seno --> `np.sin(radiano)`  
- Função cosseno --> `np.cos(radiano)`  
- Função tangente --> `np.tan(radiano)`  
- Função arcoseno -->  `np.arcsin(radiano)`  
- Função arcocosseno -->  `np.arccos(radiano)`  
- Função arcotangente --> `np.arctan(radiano)`  

In [None]:
# Exemplos de uso de funções trigonométricas em numpy

# Constantes matemáticas
print("Valor de pi:", np.pi) # π
print("Valor de e:", np.e) # exponencial (base do logaritmo natural)

# Funções trigonométricas básicas
angulo = np.pi / 4  # 45 graus em radianos
print("\nSeno(π/4):", np.sin(angulo)) # seno
print("Cosseno(π/4):", np.cos(angulo)) # cosseno
print("Tangente(π/4):", np.tan(angulo)) # tangente

# Funções trigonométricas inversas
valor = 1 / np.sqrt(2)  # seno de 45 graus
print("\nArcoseno(1/√2):", np.arcsin(valor))  # arcseno
print("Arcocosseno(1/√2):", np.arccos(valor)) # arccosseno
print("Arcotangente(1):", np.arctan(1))  # arctangente

## 9. Estatísticas básicas sobre arrays

O `numpy` fornece várias funções para cálculos estatísticos sobre arrays:
- `sum()` → soma dos elementos  
- `mean()` → média aritmética  
- `std()` → desvio padrão  
- `var()` → variância
- `cov()` → co-variância
- `min()` / `max()` → valor mínimo e máximo  
- `argmin()` / `argmax()` → índices do valor mínimo e máximo  
- `median()` → mediana  
- `percentile()` → percentis (ex.: quartis, mediana)  
- `cumsum()` → soma acumulada  
- `cumprod()` → produto acumulado  


In [None]:
# Exemplos:
dados = np.array([5, 10, 15, 20, 25])
print("Soma:", dados.sum())
print("Média:", dados.mean())
print("Mediana:", np.median(dados))
print("Variância:", np.var(dados))
print("Co-variância:", np.cov(dados))
print("Desvio padrão:", dados.std())
print("Mínimo:", dados.min())
print("Máximo:", dados.max())
print("Índice do valor mínimo:", dados.argmin())
print("Índice do valor máximo:", dados.argmax())
print("Ordenação (decrescente):", np.sort(dados)[::-1])
print("Percentil 25%:", np.percentile(dados, 25))
print("percentil 75%:", np.percentile(dados, 75))

## 8. Reshape e flatten
Mudar a forma de um array sem alterar os dados.

In [None]:
arr = np.arange(1, 13) # cria um array com valores de 1 a 12
print("Array original:\n", arr)
print("\nArray rearranjado para 3x4:\n", arr.reshape(3, 4)) # reshape para 3 linhas e 4 colunas
print("\nArray rearranjado para 2x6:\n", arr.reshape(2, 6)) # reshape para 2 linhas e 6 colunas
print("\nArray 'achatado' em 1 dimensão:\n", arr.flatten()) # transforma em array 1D

## 9. Operações entre arrays de tamanhos diferentes (broadcasting)
O `numpy` permite operações entre arrays de tamanhos diferentes automaticamente. Esta técnica é conhecida como broadcasting.

In [None]:
# Exemplo de broadcasting
matriz = np.ones((3, 3)) # matriz 3x3
vetor = np.array([1, 2, 3]) # array 1d
print(matriz + vetor) # broadcasting (soma o vetor 'a' a cada linha da matriz 'M')

#### Regras do broadcasting

O broadcasting no `numpy` segue um conjunto de regras para determinar a interação entre dois arrays:

- Regra 1: Se os dois arrays diferirem no número de dimensões, a forma (shape) daquele com menos dimensões é preenchida com 1's no início (lado esquerdo).

- Regra 2: Se as formas dos dois arrays não coincidirem em alguma dimensão, o array cuja forma nessa dimensão seja igual a 1 é expandido para coincidir com a outra forma.

- Regra 3: Se em qualquer dimensão os tamanhos forem diferentes e nenhum deles for igual a 1, ocorre um erro.

#### Exemplo de broadcasting

Vamos supor que precisamos de somar um array 2D a um array 1D:

In [None]:
M = np.ones((2, 3))
print(M)
print()
a = np.arange(3)
print(a)

Vamos considerar uma operação sobre estes dois arrays, que possuem as seguintes formas (shapes):

- `M.shape` é `(2, 3)`
- `a.shape` é `(3,)`

Pela **regra 1**, vemos que o array `a` tem menos dimensões, então o preenchemos à esquerda com 1's:

- `M.shape` continua sendo `(2, 3)`
- `a.shape` se torna `(1, 3)`

Pela **regra 2**, agora vemos que a primeira dimensão não coincide, então expandimos essa dimensão para corresponder:

- `M.shape` continua sendo `(2, 3)`
- `a.shape` se torna `(2, 3)`

Agora as formas coincidem, e vemos que a forma final será `(2, 3)`

In [None]:
M + a

O broadcasting:
- Simplifica o código, evitando laços (for) explícitos.
- Economiza memória, porque não cria cópias completas, só “finge” expandir os dados.
- Acelera cálculos, aproveitando operações vetorizadas do `numpy`.

## 10. Álgebra linear
`numpy` tem módulo `np.linalg` para operações matriciais.

In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

print("Produto matricial:\n", A @ B)
print("Determinante:", np.linalg.det(A))
print("Inversa:\n", np.linalg.inv(A))
print("\nTransposta de A:\n", A.T)

# Produto escalar (dot product)
v = np.array([1, 2])
w = np.array([3, 4])
print("\nProduto escalar v·w:", np.dot(v, w))

# Norma (tamanho do vetor)
print("Norma de v:", np.linalg.norm(v))

# Autovalores e autovetores
vals, vecs = np.linalg.eig(A)
print("\nAutovalores de A:\n", vals)
print("Autovetores de A:\n", vecs)

# Sistema linear Ax = b
b_vec = np.array([5, 6])
x = np.linalg.solve(A, b_vec)
print("\nSolução de Ax=b:", x)

## 11. Mini-projeto: Analisando Notas de uma Turma com NumPy

*Objetivo*: praticar os conceitos básicos de `numpy` aplicando-os na análise de notas de uma turma fictícia.  

*Contexto*: você é responsável por analisar o desempenho de uma turma de **5 alunos** em **4 disciplinas**: **Matemática, Física, Química e Programação**. Cada aluno fez uma prova em cada disciplina, e suas notas estão em um array `numpy`. As notas foram registradas em uma escala de **0 a 10**.

#### Dados
Crie a matriz de notas a seguir (cada linha representa um aluno e cada coluna uma disciplina).
Execute a célula abaixo para carregar os dados iniciais.

In [None]:
import numpy as np

# Linhas = alunos, colunas = [Matemática, Física, Química, Programação]
notas = np.array([
    [7.5, 8.0, 6.5, 9.0],   # Aluno 1
    [6.0, 7.0, 8.0, 7.5],   # Aluno 2
    [9.0, 8.5, 9.5, 10.0],  # Aluno 3
    [5.5, 6.0, 5.0, 6.5],   # Aluno 4
    [8.0, 7.5, 8.5, 9.0]    # Aluno 5
], dtype=float)

disciplinas = np.array(["Matemática", "Física", "Química", "Programação"])
alunos = np.array([f"Aluno {i}" for i in range(1, 6)])

print("Matriz de Notas (5x4):\n", notas)
print("\nDisciplinas:", disciplinas)
print("Alunos:", alunos)



### Exercício 1 – Estatísticas da turma
**Tarefas:**
1. Calcule:
   - **Soma** de todas as notas (`sum`)
   - **Média** da turma (`mean`)
   - **Desvio padrão** (`std`)
   - **Variância** (`var`)
   - **Mínimo** e **máximo** (`min`, `max`)
2. Descubra:
   - O **índice do aluno com maior nota média** (`argmax` sobre as médias por aluno)
   - A **média por aluno** (`axis=1`)
   - A **média por disciplina** (`axis=0`)
   - A **mediana** (`np.median`)
   - Os **percentis 25% e 75%** (`np.percentile`)


In [None]:

###
# Espaço destinado para respostas do exercício proposto:

# Dica: use notas.sum(), notas.mean(), etc.




### Exercício 2 – Broadcasting e operações
Considere novamente a matriz `notas`.

1. Crie o vetor de bonificação para cada disciplina:
```python
bonus = np.array([0.5, 1.0, 0.0, 0.5])
```
2. Some esse vetor a todas as linhas da matriz usando **broadcasting**.
3. Explique o que aconteceu com cada elemento da matriz.
4. Calcule a **nota final de cada aluno** considerando os pesos:
   - Matemática: `0.3` — Física: `0.2` — Química: `0.2` — Programação: `0.3` (use produto matricial)
5. Descubra:
   - Qual aluno obteve a **maior nota final**
   - A **média das notas finais**
   - Quantos alunos ficaram **acima da média da turma** (das notas finais)


In [None]:
###
# Espaço destinado para respostas do exercício proposto:
