<a href="https://colab.research.google.com/github/humbertozanetti/estruturadedados/blob/main/Notebooks/Estrutura_de_Dados_Aula_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **ESTRUTURA DE DADOS - AULA 03**
# **Prof. Dr. Humberto A. P. Zanetti**
# Fatec Deputado Ary Fossen - Jundiaí


---

**Conteúdo da aula:**
+ NumPy
  - Vetores
  - Matrizes
+ Introdução a manipulação de arquivos





---

# **A biblioteca NumPy**

A biblioteca **NumPy** (*Numerical Python*) é especializada em computação númerica, incluindo o trabalho com **arrays** (vetores) e **matrizes** e possui uma grande coleção de funções matemáticas eficientes para operações em larga escala.
Entre as principais vantagens do uso do NumPy, destacam-se:
+ Melhor desempenho que listas Python para operações matemáticas.
+ Usa menos memória para armazenar dados.
+ Possui operações vetorizadas que eliminam a necessidade de loops explícitos.
+ Integração com outras bibliotecas científicas, como Pandas, Matplotlib e SciPy.

Muito simples e objetivo ao uso, como podemos ver abaixo:

In [None]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])
print(vetor)


## **Por que estudar vetores e matrizes, além das listas?**

Vetores são mais eficientes e rápidos porque armazenam elementos de mesmo tipo e usam operações otimizadas, desenvolvidas em C (interligando o kernel CPython).  
Listas em Python são mais flexíveis, mas menos eficientes, pois armazenam objetos genéricos, e com isso, utilizam mais memória.  
Vetores e matrizes trazem vantagens em relação a busca, ordenação, entre outras operações, em relação à listas.  
Isso é muito nítido, até mesmo em um simples código podemos notar:

In [None]:
import numpy as np
import time

lista = list(range(1_000_000))
array = np.array(lista)

inicio_lista = time.time()
[lista[i] * 2 for i in range(len(lista))]
print('Tempo lista:', time.time() - inicio_lista)

inicio_array = time.time()
array * 2
print('Tempo array:', time.time() - inicio_array)


![listaxarray](https://github.com/humbertozanetti/estruturadedados/blob/main/Notebooks/imagens/listaxarray.png?raw=1)


| Característica | Array	| Lista |   
| :------------ | :---:  | :---: |
| **Eficiência** |	Alta (mais rápido) | 	Baixa (mais lento) |
| **Tipos de dados** | Um único tipo	| Qualquer tipo |
| **Operações matemáticas** |	Vetorizadas (rápidas) |	Precisa de loops |
| **Uso de memória** |	Menor	| Maior |

Nessa aula não é possível abordar tudo o que há no Numpy, mas ele possui um excelente [documentação](https://numpy.org/doc/2.2/reference/index.html) e um [manual](https://numpy.org/doc/2.2/numpy-user.pdf) bem organizado.

## **Criando vetores e matrizes**

Como visto anteriormente, um vetor em NumPy é criado a partir de **uma lista**.

In [None]:
import numpy as np

vetor = np.array([1, 2, 3, 4, 5])
print(vetor)

E é igualmente simples criar uma matriz, também a partir de uma lista (de listas).

In [None]:
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print(matriz)


Uma particularidade que deve ser notada é que se cria um **vetor** após a inserção da lista, mas ainda temos que seguir a regra que **um vetor deve ser homogêneo, ou seja, com todos os elementos do mesmo tipo!**

In [None]:
vetor = np.array([1, 2, 3, 4, 5.0])
print(vetor)

Um potencial de uso da NumPy é a coleção de propriedades que temos ao utilizá-la.

In [None]:
print(vetor.shape)   # tamanho do vetor
print(matriz.shape)  # dimensão da matriz

print(vetor.ndim)    # número de dimensões
print(matriz.ndim)

print(vetor.size)    # número total de elementos
print(matriz.size)


Podemos também usar funções especiais de criação de vetores e matrizes.  

In [None]:
print(np.zeros(5))          # vetor com 5 zeros
print(np.zeros((2, 3)))     # matriz 2x3 de zeros
print(np.ones((3, 3)))      # matriz 3x3 de uns
print(np.eye(3))            # matriz identidade 3x3
print(np.arange(0, 10, 2))  # sequência de 0 a 10 com passo 2
print(np.linspace(0, 1, 5)) # 5 valores igualmente espaçados entre 0 e 1


In [None]:
mat_ide = np.eye(3)
print(mat_ide)

## **Operações matemáticas**

Um dos maiores destaques do uso de NumPy é a possibilidade de executar operações de forma muito mais ágil e sem uso de laços de repetição.

**Operação elemento a elemento**

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print(a + b)
print(a - b)
print(a * b)
print(a / b)
print(a + 10)

**Multiplicação de matrizes**

In [None]:
matriz1 = np.array([[1, 2], [3, 4]])
matriz2 = np.array([[5, 6], [7, 8]])

produto = np.dot(matriz1, matriz2)
print(produto)


**Funções estatísticas**

In [None]:
dados = np.array([5, 10, 15, 20, 25])

print(np.mean(dados))   # Média
print(np.median(dados)) # Mediana
print(np.std(dados))    # Desvio padrão
print(np.sum(dados))    # Soma total
print(np.max(dados))    # Máximo
print(np.min(dados))    # Mínimo


Exemplo:

In [None]:
temperaturas = np.array([25, 27, 26, 30, 28, 29, 31])
print(f'Média da semana: {np.mean(temperaturas):.2f}°C')

## **Indexação e fatiamento**

Assim como em listas, podemos trabalhar com os índices e fatiamento.

**Fatiamento**

In [None]:
arr = np.array([10, 20, 30, 40, 50])
print(arr[0])    # Primeiro elemento
print(arr[-1])   # Último elemento
print(arr[1:4])  # Elementos do índice 1 ao 3

In [None]:
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(matriz)
print(matriz[0, 1])   # Elemento na primeira linha, segunda coluna
print(matriz[:, 1])   # Segunda coluna inteira
print(matriz[1, :])   # Segunda linha inteira

Podemos também acessar os elementos individualmente, como em lsitas, utilizando **for**.

In [None]:
vetor = np.array([10, 20, 30, 40, 50])

for elemento in vetor:
    print(elemento)

Há também uma função específica para isso, a `ndinter()`.

In [None]:
for elemento in np.nditer(vetor):
    print(elemento)

A função `enumerate()` também funciona com NumPy.

In [None]:
for i, elemento in enumerate(vetor):
    print(f'Índice {i}: {elemento}')

Com matrizes também funcionam.

In [None]:
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

for linha in matriz:
    print(linha)

In [None]:
for linha in matriz:
    for elemento in linha:
        print(elemento, end=' ')

In [None]:
for elemento in np.nditer(matriz):
    print(elemento, end=' ')

In [None]:
for i, linha in enumerate(matriz):
    print(f'Linha {i}: {linha}')

In [None]:
linhas, colunas = matriz.shape

for i in range(linhas):
    for j in range(colunas):
        print(f'Elemento[{i},{j}] = {matriz[i, j]}')

# **Manipulação de arquivos**

Utilizar uma biblioteca como a NumPy faz mtuio sentido quando lidamos com grande número de dados. Geralmente essa grande massa de dados está associada à um base externa, como um arquivo.  
A biblioteca NumPy é preparada para atuar com arquivos estruturados de dados, como o formato **.csv** (*Comma-Separated Values* ou Valores Separados por Vírgulas), comum em editores de planilhas.  
Para praticar durante a aula, vamos fazer um script de criação de um arquivo `dados.csv`. Esse arquivo ficará acessível para nosso notebook e se encontra na aba **arquivos** (ícone de pasta, ao lado esquerdo).

```
10,20,30
40,50,60
70,80,90
```


In [None]:
with open('dados.csv', 'w') as f:
    f.write('10,20,30\n40,50,60\n70,80,90\n')

Para carregar um arquivo de dados é bem simples em NumPy:

In [None]:
dados = np.loadtxt('dados.csv', delimiter=',')
print(dados)

Note que o formato CSV o separador vírgula é definido como um argumento nomeado `delimiter`.  
Depois dessa simples instrução, a matriz `dados` terá os dados, separados por linha e coluna. Com isso, podemos fazer algumas operações estatísticas com esses dados.

In [None]:
print(f'Média: {np.mean(dados)}')
print(f'Máximo: {np.max(dados)}')
print(f'Mínimo: {np.min(dados)}')
print(f'Soma de todos os valores: {np.sum(dados)}')

E filtros:

In [None]:
dados = np.loadtxt('dados.csv', delimiter=',')
filtro = dados > 30
print(dados[filtro])  # Mostra apenas os valores maiores que 30

Também é possível possível salvar novamente, em até mesmo em um arquivo diferente:

In [None]:
np.savetxt('dados_processados.csv', dados * 2, delimiter=',', fmt='%.2f')

**EXERCÍCIOS**

1. Crie um vetor contendo números de 1 a 1000, e depois:
  + Eleve todos os elementos ao quadrado.
  + Filtre e exiba apenas os valores maiores que 30.
  + Calcule e exiba a média e o desvio padrão do vetor resultante.

**Dica:** explore o seguinte comando: `vetor_int = np.random.randint(1, 10, size=5)`


2. Crie uma matriz 3x3 com números inteiros aleatórios entre 100 e 999.  
  + Exiba a matriz gerada.
  + Calcule e exiba a soma de todos os elementos da matriz.
  + Encontre e exiba o maior e o menor valor da matriz.
  + Calcule e exiba a média dos valores de cada linha.
   

**Dica:** explore o seguinte comando: `matriz_int = np.random.randint(1, 100, size=(2, 2))`



3. Ler uma matriz de um arquivo CSV.
  + Inverter a matriz original usando NumPy.
  + Salvar a matriz invertida em um novo arquivo CSV.
  + Zerar (colocar zeros) na diagonal principal da matriz original
  + Salvar a matriz com a diagonal zerada em um novo arquivo CSV.

  **Dicas**:
  + Existem as funções `linalg.det()`, que mostra o determinante; e a função `linalg.inv()`, para geração matriz invertida. Pesquise o uso dessas funções;
  + Existe a função `fill_diagonal()`, pesquise como usar.