In [3]:
import numpy as np

# CONCEITOS BÁSICOS EM NUMPY

___
O conteudo abaixo é um resumo de diferentes cursos estudados, são eles:

- Fundamentos de Linguagem Python para Análise de dados - DSA;
-  
___


## O que é o NumPy?
O NumPy (Numerical Python) é uma biblioteca fundamental para computação científica em Python. Ele fornece suporte para arrays e matrizes multidimensionais, juntamente com uma ampla coleção de funções matemáticas, lógicas e estatísticas para operar eficientemente sobre esses arrays. 

Criada em 2005 como sucessora do Numeric, o NumPy se tornou uma ferramenta indispensável para qualquer trabalho que exija cálculos numéricos, seja em áreas como ciência de dados, machine learning ou visualização de dados.

A grande diferença do NumPy em comparação com outras estruturas em Python está em sua capacidade de realizar cálculos eficientes, aproveitando ao máximo o processamento vetorial e matricial, o que resulta em uma grande melhoria de performance.

## O que são arrays?
No NumPy, **os arrays são estruturas de dados homogêneas que armazenam elementos de um mesmo tipo.** Eles podem ser **unidimensionais (vetores)** ou **multidimensionais (matrizes ou tensores)**. 

**Escalar**: um elemento único, adimensional. Pode ser um inteiro, float, hexadecimal, caractere, e vários outros tipos de dado.

Ex.: `np.array(42)`

**Array unidimensional**: uma lista de escalares onde podemos identificar cada um deles pela sua posição, ou índice, na lista. É preciso ressaltar que todos os elementos escalares aqui possuem o mesmo tipo, e que se não for especificado durante a definição do array, o Numpy trabalhará uma rotina para determinar o tipo que garanta a característica homogênea.

Ex.: `np.array([4, 5, 22, 20])`


**Array bidimensional**: uma lista de arrays unidimensionais, com o formato de uma matriz (tabela), onde precisamos especificar uma posição de linha e uma posição de coluna para localizar um elemento escalar.

Ex.: `np.array([[3, 2, 7], [4, 9, 1], [5, 6, 8]])`



Diferentemente das listas do Python, que podem conter elementos de diferentes tipos, os arrays NumPy são otimizados para executar operações matemáticas de forma muito mais rápida.

Além disso, os arrays NumPy permitem operações vetoriais, que processam múltiplos elementos ao mesmo tempo, aumentando a eficiência computacional em comparação com as listas Python, que precisam ser iteradas manualmente.

![image.png](attachment:80cb90c7-ab98-40de-b2ed-b0d5c1d6b8e2.png)

In [3]:
# np.loadtxt('apples_ts.csv', delimiter=',', usecols=np.arange(1, 88, 1))

## Criando Arrays Numpy

In [4]:
# Array criado a partir de uma lista python
arr1 = np.array([10, 21, 32, 43, 48, 15, 76, 57, 89])

arr1

array([10, 21, 32, 43, 48, 15, 76, 57, 89])

In [5]:
# Criando array Bidimensional
arr2 = np.array([[3, 2, 7], [4, 9, 1], [5, 6, 8]])
#                Coluna 1    Coluna 2   Coluna 3

arr2

array([[3, 2, 7],
       [4, 9, 1],
       [5, 6, 8]])

**Outras maneiras de criar arrays**

In [28]:
# Zeros, Uns, Range e Aleatórios
np.zeros((2, 3))      # Matriz 2x3 com zeros

array([[0., 0., 0.],
       [0., 0., 0.]])

In [29]:
np.ones((3, 3))       # Matriz 3x3 com uns

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [30]:
np.arange(0, 10, 2)   # [0 2 4 6 8]

array([0, 2, 4, 6, 8])

In [31]:
np.random.rand(2, 3)  # Matriz aleatória 2x3

array([[0.75289799, 0.72013166, 0.96843239],
       [0.27626626, 0.90778011, 0.19951053]])

___

## Indexação em Arrays NumPy

- **O que é Indexação?**

Indexar significa acessar um elemento específico do array, informando a sua posição. É semelhante às listas do Python, mas o NumPy também aceita indexação em múltiplas dimensões (matrizes, por exemplo).

- **O que é Fatiamento (Slicing)?**

Fatiar significa pegar um subconjunto do array — uma “fatia” dele — usando a notação inicio:fim:passo.

In [6]:
print(arr1)

[10 21 32 43 48 15 76 57 89]


In [7]:
# Imprimindo um elemento específico no array
arr1[4] # Quero o elemento do indice 4

np.int64(48)

In [9]:
# Fatiamento
arr1[1:4]

array([21, 32, 43])

In [10]:
arr1[:2]

array([10, 21])

**Indexação em Arrays 2D**

Em matrizes (ou seja, arrays 2D), você precisa passar dois índices:

In [11]:
print(arr2)

[[3 2 7]
 [4 9 1]
 [5 6 8]]


In [12]:
arr2[0, 0]

np.int64(3)

In [14]:
arr2[1, 2]  # 1 (segunda linha, terceira coluna)

np.int64(1)

**Fatiamento em Arrays 2D**

In [53]:
arr2

array([[3, 2, 7],
       [4, 9, 1],
       [5, 6, 8]])

In [19]:
# todas as linhas, apenas coluna 1
arr2[:, 1]    # [2, 9, 6]

array([2, 9, 6])

In [20]:
# apenas linha 0, todas as colunas
arr2[0, :]    # [3, 2, 7]

array([3, 2, 7])

In [21]:
# linhas 0 e 1, colunas 1 e 2
arr2[0:2, 1:3]  # [[2, 7]
                #  [9, 1]]

array([[2, 7],
       [9, 1]])

**Índices booleanos**

O NumPy também permite selecionar elementos usando condições:

In [23]:
arr1[arr1 > 40] # Valores no array maior que 40

array([43, 48, 76, 57, 89])

**Alterando elementos de um array**

In [24]:
# Alterando um elemento do array
arr1[0] = 100

In [25]:
arr1

array([100,  21,  32,  43,  48,  15,  76,  57,  89])

___

## Funções NumPy

No geral, as funções do NumPy servem para operações vetorizadas (ou seja, operam sobre arrays inteiros de uma vez), sem precisar de loops explícitos, o que as torna muito rápidas.

In [32]:
arr3 = np.array([[1, 2, 3], [4, 5, 6]])

arr3

array([[1, 2, 3],
       [4, 5, 6]])

In [34]:
arr3.shape # (2, 3) -> 2 Linhas, 3 Colunas 

(2, 3)

In [35]:
arr3.ndim # Número de dimensões (eixos)

2

In [64]:
arr3.size # Número total de elementos

6

In [65]:
arr3.itemsize # Quantidade de Bits no array

8

In [66]:
arr3.nbytes # Quantidade de bytes no array

48

In [37]:
arr3.dtype # Tipo dos dados (int64)

dtype('int64')

**1. Funções matemáticas básicas**

In [40]:
a = np.array([1, 2, 3, 4])

np.sum(a)        # soma: 10
np.mean(a)       # média: 2.5
np.std(a)        # desvio padrão
np.var(a)        # variância
np.max(a)        # maior valor
np.min(a)        # menor valor
np.prod(a)       # produto de todos os elementos: 24

np.int64(24)

**2. Funções de álgebra linear**

In [41]:
m = np.array([[1, 2],
              [3, 4]])

np.transpose(m)           # transposta
np.linalg.inv(m)          # inversa
np.dot(m, m)              # produto matricial
np.linalg.det(m)          # determinante

np.float64(-2.0000000000000004)

**3. Funções estatísticas** 

Para análise de dados, são fundamentais:

In [42]:
np.median(a)     # mediana
np.percentile(a, 75)  # percentil
np.quantile(a, 0.25)  # quartil

np.float64(1.75)

**4. Funções de criação de arrays**

Para gerar rapidamente dados de teste:

In [43]:
np.zeros((2,3))      # matriz 2x3 de zeros
np.ones((4,4))       # matriz 4x4 de uns
np.eye(3)            # matriz identidade 3x3
np.arange(0, 10, 2)  # array de 0 a 10, passo 2
np.linspace(0, 1, 5) # 5 valores igualmente espaçados entre 0 e 1

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

**5. Funções de manipulação:**

Para mudar a forma do array, reorganizar dados, etc.:

In [46]:
a

array([1, 2, 3, 4])

In [47]:
a.reshape((2, 2))   # muda o formato

array([[1, 2],
       [3, 4]])

In [48]:
a.flatten()         # “achata” (vira 1D)

array([1, 2, 3, 4])

In [49]:
np.concatenate([a, a])  # concatena arrays

array([1, 2, 3, 4, 1, 2, 3, 4])

___

## Broadcasting
Permite fazer operações entre arrays de formas diferentes, desde que compatíveis.

In [55]:
a = np.array([1, 2, 3])
b = 2
a + b   # [3 4 5] – soma 2 a cada elemento

array([3, 4, 5])

In [58]:
arr2

array([[3, 2, 7],
       [4, 9, 1],
       [5, 6, 8]])

In [61]:
# Vamos somar o 'arr2' com a variável 'b'
arr2 + b

array([[ 5,  4,  9],
       [ 6, 11,  3],
       [ 7,  8, 10]])

In [67]:
arr2 * b

array([[ 6,  4, 14],
       [ 8, 18,  2],
       [10, 12, 16]])

In [68]:
arr2 / b

array([[1.5, 1. , 3.5],
       [2. , 4.5, 0.5],
       [2.5, 3. , 4. ]])

In [69]:
arr2 - b

array([[ 1,  0,  5],
       [ 2,  7, -1],
       [ 3,  4,  6]])

## Manipulação de Arquivos com NumPy

___

## Análise Estatísica Básica com NumPy

In [73]:
# Criando um array
arr5 = np.array([15, 23, 63, 94, 75])

Em Estatística, a média é uma medida de tendência central que representa o valor central de um conjunto de dados. É calculada somando-se todos os valores do conjunto de dados e dividindo-se pelo número de observações.

In [77]:
# Média 
np.mean(arr5)

np.float64(54.0)

O desvio padrão é uma medida estatística de dispersão que indica o quanto os valores de um conjunto de dados se afastam da média. Ele é calculado como a raiz quadrada da variância, que é a média dos quadrados das diferenças entre cada valor e a média.

O desvio padrão é uma medida útil porque permite avaliar a variabilidade dos dados em torno da média. Se os valores estiverem próximos da média, o desvio padrão será baixo, indicando que os dados têm pouca variabilidade. Por outro lado, se os valores estiverem muito distantes da média, o desvio padrão será alto, indicando que os dados têm alta variabilidade.

O desvio padrão é amplamente utilizado em Análise e Ciência de Dados, para avaliar a consistência dos dados e comparar conjuntos de dados diferentes. É importante notar que o desvio padrão pode ser influenciado por valores extremos (outliers) e pode ser afetado por diferentes distribuições de dados.

In [78]:
# Desvio Padrão (Standard Deviation)
np.std(arr5)

np.float64(30.34468652004828)

A variância é uma medida estatística que quantifica a dispersão dos valores em um conjunto de dados em relação à média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média.

A fórmula para o cálculo da variância é:

var = 1/n * Σ(xi - x̄)^2

Onde:

var é a variância
n é o número de observações
Σ é o somatório
xi é o i-ésimo valor no conjunto de dados
x̄ é a média dos valores
A variância é uma medida útil para avaliar a variabilidade dos dados em torno da média. Se a variância for baixa, isso indica que os valores estão próximos da média e têm pouca variabilidade. Por outro lado, se a variância for alta, isso indica que os valores estão distantes da média e têm alta variabilidade.

In [79]:
# Variância
np.var(arr5)

np.float64(920.8)