# Introdu√ß√£o ao NumPy - Base Computacional do Pandas

## Contexto Hist√≥rico e Import√¢ncia

Criado em 2006, por Travis Oliphant, sua cria√ß√£o foi motivada devida a necessidade de computa√ß√£o cient√≠fica eficiente em Python.

O Pandas √© constru√≠do sobre o NumPy! Internamente, cada DataFrame e Series utiliza arrays NumPy para:

- Performance: Opera√ß√µes vetorizadas em C/Fortran

- Efici√™ncia de mem√≥ria: Arrays tipados vs listas Python

- Compatibilidade: Integra√ß√£o com ecossistema cient√≠fico (SciPy, Matplotlib, Scikit-learn)

---

In [8]:
import numpy as np

## Bloco 1 - Diferen√ßa: Listas vs Arrays

**Comportamento de Listas Python**

In [9]:
lista_precos = [10, 20, 30]
print(f"Lista Python multiplicadas: {lista_precos * 2}")

Lista Python multiplicadas: [10, 20, 30, 10, 20, 30]


Caracter√≠sticas das listas Python:

- Multiplica√ß√£o: Replica elementos (concatena√ß√£o)

- Tipos mistos: Pode conter int, str, float simultaneamente

- Overhead: Cada elemento √© um objeto Python completo

- Opera√ß√µes: Requerem loops expl√≠citos para matem√°tica

---

## Bloco 2 - Poder dos Arrays NumPy

**Opera√ß√µes Vetorizadas**

In [10]:
array_precos = np.array([10, 20, 30])
print(f"Lista Python multiplicadas: {array_precos * 2}")

Lista Python multiplicadas: [20 40 60]


Vantagens dos arrays NumPy:

- Opera√ß√µes elemento-wise: Aplicadas a todos os valores simultaneamente

- Tipos homog√™neos: Todos elementos do mesmo tipo (int64, float64, etc.)

- Efici√™ncia: Implementado em C, muito mais r√°pido

- Sintaxe intuitiva: Opera√ß√µes matem√°ticas naturais

---

## Bloco 3 - Arrays Multidimensionais

**Estruturas N-Dimensionais**

In [11]:
# Altura, largura e profundidade

dimensoes = np.array([
    [10, 20, 30],
    [20, 25, 40],
    [30, 35, 50]
])

Conceitos fundamentais:

- Matriz 2D: 3 linhas (caixas) √ó 3 colunas (dimens√µes)

- Indexa√ß√£o: [linha, coluna] para acesso espec√≠fico

- Aplica√ß√µes: Dados tabulares, imagens, matrizes matem√°ticas

üí° Analogia: Como uma planilha Excel, mas com superpoderes matem√°ticos!

---

## Bloco 4 - Propriedades dos Arrays

**Inspe√ß√£o de Estruturas**

In [12]:
print(dimensoes.shape) # (3, 3) - 3 linhas, 3 colunas
print(dimensoes.size) # Melhor do que len, pois sabe o espa√ßo antes de ser perguntado. Nesse caso 9 espa√ßos.
print(dimensoes.dtype) # dtype('int64') - Tipo dos dados

(3, 3)
9
int64


Propriedades essenciais:

- `.shape`: Dimens√µes do array (tupla com tamanhos por eixo)

- `.size`: N√∫mero total de elementos

- `.dtype`: Tipo de dados (int32, float64, bool, etc.)

- `.ndim`: N√∫mero de dimens√µes (1D, 2D, 3D, etc.)

---

## Bloco 5 - Indexa√ß√£o e Slicing Avan√ßado

**Sele√ß√£o Precisa de Dado**

In [13]:
primeira_caixa = dimensoes[0, :] # Primeira linha completa
todas = dimensoes[:] # Todas as linhas
alturas = dimensoes[:, 0] # Primeira coluna (alturas)

print(f"Primeira caixa: {primeira_caixa}\n")    # [10 20 30]
print(f"Todas as caixas:\n{todas}\n")           # Array completo  
print(f"Todas as alturas: {alturas}")           # [10 20 30]

Primeira caixa: [10 20 30]

Todas as caixas:
[[10 20 30]
 [20 25 40]
 [30 35 50]]

Todas as alturas: [10 20 30]


Sintaxe de indexa√ß√£o:

- `[linha, coluna]`: Sele√ß√£o espec√≠fica

- `[:]`: Seleciona tudo naquela dimens√£o

- `[0, :]`: Linha 0, todas as colunas

- `[:, 0]`: Todas as linhas, coluna 0

üí° Conex√£o com Pandas: Mesma l√≥gica usada em `.iloc[]` e `.loc[]`.

---

## Bloco 6 - Opera√ß√µes Estat√≠sticas

**An√°lise R√°pida de Dados**

In [14]:
alturas = dimensoes[:, 0]           # [10, 20, 30]
media_alturas = np.mean(alturas)    # 20.0
media_geral = np.mean(dimensoes)    # 28.333...

print(f"M√©dia das alturas: {media_alturas}")
print(f"M√©dia geral: {media_geral:.2f}")

M√©dia das alturas: 20.0
M√©dia geral: 28.89


**Fun√ß√µes estat√≠sticas NumPy:**

In [None]:
np.mean()    # M√©dia aritm√©tica
np.median()  # Mediana
np.std()     # Desvio padr√£o
np.min()     # Valor m√≠nimo
np.max()     # Valor m√°ximo
np.sum()     # Soma total

üí° Performance: Implementadas em C, muito mais r√°pidas que equivalentes Python.

---

## Bloco 7 - Benchmark de Performance

**Compara√ß√£o: NumPy vs Python Nativo**

In [15]:
import time

In [21]:
# Configura√ß√£o do teste
n_transacoes = 10_000_000

# Dados NumPy
dados_numpy = np.random.rand(n_transacoes)

# Dados Python (lista)
dados_python = [np.random.rand() for _ in range(n_transacoes)]

print(f"Testando com {n_transacoes:,} transa√ß√µes...")

Testando com 10,000,000 transa√ß√µes...


In [22]:
# Teste NumPy
inicio = time.time()
resultado_numpy = np.mean(dados_numpy)
tempo_numpy = time.time() - inicio

print(f"NumPy:  {tempo_numpy:.4f}s - Resultado: {resultado_numpy:.6f}")

NumPy:  0.0221s - Resultado: 0.499905


In [23]:
# Teste Python
inicio = time.time()
resultado_python = sum(dados_python) / len(dados_python)
tempo_python = time.time() - inicio

print(f"Python: {tempo_python:.4f}s - Resultado: {resultado_python:.6f}")

Python: 0.0559s - Resultado: 0.500095


In [24]:
# Compara√ß√£o
speedup = tempo_python / tempo_numpy

print(f"NumPy √© {speedup:.1f}x mais r√°pido!")

NumPy √© 2.5x mais r√°pido!


Aplica√ß√µes Pr√°ticas:

- DataFrames grandes: Milh√µes de linhas processadas rapidamente

- Opera√ß√µes matem√°ticas: C√°lculos financeiros, estat√≠sticos

- Machine Learning: Algoritmos baseados em √°lgebra linear

- Visualiza√ß√µes: Matplotlib tamb√©m usa NumPy

üí° Conceito Central: NumPy n√£o √© apenas uma biblioteca - √© a infraestrutura que torna Python vi√°vel para ci√™ncia de dados. Sem NumPy, Pandas seria imposs√≠vel!