Okay, aqui está o texto revisado e complementado com mais exemplos de código, focando em aplicações e conceitos relevantes para Ciência de Dados. As explicações originais foram mantidas, e exemplos foram adicionados ou corrigidos para maior clareza e relevância.

---

**Estudo Detalhado da Biblioteca NumPy em Python para Computação Científica**

**Introdução ao NumPy**

A biblioteca NumPy (Numerical Python) representa um pilar fundamental no ecossistema Python para a realização de computação científica e análise de dados.¹ Amplamente adotada em diversas disciplinas da ciência e engenharia, o NumPy fornece as ferramentas essenciais para a manipulação eficiente de grandes conjuntos de dados numéricos.² No seu núcleo, o NumPy introduz uma estrutura de dados poderosa e flexível: o **array N-dimensional (ndarray)**, complementado por uma vasta coleção de funções de alto desempenho projetadas para operar sobre esses arrays.²

A relevância do NumPy estende-se por inúmeras aplicações, desde a análise estatística e visualização de dados até o desenvolvimento de modelos de machine learning e o processamento de sinais e imagens.² Sua capacidade de gerenciar estruturas de dados complexas e executar operações matemáticas avançadas com eficiência torna-o uma ferramenta indispensável para cientistas, engenheiros e analistas de dados que utilizam Python.³

Para incorporar as funcionalidades do NumPy em um projeto Python, a convenção padrão é importar a biblioteca utilizando o alias `np`. Essa prática, quase universal na comunidade Python, facilita a leitura e a compreensão do código.²

In [None]:
# Convenção padrão de importação
import numpy as np
print(f"NumPy importado com sucesso! Versão: {np.__version__}")

Embora as listas Python ofereçam uma maneira flexível de armazenar coleções de dados, os arrays NumPy são especificamente otimizados para operações numéricas, apresentando um desempenho significativamente superior em muitos cenários.⁴ Essa vantagem de velocidade é atribuída à implementação em C, permitindo cálculos mais rápidos.⁴

Uma diferença fundamental reside na **homogeneidade** dos tipos de dados: arrays NumPy exigem que todos os elementos sejam do mesmo tipo, enquanto listas Python podem ser heterogêneas.⁴ Essa restrição permite ao NumPy otimizar armazenamento e realizar **operações vetorizadas** (aplicar a mesma operação a todos os elementos simultaneamente, sem loops explícitos em Python), que são muito mais rápidas.⁴ Além disso, o tamanho de um array NumPy é fixo após a criação,⁵ diferentemente das listas dinâmicas. O NumPy também oferece uma gama muito maior de funções matemáticas e de manipulação de arrays.⁴

In [None]:
# Comparação (Conceitual): Listas vs Arrays NumPy
lista_py = [1, 2, 3, 4, 5]
array_np = np.array([1, 2, 3, 4, 5])

# Operação em lista (requer loop ou list comprehension)
quadrados_lista = [x**2 for x in lista_py]

# Operação vetorizada em array NumPy (mais rápida e concisa)
quadrados_array = array_np ** 2

print(f"\nLista Python ao quadrado: {quadrados_lista}")
print(f"Array NumPy ao quadrado: {quadrados_array}")

# Listas podem ser heterogêneas, arrays NumPy são homogêneos
lista_heterogenea = [1, "dois", 3.0, True]
# array_heterogeneo = np.array([1, "dois", 3.0, True]) # Resultaria em dtype='object' ou erro dependendo do contexto
# print(array_heterogeneo, array_heterogeneo.dtype) # dtype seria 'object', perdendo otimizações numéricas

**O Objeto `ndarray`**

O `ndarray` (N-dimensional array) é a estrutura central do NumPy: uma grade de valores homogêneos indexada por uma tupla de inteiros.⁵ O número de dimensões é chamado de **eixo** (*axis*).²

Atributos essenciais do `ndarray`:

* `.ndim`: Número de dimensões (eixos).

In [None]:
# Atributo ndim
    a1D = np.array([1, 2, 3])
    a2D = np.array([[1, 2, 3], [4, 5, 6]])
    # Corrigido: Array 3D com sublistas de mesmo tamanho
    a3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

    print(f"\n--- Atributos ndarray ---")
    print(f"Array 1D: {a1D}, Dimensões: {a1D.ndim}") # Saída: 1
    print(f"Array 2D:\n{a2D}\nDimensões: {a2D.ndim}") # Saída: 2
    print(f"Array 3D:\n{a3D}\nDimensões: {a3D.ndim}") # Saída: 3

* `.shape`: Tupla com o tamanho de cada dimensão (eixo). Para 2D, é `(linhas, colunas)`.

In [None]:
# Atributo shape
    print(f"Shape 1D (a1D): {a1D.shape}")  # Saída: (3,) -> 3 elementos no único eixo
    print(f"Shape 2D (a2D): {a2D.shape}")  # Saída: (2, 3) -> 2 linhas, 3 colunas
    print(f"Shape 3D (a3D): {a3D.shape}")  # Saída: (2, 2, 2) -> 2 matrizes, cada uma 2x2

* `.size`: Número total de elementos no array (`produto(shape)`).

In [None]:
# Atributo size
    print(f"Size 1D (a1D): {a1D.size}")    # Saída: 3
    print(f"Size 2D (a2D): {a2D.size}")    # Saída: 6
    print(f"Size 3D (a3D): {a3D.size}")    # Saída: 8

* `.dtype`: Objeto descrevendo o tipo de dados dos elementos.

In [None]:
# Atributo dtype
    array_float = np.array([1.0, 2.5])
    array_bool = np.array([True, False])
    print(f"Dtype a1D (int): {a1D.dtype}")       # Saída: int64 (ou int32 dependendo do sistema)
    print(f"Dtype array_float: {array_float.dtype}") # Saída: float64
    print(f"Dtype array_bool: {array_bool.dtype}")  # Saída: bool

* `.itemsize`: Tamanho em bytes de cada elemento (depende do `dtype`).

In [None]:
# Atributo itemsize
    print(f"Itemsize a1D (int64): {a1D.itemsize}") # Saída: 8 (para int64)
    print(f"Itemsize array_float (float64): {array_float.itemsize}") # Saída: 8 (para float64)
    print(f"Itemsize array_bool (bool): {array_bool.itemsize}")   # Saída: 1

* `.data`: Buffer de memória onde os dados estão armazenados (uso avançado).

Compreender `shape` e `dtype` é crucial para operações e compatibilidade. O tamanho fixo (`size`) permite alocação eficiente de memória contígua.⁵,⁴

**Tipos de Dados NumPy**

NumPy oferece tipos de dados numéricos e outros, otimizados para desempenho.

* **Tipos Numéricos:**
    * **Inteiros:** `np.int8`, `np.int16`, `np.int32`, `np.int64` (precisão variável, uso de memória). Também versões *unsigned* `np.uint...` para não negativos.⁴
    * **Ponto Flutuante:** `np.float16`, `np.float32`, `np.float64` (precisão variável). `float64` é o padrão e mais comum (`double`).⁴
    * **Complexos:** `np.complex64`, `np.complex128`, `np.complex256`.⁵
* **Tipo Booleano:** `np.bool_` (`True`, `False`).⁵
* **Outros Tipos:** `np.str_`, `np.unicode_` (strings)⁴, `np.object_` (objetos Python genéricos, menos eficiente)⁵, `np.datetime64` (datas/horas), `np.timedelta64` (durações).⁵

O `dtype` pode ser especificado na criação ou convertido com `.astype()`.

In [None]:
# Especificando e convertendo dtype
array_int32 = np.array([10, 20, 30], dtype=np.int32)
print(f"\nArray com dtype int32: {array_int32}, dtype: {array_int32.dtype}")

array_original_int = np.array([0, 1, 2])
print(f"Dtype original: {array_original_int.dtype}") # Saída: int64 (padrão)

# Convertendo para float
array_convertido_float = array_original_int.astype(np.float32)
print(f"Array convertido para float32: {array_convertido_float}, dtype: {array_convertido_float.dtype}")

# Convertendo float para int (truncamento ocorre)
array_float_para_int = np.array([1.1, 2.9, 3.5]).astype(np.int64)
print(f"Array float convertido para int64: {array_float_para_int}, dtype: {array_float_para_int.dtype}") # Saída: [1 2 3]

# NumPy infere o dtype (geralmente o mais abrangente necessário)
array_inferido = np.array([1, 2, 3.0]) # Um float faz todo o array ser float
print(f"Array com tipo inferido: {array_inferido}, dtype: {array_inferido.dtype}") # Saída: float64

Escolher o `dtype` correto otimiza memória e precisão.

**Investigue as várias maneiras de criar arrays NumPy:**

* **`np.array(lista_ou_tupla, [dtype=...])`:** Cria a partir de sequências Python. Infere `dtype` ou pode ser especificado.

In [None]:
# np.array() - já visto nos exemplos anteriores
    lista_dados = [[1.5, 2.1, 3.8], [4.0, 5.5, 6.2]] # Simula 2 amostras com 3 features
    dados_array = np.array(lista_dados)
    print(f"\nArray criado de lista de listas (dados):\n{dados_array}")
    print(f"Shape: {dados_array.shape}, Dtype: {dados_array.dtype}")

* **Arrays Preenchidos:**
    * `np.zeros(shape, [dtype=...])`: Array de zeros.
    * `np.ones(shape, [dtype=...])`: Array de uns.
    * `np.full(shape, fill_value, [dtype=...])`: Array preenchido com `fill_value`.

In [None]:
# Arrays preenchidos
    num_amostras = 5
    num_features = 4

    # Inicializar pesos em ML com zeros
    pesos = np.zeros((num_features, 1))
    print(f"\nPesos inicializados com zeros (shape={pesos.shape}):\n{pesos}")

    # Criar máscara inicial com uns
    mascara = np.ones(num_amostras, dtype=bool)
    print(f"\nMáscara inicial com uns (bool): {mascara}")

    # Array constante (ex: valor padrão)
    valores_padrao = np.full((num_amostras,), -999, dtype=np.float32)
    print(f"\nValores padrão (-999): {valores_padrao}")

* **Sequências Numéricas:**
    * `np.arange([start,] stop[, step], [dtype=...])`: Como `range` do Python, mas retorna array e aceita `step` float. **Cuidado com precisão de float no `step`**.
    * `np.linspace(start, stop, num=50, endpoint=True, [dtype=...])`: Gera `num` amostras igualmente espaçadas entre `start` e `stop`. `endpoint=False` exclui `stop`. Muito usado para eixos de gráficos.

In [None]:
# Sequências numéricas
    tempo = np.arange(0, 1.0, 0.1) # Sequência de tempo de 0 a 0.9 segundos
    print(f"\nSequência de tempo (arange): {tempo}")

    # Eixo para gráfico de -5 a 5 com 20 pontos
    eixo_x_grafico = np.linspace(-5, 5, 20)
    print(f"\nEixo para gráfico (linspace): {np.round(eixo_x_grafico, 2)}") # Arredondado para exibição

* **Arrays Aleatórios (`np.random`)**: Essencial para simulações, inicialização, amostragem.
    * `np.random.rand(d0, ..., dn)`: Uniforme [0.0, 1.0).
    * `np.random.randn(d0, ..., dn)`: Normal padrão (média 0, desvio padrão 1).
    * `np.random.randint(low, high=None, size=None, dtype=int)`: Inteiros aleatórios no intervalo `[low, high)`.
    * `np.random.random_sample(size=None)`: Alias para `rand`, mas recebe `size` como tupla/int.
    * `np.random.choice(a, size=None, replace=True, p=None)`: Amostra aleatória de um array `a` (com ou sem reposição, com probabilidades `p`).
    * `np.random.seed(int)`: Define a semente para reprodutibilidade.

In [None]:
# Arrays aleatórios
    np.random.seed(42) # Garante reprodutibilidade dos exemplos seguintes

    # Dados aleatórios uniformes (ex: inicialização)
    random_uniform = np.random.rand(2, 3) # Matriz 2x3
    print(f"\nArray aleatório uniforme [0, 1):\n{random_uniform}")

    # Dados aleatórios normais (ex: ruído gaussiano)
    random_normal = np.random.randn(5) # 5 amostras da normal padrão
    print(f"\nArray aleatório normal padrão:\n{random_normal}")

    # Inteiros aleatórios (ex: simular lançamentos de dado)
    lancamentos_dado = np.random.randint(1, 7, size=10) # 10 lançamentos de dado (1 a 6)
    print(f"\nInteiros aleatórios (dado): {lancamentos_dado}")

    # Amostragem aleatória (ex: selecionar amostras para validação cruzada)
    populacao = np.arange(20) # População de 0 a 19
    amostra_sem_reposicao = np.random.choice(populacao, size=5, replace=False)
    print(f"\nAmostra sem reposição: {amostra_sem_reposicao}")
    amostra_com_reposicao = np.random.choice(populacao, size=5, replace=True)
    print(f"Amostra com reposição: {amostra_com_reposicao}")

* **Arrays Especiais:**
    * `np.eye(N, M=None, k=0, dtype=float)`: Matriz identidade NxM (se M=None, N=M) com 1s na k-ésima diagonal.
    * `np.identity(n, dtype=None)`: Matriz identidade quadrada n x n.
    * `np.diag(v, k=0)`: Extrai uma diagonal ou constrói uma matriz diagonal.

In [None]:
# Arrays especiais
    identidade_3x3 = np.eye(3)
    print(f"\nMatriz identidade (eye):\n{identidade_3x3}")

    identidade_alt = np.identity(4, dtype=int)
    print(f"\nMatriz identidade quadrada (identity):\n{identidade_alt}")

    # Criando matriz diagonal a partir de um vetor
    vetor_diag = [10, 20, 30]
    matriz_diag = np.diag(vetor_diag)
    print(f"\nMatriz diagonal (criada de vetor):\n{matriz_diag}")

    # Criando matriz com diagonal deslocada
    matriz_diag_deslocada = np.diag(vetor_diag, k=1) # Diagonal acima da principal
    print(f"\nMatriz com diagonal deslocada (k=1):\n{matriz_diag_deslocada}")

    # Extraindo a diagonal principal de uma matriz
    diagonal_principal = np.diag(matriz_diag)
    print(f"\nDiagonal extraída da matriz_diag: {diagonal_principal}")
    # Extraindo diagonal acima da principal
    diagonal_acima = np.diag(matriz_diag_deslocada, k=1)
    print(f"Diagonal extraída da matriz_diag_deslocada (k=1): {diagonal_acima}")

**Explore o acesso e a manipulação de elementos em arrays NumPy:**

* **Indexação Básica e Slicing:** Semelhante a listas, mas com tuplas para múltiplas dimensões. Baseado em 0. `[start:stop:step]`.

In [None]:
# Indexação e Slicing
    # Corrigido: array_1d inicializado
    array_1d = np.array([10, 20, 30, 40, 50])
    print(f"\n--- Acesso e Manipulação ---")
    print(f"array_1d: {array_1d}")
    print(f"Elemento índice 1: {array_1d[1]}")       # Saída: 20
    print(f"Último elemento: {array_1d[-1]}")     # Saída: 50
    print(f"Slice [1:4]: {array_1d[1:4]}")      # Saída: [20 30 40] (índices 1, 2, 3)
    print(f"Slice até índice 3 (exclusivo): {array_1d[:3]}")  # Saída: [10 20 30]
    print(f"Slice do índice 2 até o fim: {array_1d[2:]}")    # Saída: [30 40 50]
    print(f"Slice com passo 2: {array_1d[::2]}")     # Saída: [10 30 50]

    # Corrigido: array_2d inicializado
    # Simula 3 amostras (linhas) com 4 features (colunas)
    dados_features = np.array([[1.1, 1.2, 1.3, 1.4],
                               [2.1, 2.2, 2.3, 2.4],
                               [3.1, 3.2, 3.3, 3.4]])
    print(f"\nArray 2D (dados_features):\n{dados_features}")

    # Elemento na linha 1, coluna 2 (índices 1 e 2)
    elemento_1_2 = dados_features[1, 2]
    print(f"Elemento [1, 2]: {elemento_1_2}") # Saída: 2.3

    # Primeira linha inteira (índice 0)
    primeira_amostra = dados_features[0, :] # ou dados_features[0]
    print(f"Primeira amostra (linha 0): {primeira_amostra}") # Saída: [1.1 1.2 1.3 1.4]

    # Segunda coluna inteira (índice 1)
    segunda_feature = dados_features[:, 1]
    print(f"Segunda feature (coluna 1): {segunda_feature}") # Saída: [1.2 2.2 3.2]

    # Submatriz: Linhas 1 e 2, Colunas 0 e 1
    submatriz = dados_features[1:3, 0:2] # ou [1:, :2] se for até o fim
    print(f"Submatriz (linhas 1:, colunas :2):\n{submatriz}")
    # Saída:
    # [[2.1 2.2]
    #  [3.1 3.2]]

* **Indexação Booleana (Máscaras):** Seleciona elementos onde a máscara booleana correspondente é `True`. Muito útil para filtrar dados.

In [None]:
# Indexação Booleana (Máscaras)
    valores = np.array([-1.0, 0.5, 2.3, -0.1, 1.8, 0.0])
    print(f"\nValores originais: {valores}")

    # Criar máscara para valores positivos
    mascara_positivos = valores > 0
    print(f"Máscara (valores > 0): {mascara_positivos}") # Saída: [False True True False True False]

    # Aplicar máscara para selecionar apenas positivos
    valores_positivos = valores[mascara_positivos]
    print(f"Valores positivos: {valores_positivos}") # Saída: [0.5 2.3 1.8]

    # Filtrar dados de features baseado em um limiar em outra feature
    # Usando 'dados_features' do exemplo anterior
    # Selecionar amostras onde a primeira feature (coluna 0) é > 2.0
    mascara_feature1 = dados_features[:, 0] > 2.0
    print(f"\nMáscara (feature 0 > 2.0): {mascara_feature1}") # Saída: [False True True]
    amostras_filtradas = dados_features[mascara_feature1]
    print(f"Amostras com feature 0 > 2.0:\n{amostras_filtradas}")
    # Saída:
    # [[2.1 2.2 2.3 2.4]
    #  [3.1 3.2 3.3 3.4]]

* **Indexação com Arrays de Inteiros (Fancy Indexing):** Usa arrays de inteiros para selecionar elementos em ordens específicas ou não sequenciais.

In [None]:
# Fancy Indexing
    # Corrigido: array inicializado
    array_fancy = np.array([100, 200, 300, 400, 500])
    indices_selecao = np.array([0, 3, 1, 1]) # Seleciona elementos nos índices 0, 3, 1, 1
    print(f"\nSeleção com Fancy Indexing 1D: {array_fancy[indices_selecao]}") # Saída: [100 400 200 200]

    # Corrigido: array_2d e índices inicializados
    matriz_dados = np.arange(1, 10).reshape((3, 3)) # Matriz 3x3 de 1 a 9
    print(f"\nMatriz para Fancy Indexing 2D:\n{matriz_dados}")
    # Saída:
    # [[1 2 3]
    #  [4 5 6]
    #  [7 8 9]]

    # Selecionar linhas específicas
    indices_linhas = np.array([0, 2])
    print(f"Selecionando linhas {indices_linhas}:\n{matriz_dados[indices_linhas, :]}") # ou matriz_dados[indices_linhas]
    # Saída:
    # [[1 2 3]
    #  [7 8 9]]

    # Selecionar elementos específicos usando pares de índices (linha, coluna)
    indices_linhas_elems = np.array([0, 1, 2])
    indices_colunas_elems = np.array([1, 0, 2])
    elementos_especificos = matriz_dados[indices_linhas_elems, indices_colunas_elems]
    print(f"Elementos específicos ([0,1], [1,0], [2,2]): {elementos_especificos}") # Saída: [2 4 9]

* **Iteração:** Loops `for` iteram sobre eixos (linhas em 2D). `np.nditer()` é mais flexível para iterar sobre *todos* os elementos. **Nota:** Operações vetorizadas são quase sempre preferíveis a loops explícitos em NumPy por desempenho.

In [None]:
# Iteração (Loop vs nditer vs Vetorização)
    matriz_iter = np.array([[1, 2], [3, 4]])

    print("\nIteração com loop for (sobre linhas):")
    for linha in matriz_iter:
        print(f"  Linha: {linha}")

    print("Iteração com np.nditer (elemento a elemento, ordem C):")
    for elemento in np.nditer(matriz_iter, order='C'):
        print(f"  Elemento: {elemento}")

    # Comparação com vetorização (preferível)
    print("Operação via vetorização (preferível):")
    matriz_iter_mais_10 = matriz_iter + 10 # Aplica a todos os elementos de uma vez
    print(matriz_iter_mais_10)

**Detalhe as operações básicas em arrays NumPy:**

* **Operações Aritméticas Elementares:** `+`, `-`, `*`, `/`, `**`, `//`, `%` aplicadas elemento a elemento. Compatibilidade de `shape` ou *broadcasting* é necessário.

In [None]:
# Operações Aritméticas
    a = np.array([1, 2, 3])
    b = np.array([4, 5, 6])
    print(f"\n--- Operações Básicas ---")
    print(f"a = {a}, b = {b}")
    print(f"Adição (a + b): {a + b}")            # Saída: [5 7 9]
    print(f"Subtração (b - a): {b - a}")          # Saída: [3 3 3]
    print(f"Multiplicação (a * b): {a * b}")        # Saída: [ 4 10 18]
    print(f"Divisão (b / a): {b / a}")            # Saída: [4.  2.5 2. ] (float)
    print(f"Potência (a ** 2): {a ** 2}")          # Saída: [1 4 9]
    print(f"Multiplicação por escalar (a * 10): {a * 10}") # Saída: [10 20 30]

    # Broadcasting: Operar arrays de shapes diferentes (compatíveis)
    matriz = np.array([[1, 2], [3, 4]]) # Shape (2, 2)
    vetor_linha = np.array([10, 20])    # Shape (2,) - tratado como (1, 2)
    vetor_coluna = np.array([[100], [200]]) # Shape (2, 1)

    print(f"\nMatriz:\n{matriz}")
    print(f"Vetor Linha: {vetor_linha}")
    print(f"Vetor Coluna:\n{vetor_coluna}")

    print(f"Matriz + Vetor Linha (Broadcasting):\n{matriz + vetor_linha}")
    # Saída: [[11 22]
    #         [13 24]]
    print(f"Matriz + Vetor Coluna (Broadcasting):\n{matriz + vetor_coluna}")
    # Saída: [[101 102]
    #         [203 204]]

* **Operações de Comparação:** `==`, `!=`, `<`, `>`, `<=`, `>=` elemento a elemento. Retornam array booleano (máscara).

In [None]:
# Operações de Comparação
    # Corrigido: a e b definidos
    a = np.array([1, 5, 3])
    b = np.array([1, 2, 6])
    print(f"\na = {a}, b = {b}")
    print(f"Igualdade (a == b): {a == b}")        # Saída: [ True False False]
    print(f"Diferença (a != 1): {a != 1}")        # Saída: [False  True  True]
    print(f"Maior que (a > b): {a > b}")          # Saída: [False  True False]
    print(f"Menor ou igual (a <= 3): {a <= 3}")  # Saída: [ True False  True]

    # Usando comparação para filtrar (combina com indexação booleana)
    dados_temp = np.array([22.1, 25.5, 30.2, 19.8, 27.0])
    temp_altas = dados_temp[dados_temp > 25.0]
    print(f"\nTemperaturas originais: {dados_temp}")
    print(f"Temperaturas altas (> 25.0): {temp_altas}") # Saída: [25.5 30.2 27. ]

* **Operações Lógicas:** `np.logical_and` (`&`), `np.logical_or` (`|`), `np.logical_not` (`~`) em arrays booleanos.

In [None]:
# Operações Lógicas
    # Corrigido: bool_a e bool_b definidos
    bool_a = np.array([True, True, False, False])
    bool_b = np.array([True, False, True, False])
    print(f"\nbool_a = {bool_a}")
    print(f"bool_b = {bool_b}")
    print(f"AND (&): {bool_a & bool_b}")            # Saída: [ True False False False]
    print(f"OR (|): {bool_a | bool_b}")             # Saída: [ True  True  True False]
    print(f"NOT (~bool_a): {~bool_a}")             # Saída: [False False  True  True]

    # Combinando condições para filtrar dados
    idades = np.array([25, 40, 15, 60, 35])
    salarios = np.array([50000, 80000, 30000, 90000, 70000])
    # Pessoas entre 30 e 50 anos OU com salário > 75000
    mascara_combinada = ((idades >= 30) & (idades <= 50)) | (salarios > 75000)
    print(f"\nIdades: {idades}")
    print(f"Salários: {salarios}")
    print(f"Máscara combinada: {mascara_combinada}") # Saída: [False True False True True]
    print(f"Pessoas selecionadas (idade): {idades[mascara_combinada]}") # Saída: [40 60 35]
    print(f"Pessoas selecionadas (salário): {salarios[mascara_combinada]}") # Saída: [80000 90000 70000]

**Investigue as funções importantes para manipulação de arrays NumPy:**

* **Mudança de Forma (`reshape`)**: `np.reshape(array, novo_shape)` ou `array.reshape(novo_shape)`. `novo_shape` deve ter o mesmo número total de elementos. `-1` em uma dimensão infere seu tamanho.

In [None]:
# Reshape
    array_linear = np.arange(12) # 0 a 11
    print(f"\n--- Manipulação de Shape ---")
    print(f"Array original (1D): {array_linear}")
    matriz_3x4 = array_linear.reshape((3, 4))
    print(f"Reshape para (3, 4):\n{matriz_3x4}")
    tensor_2x2x3 = array_linear.reshape((2, 2, 3))
    print(f"Reshape para (2, 2, 3):\n{tensor_2x2x3}")
    # Usando -1 para inferir dimensão
    matriz_6xN = array_linear.reshape((6, -1)) # NumPy calcula N=2
    print(f"Reshape para (6, -1) -> (6, 2):\n{matriz_6xN}")

* **Transposição (`.T`, `np.transpose`)**: Inverte eixos. Para 2D, troca linhas/colunas.

In [None]:
# Transposição
    matriz = np.array([[1, 2, 3], [4, 5, 6]]) # Shape (2, 3)
    print(f"\nMatriz original (2x3):\n{matriz}")
    matriz_transposta = matriz.T # ou np.transpose(matriz)
    print(f"Matriz Transposta (3x2):\n{matriz_transposta}")

* **Concatenação**: Juntar arrays.
    * `np.concatenate((a, b, ...), axis=0)`: Junta ao longo de um eixo existente.
    * `np.stack((a, b, ...), axis=0)`: Empilha ao longo de um *novo* eixo.
    * `np.hstack((a, b, ...))`: Concatena horizontalmente (ao longo do eixo 1).
    * `np.vstack((a, b, ...))`: Concatena verticalmente (ao longo do eixo 0).

In [None]:
# Concatenação
    a = np.array([[1, 2], [3, 4]]) # Shape (2, 2)
    b = np.array([[5, 6]])         # Shape (1, 2)

    # Concatenar ao longo do eixo 0 (linhas)
    concat_vertical = np.concatenate((a, b), axis=0)
    print(f"\nConcatenar verticalmente (axis=0):\n{concat_vertical}")
    # Saída: [[1 2] [3 4] [5 6]] - Shape (3, 2)

    # vstack faz o mesmo
    vstack_ex = np.vstack((a, b))
    print(f"vstack:\n{vstack_ex}")

    # hstack precisa de shapes compatíveis na dimensão vertical (eixo 0)
    c = np.array([[10], [20]]) # Shape (2, 1)
    hstack_ex = np.hstack((a, c))
    print(f"hstack (juntar colunas):\n{hstack_ex}")
    # Saída: [[ 1  2 10] [ 3  4 20]] - Shape (2, 3)

    # Stack cria uma nova dimensão
    d = np.array([7, 8]) # Shape (2,)
    e = np.array([9, 10])# Shape (2,)
    stack_axis0 = np.stack((d, e), axis=0) # Empilha como linhas
    print(f"Stack axis=0:\n{stack_axis0}") # Saída: [[7 8] [9 10]] - Shape (2, 2)
    stack_axis1 = np.stack((d, e), axis=1) # Empilha como colunas
    print(f"Stack axis=1:\n{stack_axis1}") # Saída: [[7 9] [8 10]] - Shape (2, 2)

* **Divisão**:
    * `np.split(array, indices_or_sections, axis=0)`: Divide ao longo de `axis`. Pode ser número de seções iguais ou lista de índices onde dividir.
    * `np.hsplit(array, indices_or_sections)`: Divide horizontalmente (eixo 1).
    * `np.vsplit(array, indices_or_sections)`: Divide verticalmente (eixo 0).

In [None]:
# Divisão de Arrays (ex: separar features de target)
    dados_completos = np.arange(20).reshape(5, 4) # 5 amostras, 4 colunas
    print(f"\nDados completos (5x4):\n{dados_completos}")

    # Dividir em 2 partes iguais verticalmente (vsplit)
    parte1_v, parte2_v = np.vsplit(dados_completos, 2) # Erro se não for divisível igualmente
    # print(f"vsplit em 2:\nParte 1:\n{parte1_v}\nParte 2:\n{parte2_v}") # Vai dar erro (5 não é divisível por 2)

    # Dividir verticalmente em índices [2, 3] -> 3 partes: [:2], [2:3], [3:]
    partes_v_indices = np.vsplit(dados_completos, [2, 3])
    print(f"vsplit por índices [2, 3] (3 partes):")
    for i, parte in enumerate(partes_v_indices): print(f" Parte {i+1}:\n{parte}")

    # Dividir horizontalmente (hsplit) - ex: separar última coluna (target)
    # Isso requer np.hsplit(dados_completos, [3]) para separar ANTES da coluna 3
    features, target = np.hsplit(dados_completos, [3])
    print(f"\nhsplit para separar features/target:")
    print(f" Features (colunas 0, 1, 2):\n{features}")
    print(f" Target (coluna 3):\n{target}")

**Explore as funções matemáticas do NumPy:**

* **Funções Universais (ufuncs):** Operam elemento a elemento. Ex: `np.sin`, `np.cos`, `np.exp`, `np.log`, `np.sqrt`, `np.add`, `np.multiply`, etc.

In [None]:
# Funções Universais (ufuncs)
    angulos = np.array([0, np.pi/2, np.pi])
    print(f"\n--- Funções Matemáticas ---")
    print(f"Ângulos: {angulos}")
    print(f"Seno: {np.sin(angulos)}") # Saída: [0. 1. 0.] (aproximado)
    print(f"Exponencial: {np.exp(np.array([0, 1, 2]))}") # Saída: [1.  2.718 7.389] (aproximado)
    print(f"Raiz quadrada: {np.sqrt(np.array([1, 4, 9]))}") # Saída: [1. 2. 3.]

* **Funções Estatísticas:** `np.mean`, `np.median`, `np.std`, `np.var`, `np.sum`, `np.min`, `np.max`. Podem operar no array todo ou ao longo de um eixo (`axis`).

In [None]:
# Funções Estatísticas
    # Corrigido: array inicializado
    dados_estat = np.array([[1, 5, 3], [8, 2, 6]])
    print(f"\nDados para estatísticas:\n{dados_estat}")
    print(f"Média total: {np.mean(dados_estat)}")
    print(f"Soma total: {np.sum(dados_estat)}")
    print(f"Mínimo total: {np.min(dados_estat)}")
    print(f"Máximo total: {np.max(dados_estat)}")
    print(f"Desvio padrão total: {np.std(dados_estat)}")

    # Estatísticas por eixo (axis=0 -> colunas, axis=1 -> linhas)
    print(f"Soma por coluna (axis=0): {np.sum(dados_estat, axis=0)}") # Saída: [9 7 9]
    print(f"Média por linha (axis=1): {np.mean(dados_estat, axis=1)}") # Saída: [3. 5.333]
    print(f"Máximo por coluna (axis=0): {np.max(dados_estat, axis=0)}") # Saída: [8 5 6]

* **Funções para Álgebra Linear (`np.linalg`)**: `dot`, `solve`, `inv`, `det`, `eig`, etc.

In [None]:
# Funções de Álgebra Linear (np.linalg)
    # Corrigido: Dimensões compatíveis para dot
    matriz_A = np.array([[1, 2], [3, 4]]) # 2x2
    matriz_B = np.array([[5, 0], [0, 6]]) # 2x2
    vetor_v = np.array([10, 20]) # (2,)

    print(f"\n--- Álgebra Linear ---")
    print(f"Matriz A:\n{matriz_A}")
    print(f"Matriz B:\n{matriz_B}")
    print(f"Vetor v: {vetor_v}")

    # Produto escalar/matricial
    produto_dot = np.dot(matriz_A, matriz_B)
    print(f"Produto A dot B:\n{produto_dot}")
    # Usando o operador @ (preferível a partir de Python 3.5)
    produto_arroba = matriz_A @ matriz_B
    print(f"Produto A @ B:\n{produto_arroba}")
    produto_matriz_vetor = matriz_A @ vetor_v
    print(f"Produto Matriz A @ Vetor v: {produto_matriz_vetor}") # Saída: [ 50 110]

**Detalhe o uso do NumPy para operações de álgebra linear:** Essencial em Data Science/ML.

* **Multiplicação de Matrizes:** `np.dot(a, b)` ou `a @ b`.

In [None]:
# Multiplicação de Matrizes (exemplo anterior já mostra)
    print(f"\nMultiplicação A @ B:\n{matriz_A @ matriz_B}")

* **Determinante:** `np.linalg.det(matriz_quadrada)`.

In [None]:
# Determinante
    det_A = np.linalg.det(matriz_A)
    print(f"\nDeterminante de A: {det_A:.2f}") # Saída: -2.00

* **Inversa:** `np.linalg.inv(matriz_quadrada_nao_singular)`.

In [None]:
# Inversa
    try:
        inv_A = np.linalg.inv(matriz_A)
        print(f"\nInversa de A:\n{inv_A}")
        # Verificação: A @ inv(A) deve ser a identidade (com alguma imprecisão float)
        print(f"Verificação A @ inv(A):\n{np.round(matriz_A @ inv_A)}")
    except np.linalg.LinAlgError:
        print("\nMatriz A é singular, não possui inversa.")

* **Resolver Sistemas Lineares (Ax = b):** `np.linalg.solve(A, b)`. `A` deve ser quadrada e não singular.

In [None]:
# Resolver Sistema Linear Ax = b
    # Ex: x + 2y = 1
    #     3x + 4y = -1
    A_sistema = np.array([[1, 2], [3, 4]])
    b_sistema = np.array([1, -1])
    try:
        x_solucao = np.linalg.solve(A_sistema, b_sistema)
        print(f"\nSolução do sistema Ax=b (x, y): {x_solucao}") # Saída: [-3.  2.] (x=-3, y=2)
        # Verificação: A @ x deve ser igual a b
        print(f"Verificação A @ x_solucao: {A_sistema @ x_solucao}") # Saída: [ 1. -1.]
    except np.linalg.LinAlgError:
        print("\nNão foi possível resolver o sistema (matriz singular ou não quadrada).")

* **Autovalores e Autovetores:** `np.linalg.eig(matriz_quadrada)`. Retorna tupla `(autovalores, autovetores)`.

**Investigue a geração de números aleatórios com NumPy:** Crucial para simulação, amostragem, inicialização de pesos em ML.

* **Funções Comuns (`np.random`)**: `rand`, `randn`, `randint`, `random_sample`, `choice`.

In [None]:
# Geração de Números Aleatórios (exemplos já vistos na seção de criação)
    print(f"\n--- Números Aleatórios ---")
    print(f"randint(1, 100, 5): {np.random.randint(1, 100, 5)}") # 5 inteiros entre 1 e 99
    print(f"rand(2, 2): \n{np.random.rand(2, 2)}") # Uniforme [0,1)
    print(f"randn(3): {np.random.randn(3)}")     # Normal Padrão

* **Semente Aleatória (`np.random.seed`)**: Para reprodutibilidade.

In [None]:
# Semente Aleatória
    np.random.seed(123)
    rand1 = np.random.rand(3)
    np.random.seed(123) # Resetando a semente para o mesmo valor
    rand2 = np.random.rand(3)
    print(f"\nCom a mesma seed:")
    print(f"  Primeira geração: {rand1}")
    print(f"  Segunda geração: {rand2}") # Saída será idêntica à primeira
    print(f"  São iguais? {np.array_equal(rand1, rand2)}") # Saída: True

* **Amostragem (`np.random.choice`)**: Selecionar itens aleatoriamente.

In [None]:
# Amostragem com choice
    elementos = ['A', 'B', 'C', 'D', 'E']
    probabilidades = [0.1, 0.4, 0.1, 0.3, 0.1] # Soma deve ser 1

    amostra_choice = np.random.choice(elementos, size=10, replace=True, p=probabilidades)
    print(f"\nAmostragem com reposição e probabilidades: {amostra_choice}")

**Mencione as melhores práticas para usar NumPy:**

* **Vetorização:** **Evitar loops Python explícitos**. Usar operações NumPy que atuam em arrays inteiros. Muito mais rápido devido à implementação em C.

In [None]:
# Vetorização vs Loop
    print("\n--- Melhores Práticas: Vetorização ---")
    array_grande = np.arange(1_000_000) # Array com 1 milhão de elementos

    # Abordagem com Loop Python (LENTA!)
    # import time
    # inicio_loop = time.time()
    # soma_quadrados_loop = 0
    # for x in array_grande:
    #     soma_quadrados_loop += x**2
    # fim_loop = time.time()
    # print(f"Resultado Loop: {soma_quadrados_loop} (Tempo: {fim_loop - inicio_loop:.4f}s)") # Comentar/Descomentar para testar

    # Abordagem Vetorizada NumPy (RÁPIDA!)
    # inicio_vetor = time.time()
    soma_quadrados_vetor = np.sum(array_grande ** 2) # Operações vetorizadas
    # fim_vetor = time.time()
    # print(f"Resultado Vetorizado: {soma_quadrados_vetor} (Tempo: {fim_vetor - inicio_vetor:.4f}s)") # Comentar/Descomentar para testar
    print(f"Resultado Vetorizado: {soma_quadrados_vetor} (Execução muito mais rápida!)")
    print("Descomente as linhas de tempo para comparar a diferença de velocidade.")

* **Escolha Correta de Tipos de Dados:** Usar `dtype` apropriado (`int16`, `float32`, etc.) economiza memória e pode acelerar cálculos, mas cuidado com perda de precisão ou overflow.

**Conclusão:**

O NumPy é uma biblioteca essencial para a computação científica e ciência de dados em Python, fornecendo o `ndarray` e funções otimizadas para operações numéricas, manipulação de arrays, álgebra linear e números aleatórios. A vetorização e a escolha cuidadosa de `dtype` são práticas chave para performance. NumPy é a base para muitas outras bibliotecas científicas (Pandas, SciPy, Scikit-learn) e fundamental para análise de dados e ML em Python.