# Introdução a numpy


- Motivação
- Quais as vantagens de se utilizar numpy?
- Manipulação de arrays:
    - Criação de um array
    - Inserção de valores
    - Deleção de valores
    - Concatenção de array
- Operações com numpy arrays:
    - Soma
    - Subtração
    - Divisão
    - Multiplicação
- Operações de conjuntos:
    - União
    - Interseção
    - Diferença
- Operações de matrizes:
    - Transposição
    - Multiplicação de matrizes
    - Operações básicas de matrizes: Soma, subtraçao, multiplicação
- Operações com random:
    - Criação de um array aleatório
    - Criação de uma matriz aleatória
- Operações de SQL:
    - Select
    - Where
- Exemplo final:
    - Similaridade de valores

Numpy é uma biblioteca para linguagem python com operações de computação númerica. A biblioteca tem grande notoriedade na comunidade dado que utiliza estruturas de dados próprias que são implementadas em C. 

A biblioteca possui um excelente desempenho computacional e a facilidade de implementação em Python.




In [29]:
# NumPy para Data Science - Notebook Auxiliar

import numpy as np
import matplotlib.pyplot as plt

# Criação de Arrays com NumPy
arr = np.array([1, 2, 3, 4])
print(f"Array 1D: {arr}")

arr_2d = np.array([[1, 2], [3, 4]])
print(f"Array 2D:\n{arr_2d}")

# Indexação e Slicing
print(f"Primeiro elemento: {arr[0]}")
print(f"Slicing do array: {arr[1:3]}")

# Operações Básicas em Arrays
print(f"Array + 2: {arr + 2}")
print(f"Array * 3: {arr * 3}")

# Vetorização em NumPy
arr_large = np.arange(1,1000001)
arr_large_result = arr_large * 2
print(f"Vetorização - primeiro valor: {arr_large_result[0]}")

# Broadcasting em NumPy
matriz = np.array([[1, 2, 3], [4, 5, 6]])
vetor = np.array([1, 0, 1])
broadcasting_result = matriz + vetor
print(f"Resultado do Broadcasting:\n{broadcasting_result}")

# Álgebra Linear com NumPy - Multiplicação de Matrizes
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
multiplicacao_result = np.dot(A, B)
print(f"Multiplicação de Matrizes (A * B):\n{multiplicacao_result}")

# Decomposição de Matrizes com NumPy (SVD)
U, S, V = np.linalg.svd(A)
print(f"Decomposição SVD - U:\n{U}")
print(f"Decomposição SVD - S:\n{S}")
print(f"Decomposição SVD - V:\n{V}")

# Reshaping e Transposição
reshaped_arr = arr_large.reshape(1000, 1000)
transposed_arr = arr_2d.T
print(f"Array 2D transposto:\n{transposed_arr}")

# Operações Estatísticas
mean = np.mean(arr_large)
std_dev = np.std(arr_large)
median = np.median(arr_large)
percentile_25 = np.percentile(arr_large, 25)
percentile_75 = np.percentile(arr_large, 75)
print(f"Média: {mean}, Desvio Padrão: {std_dev}, Mediana: {median}")
print(f"Percentil 25: {percentile_25}, Percentil 75: {percentile_75}")

# Manipulação de Dados Faltantes
arr_with_nan = np.array([1, 2, np.nan, 4, 5])
print(f"Array com NaN: {arr_with_nan}")
arr_with_nan[np.isnan(arr_with_nan)] = 0
print(f"Array após substituição de NaN: {arr_with_nan}")

# Funções Universais (ufuncs)
sqrt_result = np.sqrt(arr_large)
log_result = np.log(arr_large)
print(f"Raiz quadrada do primeiro elemento: {sqrt_result[0]}")
print(f"Logaritmo natural do primeiro elemento: {log_result[0]}")

arr_large

Array 1D: [1 2 3 4]
Array 2D:
[[1 2]
 [3 4]]
Primeiro elemento: 1
Slicing do array: [2 3]
Array + 2: [3 4 5 6]
Array * 3: [ 3  6  9 12]
Vetorização - primeiro valor: 2
Resultado do Broadcasting:
[[2 2 4]
 [5 5 7]]
Multiplicação de Matrizes (A * B):
[[19 22]
 [43 50]]
Decomposição SVD - U:
[[-0.40455358 -0.9145143 ]
 [-0.9145143   0.40455358]]
Decomposição SVD - S:
[5.4649857  0.36596619]
Decomposição SVD - V:
[[-0.57604844 -0.81741556]
 [ 0.81741556 -0.57604844]]
Array 2D transposto:
[[1 3]
 [2 4]]
Média: 500000.5, Desvio Padrão: 288675.1345946685, Mediana: 500000.5
Percentil 25: 250000.75, Percentil 75: 750000.25
Array com NaN: [ 1.  2. nan  4.  5.]
Array após substituição de NaN: [1. 2. 0. 4. 5.]
Raiz quadrada do primeiro elemento: 1.0
Logaritmo natural do primeiro elemento: 0.0


array([      1,       2,       3, ...,  999998,  999999, 1000000])

In [1]:
import numpy as np

In [2]:
## criação de uma lista

# python

lista_python = [1, 2, 3]

# numpy
lista_np = np.arange(0, 4)

## Inserção de dados em um lista

# python
lista_python.append(4)

# numpy
lista_np = np.append(lista_np, 4)

## Inserção em uma posição específica


# python
# index e o valor a ser adicionado
lista_python.insert(0, 0)

# numpy
# index e o valor a ser adicionado
lista_np = np.insert(lista_np, 0, 0)

## Deleção de valores

# python
# remove o último valor da lista
# estrutura de dados em python possui o conceito de duck type
# elas possuem o comportamento de várias estruturas ao mesmo tempo
# no da lista ela também engloba pilha e fila

# lista_python.pop() - remove um valor por index e retorna seu valor
# lista_python.remove() - remove por valor
# lista_python.del() - remove por slice ou index

lista_python.pop(0)

# numpy

# o array do numpy e o index a ser removido
# vale ressaltar que pode ser usado index ou slice
lista_np = np.delete(lista_np, 0)


## Concatenação de listas/arrays

# python
lista_python_b = [5, 6, 7, 8]

lista_python_a = lista_python + lista_python_b


# numpy
lista_np_b = np.array([5, 6, 7, 8])

lista_np_a = np.concatenate([lista_np, lista_np_b])
print(lista_np_a)
print(lista_np)
print(lista_np_b)

[0 1 2 3 4 5 6 7 8]
[0 1 2 3 4]
[5 6 7 8]


In [5]:
# Operações com numpy arrays

## soma

# python
lista_python_a = list(map(lambda x, y: x + y, lista_python, lista_python_b))

print(lista_python_a)

[6, 8, 10, 12]


In [6]:
# numpy
print(len(lista_np), len(lista_np_b) )
lista_np = np.delete(lista_np, 0)
print(len(lista_np), len(lista_np_b))
lista_np_a = lista_np + lista_np_b
print(lista_np)
print(lista_np_b)
print(lista_np_a)


5 4
4 4
[1 2 3 4]
[5 6 7 8]
[ 6  8 10 12]


In [8]:
## Subtração

# python
lista_python_a = list(map(lambda x, y: x - y, lista_python, lista_python_b))

# numpy
lista_np_a = lista_np - lista_np_b

## Divisão

# python
lista_python_a = list(map(lambda x, y: x/y, lista_python, lista_python_b))

# numpy
lista_np_a = lista_np/lista_np_b


lista_np_a = lista_np/3


## Multiplicação

# python
lista_python_a = list(map(lambda x, y: x*y, lista_python, lista_python_b))

# numpy
print(lista_np)
print(lista_np_b)
lista_np_a = lista_np * lista_np_b

print(lista_np_a)
lista_np_a = lista_np * 3
print(lista_np_a)


[1 2 3 4]
[5 6 7 8]
[ 5 12 21 32]
[ 3  6  9 12]


In [9]:
# Operação de conjuntos
print(lista_python)
lista_python = [1,2,3,4] + [1,4,5]
print(lista_python)
print(lista_python)
lista_python = set(lista_python)
print(lista_python)
lista_python_b = set(lista_python_b)



[1, 2, 3, 4]
[1, 2, 3, 4, 1, 4, 5]
[1, 2, 3, 4, 1, 4, 5]
{1, 2, 3, 4, 5}


In [10]:
## Operação de união

# python
lista_python_a = lista_python.union(lista_python_b)

# numpy
lista_np_a = np.union1d(lista_np, lista_np_b)

## Operação de Interseção

# python
lista_python_a = lista_python.intersection(lista_python_b)

# numpy
lista_np_a = np.intersect1d(lista_np, lista_np_b)

## Operação de diferença

# python
lista_python_a = lista_python.difference(lista_python_b)
print(lista_python_a )
print(lista_np)
print(lista_np_b)
# numpy
lista_np_a = np.setdiff1d(lista_np, lista_np_b)
print(lista_np_a)
lista_np_a = np.diff(lista_np)
print(lista_np_a)

{1, 2, 3, 4}
[1 2 3 4]
[5 6 7 8]
[1 2 3 4]
[1 1 1]


In [11]:
def generate_random_matrix(row, columns, min_value=0, max_value=1, multiply=1):


    return [[random.uniform(min_value, max_value) * multiply for column in range(columns)] for row_index in range(0, row)]

In [13]:
# Operações com random

## Criação de um array aleatório
array = np.random.randint(low=0, high=1000, size=100)
print(array)


## Criação de uma matriz baseada no array
matrix_array = array.reshape(10, 10)
print(matrix_array)

[772 788  71 306 439 389 869 901 837 940 692 418 145 633 332  75 718 101
 334  69 547 792 675 961 823 641 340 299 660 585 775 275 253 842 316 879
 514  70 253 338 897 586 271 197 596 710 690 906 659 471 785 916 654 153
 565 353 276 982 641 222 717  99 511 961 481  56 573 555 398 875 722 906
 355 885 663  86 778 991 791 724 888 437 102 577 792 588 238 574 228 282
 142 303 475 106 795 424 437 344 476 680]
[[772 788  71 306 439 389 869 901 837 940]
 [692 418 145 633 332  75 718 101 334  69]
 [547 792 675 961 823 641 340 299 660 585]
 [775 275 253 842 316 879 514  70 253 338]
 [897 586 271 197 596 710 690 906 659 471]
 [785 916 654 153 565 353 276 982 641 222]
 [717  99 511 961 481  56 573 555 398 875]
 [722 906 355 885 663  86 778 991 791 724]
 [888 437 102 577 792 588 238 574 228 282]
 [142 303 475 106 795 424 437 344 476 680]]


In [14]:
def transpose_matrix(matrix):
    """
        Given a matrix A, this method will return A Transposed
        A matrix will be a python list of list
    """

    transposed_matrix = []

    for column in range(0, len(matrix[0])):

        new_row = []

        for row in range(0, len(matrix)):

            new_row.append(matrix[row][column])

        transposed_matrix.append(new_row)

    return transposed_matrix


def matrix_multiplication(matrix_a, matrix_b):
    """
        Given two matrixes, this method returns a third matrix that
        is the multiplication of the two entry matrixes
    
        Row X Column
    """

    result_matrix = []

    for row in matrix_a:

        # I have a list of values that will be multiplied by the column of another matrix

        new_row = []

        for k in range(0, len(matrix_a)): # vary the rows for matrix b

            total = 0

            for j in range(0, len(matrix_b)): # Vary the columns for the matrix_b

                total += matrix_b[j][k] * row[j]

            new_row.append(total)

        result_matrix.append(new_row)

    return result_matrix

In [15]:
# Operações de matrizes

## criação de uma matriz
matrix_array = np.random.randint(low=0, high=10, size=9).reshape(3, 3)
matrix_array_b = np.random.randint(low=0, high=10, size=9).reshape(3, 3)


## multiplicação de matrizes
mult_result = np.matmul(matrix_array, matrix_array_b)
print(matrix_array)
print(matrix_array_b)
print(mult_result)

## matriz sum
sum_result = matrix_array + matrix_array_b
print(sum_result)

[[7 2 6]
 [7 6 7]
 [1 6 4]]
[[6 1 9]
 [5 1 7]
 [2 1 9]]
[[ 64  15 131]
 [ 86  20 168]
 [ 44  11  87]]
[[13  3 15]
 [12  7 14]
 [ 3  7 13]]


In [16]:
# Operações SQL

lista_np = np.arange(10)
print(lista_np)


[0 1 2 3 4 5 6 7 8 9]


In [17]:
## Select

# condições para a query
conditions = [lista_np <= 3, lista_np>=7]

print(conditions)

[array([ True,  True,  True,  True, False, False, False, False, False,
       False]), array([False, False, False, False, False, False, False,  True,  True,
        True])]


In [18]:
# operações sobre o vetor
operations = [lista_np, lista_np * 2]
print(operations)


[array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])]


In [19]:
results = np.select(conditions, operations, -1)
print(results)

## Where
results = results[np.where(results > 10)]
print(results)

[ 0  1  2  3 -1 -1 -1 14 16 18]
[14 16 18]


# Calculando similaridade entre diversos vetores

In [20]:
def measure_cosine_distance(tokens_one, tokens_two):
    """
        Calculating the cosine similarity between two arrays
        return a float value between -1 and 1
    """
    return (np.dot(tokens_one, tokens_two)/(np.linalg.norm(tokens_one) * np.linalg.norm(tokens_two)))

In [21]:
def measure_similarity_between_arrays(matrix, similarity_measure=measure_cosine_distance):
    
    similarity_matrix = np.zeros((len(matrix), len(matrix)))
    
    np.diagonal(similarity_matrix, 1)
    
    for row_index, row in enumerate(matrix):
        
        # quais são os indexes das colunas que ainda não foram preenchidas
        columns_index = np.argwhere(similarity_matrix[row_index] == 0).flatten()
        
        similarities = list(map(lambda other_row: similarity_measure(row, other_row), matrix[columns_index]))
        
        similarity_matrix[row_index][columns_index] = similarities
        
        similarity_matrix[columns_index][row_index] = similarities

    return similarity_matrix

In [22]:
measure_similarity_between_arrays(np.random.randint(low=0, high=2, size=100).reshape(10, 10))

array([[1.        , 0.23570226, 0.5       , 0.40824829, 0.47140452,
        0.54772256, 0.77151675, 0.40824829, 0.73029674, 0.81649658],
       [0.23570226, 1.        , 0.23570226, 0.28867513, 0.        ,
        0.51639778, 0.21821789, 0.28867513, 0.25819889, 0.28867513],
       [0.5       , 0.23570226, 1.        , 0.40824829, 0.47140452,
        0.54772256, 0.6172134 , 0.61237244, 0.54772256, 0.40824829],
       [0.40824829, 0.28867513, 0.40824829, 1.        , 0.57735027,
        0.        , 0.75592895, 0.25      , 0.67082039, 0.5       ],
       [0.47140452, 0.        , 0.47140452, 0.57735027, 1.        ,
        0.        , 0.43643578, 0.28867513, 0.51639778, 0.57735027],
       [0.54772256, 0.51639778, 0.54772256, 0.        , 0.        ,
        1.        , 0.50709255, 0.4472136 , 0.2       , 0.2236068 ],
       [0.77151675, 0.21821789, 0.6172134 , 0.75592895, 0.43643578,
        0.50709255, 1.        , 0.37796447, 0.6761234 , 0.56694671],
       [0.40824829, 0.28867513, 0.6123724