# Introdução a numpy


## Na aula de hoje falaremos sobre os seguintes tópicos:

- Motivação
- Quais as vantagens de se utilizar numpy?
- Manipulação de arrays:
    - Criação de um array
    - Inserção de valores
    - Deleção de valores
    - Concatenção de valores
- Operações com numpy arrays:
    - Soma
    - Subtração
    - Divisão
    - Multiplicação
- Operações de conjuntos:
    - União
    - Interseção
    - Diferença
- Operações de matrizes:
    - Transposição
    - Multiplicação de matrizes
    - Operações básicas de matrizes: Soma, subtraçao, multiplicação
- Operações com random:
    - Criação de um array aleatório
    - Criação de uma matriz aleatória
- Operações de SQL:
    - Select
    - Where
- Exemplo final:
    - Similaridade de valores

<img src="Figures/numpy.webp" width=600 heigth=600>


Numpy é uma biblioteca para linguagem python com operações de computação númerica. A biblioteca tem grande notoriedade na comunidade dado que utiliza estruturas de dados próprias que são implementadas em C. 

<img src="Figures/numpy_comparison.png" width=600 heigth=600>

A biblioteca possui um excelente desempenho computacional e a facilidade de implementação em Python.




In [1]:
import numpy as np

In [4]:
## criação de uma lista

# python

lista_python = [1, 2, 3]

# numpy
lista_np = np.arange(0, 4)

## Inserção de dados em um lista

# python
lista_python.append(4)

# numpy
lista_np = np.append(lista_np, 4)

## Inserção em uma posição específica


# python
# index e o valor a ser adicionado
lista_python.insert(0, 0)

# numpy
# index e o valor a ser adicionado
lista_np = np.insert(lista_np, 0, 0)

## Deleção de valores

# python
# remove o último valor da lista
# estrutura de dados em python possui o conceito de duck type
# elas possuem o comportamento de várias estruturas ao mesmo tempo
# no da lista ela também engloba pilha e fila

# lista_python.pop() - remove um valor por index e retorna seu valor
# lista_python.remove() - remove por valor
# lista_python.del() - remove por slice ou index

lista_python.pop(0)

# numpy

# o array do numpy e o index a ser removido
# vale ressaltar que pode ser usado index ou slice
lista_np = np.delete(lista_np, 0)


## Concatenação de listas/arrays

# python
lista_python_b = [5, 6, 7, 8]

lista_python_a = lista_python + lista_python_b


# numpy
lista_np_b = np.array([5, 6, 7, 8])

lista_np_a = np.concatenate([lista_np, lista_np_b])

In [5]:
# Operações com numpy arrays

## soma

# python
lista_python_a = list(map(lambda x, y: x + y, lista_python, lista_python_b))

# numpy
lista_np_a = lista_np + lista_np_b

## Subtração

# python
lista_python_a = list(map(lambda x, y: x - y, lista_python, lista_python_b))

# numpy
lista_np_a = lista_np - lista_np_b

## Divisão

# python
lista_python_a = list(map(lambda x, y: x/y, lista_python, lista_python_b))

# numpy
lista_np_a = lista_np/lista_np_b


lista_np_a = lista_np/3


## Multiplicação

# python
lista_python_a = list(map(lambda x, y: x*y, lista_python, lista_python_b))

# numpy
lista_np_a = lista_np * lista_np_b


lista_np_a = lista_np * 3

In [6]:
# Operação de conjuntos

lista_python = set(lista_python)

lista_python_b = set(lista_python_b)

## Operação de união

# python
lista_python_a = lista_python.union(lista_python_b)

# numpy
lista_np_a = np.union1d(lista_np, lista_np_b)

## Operação de Interseção

# python
lista_python_a = lista_python.intersection(lista_python_b)

# numpy
lista_np_a = np.intersect1d(lista_np, lista_np_b)

## Operação de diferença

# python
lista_python_a = lista_python.difference(lista_python_b)

# numpy
lista_np_a = np.diff(lista_np, lista_np_b)

In [None]:
def generate_random_matrix(row, columns, min_value=0, max_value=1, multiply=1):


    return [[random.uniform(min_value, max_value) * multiply for column in range(columns)] for row_index in range(0, row)]

In [9]:
# Operações com random

## Criação de um array aleatório
array = np.random.randint(low=0, high=10, size=100)


## Criação de uma matriz aleatória
matrix_array = array.reshape(10, 10)

In [None]:
def transpose_matrix(matrix):
    """
        Given a matrix A, this method will return A Transposed
        A matrix will be a python list of list
    """

    transposed_matrix = []

    # matrix[aqui varia][aqui é fixo]

    for column in range(0, len(matrix[0])):

        new_row = []

        for row in range(0, len(matrix)):

            new_row.append(matrix[row][column])

        transposed_matrix.append(new_row)

    return transposed_matrix


def matrix_multiplication(matrix_a, matrix_b):
    """
        Given two matrixes, this method returns a third matrix that
        is the multiplication of the two entry matrixes
    
        Row X Column
    """

    result_matrix = []

    for row in matrix_a:

        # I have a list of values that will be multiplied by the column of another matrix

        new_row = []

        for k in range(0, len(matrix_a)): # vary the rows for matrix b

            total = 0

            for j in range(0, len(matrix_b)): # Vary the columns for the matrix_b

                total += matrix_b[j][k] * row[j]

            new_row.append(total)

        result_matrix.append(new_row)

    return result_matrix

In [12]:
# Operações de matrizes

## criação de uma matriz
matrix_array_b = np.random.randint(low=0, high=10, size=100).reshape(10, 10)

## multiplicação de matrizes
mult_result = np.matmul(matrix_array, matrix_array_b)

## matriz sum
mult_result = matrix_array + matrix_array_b

In [20]:
# Operações SQL

lista_np = np.arange(10)

## Select

# condições para a query
conditions = [lista_np <= 3, lista_np >= 7]

# operações sobre o vetor
operations = [lista_np, lista_np * 10]

results = np.select(conditions, operations, -1)


## Where
results = results[np.where(results > 0)]

# Calculando similaridade entre diversos vetores

In [35]:
def measure_cosine_distance(tokens_one, tokens_two):
    """
        Calculating the cosine similarity between two arrays
        return a float value between -1 and 1
    """
    return (np.dot(tokens_one, tokens_two)/(np.linalg.norm(tokens_one) * np.linalg.norm(tokens_two)))

In [36]:
def measure_similarity_between_arrays(matrix, similarity_measure=measure_cosine_distance):
    
    similarity_matrix = np.zeros((len(matrix), len(matrix)))
    
    np.diagonal(similarity_matrix, 1)
    
    for row_index, row in enumerate(matrix):
        
        # quais são os indexes das colunas que ainda não foram preenchidas
        columns_index = np.argwhere(similarity_matrix[row_index] == 0).flatten()
        
        similarities = list(map(lambda other_row: similarity_measure(row, other_row), matrix[columns_index]))
        
        similarity_matrix[row_index][columns_index] = similarities
        
        similarity_matrix[columns_index][row_index] = similarities

    return similarity_matrix

In [37]:
measure_similarity_between_arrays(np.random.randint(low=0, high=2, size=100).reshape(10, 10))

[1 1 1 1 1 1 1 1 0 0]
[1 0 0 0 0 1 0 1 1 0]
[0 0 0 0 0 0 0 1 0 1]
[1 1 1 0 0 0 1 0 1 0]
[0 1 1 0 1 0 1 1 0 0]
[0 0 1 0 0 0 0 0 0 0]
[1 0 0 1 0 0 0 1 0 0]
[1 1 1 0 1 1 0 1 0 0]
[1 1 1 0 1 0 0 1 1 1]
[1 0 1 1 1 1 0 0 0 1]


array([[1.        , 0.53033009, 0.25      , 0.63245553, 0.79056942,
        0.35355339, 0.61237244, 0.8660254 , 0.6681531 , 0.72168784],
       [0.53033009, 1.        , 0.35355339, 0.4472136 , 0.2236068 ,
        0.        , 0.57735027, 0.61237244, 0.56694671, 0.40824829],
       [0.25      , 0.35355339, 1.        , 0.        , 0.31622777,
        0.        , 0.40824829, 0.28867513, 0.53452248, 0.28867513],
       [0.63245553, 0.4472136 , 0.        , 1.        , 0.6       ,
        0.4472136 , 0.25819889, 0.54772256, 0.6761234 , 0.36514837],
       [0.79056942, 0.2236068 , 0.31622777, 0.6       , 1.        ,
        0.4472136 , 0.25819889, 0.73029674, 0.6761234 , 0.36514837],
       [0.35355339, 0.        , 0.        , 0.4472136 , 0.4472136 ,
        1.        , 0.        , 0.40824829, 0.37796447, 0.40824829],
       [0.61237244, 0.57735027, 0.40824829, 0.25819889, 0.25819889,
        0.        , 1.        , 0.47140452, 0.43643578, 0.47140452],
       [0.8660254 , 0.61237244, 0.2886751