# ***NUMPY - Python para Análise de Dados*** 

Biblioteca que possue objeto do tipo array de alta performance e permite realizar operações complexas com matrizes.
Possui uma coleção de ferramentas que podem ser usadas para problemas matemáticos. 

## **Criando Arrays Numpy**

In [None]:
# Importando a biblioteca numpy
import numpy as np

In [None]:
# Criando um array de 1 dimensão
one_dim = np.array([1,2,3,4])
one_dim

array([1, 2, 3, 4])

In [None]:
type(one_dim)

numpy.ndarray

In [None]:
# Imprimindo um array
one_dim.ndim

1

In [None]:
# Criando um array com 2 dimensões
two_dim = np.array([(1,2,3),(4,5,6)])
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# Criando um array de numéros aleatórios
# Um array de 5 linhas e duas dimenões
np.random.random((5,2))

array([[0.77097959, 0.11715185],
       [0.89494393, 0.90619655],
       [0.89753072, 0.38158508],
       [0.38570901, 0.9028596 ],
       [0.38600207, 0.60256261]])

In [None]:
# Criando um array com valores esparsos iniciando com valor de 10 menor que 50 e incrementando de 5 em 5
np.arange(10,50,5)

array([10, 15, 20, 25, 30, 35, 40, 45])

In [None]:
# Criando um array linear de 0 a 2 de no máximo 9 elementos 
np.linspace(0,2,9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [None]:
# Criando um array de valores zero: pode ser util para iniciar um array que recebe valor zero 
# Criando um array com 3 linhas e 4 dimensões 
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

## **Numpy Arrays vs Listas**

* Arrays Numpy permitem fazermos operações em arrays completos de forma rápida, enquanto que em lista teria que fazer individualmente paara cada elemento
* Listas não permitem operações em todos os elementos da lista
* Para operações em todos os elemento é preciso interar sobre toda a lista
* Listas em python armazenam diferentes tipos de objetos 
* Arrays Numpy considera todos os elementos de tipos distintos como strings 


In [None]:
# Criando uma lista em Python 
lista = [1,2,3]
lista

[1, 2, 3]

In [None]:
# Multiplicar valores por 2: o python vai dobrar os elementos da lista 
lista * 2

[1, 2, 3, 1, 2, 3]

In [None]:
# Transforme a variavel lista em array numpy 
lista = np.array(lista)
type(lista)

numpy.ndarray

In [None]:
# Multiplicando o array por 2
lista * 2

array([2, 4, 6])

In [None]:
# Exemplo 2: Calcular IMC de pessoas
pesos = [67, 81, 120, 90]
pesos = np.array(pesos)
altura = [1.68,1.70,1.75,1.85]
altura = np.array(altura)
pesos / altura ** 2

array([23.73866213, 28.02768166, 39.18367347, 26.29656684])

In [None]:
# Arrays Numpy armazena elementos como strings quando estes não são inteiros ou float 
a = np.array([1,3,'casa', True])
a # esse array nao pode ser multiplicado pois os objetos se tornam do tipo strings 

array(['1', '3', 'casa', 'True'], dtype='<U21')

## **Métodos e Atributos úteis**

In [None]:
# Métodos disponiveis: digite o . e pressione tab
# Retorna a forma do array no formato linhas e colunas 
two_dim.shape
# Retorna a quantidade de dimensões 
two_dim.ndim
# Imprimindo o valor máximo do array
two_dim.max
# Imprimindo o valor mínimo do array 
two_dim.min
# Imprimindo o valor média do array
two_dim.mean
# Imprimindo o desvio padrão 
two_dim.std
# Retorna quantidade de elementos dentro do array
two_dim.size
# Retorna a quantidade de itens em bytes
two_dim.itemsize
# Soma todos os elementos do meu array
two_dim.sum

## **Transformando Arrays**

In [None]:
# Gerando a transporta da matriz: linha se torna coluna vice versa
two_dim.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [None]:
# Transforma em uma matriz de uma linha 
# É muito comum em bibliotecas como scikit-learn e keras
two_dim.reshape(-1)

array([1, 2, 3, 4, 5, 6])

In [None]:
tree = np.random.random((5,3))
tree

array([[0.1280694 , 0.81828807, 0.45164973],
       [0.85049948, 0.66461029, 0.51642005],
       [0.51377537, 0.09585882, 0.04443999],
       [0.96696113, 0.91867694, 0.83712342],
       [0.84196647, 0.74529457, 0.40060497]])

In [None]:
# Transforma em uma matriz com 3 linhas e 5 colunas
tree.reshape(3,5)

array([[0.1280694 , 0.81828807, 0.45164973, 0.85049948, 0.66461029],
       [0.51642005, 0.51377537, 0.09585882, 0.04443999, 0.96696113],
       [0.91867694, 0.83712342, 0.84196647, 0.74529457, 0.40060497]])

In [None]:
tree.reshape(-1).shape

(15,)

In [None]:
t = tree.reshape(1,15)
t

array([[0.1280694 , 0.81828807, 0.45164973, 0.85049948, 0.66461029,
        0.51642005, 0.51377537, 0.09585882, 0.04443999, 0.96696113,
        0.91867694, 0.83712342, 0.84196647, 0.74529457, 0.40060497]])

In [None]:
# Adicionando elementos ao meu array 
two_dim = np.insert(two_dim,0,10)
two_dim

array([10,  1,  2,  3,  4,  5,  6])

In [None]:
# Apagando o elemento da primeira posição do array 
two_dim = np.delete(two_dim,[0])
two_dim

array([1, 2, 3, 4, 5, 6])

In [None]:
# Gerando um arquivo .txt para salvar um array
np.savetxt("dataset_array.txt",two_dim, delimiter=',')

## **Acessando Dimensões no Array**

In [None]:
# Importando a biblioteca
import numpy as np

In [None]:
my_array = np.random.random([10,2])
my_array

array([[0.22685318, 0.0131604 ],
       [0.45488362, 0.87215523],
       [0.18274322, 0.87471007],
       [0.49459873, 0.02484919],
       [0.60591565, 0.11137416],
       [0.20719825, 0.481028  ],
       [0.26486289, 0.36878107],
       [0.59759049, 0.32375299],
       [0.7527053 , 0.47199114],
       [0.82911828, 0.93892913]])

In [None]:
# Imprimindo o primeiro elemento: 1 linha
my_array[0]

array([0.14449704, 0.64297676])

In [None]:
# Imprimindo o primeiro elemento da coluna 0
my_array[0][0]

0.22685318280691869

In [None]:
# Imprimindo o primeiro elemento da coluna 1 
my_array[0][1]

0.013160395552135329

In [None]:
# Segundo elemento da coluna com vírgula, o resultado é o mesmo mas a sintaxe é mais simples 
my_array[1,1]

0.8721552346956186

In [None]:
# Imprimindo ate 3 valores da coluna 1
my_array[:3,1]

array([0.0131604 , 0.87215523, 0.87471007])

In [None]:
# Imprimindo todas as linhas da coluna 2 * 10
my_array[:,1] * 10

array([0.13160396, 8.72155235, 8.74710071, 0.24849194, 1.11374157,
       4.81028004, 3.68781071, 3.23752986, 4.71991135, 9.38929131])

In [None]:
# Comparação retorna indices 
my_array > 0.5

array([[False, False],
       [False,  True],
       [False,  True],
       [False, False],
       [ True, False],
       [False, False],
       [False, False],
       [ True, False],
       [ True, False],
       [ True,  True]])

In [None]:
# Acessando valores por indices
my_array[my_array > 0.50]

array([0.87215523, 0.87471007, 0.60591565, 0.59759049, 0.7527053 ,
       0.82911828, 0.93892913])

# **Carregar Arrays Numpy a partir de Arquivos de Texto**

In [None]:
import numpy as np

In [None]:
# Lendo um arquivo do tipo .txt
dataset = np.loadtxt('dataset_array.txt', delimiter=',')
dataset.shape

(6,)

In [None]:
# Carregando arquivo dividido em 3 arrays: precisa ter o arquivo no drive 
a,b,c = np.loadtxt('dataset_valores.txt', skiprows=1, unpack=True)
# spirows: a primeira linha é o título
# unpack: desconpactar o array e transformar em 3

In [None]:
# Carrega o arquivo ignorando as 2 primeiras linhas e preenchendo os valores vazios por 0
# obs: os valores string tambem são convertidos 

dataset = np.genfromtxt('dataset_valores.txt', skip_header=2, filling_values=0)
# skip_header: pega sempre as primeiras linhas 