# Python Para Analise de Dados - Numpy

In [1]:
# Importando a Bibliotecas
import numpy as np
import pandas as pd

In [2]:
# Criando um array de 1 dimensão

one_dim = np.array([1, 2, 3, 4, 5])
one_dim

array([1, 2, 3, 4, 5])

In [3]:
# tipo

type(one_dim)

numpy.ndarray

In [4]:
# Imprimindo o Array

print(one_dim)

[1 2 3 4 5]


In [5]:
# Criando um array de 2 dimensoes

two_dim = np.array([(1, 2, 3), (4, 5, 6)])
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [6]:
# Imprimindo o array

print(two_dim)

[[1 2 3]
 [4 5 6]]


In [7]:
# Cria um array de numeros aleatorios
# Um array de 5 linhas e duas dimensoes

np.random.random((5, 2))

array([[0.04775134, 0.473314  ],
       [0.87011661, 0.09401268],
       [0.50945044, 0.72924909],
       [0.3123614 , 0.93096327],
       [0.93420564, 0.1278368 ]])

In [8]:
# Cria um array com valores esparsos iniciando com o valor 10, menor que 50 e incrementando de 5 em 5

np.arange(10, 50, 5)

array([10, 15, 20, 25, 30, 35, 40, 45])

In [9]:
# Cria um array linear de 0 e 2 de no maximo 9 elementos

np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [10]:
# Cria um array de valores zero
# Cria um array com 3 linhas e 4 dimensoes

np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

# Numpy Arrays Vs Listas

- Arrays Numpy permitem fazermos operações em **arrays inteiros** de forma rápida.
- Listas não permitem operações em todos os elementos da lista.
- Para operações em todos os elementos é preciso interar sobre toda a lista.
- Listas em Python armazenam diferentes tipos de objetos
- Arrays Numpy considera todos os elementos de tipos distintos como strings

In [11]:
# Criando uma lista em Python

lista = [1, 2, 3]
lista

[1, 2, 3]

In [12]:
# Multiplicar valores da lista por 2

lista * 2

[1, 2, 3, 1, 2, 3]

In [13]:
# Transforme a variavel lista em um array numpy

lista = np.array(lista)
lista

array([1, 2, 3])

In [14]:
# Multiplicando cada elemento por 2

lista * 2

array([2, 4, 6])

In [15]:
# Calcular IMC de pessoas

pesos = [67, 81, 120, 90]
altura = [1.68, 1.70, 1.74, 1.86]

In [16]:
# Faz o calculo usando lista

pesos / altura ** 2 # Dara erro pois listas nao sao iteraveis, para isso deverei usa o for

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

In [17]:
# Transformando isso em array numpy

pesos = np.array(pesos)
altura = np.array(altura)

In [18]:
# Imprime o calculo de cada valor

pesos / altura ** 2

array([23.73866213, 28.02768166, 39.63535474, 26.01456816])

In [19]:
# Array Numpy armazena elementos como strings quando estes não são inteiros ou float

a = np.array([1, 2, 'casa', True])
a

array(['1', '2', 'casa', 'True'], dtype='<U11')

In [20]:
a * 2

UFuncTypeError: ufunc 'multiply' did not contain a loop with signature matching types (dtype('<U11'), dtype('int32')) -> None

# Metodos e Atributos Uteis

In [21]:
# Metodos e Atributos tecle tab
'''two_dim.'''

'two_dim.'

In [22]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [23]:
# Retorna a forma do array no formato linhas e colunas

two_dim.shape

(2, 3)

In [24]:
# Retorna a quantidade de dimensoes

two_dim.ndim

2

In [25]:
# Valor maximo do array

two_dim.max()

6

In [26]:
# Valor Minimo do array

two_dim.min()

1

In [27]:
# Valor Medio do array

two_dim.mean()

3.5

In [28]:
# Imprimindo o desvio padrao

two_dim.std()

1.707825127659933

In [29]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [30]:
# Tipo

two_dim.dtype

dtype('int32')

In [31]:
# size

two_dim.size

6

In [32]:
# Mostra a quantidade

two_dim.itemsize

4

In [33]:
# Somando todos os elemntos do array

two_dim.sum()

21

# Transformando Array

In [34]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [35]:
# Gera a transporta da matriz (linha - coluna)

two_dim.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [36]:
# Transforma em uma matriz de uma linha
# E Muito comum em bibliotecas como scikit-learn e keras

two_dim.reshape(-1)

array([1, 2, 3, 4, 5, 6])

In [37]:
# Novo array

tree = np.random.random((5, 3))
tree

array([[0.94725601, 0.30306967, 0.11312595],
       [0.15022294, 0.3060963 , 0.76702089],
       [0.72714535, 0.17584878, 0.74728342],
       [0.7147612 , 0.1506417 , 0.17973528],
       [0.18417884, 0.2157105 , 0.83723882]])

In [38]:
tree.shape

(5, 3)

In [39]:
# Transforma em uma matriz com 3 linhas e 5 colunas

tree.reshape(3, 5)

array([[0.94725601, 0.30306967, 0.11312595, 0.15022294, 0.3060963 ],
       [0.76702089, 0.72714535, 0.17584878, 0.74728342, 0.7147612 ],
       [0.1506417 , 0.17973528, 0.18417884, 0.2157105 , 0.83723882]])

In [40]:
tree.reshape(-1)

array([0.94725601, 0.30306967, 0.11312595, 0.15022294, 0.3060963 ,
       0.76702089, 0.72714535, 0.17584878, 0.74728342, 0.7147612 ,
       0.1506417 , 0.17973528, 0.18417884, 0.2157105 , 0.83723882])

In [41]:
t = tree.reshape(1, 15)
t

array([[0.94725601, 0.30306967, 0.11312595, 0.15022294, 0.3060963 ,
        0.76702089, 0.72714535, 0.17584878, 0.74728342, 0.7147612 ,
        0.1506417 , 0.17973528, 0.18417884, 0.2157105 , 0.83723882]])

In [42]:
two_dim

array([[1, 2, 3],
       [4, 5, 6]])

In [43]:
# Adicionando elementos a um array

two_dim = np.insert(two_dim, 0, 10)
two_dim

array([10,  1,  2,  3,  4,  5,  6])

In [44]:
# Apagando o elemento da primeira posição do array

two_dim = np.delete(two_dim,[0])
two_dim

array([1, 2, 3, 4, 5, 6])

In [45]:
# Gerando um arquivo .txt a partir de um array

np.savetxt('dataset_array.txt', two_dim, delimiter=',')

# Parte II - Acessand Dimensoes no Array

In [46]:
# Importando o Numpy

import numpy as np
import pandas as pd

In [47]:
# Gera um array aleatório de 10 linhas e 2 colunas
# formato linha,coluna

my_array = np.random.random([10, 2])
my_array

array([[0.32247656, 0.78901644],
       [0.93802437, 0.21851392],
       [0.29408096, 0.22545578],
       [0.38314804, 0.51934582],
       [0.8317014 , 0.38816658],
       [0.86765608, 0.8197853 ],
       [0.92307346, 0.35763416],
       [0.20939915, 0.10326464],
       [0.25557395, 0.02650876],
       [0.90217778, 0.99239342]])

In [48]:
# Imprimindo o Primeiro elemento (1 linha)

my_array[0]

array([0.32247656, 0.78901644])

In [49]:
# Imprimindo o primeiro elemento da coluna 0 (1 coluna)

my_array[0][0]

0.32247655528854247

In [50]:
# Primeiro elemento da coluna 1

my_array[0][1]

0.7890164375538025

In [51]:
# Segundo elemento da coluna 1

my_array[1][1]

0.21851392209534082

In [52]:
# Segundo elemento da coluna escrito com virgula.
# O primeiro valor especifica a linha e o segundo valor especifica a coluna.

my_array[1,1]

0.21851392209534082

In [53]:
# Imprimindo até 3 valores da coluna 1

my_array[:3, 1]

array([0.78901644, 0.21851392, 0.22545578])

In [54]:
# Imprime todas as linhas da coluna 2 * 10

my_array[:,1] * 10

array([7.89016438, 2.18513922, 2.25455776, 5.19345817, 3.8816658 ,
       8.19785298, 3.57634157, 1.03264643, 0.26508758, 9.92393418])

In [55]:
# Comparação retorna indices

my_array > 0.50

array([[False,  True],
       [ True, False],
       [False, False],
       [False,  True],
       [ True, False],
       [ True,  True],
       [ True, False],
       [False, False],
       [False, False],
       [ True,  True]])

In [56]:
# Acessando valores por índices

my_array[my_array > 0.50]

array([0.78901644, 0.93802437, 0.51934582, 0.8317014 , 0.86765608,
       0.8197853 , 0.92307346, 0.90217778, 0.99239342])

## Carregar Arrays Numpy a Partir de arquivos de texto

In [57]:
# Lendo um arquivo do tipo .txt

dataset = np.loadtxt('dataset_array.txt', delimiter=',')
dataset

array([1., 2., 3., 4., 5., 6.])

In [58]:
dataset.shape

(6,)