# Introdução à Ciência de Dados com Python

## Prof. Dr. Neylson Crepalde

### Usando NumPy para trabalhar com vetores numéricos

Pelo fato de Python ser uma linguagem de programação generalista, ele possui features limitadas para computação científica, cálculo e estatística. A principal biblioteca desenvolvida para esse fim é `NumPy`

In [1]:
import numpy as np

Com o comando acima, carregamos a biblioteca numpy em nosso ambiente python e usamos o *alias* `np` para ter acesso a seus métodos. Numpy nos proporciona a estrutura de arrays multidimensionais ou `ndarray`. Eles são vetores numéricos.

In [12]:
x = np.array([1,3,6,4,7,9,13,2])
type(x)

numpy.ndarray

Os numpy arrays sabem fazer cálculos com seus elementos. Sabem, por exemplo, calcular sua média:

In [13]:
x.mean()  # x sabe calcular sua média

5.625

In [14]:
x.std()  # x sabe calcular seu desvio padrão

3.739568825412898

Ou podemos usar as funções do próprio numpy e passar o array como parâmetro:

In [15]:
np.mean(x)  # calculando a média de x

5.625

In [16]:
np.median(x) # retorna a mediana de x

5.0

In [18]:
# Exibe mínimo e máximo
print(np.min(x))
print(np.max(x))

1
13


Por que usar numpy ao invés de listas? Além da facilidade maior para cálculos matemáticos, as funções de numpy são implementadas em C, o que as torna muito mais eficientes (rápidas) que as listas do Python. Vejam um benchmarking:

In [19]:
%%time
#Usando listas
vetor = [i for i in range(1000000)] # cria um vetor de tamanho 1 milhão

soma = [i+2 for i in vetor]  # soma o vetor a um escalar 2

Wall time: 133 ms


In [20]:
%%time
# usando np.array
vetor = np.arange(1000000)  # Cria um numpy array tamanho 1 milhão
vetor += 2

Wall time: 16.5 ms


In [21]:
print(f"Numpy foi {133/16.5} vezes mais rápido que a lista.")

Numpy foi 8.06060606060606 vezes mais rápido que a lista.


É possível usar numpy para trabalhar com matrizes. Vamos fazer uma matriz de números aleatórios:

In [25]:
A = np.random.randn(24).reshape(6,4)
A

array([[-1.31756059, -0.80101492, -1.08347081,  0.9897789 ],
       [-0.33154304,  0.56155248,  0.85604525,  0.58694955],
       [-0.45923437,  0.96778498,  1.1420344 ,  0.60634799],
       [ 0.67791463,  0.29167643, -0.45400227,  0.88277161],
       [ 0.94496331,  1.6631996 , -1.36053546, -0.54352259],
       [ 0.62639294,  0.32175786, -1.19835967, -0.12079808]])

Para tirar a média da primeira coluna, podemos fazer:

In [28]:
print("Esta é a primeira coluna:", A[:,0])
A[:,0].mean()

Esta é a primeira coluna: [-1.31756059 -0.33154304 -0.45923437  0.67791463  0.94496331  0.62639294]


0.02348881251951085

Podemos também fazer algumas operações com matrizes. Vamos implementar, como exemplo a seguinte continha:

$$\beta = (X'X)^{-1} (X'y)$$

In [37]:
X = np.random.randn(500).reshape(100,5)  # matriz X com 5 colunas
y = np.random.randn(100)

np.linalg.inv(X.T @ X) @ (X.T @ y)

array([ 0.00135991,  0.10253414,  0.03625793,  0.03602154, -0.06832049])