In [1]:
import sklearn

In [2]:
import numpy as np
from numpy import random as rd
import matplotlib.pyplot as plt

In [3]:
I = np.eye(5) # Matriz Identidade com dimensão 5
print(I)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [4]:
II = np.eye(5, k=2) #Matriz Identidade com dimensão 5 mas os 1's são desviados duas casas
print(II)

[[0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [5]:
x0 = np.zeros(5)
print(x0, x0.dtype)

[0. 0. 0. 0. 0.] float64


In [6]:
x1 = np.ones(5)
print(x1, x1.dtype)

[1. 1. 1. 1. 1.] float64


In [7]:
y = np.arange(0, 10)
print(y, y.dtype)

[0 1 2 3 4 5 6 7 8 9] int32


In [8]:
# Zeros e Ones geram float64.
# Arange gera int32

In [9]:
a = np.array([[1, 2], [3, 4]]) # a.shape (2,2)
b = np.array([5, 6])           # b.shape (2,)
c = np.array([[5], [6]])       # c.shape (2,1)

In [10]:
a = rd.randint(-10, 11, (3, 5))
b = rd.randint(-10, 11, 3)

print(a, '\n\n', b)

[[  9   9 -10   4  -5]
 [  8  -7   0  -7  10]
 [  1   2  -2  -7  -3]] 

 [-2 -7  6]


In [11]:
c = np.hstack((a, b)) # As dimensões são diferentes, logo dá erro

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

In [12]:
# Concatenar Arrays

# b[:, np.newaxis] Isto cria uma nova dimensão ao b.
c = np.hstack((a, b[:, np.newaxis]))
print(c)

[[  9   9 -10   4  -5  -2]
 [  8  -7   0  -7  10  -7]
 [  1   2  -2  -7  -3   6]]


In [13]:
a + b # Não permite somar dois arrays com tamanhos diferentes. Dá erro

ValueError: operands could not be broadcast together with shapes (3,5) (3,) 

In [14]:
#Atenção: Isto não somou os valores.
#O engenheiro chamou-lhe de broadcast.
#Na primeira linha, o valor de b[0] vai ser somado a todas as colunas.
#Na segunda, o valor de b[1] e na terceira o de b[2]
a + b[:, np.newaxis]

#A mesma coisa para as multiplicações e divisões
print(a, '\n')
print(b)
a * b[:, np.newaxis]

[[  9   9 -10   4  -5]
 [  8  -7   0  -7  10]
 [  1   2  -2  -7  -3]] 

[-2 -7  6]


array([[-18, -18,  20,  -8,  10],
       [-56,  49,   0,  49, -70],
       [  6,  12, -12, -42, -18]])

In [None]:
#Soma todos os valores de a pelo escalar 10
a + 10

In [None]:
x = rd.rand(2, 1000) + 10 #Array de duas dimensões, 1000 colunas
plt.plot(x[0,:], x[1,:], '.')
plt.axis('scaled')

In [None]:
m = np.mean(x) # Média de todos os pontos
mx = np.mean(x, axis=1) # Média de cada linha
print(m)
print(mx, mx.shape)

In [None]:
x2 = x - mx[:, np.newaxis]
plt.plot(x2[0, :], x2[1, :], '.')
plt.axis('scaled')

In [None]:
import sklearn.datasets as dt

In [None]:
D = dt.load_diabetes()
print(type(D)) #Vai-me dar "Bunch". Basicamente, um dicionário
print(D.keys()) #Todos os possíveis campos
#print(D.DESCR) # Descrição do que a esta data representa

In [None]:
X = D.data # 442 entradas por 10 categorias (dimensões)
Y = D.target # 442 pontos

print(X.shape)
print(Y.shape)

In [None]:
D = dt.load_breast_cancer()
X = D.data
Y = D.target

np.unique(Y)
X2 = X[Y==0, :] #Quais as entradas cujo "target" é 0.
print(X2.shape) #212 Entradas. (30 Dimensões)

In [None]:
a = np.array([3, 0, 2, 4, 1])
b = np.array([3, 3, 2, 1, 0, 0, 4])

#Isto é basicamente um For. Os índices de b são percorridos um a um e são substituídos onde "b" se encontra. 
#Logo, ele vai criar um novo array com a[3] = 4, a[3] = 4, a[2] = 2, a[1] = 0, a[0] = 3, a[0] = 3, a[4] = 1
print(a[b])

In [None]:
from mpl_toolkits.mplot3d import Axes3D #Gráficos em 3 Dimensões
import pickle #Permite guardar um objecto de Python num ficheiro

In [None]:
iris = dt.load_iris()
irisData = iris.data
irisTarget = iris.target

print(irisData.shape)
print(irisTarget.shape)
print(irisTarget)

irisClass1 = irisData[irisTarget==2, :]
print(len(irisClass1))

In [None]:
idx = rd.permutation(len(irisTarget))
ys = irisTarget[idx]
Xs = irisData[idx, :]
plt.plot(ys)
plt.show()

In [None]:
D = dt.load_boston()
X = D.data
y = D.target

#Devemos ordenar as entradas do X também. Esta possui todas as classes das entradas.
#Assim, devemos organizar pelos preços, obtemos esta informação no y (target)
#E depois aplicamos à data, X, e ao target, y.
idx = np.argsort(y)
Xs = X[idx, :]
ys = y[idx]

print("Shape Data:\n",X.shape)
plt.plot(ys, '.')
plt.show()

In [None]:
rd.seed(0)
rd.rand(10)

In [None]:
a = np.arange(10)
b = (a[1:]+a[:-1])/2

print("a: ", a)
print("b: ", b)

In [None]:
x = rd.rand(1000000)
hx, b = np.histogram(x, np.linspace(0, 1, 101), density=True)
print(hx.shape, "\n", b.shape)

b2 = (b[:-1]+b[1:])/2
plt.bar(b2, hx, width=0.025)
plt.show()

In [None]:
x = rd.wald(1, 3, 1000000)
hx, b = np.histogram(x, np.linspace(0, 5, 101), density=True)
print(hx.shape, "\n", b.shape)

b2 = (b[:-1]+b[1:])/2
plt.bar(b2, hx, width=0.05)
plt.show()

In [None]:
x = rd.rand(1000000)
h, b = np.histogram(x, np.linspace(-0.5, 1.5, 101), density=True)
h2=(b[1:]+b[:-1])/2
plt.bar(b2, h, width=0.25)

In [None]:
xSum = rd.rand(10, 1000000)
xSum = np.sum(xSum, axis=0)

h, b = np.histogram(xSum, np.linspace(-0.5, 10.5, 101), density=True)
h2=(b[1:]+b[:-1])/2
plt.bar(b2, h, width=0.25)

In [None]:
X = rd.rand(3, 100000)
X.shape
C = np.cov(X)
C

In [None]:
X = rd.rand(2, 1000) * 2 - 1
plt.plot(X[0,:], X[1,:],'.')
plt.show()

In [None]:
A = rd.randint(-11, 10, (2,2))
X2 = np.dot(A, X)
plt.plot(X2[0,:], X2[1,:],'.')
plt.show()

In [None]:
X = rd.randn(2, 1000) #Quanto mais pontos, mais próximos da média desejada (1) e mais próximos da matriz identidade, cov.
m = np.mean(X, axis=1)
C = np.cov(X)

print("Media:\n", m, "\n")
print("Covarianca:\n", C)

In [None]:
A = np.array([[1/3, 1], [-1/3, 1]])/np.sqrt(2)
b = np.array([3, 2])
Y = np.dot(A, X) + b[:, np.newaxis]
plt.plot(X[0, :], X[1, :], '.', Y[0, :], Y[1, :], '.')
plt.show()

In [None]:
#Slide 20

#Forma 1
C1 = np.cov(Y)
print("C1:\n", C1)

#Forma 2
my = np.mean(Y, axis=1)
Yn = Y - my[:, np.newaxis]
C2 = np.dot(Yn, Yn.T)/999

print("C2:\n", C2)

#Forma 3
C3 = np.dot(A, A.T)
print("C3:\n", C3)