# NumPy: análise numérica eficiente com Python

## Conhecendo a biblioteca e os nossos dados

In [None]:
import numpy as np
import time
import matplotlib.pyplot as plt

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/curso3/apples_ts.csv'
dados = np.loadtxt(url, delimiter = ',', usecols=np.arange(1, 88, 1))
dados

In [None]:
# Testando o desempenho dos arrays numpy

# cria uma lista com 1000000 elementos
lista = list(range(100000))

# transforma a lista em um array Numpy
array = np.array(lista)

# começa a cronometrar o tempo para a operação com a lista
start_time = time.time()

# realiza a operação de elevar ao quadrado cada elemento da lista
lista_quadrado = [i**2 for i in lista]

# para o cronômetro
list_time = time.time() - start_time

# começa a cronometrar o tempo para a operação com o array
start_time = time.time()

# realiza a operação de elevar ao quadrado cada elemento do array
array_quadrado = array**2

# para o cronômetro
array_time = time.time() - start_time

print("Tempo da operação com a lista: ", list_time)
print("Tempo da operação com o array: ", array_time)
print(f"O array foi {round(list_time/array_time, 0)} vezes mais rápido")

In [None]:
dados.ndim # número de dimensões no array

In [None]:
dados.size # número de valores no array

In [None]:
dados.shape # número de linhas e de colunas, respectivamente. Nesse caso, 6 linhas e 87 colunas

In [None]:
dados_transpostos = dados.T
dados_transpostos

url_meses = 'https://raw.githubusercontent.com/allanspadini/numpy/dados/bytebank.csv'
meses = np.loadtxt(url_meses, delimiter=',', skiprows=1, dtype=float)
meses.shape

### Desafio 1
Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Para isso, vamos utilizar outro dataset em um desafio que será desenvolvido no decorrer do curso. Esse dataset é uma versão modificada do [arquivo Oranges vs. Grapefruit](https://www.kaggle.com/datasets/joshmcadams/oranges-vs-grapefruit) presente no site do Kaggle. Portanto, utilizaremos o [arquivo raw](https://raw.githubusercontent.com/allanspadini/numpy/dados/citrus.csv) disponível no GitHub.

Nessa etapa, você deve efetuar a leitura dos dados. Para isso, importe a NumPy e use a função `loadtxt`. Use o link da url e o parâmetro `usecols` para pular a primeira coluna. É possível usar `np.arange` para criar a sequência de números que representam as colunas. Por fim, também é necessário incluir o parâmetro `skiprows=1` para que a primeira linha de texto seja desconsiderada na leitura do arquivo.

In [None]:
# Importando o array do dataset
url = 'https://raw.githubusercontent.com/allanspadini/numpy/dados/citrus.csv'
citrus = np.loadtxt(url, delimiter=',', usecols=np.arange(1, 6, 1), skiprows=1)
citrus.shape

In [None]:
citrus

## Exploração dos dados

In [None]:
datas = dados_transpostos[:,0]
precos = dados_transpostos[:,1:6]

In [None]:
Moscow = precos[:,0]
Kaliningrad = precos[:,1]
Petersburg = precos[:,2]
Krasnodar = precos[:,3]
Ekaterinburg = precos[:,4]

In [None]:
datas_alt = np.arange(1, 88, 1)
plt.plot(datas_alt, Moscow)

In [None]:
Moscow.shape

In [None]:
Moscow_ano1 = Moscow[0:12]
Moscow_ano2 = Moscow[12:24]
Moscow_ano3 = Moscow[24:36]
Moscow_ano4 = Moscow[36:48]

In [None]:
plt.plot(np.arange(1, 13, 1), Moscow_ano1)
plt.plot(np.arange(1, 13, 1), Moscow_ano2)
plt.plot(np.arange(1, 13, 1), Moscow_ano3)
plt.plot(np.arange(1, 13, 1), Moscow_ano4)
plt.legend(['Ano 1', 'Ano 2', 'Ano 3', 'Ano 4'])

In [None]:
np.array_equal(Moscow_ano3, Moscow_ano4)

In [None]:
np.allclose(Moscow_ano3, Moscow_ano4, 10)

In [None]:
plt.plot(np.arange(1,88,1), Kaliningrad)

In [None]:
Kaliningrad

In [None]:
plt.plot(datas_alt, Kaliningrad)

In [None]:
sum(np.isnan(Kaliningrad)) # retorna o numero de valores nan em um array

In [None]:
(Kaliningrad[3] + Kaliningrad[5]) / 2 # média dos valores entre o nan

In [None]:
np.mean([Kaliningrad[3], Kaliningrad[5]])

In [None]:
Kaliningrad[4] = np.mean([Kaliningrad[3], Kaliningrad[5]])

In [None]:
plt.plot(datas_alt, Kaliningrad)

In [None]:
np.mean(Moscow)

In [None]:
np.mean(Kaliningrad)

### Desafio 2


Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Continuando com o projeto das laranjas/toranjas agora você deve selecionar parte dos dados. As colunas que iremos avaliar são as de diâmetro e peso. Crie arrays específicos para guardar o diâmetro e peso da laranja e toranja. O diâmetro está na coluna zero e o peso na coluna 1. Os dados referentes a laranja vão até a linha 4999 e os referentes à toranja iniciam na linha 5000 do arquivo.

Após fazer a seleção de dados, importe a biblioteca matplotlib e crie um gráfico para a laranja e para a toranja do peso pelo diâmetro.




In [None]:
citrus

In [None]:
diametro_laranja = citrus[:5000,0]
peso_laranja = citrus[:5000,1]

diametro_toranja = citrus[5000:,0]
peso_toranja = citrus[5000:,1]

In [None]:
# plotando os gráficos
plt.plot(diametro_laranja, peso_laranja)
plt.plot(diametro_toranja, peso_toranja)

## Operações com arrays

In [None]:
plt.plot(datas_alt, Moscow)

$$ y = ax + b $$

In [None]:
x = datas_alt
y = 2*x+80
plt.plot(datas_alt, Moscow)
plt.plot(x, y)

In [None]:
np.sqrt(np.sum(np.power(Moscow - y, 2)))

In [None]:
x = datas_alt
y = 0.52*x+80
plt.plot(datas_alt, Moscow)
plt.plot(x, y)

In [None]:
np.sqrt(np.sum(np.power(Moscow - y, 2)))

In [None]:
np.linalg.norm(Moscow - y)

### Calculando o coeficiente angular ($\hat{a}$)

a = Coeficiente angular

n -> número de elementos

Y = Moscow

X = datas

$$
\hat{a} = \frac{n * Soma(X_i * Y_i) - Soma(X_i) * Soma(Y_i)} {nSoma(X^2_i) - (Soma(X_i))^2}
$$

In [None]:
Y = Moscow
X = datas_alt
n = np.size(Moscow)

In [None]:
(X**2).shape

In [None]:
a = (n*np.sum(X*Y) - np.sum(X) * np.sum(Y)) / (n*np.sum(X**2) - np.sum(X)**2)
a

### Calculando o coeficiente linear ($\hat{b}$)
$$
\hat{b} = Media(Y_i) - \hat{a} * Media(X_i)
$$

In [None]:
b = np.mean(Y) - a * np.mean(X)
b

In [None]:
y = a*X+b

In [None]:
np.linalg.norm(Moscow - y)

### Implementando uma equação

Thaís queria desenhar um círculo com a ajuda do computador. Para desenhar a parte superior do círculo ela sabia que deveria usar a equação:

$$ y = \sqrt{1 - x ^ 2} $$

E para a parte inferior bastava utilizar a mesma equação multiplicada por -1.

Qual sequência de código ela deve usar para construir o gráfico corretamente usando a Numpy e sabendo que ambas as partes do círculo devem ter a mesma cor?

In [None]:
x = np.arange(-1, 1.01, 0.0001)

# Implementação da fórmula
y1 = np.sqrt(1 - x**2)
y2 = -np.sqrt(1 - x**2)

# Plotar o gráfico com as duas partes do círculo
plt.plot(x, y1, 'r')
plt.plot(x, y2, 'r' )

# Adicionar o título do gráfico e os rótulos dos eixos x e y
plt.title("Círculo")
plt.xlabel("Eixo x")
plt.ylabel("Eixo y")

# Exibir o gráfico
plt.show()

In [None]:
y = a*X+b
plt.plot(datas_alt, Moscow)
plt.plot(datas_alt, y)
plt.plot(41.5, 41.5*a+b, '*r')
plt.plot(100, 100*a+b, '*r')

### Desafio 3
Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Continuando com o projeto das laranjas/toranjas agora você deve calcular o coeficiente ângular e o linear para a reta da laranja e para a reta da toranja. Use a fórmula de mínimos quadrados para encontrar cada um.

In [None]:
plt.plot(diametro_laranja, peso_laranja)

In [None]:
Y = peso_laranja
X = diametro_laranja
n = np.size(X)

a = (n*np.sum(X*Y) - np.sum(X)*np.sum(Y)) / (n*np.sum(X**2) + np.sum(X)**2)
b = np.mean(Y) - a*np.mean(X)

In [None]:
y = a*X+b
plt.plot(diametro_laranja, peso_laranja)
plt.plot(diametro_laranja, y)

In [None]:
Y = peso_toranja
X = diametro_toranja
n = np.size(X)

a = (n*np.sum(X*Y) - np.sum(X)*np.sum(Y)) / (n*np.sum(X**2) + np.sum(X)**2)
b = np.mean(Y) - a*np.mean(X)

In [None]:
a

In [None]:
b

In [None]:
y = a*X+b
plt.plot(diametro_toranja, peso_toranja)
plt.plot(diametro_toranja, y)

In [None]:
np.random.randint(low=40, high=100, size=100)

In [None]:
np.random.uniform(low=0.10, high=0.90, size=100)