## Conhecendo a biblioteca e nossos dados

### Para saber mais: vantagens dos arrays

As listas em Python são estruturas de dados básicas que podem conter elementos de diferentes tipos (inteiros, strings, outras listas, etc.). Já a Numpy (Numerical Python) é uma biblioteca do Python que fornece suporte a arrays multidimensionais, estruturas de dados mais avançadas e eficientes para cálculos numéricos.

Aqui está um exemplo de como transformar uma lista em um array Numpy:

In [None]:
import numpy as np

# cria uma lista
lista = [1, 2, 3, 4, 5]

# transforma a lista em um array Numpy
array = np.array(lista)

print("Lista: ", lista)
print("Array: ", array)

Saída:

Lista: [1, 2, 3, 4, 5]
Array: [1 2 3 4 5]

Existem várias vantagens em usar arrays Numpy ao invés de listas regulares do Python e aqui estão algumas:

```
Eficiência de processamento
```
As operações matemáticas em arrays Numpy são muito mais rápidas do que em listas regulares, pois a NumPy foi otimizada para trabalhar com conjuntos de dados homogêneos e libera memória do computador rapidamente.
```
Facilidade de uso
```
As operações matemáticas em arrays Numpy são expressas de forma muito mais clara e concisa do que em listas regulares, tornando o código mais fácil de ler e manter.
```
Integração com outras bibliotecas
```
A Numpy é uma das bibliotecas mais utilizadas em ciência de dados e aprendizado de máquina. Muitas outras bibliotecas, como a Pandas e a Matplotlib, são projetadas para trabalhar diretamente com arrays Numpy.
```
Comparativo de performance: listas vs arrays
```
Focando na eficiência, podemos comparar o tempo levado para efetuar um cálculo utilizando listas e arrays.

In [None]:
import numpy as np
import time

# cria uma lista com 1000000 elementos
lista = list(range(1000000))

# transforma a lista em um array Numpy
array = np.array(lista)

# começa a cronometrar o tempo para a operação com a lista
start_time = time.time()

# realiza a operação de elevar ao quadrado cada elemento da lista
lista_quadrado = [i**2 for i in lista]

# para o cronômetro
list_time = time.time() - start_time

# começa a cronometrar o tempo para a operação com o array
start_time = time.time()

# realiza a operação de elevar ao quadrado cada elemento do array
array_quadrado = array**2

# para o cronômetro
array_time = time.time() - start_time

print("Tempo da operação com a lista: ", list_time)
print("Tempo da operação com o array: ", array_time)

Saída:

Tempo da operação com a lista: 0.2745847702026367

Tempo da operação com o array: 0.004081010818481445

Como pode ser visto, a operação realizada com o array Numpy foi muito mais rápida do que com a lista regular, o que demonstra a eficiência no processamento com o array.

### Carregando os dados

In [None]:
import numpy as np

In [None]:
# outra forma de carregar o arquivo seria usando a url que o github > (raw) oferece, ou passando o caminho da pasta 'numpy-dados/apples_ts.csv':
url = 'https://raw.githubusercontent.com/alura-cursos/numpy/dados/apples_ts.csv'

In [None]:
7*12+3

In [None]:
# gerando uma sequencia de numeros 

np.arange(1,88,1)

In [None]:
data = np.loadtxt(url, delimiter=',', usecols= np.arange(1,88,1))

### Dimensões dos arrays

In [None]:
data

In [None]:
# quero verificar quantas dimensões tem o array, no caso 2D
data.ndim

In [None]:
# Verifica a quantidade de elementos do array
data.size

In [None]:
# verifica o numero de elementos em cada dimensao, nesse caso diz que tem 6 linhas e 87 colunas
data.shape

In [None]:
# realiza a transposição do array
data_transposto = data.T

In [None]:
data_transposto

### Faça como eu fiz
Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Para isso, vamos utilizar outro dataset em um desafio que será desenvolvido no decorrer do curso. Esse dataset é uma versão modificada do arquivo Oranges vs. Grapefruit presente no site do Kaggle. Portanto, utilizaremos o arquivo raw disponível no GitHub.

Nessa etapa, você deve efetuar a leitura dos dados. Para isso, importe a NumPy e use a `função loadtxt`. Use o link da url e o parâmetro `usecols` para pular a primeira coluna. É possível usar `np.arange` para criar a sequência de números que representam as colunas. Por fim, também é necessário incluir o parâmetro `skiprows=1` para que a primeira linha de texto seja desconsiderada na leitura do arquivo.

In [None]:
import numpy as np
url = 'https://raw.githubusercontent.com/allanspadini/numpy/dados/citrus.csv'
dado = np.loadtxt(url, delimiter=',',usecols=np.arange(1,6,1),skiprows=1)

## Exploracao dos dados

### Visualizacao e selecao

In [None]:
dates = data_transposto[:,0]

In [None]:
precos = data_transposto[:,1:6]

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.plot(dates, precos[:,0])

In [None]:
type(dates[0])

In [None]:
dates = np.arange(1,88,1)

In [None]:
plt.plot(dates, precos[:,0])

In [None]:
Moscow = precos[:,0]
Kaliningrad = precos[:,1]
Petersburg = precos[:,2]
Krasnodar = precos[:,3]
Ekaterinburg = precos[:,4]

In [None]:
Moscow.shape

In [None]:
Moscow_ano1 = Moscow[0:12] 
Moscow_ano2 = Moscow[12:24]
Moscow_ano3 = Moscow[24:36]
Moscow_ano4 = Moscow[36:48]

In [None]:
Moscow_ano1

In [None]:
plt.plot(np.arange(1,13,1), Moscow_ano1)
plt.plot(np.arange(1,13,1), Moscow_ano2)
plt.plot(np.arange(1,13,1), Moscow_ano3)
plt.plot(np.arange(1,13,1), Moscow_ano4)
plt.legend(['Ano 1', 'Ano 2', 'Ano 3', 'Ano 4'])

In [None]:
# Verificando se os arrays sao iguais
np.array_equal(Moscow_ano3, Moscow_ano4)

In [None]:
# verifica se arrays sao proximos (dentro de um intervalo)
np.allclose(Moscow_ano3, Moscow_ano4,10)

In [None]:
plt.plot(dates, Kaliningrad)

In [None]:
Kaliningrad

In [None]:
# quero verificar quantos nan eu tenho nesse array
# Funcao isnan verifica valores nao numericos
# vou utilizar a funcao sum porque os valores false sao interpretados como 0 e true como 1
np.isnan(Kaliningrad)

In [None]:
# vou utilizar a funcao sum porque os valores false sao interpretados como 0 e true como 1
sum(np.isnan(Kaliningrad))

In [None]:
# Como eu nao sei qual é o valor, vou utilizar a interpolacao para preencher o valor nan. 
# No caso, vou pegar o valor anterior e posterior ao nan para preencher o nan
(Kaliningrad[3]+Kaliningrad[5])/2

In [None]:
# eu tenho uma funcao do numpy que faz a media, que é chamada de mean
np.mean([Kaliningrad[3], Kaliningrad[5]])

In [None]:
# eu vou preencher o nan com a media entre os valores anteriores e posteriores
Kaliningrad[4] = np.mean([Kaliningrad[3], Kaliningrad[5]])

In [None]:
Kaliningrad

In [None]:
plt.plot(dates, Kaliningrad)

In [None]:
# Comparando as médias de preco de duas cidades
np.mean(Moscow)

In [None]:
np.mean(Kaliningrad)

In [None]:
plt.plot(dates, Moscow)

y = ax + b

y seria o preco das macas
x seria o mes (valor indo de 1 a 87)
a = coeficiente angular
b = coeficiente linear

In [None]:
x = dates

In [None]:
y = 2*x+80

In [None]:
plt.plot(dates, Moscow)
plt.plot(x,y)

In [None]:
# verificamos que a reta que estipulamos esta bem fora, e para isso posso fazer algumas coisas, como por exemplo verificar quando a minha reta esta fora do grafico
np.sqrt(np.sum(np.power(Moscow-y,2)))

In [None]:
y = 0.52*x+80

In [None]:
plt.plot(dates, Moscow)
plt.plot(x,y)

In [None]:
np.sqrt(np.sum(np.power(Moscow-y,2)))

In [None]:
np.linalg.norm(Moscow-y)

### Para saber mais: cópias de arrays

Ao trabalharmos com arrays ou outras variáveis em Python, eventualmente fazemos cópias das variáveis que estamos lidando. Quando fazemos a cópia de uma variável, temos que ter em mente o que acontece com ela para evitar que usemos determinados valores pensando que são outros valores. Para lidar com cópias dos arrays, a biblioteca Numpy possui uma função específica.

Neste exemplo, possuo um array com o nome preco_imoveis que desejo fazer uma cópia.

In [None]:
preco_imoveis = np.array([10000,120000,11000,200000])

O objetivo é colocar os valores deste array em um de nome específico para o preço de imóveis em São Paulo. Vamos fazer a cópia usando o sinal de igual (=).

In [None]:
preco_imoveis_sao_paulo = preco_imoveis

Se você verificar os valores na nova variável preco_imoveis_sao_paulo, verá que eles são os mesmos da variável preco_imoveis. Mas, já que "guardamos" os preços na variável preco_imoveis_sao_paulo, que tal substituir o valor do primeiro imóvel do array preco_imoveis com um novo que acabou de entrar para o nosso cadastro?

In [None]:
preco_imoveis[0] = 120000

Se você tentar reproduzir o processo feito até agora, verá que essa alteração no array preco_imoveis também alterou a primeira posição do array preco_imoveis_sao_paulo para o valor de 120000.

Para criar um array desvinculado do array original existe uma função da numpy, a np.copy(). Para criar a cópia utilizando ela bastaria seguir esse código:

In [None]:
preco_imoveis_sao_paulo = np.copy(preco_imoveis)

Assim, mesmo que alterarmos o array preco_imoveis, isso não afetará o array preco_imoveis_sao_paulo.

Isso ocorre porque, quando usamos o sinal de igual para copiar o array, temos um novo array que aponta para os mesmos locais na memória. Já quando usamos o np.copy(), os locais na memória são diferentes.

a = coeficiente angular <br>
n - número de elementos <br>
Y = Moscow <br>
X = dates <br>
O coeficiente angular pode ser obtido usando a equacao: 

![Imagem do coeficiente angular](\numpy-dados\coeficiente_angular.png)

In [None]:
Y = Moscow
X = dates
n = np.size(Moscow) # calcula o numero de elementos do array

In [None]:
X**2

In [None]:
a = (n*np.sum(X*Y) - np.sum(X)*np.sum(Y))/(n*np.sum(X**2) - np.sum(X)**2)
a

Coeficiente linear

![](\numpy-dados\coeficiente_linear.png)

In [None]:
b = np.mean(Y) - a*np.mean(X)
b

In [None]:
y = a*X + b

In [None]:
np.linalg.norm(Moscow-y)

In [None]:
plt.plot(dates, Moscow)
plt.plot(x,y)
plt.plot(41.5,41.5*a+b,'*r') #estimando o valor para o meio do mes 41
plt.plot(100,100*a+b,'*r') # estimando para o mes 100, ou seja, para o futuro

### para saber mais: regressao

A regressão é muito utilizada em ciência de dados para a previsão e também a interpolação de valores. Seu uso tem diversos aspectos e eu separei alguns cursos da Alura que você pode fazer para se aprofundar no assunto.

* [Curso Online Data Analysis: previsões com Google Sheets | Alura][primeiro_link]

* [Curso Online Regressão linear: testando relações e prevendo resultados | Alura][segundo_link]

* [Curso Online Regressão Linear: técnicas avançadas de modelagem | Alura][terceiro_link]

* [Curso Online Estatística com Python: Correlação e Regressão | Alura][quarto_link]

[primeiro_link]:https://cursos.alura.com.br/course/data-analysis-previsoes-google-sheets
[segundo_link]:https://cursos.alura.com.br/course/data-science-modelo-regressao-linear
[terceiro_link]:https://cursos.alura.com.br/course/data-science-modelo-regressao-linear-assimetria-statsmodel
[quarto_link]:https://cursos.alura.com.br/course/estatistica-correlacao-regressao

## Continuacao - Números Aleatórios

In [None]:
# funcao random.randint(low,high,size) gera um array com valores aleatorios entre low e high, com o tamanho size

np.random.randint(low=40,high=100,size=100)

In [None]:
# funcao random.uniform(low,high,size) gera um array com valores aleatorios entre low e high, com o tamanho size do tipo float

coef_angulares = np.random.uniform(low=0.1,high=0.90,size=100)

In [None]:
# funcao append adiciona um elemento ao final do array
# funcao array cria um array vazio

norma2 = np.array([])

for i in range(100):
    norma2 = np.append(norma2, np.linalg.norm(Moscow-(coef_angulares[i]*X+b)))

In [None]:
min(norma2)

In [None]:
menor_valor = min(norma2)
menor_valor

In [None]:
posicao = 0
for i in range(len(norma2)):
    if norma2[i] == min(norma2):
        posicao = i

print(posicao)
print(norma2[posicao])

In [None]:
np.random.uniform(low=0.1,high=0.90,size=100)

In [None]:
# funcao random.seed - seleciona um numero semente fixo para inicializar o gerador aleatorio

np.random.seed(16)
np.random.uniform(low=0.1,high=0.90,size=100)

In [None]:
np.random.seed(84)
coef_angulares = np.random.uniform(low=0.1,high=0.90,size=100)

norma2 = np.array([])

for i in range(100):
    norma2 = np.append(norma2, np.linalg.norm(Moscow-(coef_angulares[i]*X+b)))

In [None]:
norma2

In [None]:
coef_angulares

In [None]:
# funcao np.column_stack, une dois ou mais arrays, lado a lado, como colunas, em uma matriz

dados = np.column_stack([norma2, coef_angulares])

In [None]:
dados.shape

In [None]:
# funcao np.savetxt, salva um array em um arquivo de texto

np.savetxt('numpy-dados/dados_numpy.csv', dados, delimiter=',')