# Aula 06 - Principais bibliotecas Python para Data Science

- Numpy
- Pandas


## Biblioteca Numpy

- Abreviatura de *Numerical Python*
- Pedra angular do processamento numérico em Python
- Oferece estruturas de dados, algoritmos e rotinas necessários à maioria das aplicações científicas que envolvam dados númericos em Python
- Os *arrays* em Numpy são mais eficientes para armazenar e manipular dados do que as outras estruturas de dados nativas (built-in) do Python (e.g., Listas)
- Muitas bibliotecas e ferramentas de processamento numérico para Python supõem os arrays Numpy como uma estrutura de dados principal

- Comando tradicional para uso:
`import numpy as np`

### O array multidimensional (ndarray)

- Um dos principais recursos do NumPy é seu objeto array N-dimensional (ndarray)
- Trata-se de um contêiner rápido para conjuntos de dados grandes, permitindo a realização de operações matemáticas em blocos inteiros de dados
- É um contêiner genérico multidimensional para dados *homogêneos*, isto é, todos os elementos devem ser do mesmo tipo.

- Exemplo:

In [None]:
import numpy as np  
data = np.random.randn(2, 3)
print(data)

- É possível escrever operações matemáticas aplicadas ao array:

In [None]:
print(data)

In [None]:
data * 10

In [None]:
data + data

### Criando ndarrays

- A maneira mais fácil de criar um array é usar a função `array`
- Ela aceita qualquer objeto do tipo sequência (uma lista, por exemplo) e gera um novo array Numpy

In [None]:
lista = [6, 6.75, 8, 0, 1]

In [None]:
lista

In [None]:
arr1 = np.array(lista)

In [None]:
arr1

In [None]:
type(arr1)

In [None]:
arr1.ndim #número de dimensões

In [None]:
arr1.shape #formato

- Arrays multidimensionais 



In [None]:
a = np.zeros((2,2))
print(a)

In [None]:
a.ndim

In [None]:
a.shape

In [None]:
b = np.random.randn(2, 3)
print(b)
print('n dims: ', b.ndim)
print('shape: ', b.shape)

- Operações matemáticas

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print('x = \n', x)
print('y = \n', y)

In [None]:
# Soma 
print(x+y)

In [None]:
# Subtração
print(x-y)

In [None]:
# Multiplicação
print(x*y)

In [None]:
# Divisão
print(x/y)

- Operações nos elementos de um array



In [None]:
x = np.array([[1,2], [3,4]])
print(x)

In [None]:
print(np.sum(x))

In [None]:
print(np.sum(x, axis = 0)) # soma colunas

In [None]:
print(np.sum(x, axis = 1)) # soma linhas

In [None]:
print(x.T) # transposta

In [None]:
x

- Reshaping

![https://backtobazics.com/wp-content/uploads/2018/08/numpy-reshape-examples.jpg](https://backtobazics.com/wp-content/uploads/2018/08/numpy-reshape-examples.jpg)

In [None]:
array = np.arange(8) 
print("array : \n", array) 
  

In [None]:
array = np.arange(8).reshape(2, 4)
print("\nreshaped 2x4: \n", array)

In [None]:
array = np.arange(8).reshape(4, 2)
print("\nreshaped 4x2 : \n", array)

In [None]:

array = np.arange(8).reshape(2, 2, 2) 
print("\nreshaped 3D : \n", array)


### Os arrays numpy são mais rápidos

In [None]:
L = range(1000)
%timeit [i**2 for i in L]

In [None]:
a = np.arange(1000)
%timeit a**2

### Criando arrays com funções da Numpy

In [None]:
# criar um range
x = np.arange(0, 10, 1) #start, stop, step
print(x)

In [None]:
x = np.arange(-1, 1, 0.1)
print(x)

In [None]:
# linspace (neste caso, os extremos são incluídos)
np.linspace(0, 10, 25)

In [None]:
np.logspace(0, 10, 10, base=np.e)

## Bibliotecas Pandas

- Oferece estruturas de dados de alto nível e funções projetadas para que o trabalho com dados *estruturados* ou *tabulares* seja rápido, fácil e expressivo
- É uma das bibliotecas mais populares de Python
- Suas principais estruturas de dados são: 
    - *Series* - um objeto array unidimensional com rótulo
    - *DataFrame* - uma estrutura de dados tabular, orientada a colunas, com rótulos tanto para linhas quanto para colunas
    
- Enquanto que a biblioteca Numpy foi projetada para trabalhar com dados numéricos homogêneos em arrays, Pandas foi projetada para trabalhar com dados tabulares e heterogêneos

- Importação: `import pandas as pd`

**Pandas Series** 

- É um objeto do tipo array unidimensional contendo uma sequência de valores e um array associado de rótulos chamado de *índice*
- Pandas Series serão as colunas de um Pandas DataFrame

In [None]:
import pandas as pd
obj = pd.Series([4, 7, -5, 3])
print(obj)

In [None]:
print(obj)

obj.values  # array de valores

In [None]:
obj.index  # array de rótulos

- É possível criar uma Series com um índice que identifique cada ponto de dado com um rótulo

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [None]:
obj2

- Obtendo os dados de uma série

In [None]:
obj2

In [None]:
obj2['a']

In [None]:
obj2 < 0

In [None]:
obj2[obj2 < 0] #filtro

Outra forma de pensar em uma Series é como um dicionário ordenado de tamanho fixo, como se fosse um mapeamento entre valores de índice e valores de dados

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [None]:
obj3 = pd.Series(sdata)

In [None]:
obj3

**DataFrames**

É possível criar um dataframe a partir de Series

In [None]:
ser1 = pd.Series([1,2,3,4,5], index=list('abcde'))
print(ser1)

In [None]:
ser2 = pd.Series([11, 22, 33, 44, 55], index=list('abcde'))
print(ser2)

![dataframe.png](attachment:image.png)

In [None]:
df = pd.DataFrame({'A': ser1, 'B': ser2})

In [None]:
df

In [None]:
df['B']

In [None]:
df.index

- Criando um dataframe do zero

Considere as seguintes taxas de conversão entre as seguintes moedas:

|     | USB  | EUR  | GBP  |
|-----|------|------|------|
| USD | 1.0  | 0.91 | 0.79 |
| EUR | 1.1  | 1.0  | 0.87 |
| GBP | 1.26 | 1.14 | 1.0  |


Observando a tabela acima, temos:

- Cada coluna dessa tabela é representada por uma **Series**
- A tabela é armazenada como um **DataFrame**

Vamos criar este dataframe.



In [None]:
import pandas as pd
import numpy as np 

moedas = ['USD', 'EUR', 'GBP']
usd_data = np.array([1.0, 1.1, 1.26])
usd = pd.Series(usd_data, index=moedas)
usd

In [None]:
usd['EUR']

In [None]:
usd.values

In [None]:
usd.index

Código completo

In [None]:
import pandas as pd
import numpy as np

moedas = ['USD', 'EUR', 'GBP']

usd_data = np.array([1.0, 1.1, 1.26])
eur_data = np.array([0.91, 1.0, 1.14])
gbp_data = np.array([0.79, 0.87, 1.0])

usd = pd.Series(usd_data, index=moedas)
eur = pd.Series(eur_data, index=moedas)
gbp = pd.Series(gbp_data, index=moedas)

dic = {'USD': usd, 'EUR': eur, 'GBP': gbp}

taxas = pd.DataFrame(dic)

taxas

Obtendo dados do Dataframe

In [None]:
taxas.index

In [None]:
taxas.columns

In [None]:
taxas['USD']

In [None]:
taxas['EUR']['GBP']

Podemos exportar o dataframe

In [None]:
taxas.to_csv('taxas.csv')

Lendo o dataframe a partir do csv

In [None]:
taxas_csv = pd.read_csv('taxas.csv')

In [None]:
taxas_csv

In [None]:
taxas_csv = pd.read_csv('taxas.csv', index_col=0)
taxas_csv