FIAP - IA & Machine Learning

# Aula 04 - Principais bibliotecas Python para Data Science

- Numpy
- Pandas


## Biblioteca Numpy

- Abreviatura de *Numerical Python*
- Pedra angular do processamento numérico em Python
- Oferece estruturas de dados, algoritmos e rotinas necessários à maioria das aplicações científicas que envolvam dados númericos em Python
- Os *arrays* em Numpy são mais eficientes para armazenar e manipular dados do que as outras estruturas de dados nativas (built-in) do Python (e.g., Listas)
- Muitas bibliotecas e ferramentas de processamento numérico para Python supõem os arrays Numpy como uma estrutura de dados principal

- Comando tradicional para uso:
`import numpy as np`

### O array multidimensional (ndarray)

- Um dos principais recursos do NumPy é seu objeto array N-dimensional (ndarray)
- Trata-se de um contêiner rápido para conjuntos de dados grandes, permitindo a realização de operações matemáticas em blocos inteiros de dados
- É um contêiner genérico multidimensional para dados *homogêneos*, isto é, todos os elementos devem ser do mesmo tipo.

- Exemplo:

In [None]:
!pip install numpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import numpy as np
data = np.random.randn(2, 3)
data

array([[-0.00438613, -1.97103748, -0.399164  ],
       [ 0.31105506,  1.02941001,  0.72654207]])

- É possível escrever operações matemáticas aplicadas ao array:

In [None]:
data * 10

array([[ -0.04386133, -19.71037485,  -3.99164004],
       [  3.11055056,  10.29410015,   7.26542066]])

In [None]:
data + data

array([[-0.00877227, -3.94207497, -0.79832801],
       [ 0.62211011,  2.05882003,  1.45308413]])

In [None]:
data - data

array([[0., 0., 0.],
       [0., 0., 0.]])

### Criando ndarrays

- A maneira mais fácil de criar um array é usar a função `array`
- Ela aceita qualquer objeto do tipo sequência (uma lista, por exemplo) e gera um novo array Numpy

In [None]:
lista = [6, 6.75, 8, 0, 1]

In [None]:
lista

[6, 6.75, 8, 0, 1]

In [None]:
arr1 = np.array( lista )

In [None]:
arr1

array([6.  , 6.75, 8.  , 0.  , 1.  ])

In [None]:
type(arr1)

numpy.ndarray

In [None]:
# Quantas dimensões existem?
arr1.ndim

1

In [None]:
# Qual é o formato deste array?
arr1.shape

(5,)

- Arrays multidimensionais 



In [None]:
a = np.zeros( (25, 9) )
a

array([[0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0.

In [None]:
a.ndim

2

In [None]:
a.shape

(25, 9)

In [None]:
b = np.random.randn(2, 3)
print(b)
print('n dims: ', b.ndim)
print('shape: ', b.shape)

[[-1.03299955 -0.69813532  1.25196184]
 [ 0.63207583 -0.16559863 -0.93091812]]
n dims:  2
shape:  (2, 3)


- Operações matemáticas

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print('x = \n', x)
print('y = \n', y)

x = 
 [[1. 2.]
 [3. 4.]]
y = 
 [[5. 6.]
 [7. 8.]]


In [None]:
# Soma 
x + y

array([[ 6.,  8.],
       [10., 12.]])

In [None]:
# Subtração
x - y

array([[-4., -4.],
       [-4., -4.]])

In [None]:
# Multiplicação
x * y

array([[ 5., 12.],
       [21., 32.]])

In [None]:
# Divisão
x / y

array([[0.2       , 0.33333333],
       [0.42857143, 0.5       ]])

- Operações nos elementos de um array



In [None]:
x = np.array([[1,2], [3,4]])
print(x)

[[1 2]
 [3 4]]


In [None]:
np.sum(x)

10

In [None]:
# soma colunas
np.sum(x, axis=0)

array([4, 6])

In [None]:
# soma linhas
np.sum(x, axis=1)

array([3, 7])

In [None]:
# transposta
x.T

array([[1, 3],
       [2, 4]])

- Reshaping

![https://backtobazics.com/wp-content/uploads/2018/08/numpy-reshape-examples.jpg](https://backtobazics.com/wp-content/uploads/2018/08/numpy-reshape-examples.jpg)

In [None]:
array = np.arange(8) 
print("array : \n", array) 

array : 
 [0 1 2 3 4 5 6 7]


In [None]:
array = np.arange(8).reshape(2, 4)
print("\nreshaped 2x4: \n", array)


reshaped 2x4: 
 [[0 1 2 3]
 [4 5 6 7]]


In [None]:
array = np.arange(8).reshape(4, 2)
print("\nreshaped 4x2 : \n", array)


reshaped 4x2 : 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]]


In [None]:
array = np.arange(8).reshape(2, 2, 2) 
print("\nreshaped 3D : \n", array)


reshaped 3D : 
 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]


### Os arrays numpy são mais rápidos

In [None]:
L = range(1000)
%timeit [i**2 for i in L]

300 µs ± 6.96 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
a = np.arange(1000)
%timeit a**2

1.46 µs ± 410 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


### Criando arrays com funções da Numpy

In [None]:
# criar um range
x = np.arange(0, 10, 1) #start, stop, step
print(x)

In [None]:
x = np.arange(-1, 1, 0.1)
print(x)

In [None]:
# linspace (neste caso, os extremos são incluídos)
np.linspace(0, 10, 25)

In [None]:
np.logspace(0, 10, 10, base=np.e)

## Bibliotecas Pandas

- Oferece estruturas de dados de alto nível e funções projetadas para que o trabalho com dados *estruturados* ou *tabulares* seja rápido, fácil e expressivo
- É uma das bibliotecas mais populares de Python
- Suas principais estruturas de dados são: 
    - *Series* - um objeto array unidimensional com rótulo
    - *DataFrame* - uma estrutura de dados tabular, orientada a colunas, com rótulos tanto para linhas quanto para colunas
    
- Enquanto que a biblioteca Numpy foi projetada para trabalhar com dados numéricos homogêneos em arrays, Pandas foi projetada para trabalhar com dados tabulares e heterogêneos

- Importação: `import pandas as pd`

**Pandas Series** 

- É um objeto do tipo array unidimensional contendo uma sequência de valores e um array associado de rótulos chamado de *índice*
- Pandas Series serão as colunas de um Pandas DataFrame

In [None]:
import pandas as pd
obj = pd.Series([4, 7, -5, 3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [None]:
# array de valores
obj.values

array([ 4,  7, -5,  3])

In [None]:
# array de rótulos
obj.index

RangeIndex(start=0, stop=4, step=1)

- É possível criar uma Series com um índice que identifique cada ponto de dado com um rótulo

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

- Obtendo os dados de uma série

In [None]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [None]:
obj2["a"]

-5

In [None]:
obj2 > 0

d     True
b     True
a    False
c     True
dtype: bool

In [None]:
# filtro
obj2[ obj2 > 0 ]

d    4
b    7
c    3
dtype: int64

Outra forma de pensar em uma Series é como um dicionário ordenado de tamanho fixo, como se fosse um mapeamento entre valores de índice e valores de dados

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [None]:
obj3 = pd.Series(sdata)

In [None]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [None]:
obj3.values

array([35000, 71000, 16000,  5000])

In [None]:
obj3.index

Index(['Ohio', 'Texas', 'Oregon', 'Utah'], dtype='object')

**DataFrames**

É possível criar um dataframe a partir de Series

In [None]:
ser1 = pd.Series([1,2,3,4,5], index=list('abcde'))
print(ser1)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [None]:
ser2 = pd.Series([11,22,33,44,55], index=list('abcde'))
print(ser2)

a    11
b    22
c    33
d    44
e    55
dtype: int64


In [None]:
# O dataframe é uma sequência de séries 
df = pd.DataFrame( {"A": ser1, "B": ser2} )

In [None]:
df

Unnamed: 0,A,B
a,1,11
b,2,22
c,3,33
d,4,44
e,5,55


In [None]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
df.columns

Index(['A', 'B'], dtype='object')

In [None]:
df["A"]

a    1
b    2
c    3
d    4
e    5
Name: A, dtype: int64

In [None]:
df["B"]

a    11
b    22
c    33
d    44
e    55
Name: B, dtype: int64

In [None]:
df["C"] = df["A"] * df["B"]

In [None]:
df

Unnamed: 0,A,B,C
a,1,11,11
b,2,22,44
c,3,33,99
d,4,44,176
e,5,55,275


In [None]:
df = df[ ["A", "C", "B"] ]

In [None]:
df

Unnamed: 0,A,C,B
a,1,11,11
b,2,44,22
c,3,99,33
d,4,176,44
e,5,275,55


- Criando um dataframe do zero

Considere as seguintes taxas de conversão entre as seguintes moedas:

|     | USB  | EUR  | GBP  |
|-----|------|------|------|
| USD | 1.0  | 0.91 | 0.79 |
| EUR | 1.1  | 1.0  | 0.87 |
| GBP | 1.26 | 1.14 | 1.0  |


Observando a tabela acima, temos:

- Cada coluna dessa tabela é representada por uma **Series**
- A tabela é armazenada como um **DataFrame**

Vamos criar este dataframe.



In [None]:
import pandas as pd
import numpy as np

moedas = ['USD', 'EUR', 'GBP']

usd_data = np.array([1.0, 1.1, 1.26])
eur_data = np.array([0.91, 1.0, 1.14])
gbp_data = np.array([0.79, 0.87, 1.0])

usd = pd.Series(usd_data, index=moedas)
eur = pd.Series(eur_data, index=moedas)
gbp = pd.Series(gbp_data, index=moedas)

dic = {'USD': usd, 'EUR': eur, 'GBP': gbp}

taxas = pd.DataFrame(dic)

taxas

Unnamed: 0,USD,EUR,GBP
USD,1.0,0.91,0.79
EUR,1.1,1.0,0.87
GBP,1.26,1.14,1.0


Obtendo dados do Dataframe

In [None]:
taxas["USD"]

USD    1.00
EUR    1.10
GBP    1.26
Name: USD, dtype: float64

In [None]:
taxas["USD"]["GBP"]

1.26

Podemos exportar o dataframe

In [None]:
taxas.to_csv("taxas.csv")

Lendo o dataframe a partir do csv

# Exercício com Pandas

Crie um dataframe com pelo menos 5 linhas, sendo que cada linha contém informações de alunos da sala, com as seguintes variáveis:
- Nome
- Sexo
- Idade
- Bairro

Depois, salve o dataframe resultante como um arquivo Excel chamado "alunos.xlsx"