## Técnicas de Programação I - Pandas

Na aula de hoje iremos explorar os seguintes tópicos:

- Pandas


## 1) Pandas

O **Pandas** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Comos os dados são a matéria prima de todo projeto de data science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

Para entendermos melhor o pandas e passar a utilizá-lo, precisamos entender suas estruturas fundamentais: as **Series** e o **DataFrame**.

Começamos importando o pandas:

In [None]:
# importando o pandas

import numpy as np
import pandas as pd

### Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [None]:
# Criando uma lista de valores
lista = [4, 6, 3, 7, 13]
print("lista", lista)
# Criando um array a partir dessa lista
arr = np.array(lista)
print("arr", arr)

In [None]:
# Criando uma série
serie = pd.Series(lista)
serie

In [None]:
# Pegando os valores, note que é retornado um numpy array
serie.values

Por padrão (default) os indices criados são númericos, entretanto podemos colocar o valor que quisermos, similar as chaves (keys) do dicionário!

In [None]:
# Pegando os indices
serie.index

In [None]:
print(range(0, 5, 1))
list(range(0, 5, 1))

In [None]:
# Transformando em lista
print(serie.index.tolist())

# Ou podemos utilizar o list
list(serie.index)

**Drops**

Crie uma série cujos valores são o dobro do indice, sendo que o indice varie de 0 a 10.
```
0: 0
1: 2
2: 4
...
10: 100
```

Imprima na tela os 3 primeiros valores da serie (head) e os 3 últimos (tail).

Além disso imprima os valores da série e os seus indices

In [None]:

print() # três primeiros valores
print() # três últimos valores
print() # Valores da série
print() # Indices da série

Podemos selecionar um ou mais valores da série.  
Há diversas formas de realizar essa operação! 

- `df[<nome>]`
- `df.values[<posição>]`
- `df.loc[<nome>]`
- `df.iloc[<posição>]`

**Prefira sempre utilizar o `loc` ou `iloc`** para evitar possíveis erros

In [None]:
# Pegando um valor a partir do indice
serie[2]

In [None]:
# Similar podemos:
serie.values[2]

In [None]:
# As séries parecem dicionários
dic = {
    0: 42,
    1: 50
}
print(dic)
print(dic.values())
print(dic.keys())
print(dic[1])

In [None]:
# Podemos dar outros nomes para o indice!
# Similar aos dicionários
indices = ['a', 'b', 'c', 'd', 'e']
serie2 = pd.Series(data=lista, index=indices)
serie2

In [None]:
# Conseguimos acessar pelo número
serie2[2]

In [None]:
# Ou pelo nome do indice
serie2['c']

In [None]:
# Note que isso só é possível quando o indice nomeado são strings,
# Caso fosse númerico, teriamos
indices = list(range(5, 10))
serie3 = pd.Series(data=lista, index=indices)
display(serie3)
# Um erro ocorre! O número 2 não faz parte do indice!
serie3[2]


In [None]:
# Note que o erro foi de KeyError!
print(dic)
# O mesmo erro que ocorre com dicionários!
dic[2]

In [None]:
# Podemos fatiar as séries
serie[2:]

In [None]:
serie2['c':]

In [None]:
serie2.loc['c']

In [None]:
serie2.loc['c': ]

In [None]:
# Como as vezes queremos um valor posicional e não nominal
# O pandas oferece o `iloc` que pega o valor não pelo nome do indice
# e sim por sua posição
serie2.iloc[2:]

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [None]:
dic

In [None]:
pd.Series(dic)

In [None]:
dic = {
    'a': 12,
    'b': 13,
    'd': 42,
    'g': 51
}
pd.Series(dic)

In [None]:
# Por trás ocorre a seguinte operação com dicionários
pd.Series(data=dic.values(), index = dic.keys())

**Drops**

Crie uma série cujos valores variem de 0 até k.

O indice da série será o valor de k*2 e o seu valor k^2 (k ao quadrado).

Por exemplo:
```
k  idx valor
0   0    0
1   2    1
2   4    4
...
10  20   100
```

Imprima na tela os 3 primeiros valores da serie (head) e os 3 últimos (tail).

Além disso imprima os valores da série e os seus indices

Utilize o loc ou iloc para selecionar os valores de k=3 entre k=6

### Operações
Ao fazer operações com séries, os valores são alterados um a um, exatamente como vimos com os numpy arrays!

In [None]:
arr

In [None]:
arr + 5 

Somando um valor elemento por elemento da série

In [None]:
serie + 5

Divisão, múltiplicação, etc

In [None]:
serie / 5

In [None]:
serie * 10

In [None]:
serie ** 2

In [None]:
np.log(serie)

### Mascaras

Similar ao numpy, podemos gerar mascaras para filtrar os dados

In [None]:
print(arr)
print(arr % 2 == 0)
arr[arr % 2 == 0]

In [None]:
# Adicionar um parenteses não é obrigatório mas auxilia na leitura
mascara = (serie % 2 == 0)  

In [None]:
serie[mascara]

In [None]:
mascara2 = (serie < 6)
mascara2

In [None]:
serie[mascara2]

### Operações entre séries

Similar aos arrays, conseguimos realizar operações entre series.

Seria como manipular dois vetores (unidimensional) no numpy

In [None]:
lista1 = [4, 6, 3, 7, 25]
lista2 = [21, 31, 98, 65, 42]
arr1 = np.array(lista1)
arr2 = np.array(lista2)
s2 = pd.Series(lista1)
s1 = pd.Series(lista2)

In [None]:
s1

In [None]:
s2

In [None]:
arr1 + arr2

In [None]:
s1 + s2

In [None]:
np.random.seed(42)

a1 = np.random.randint(0, 100, 7)
a2 = np.random.randint(0, 100, 5)
print(a1)
print(a2)
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [None]:
a1 + a2

In [None]:
# Primeira diferença, podemos somar series de tamanho incompatíveis
# Mas retorna um vamor `NaN` (not a number)
s1 + s2

In [None]:
# Podemos corrigir esse comportamento com o método `add`
s1.add(s2, fill_value=0)

In [None]:
# O mesmo ocorre para outras operações
s1 * s2

In [None]:
s1.multiply(s2, fill_value=1)

Operações são baseadas no indice!

In [None]:
t1 = pd.Series({valor*10: valor for valor in a1})
t2 = pd.Series({valor: valor for valor in a2})

In [None]:
t1

In [None]:
t2

In [None]:
# Operações baseiam-se no indices
t1 + t2

### Outras funcionalidades
Há vários outros métodos muito úteis para séries!

Os principais são:

In [None]:
np.random.seed(42)

notas = pd.Series(np.random.randint(0, 11, 30))

In [None]:
arr_notas = notas.values

In [None]:
arr_notas

In [None]:
mascara = arr_notas > 0

In [None]:
arr_notas[mascara]

In [None]:
mascara2 = notas > 0

In [None]:
notas[mascara2]

In [None]:
mascara3 = (notas >= 0) & (notas < 5)

In [None]:
notas_vermelhas = notas[mascara3]

# Utilizar o ~ para pegar a negativa da mascara
notas_azuis = notas[~mascara3]

In [None]:
# Podemos contar com o sum
print(sum(mascara3))

# Ou podemos ver o tamanho
print('Notas vermelhas', notas_vermelhas.shape)

**Aplicando uma função para cada valor da série**

In [None]:
# Utilizando compreensão de listas
lista_valores = [1, 2, 3, 4]
serie = pd.Series(lista_valores)

eleva_quad = lambda x: x ** 2

[eleva_quad(valor) for valor in lista_valores]


In [None]:
# Na série podemos aplicar (`apply`) uma função para cada valor!
serie.apply(eleva_quad)

In [None]:
# Podemos utilizar condicionais!
notas.apply(lambda nota: 'par' if nota % 2 == 0 else 'impar')

In [None]:
is_passou = notas.apply(lambda x: True if x >= 5 else False)

In [None]:
notas[is_passou]

**Podemos acessar medidas centrais**

In [None]:
notas.max()

In [None]:
notas.min()

In [None]:
notas.mean()

In [None]:
notas.std()

In [None]:
# Podemos pergar os quantis
np.quantile(notas, .25)
np.quantile(notas, .5)
np.quantile(notas, .75)

In [None]:
# Facilitando a vida com a estatística descritiva!
notas.describe()

### Ordenando os valores `sort_values`

In [None]:
notas.sort_values()

In [None]:
notas_ordernadas = notas.sort_values(ascending=False)

#### Valores únicos

In [None]:
# Retorna valores únicos no array/serie
notas.unique()

In [None]:
# Retorna a quantidade de valores únicos
notas.nunique()

#### Contagem de valores `value_counts`

In [None]:
# Numero de ocorrencia de cada valor unico

# Frequencia absoluta
notas.value_counts()

In [None]:
# Frequência relativa
notas.value_counts() / notas.size

In [None]:
# Frequência relativa
notas.value_counts(normalize=True)

In [None]:
def formata_porcentagem(x):
    return f'{(x*100):.2f}%'

In [None]:
formata_porcentagem(1.1)

**Podemos criar `pipelines` de processamento!**

In [None]:
(notas
 .value_counts(normalize=True)
 .apply(lambda x: round(x, 3)))

In [None]:
(notas
 .value_counts(normalize=True)
 .apply(lambda x: formata_porcentagem(x))
)

**Drops**

Imagine que você trabalhe num restaurante. Durante o dia, diversas gorjetas são pagas pelas pessoas clientes. No restaurante, você decide compreender o comportamento das pessoas clientes, que são as boas pagadoras de gorjeta e quem paga menos, quais os melhores dias e turnos que essas ocorrem.

Primeiramente precisamos realizar o carregamento do arquivo e observar quais valores temos, portanto:
- Leia o arquivo `tips`.
- Filtre os dados cujo sexo seja feminino/masculino
- Descubra a média de gorjeta e conta total por sexo
- Descubra o desvio padrão de cada conta por sexo
- Crie duas variáveis uma para cada sexo
  - Ordene os valores da grojeta da maior para menor para cada sexo
- Mostre a frequência relativa da gorjeta por sexo

**Soma cumulativa**

In [None]:
# Vamos observar a evolução da vacinação por dia!
np.random.seed(0)
total_pop = 50_000
vacinacao = np.random.normal(600, 200, 60) +  np.random.normal(200, 100, 60) * np.cos(np.arange(0, 60))

serie_vacinacao = pd.Series(vacinacao).astype(int)

In [None]:
serie_vacinacao

In [None]:
serie_normalizada_vacinacao = serie_vacinacao / total_pop

In [None]:
import matplotlib.pyplot as plt
serie_vacinacao.plot()
plt.title('Vacinação por dia')
plt.xlabel('dia')
plt.ylabel('Número de pessoas')
plt.show()
serie_normalizada_vacinacao.plot()
plt.title('Vacinação por dia')
plt.xlabel('dia')
plt.ylabel('Freq pessoas')
plt.show()


In [None]:
# Descrevendo a série normalizada de vacinação
# Quais os insights?
serie_normalizada_vacinacao.describe()

In [None]:
# Descobrindo o acumulado por dia
serie_normalizada_vacinacao_cumulativo = serie_normalizada_vacinacao.cumsum()
serie_normalizada_vacinacao_cumulativo

In [None]:
serie_normalizada_vacinacao.plot()
plt.title('Vacinação por dia')
plt.xlabel('dia')
plt.ylabel('Freq pessoas')

serie_normalizada_vacinacao_cumulativo.plot(secondary_y=True)
plt.ylabel('Porcentagem acumulada')
plt.show()

**Drops**

Temos uma meta de R$ 1.5 Mi, dado as vendas do ano:

- Quando a meta foi batida?
  - Lembre-se do cumsum, e mascaras
- Qual foi o dia de menor venda? Qual o valor?
  - Lembre-se do `argmin`
- Qual foi o dia de maior venda? Qual o valor?
  - Lembre-se do `argmax`
- Qual a média de vendas por dia?
- Qual o desvio padrão de vendas por dia?

Dica:
- Para o menor/maior dia de venda lembre-se do `argmin` e `argmax`, funções que retornam o indice que ocorreu tal fenômeno

In [None]:
np.random.seed(42)
meta = 1.5*10**6
vendas = np.random.normal(50_000, 18000, 61)
serie_vendas = pd.Series(vendas).astype(int)
serie_vendas.plot()