# Séries

**OBJETIVO**: O objetivo deste notebook é apresentar o objeto série e suas principais funcionalidades

---

In [None]:
import os
import numpy as np
import pandas as pd

from pathlib import Path

%config Completer.use_jedi = False

---

## Criação 

Como mostramos anteriormente séries são as estruturas que utilizamos para representar uma coluna numa tabela de dados, que é definida por 4 elementos:

- index: Os nomes de cada dado dentro da série
- values: Os dados em si que a série armazena 
- name: O nome da série (ou da coluna)
- dtype: Os tipos de dados armazenados da série

<img src="https://www.w3resource.com/w3r_images/pandas-series-add-image-1.svg" />



In [None]:
serie = pd.Series(data=[1, 2, 2, np.nan], index=["p", "q", "r", "s"], name="Data")
serie

Os elementos descritos acima podem ser acessados como atributos da série

In [None]:
serie.index

In [None]:
serie.name

In [None]:
serie.values

Ao mesmo tempo, também conseguimos obter as propridades do array de dados da série pela própria série em si

In [None]:
serie.dtype

In [None]:
serie.shape

In [None]:
serie.size

In [None]:
serie.itemsize

Séries podem ser criadas a partir de múltiplos tipos de objetos distintos

In [None]:
por_lista = ["a", "b", "c"]
serie_lista = pd.Series(data=por_lista)
serie_lista

In [None]:
por_array = np.arange(1, 4)
serie_array = pd.Series(data=por_array)
serie_array

In [None]:
por_dicionario = {"a": 10, "b": 20, "c": 30}
serie_dicionario = pd.Series(data=por_dicionario)
serie_dicionario

---

**Exercício**

Represente a gráfico abaixo como uma série, na qual os paises são os índices e os casos são os dados.

<img src="http://cdn.statcdn.com/Infographic/images/normal/21176.jpeg" width=300 height=600/>

In [None]:
#@title Resposta
pd.Series({
    "Belgium": 39166,
    "Israel": 35572,
    "Czechia": 33103,
    "Panama": 32300,
    "Kuwait": 30957,
    "United States": 28414,
    "Peru": 28213,
    "Chile": 27455,
    "Argentina": 26593,
    "Spain": 26554
})

---

## Indexação 

Séries, diferente de arrays e listas, além de poderem ser indexadas pelo número do índice, também podem ser indexadas pelo nome do mesmo

In [None]:
por_dicionario = {"a": 10, "b": 20, "c": 30, "d": 40, "e": 50}
serie_dicionario = pd.Series(data=por_dicionario)
serie_dicionario

In [None]:
serie_dicionario[1]

In [None]:
serie_dicionario[[1, 2]]

In [None]:
serie_dicionario["b"]

In [None]:
serie_dicionario[["b", "c"]]

Entretanto, o que acontece se os índices da série também forem números?

In [None]:
serie_complexa = pd.Series(data=[1, 2, 3], index=[3, 2, 1])
serie_complexa

In [None]:
serie_complexa[0]

Veja que neste caso ao procurar o valor 0 a série deu um erro, pois não existe um índice de nome zero. Desta forma, no caso de índices de séries nomeados como números a série nos obriga a procurar o nome daquele índice

In [None]:
serie_complexa[3]

Porém, nós ainda conseguimos encontrar os valores da série pelo número do índice utilizando a sintaxe do .iloc

In [None]:
serie_complexa.iloc[0]

Essa sintaxe vai aceitar as mesmas funcionalidades de indexação que listas e arrays. Desta forma, independente de como os índices das séries forem construídos recomendamos sempre utilizar o nome dos itens para a sintaxe de chaves e o .iloc caso esteja procurando pelo número do índice

In [None]:
serie_complexa.iloc[[1, 2]]

In [None]:
serie_complexa.iloc[1:]

É interessante notar que séries também aceitam slicing, só que não só pelo número como também pelo nome

In [None]:
serie_dicionario["b":]

In [None]:
serie_dicionario["b":"c"]

In [None]:
serie_dicionario["e":"b":-2]

Tal como arrays podemos alterar os valores da série selecionando os índices que desejamos alterar

In [None]:
print(serie_dicionario)
serie_dicionario["b":"c"] = 3
print(serie_dicionario)

É interessante notar que por padrão nunca alteramos o objeto de origem da série, mas a alteração do slice gerará alteração na série original

In [None]:
por_dicionario

In [None]:
sl = serie_dicionario["b":"c"]
sl[:] = 20
serie_dicionario

Tal como arrays, listas e dicionários ao passar uma série para uma função você a passa como referência, de forma que ela será copiada

In [None]:
def muda_serie(serie):
  serie.iloc[-1] = np.inf
muda_serie(serie_dicionario)
serie_dicionario

---

**Exercício**

Abaixo carregamos uma série de dados com o número de casos de COVID registrados por país na data mais recente. 

Cada país é representadado por um código ISO de 3 letras, entretanto, dentro dessa série há alguns códigos que começam com "OWID_", que representam grupos de países não oficiais. Por exemplo, "OWID_AFR" representa todos os países da áfrica. 

Para os países que começam com "OWID_" troque o valor registrado por np.nan

In [None]:
serie_owid = pd.read_csv(
    "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/latest/owid-covid-latest.csv"
).set_index("iso_code")["total_cases"]

In [None]:
#@title Resposta
serie_owid = pd.read_csv(
    "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/latest/owid-covid-latest.csv"
).set_index("iso_code")["total_cases"]

anular = [s for s in serie_owid.index if s.startswith("OWID_")]
serie_owid[anular] = np.nan
serie_owid

---

## Operações 

Tal como arrays, séries vem recheadas de operações matemáticas clássicas que podem ser aplicadas entre séries. Entretanto, diferente arrays onde fazemos o match dos índices ou o broadcasting de um array em outro, séries esperam que ocorre o match dos nomes de índices para funcionar

In [None]:
np.random.seed(42)

serie1 = pd.Series(data=np.random.normal(size=5))
serie2 = pd.Series(data=np.random.normal(size=5), index=np.arange(4, -1, -1))
serie3 = pd.Series(data=np.random.normal(size=5), index=np.arange(10, 15))
serie4 = pd.Series(data=np.random.normal(size=5), index=np.arange(4, 9))

In [None]:
print(serie1, serie2, serie3, serie4)

In [None]:
serie1 + serie2

Veja que ao tentar somar as séries onde os índices não batem nós iremos produzir uma série com todos os índices combinados, isto acontece porque antes da operação o pandas cria os índices faltantes em cada uma das séries e preenche os valores desses índices com nulos. Dado que o resultado da operação de soma de NaN + Número = NaN este é o valor que obtemos

In [None]:
serie1 + serie3

In [None]:
np.nan + 3

In [None]:
serie1 + serie4

Todas as principais operações matemáticas são suportadas por séries

Soma

In [None]:
serie1 + serie2

In [None]:
serie1 + 2

In [None]:
serie1.add(serie2)

In [None]:
serie1.add(np.array([1, 2, 3, 4, 5])) # pode ser array, lista ou tupla

In [None]:
serie1.add(serie4, fill_value=0)

Subtração

In [None]:
serie1 - serie2

In [None]:
serie1.sub(serie2)

In [None]:
serie1.subtract(serie2)

Multiplicação

In [None]:
serie1 * serie2

In [None]:
serie1 * serie4

In [None]:
serie1.mul(serie2)

In [None]:
serie1.multiply(serie2)

Multiplicação (produto vetorial)

In [None]:
serie1.dot(serie2)

Divisão

In [None]:
serie1 / serie2

In [None]:
serie1.div(serie2)

In [None]:
serie1.divide(serie2)

Exponenciação

In [None]:
serie1 ** serie2

In [None]:
serie1 ** 2

In [None]:
serie1.pow(serie2)

---

**Exercício**

Calcule a distância euclidiana entre duas séries

In [None]:
p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])

In [None]:
#@title Resposta
p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
(p - q).dot(p - q) ** 0.5

---

## Filtros 

Tal como arrays, nós podemos comparar uma série vs algum valor numérico ou até mesmo contra uma segunda série, e o que receberemos é uma série de booleanos utilizando os índices da série original

In [None]:
np.random.seed(42)

serie = pd.Series(data=np.random.normal(size=10))
serie

In [None]:
serie > 0

Da mesma forma, podemos combinar expressões utilizando &/|/~ e ()

In [None]:
(serie > 0) & (serie < 1)

E utilizamos a mesma sintaxe de chaves para fazer filtros

In [None]:
serie[(serie > 0) & (serie < 1)]

É importante destacar que a sintaxe acima espera que haja equivalência entre a série de booleanos usada como filtro e a série sendo filtrada, de forma que se não houver esse pareamento receberemos um erro de índices

In [None]:
serie1 = pd.Series(np.arange(10))
serie2 = pd.Series(np.arange(10), index=np.arange(10, 20))
serie1[serie2 > 5]

Apesar de ser possível fazer o filtro de uma série em outra, é extramemente desacomselhado a não ser que você tenha muita segurança no que está fazendo

In [None]:
serie1 = pd.Series(np.arange(10))
serie2 = pd.Series(np.arange(10), index=np.arange(9, -1, -1))
serie1[serie2 > 5]

De maneira análoga ao numpy, também temos os métodos de any e all

In [None]:
((serie > 0) & (serie < 1)).any()

In [None]:
any((serie > 0) & (serie < 1))

In [None]:
np.any((serie > 0) & (serie < 1))

In [None]:
((serie > 0) & (serie < 1)).all()

Mas além da sintaxe tradicional, as séries ainda vem com alguns métodos adicionais que permitem fazer alguns filtros interessantes. Um que é muito utilizado, por exemplo, é o isin

In [None]:
serie = pd.Series(list("abcdefghijklmnopqrstuvwxyz"))

In [None]:
serie.isin(["a", "e", "i", "o", "u"])

In [None]:
serie[serie.isin(["a", "e", "i", "o", "u"])]

Para o caso de valores nulos, o pandas também consegue identifica-los a partir do método isnull

In [None]:
serie = pd.Series([1, 2, 3, np.nan, 5, np.nan, 7])
np.isnan(serie)

In [None]:
serie.isnull()

In [None]:
pd.isnull(np.nan)

No pandas nós também utilizamos a sintaxe do where, mas especificamente séries o utilizam como um método que pode ser aplicado sobre os elementos do mesmo

In [None]:
serie = pd.Series(np.arange(10))
serie.where(lambda s: s > 5)

Veja que muito diferente das séries de booleanos anteriores o where dentro do pandas não devolve os índices dos elementos onde a condição é verdadeira, mas utiliza a segunda funcionalidade do where, onde podemos, quando falso, substituir os valores pelo valor indicado

In [None]:
serie.where(lambda s: s > 5, "Não é maior que 5")

---

**Exercício**

Obtém os elementos da série 1 que não estão contidos na série 2

In [None]:
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])

In [None]:
#@title Resposta
ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])
ser1[~ser1.isin(ser2.values)]

---

## Adição de Dados 

Séries, tal como arrays, são imutáveis em tamanho, porém, de forma análoga, é possivel adicionar dados para as mesmas através das operações de append e concat

append -> adiciona dados ao final de uma série

In [None]:
serie = pd.Series(np.arange(5))
add = pd.Series(np.arange(5, 10))
serie.append(add)

Note que o resultado da operação é uma nova série com índices duplicados, uma vez que os dados foram empilhados. Uma operação muito comum quando se altera uma série dessa forma é o reset index

In [None]:
serie.append(add).reset_index(drop=True)

Uma das partes mais interessantes do pandas é a possibilidade de executar operações "inplace". Para quase todos os métodos de uma série (que vimos até aqui e que veremos a frente) é possível executar um comando que ao invés de gerar uma nova série como visto anteriormente

In [None]:
serie_nova = serie.append(add)

print(id(serie_nova), id(serie_nova.reset_index(drop=True)))

In [None]:
serie_nova

In [None]:
serie_nova.reset_index(drop=True, inplace=True)

In [None]:
serie_nova

Outra maneira viável e mais simples, seria usando o parâmetro ignore_index

In [None]:
serie.append(add, ignore_index=True)

---

**Exercício**

Adiciona a uma série os elementos de outra série que não estão contidos na primeira

In [None]:
np.random.seed(42)
serie1 = pd.Series(np.random.randint(0, 10, size=5))
serie2 = pd.Series(np.random.randint(0, 10, size=5))

In [None]:
#@title Resposta
np.random.seed(42)
serie1 = pd.Series(np.random.randint(0, 10, size=5))
serie2 = pd.Series(np.random.randint(0, 10, size=5))
serie1.append(serie2[~serie2.isin(serie1.values)], ignore_index=True)

---

## Remoção de Dados 

Além de adicionar dados em séries também é muito comum remover dados, em particular podemos remover um índice específico por meio do método drop

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))
serie

In [None]:
serie.drop(index=[3, 5])

In [None]:
serie.drop(index=[3, 5], inplace=True)

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10), index=list("abcdefghij"))
serie

In [None]:
serie.drop(index=[3, 5])

Além disso é bastante comum removermos os valores nulos de uma determinada série por meio do dropna

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))
serie.iloc[np.random.randint(10, size=3)] = np.nan
serie

In [None]:
serie.dropna() # .dropna(inplace=True)
# serie = serie[serie.notnull()]

Por fim, outra operações muito comum é a de remover duplicatas de uma série

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))
serie

In [None]:
serie.drop_duplicates()

In [None]:
serie.drop_duplicates(keep="last")

---

**Exercício**

Abaixo carregamos uma série de dados com o número de casos de COVID registrados por país na data mais recente. 

Cada país é representadado por um código ISO de 3 letras, entretanto, dentro dessa série há alguns códigos que começam com "OWID_", que representam grupos de países não oficiais. Por exemplo, "OWID_AFR" representa todos os países da áfrica. 

Remova da série os países que começam com OWID

In [None]:
serie_owid = pd.read_csv(
    "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/latest/owid-covid-latest.csv"
).set_index("iso_code")["total_cases"]

In [None]:
#@title Resposta
serie_owid = pd.read_csv(
    "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/latest/owid-covid-latest.csv"
).set_index("iso_code")["total_cases"]

remover = [s for s in serie_owid.index if s.startswith("OWID_")]
serie_owid.drop(index=remover, inplace=True)
serie_owid

---

## Preenchimento de Nulos 

Um dos problemas mais recorrentes ao lidar com bases de dados é encontrar valores nulos dentro de determinadas colunas. Pensando nisso o pandas vem com uma série de funcionalidades que permitem preencher esses valores

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))
serie.iloc[np.random.randint(10, size=3)] = np.nan
serie

fillna -> preenche os valores nulos com o valor determinado

In [None]:
serie.fillna(-1)

In [None]:
serie.fillna(-1, inplace=True)
serie

ffill -> Preenche os valores nulos com o primeiro valor anterior não nulo

In [None]:
serie

In [None]:
serie.ffill()

bfill -> Preenche os valores nulos com o primeiro valor posterior não nulo

In [None]:
serie.bfill()

---

**Exercício**

Abaixo carregamos os dados de índice de desenvolvimento humano para países Africanos. Você irá notar que há alguns valores nulos dentro dessa base. Preenche esses valores nulos com o valor médio da base.

In [None]:
serie_owid = pd.read_csv(
    "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/latest/owid-covid-latest.csv"
).loc[
    lambda f: (f["continent"] == "Africa")
    | (f["location"] == "Africa")
].set_index("iso_code")["human_development_index"]

In [None]:
#@title Resposta
serie_owid = pd.read_csv(
    "https://raw.githubusercontent.com/owid/covid-19-data/master/public/data/latest/owid-covid-latest.csv"
).loc[
    lambda f: (f["continent"] == "Africa")
    | (f["location"] == "Africa")
].set_index("iso_code")["human_development_index"]

media = np.mean(serie_owid.dropna().values)
serie_owid.fillna(media, inplace=True)
serie_owid

---

## Funções e Métodos

Tal como no numpy a biblioteca pandas vem com uma série de funcionalidades que permitem trabalhar os dados de maneira rápida. Como pandas e numpy são intimamentes relacionados é possível utilizar todas as funções de numpy que vimos anteriormente nas séries

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))

In [None]:
np.sum(serie)

In [None]:
np.diff(serie)

In [None]:
np.unique(serie)

In [None]:
np.linalg.norm(serie)

In [None]:
np.sin(serie)

Entretanto, no pandas, diferente do numpy, a maior parte dessas facilidades vem no formato de métodos, ou seja, estão associados a uma instância de série, por exemplo. Desta forma, destacamos abaixo a equivalência entre diferentes funções que vimos no numpy e sua contraparte no pandas

Numpy             | Pandas     | Descrição                                                         | 
:-----------------|:-----------|:-------------------------------------------------------------------|
 np.mean          |  .mean     |  Calcula a média                                                   |
 np.median        |  .median   |  Calcula a mediana                                                 |
 np.min           |  .min      |  Calcula o valor mínimo                                            |
 np.max           |  .max      |  Calcula o valor máximo                                            |
 np.std           |  .std      |  Calcula o desvio-padrão                                           |
 np.var           |  .var      |  Calcula a variância                                               |
 np.percentile    |  .quantile |  Calcula o percentil específicado                                  |
 np.sum           |  .sum      |  Calcula a soma de todos os elementos                              |
 np.count_nonzero |  **N/A**   | Realiza a contagem dos elementos não zeros do array                |
 np.unique        |  .unique   |  Obtém os valores únicos de um array                               |
 np.ceil          |  **N/A**   |  Arredonda os valores de um array para cima                        |
 np.floor         |  **N/A**   |  Arredonda os valores de um array para baixo                       |
 np.round         |  .round    |  Arredonda os valores de um array para as casas decimais desejadas |
 np.trunc         |  .truncate |  Remove as casas decimais do valor numérico                        |
 np.abs           |  .abs      |  Calcula o valor absoluto dos elementos                            |
 np.sign          |  **N/A**   |  Obtém os sinais dos números de um array                           |
 np.diff          | .diff      | Obtém a diferença entre valores sequenciais do array               |
 np.cumsum        | .cumsum    | Obtém a soma dos valores cumulativos                               |
 np.cummin        | .cummin    | Obtém o valor mínimo cumulativo do array                           |
 np.cummax        | .cummax    | Obtém o valor máximo cumulativo do array                           |
 np.cumprod       | .cumprod   | Obtém o valor produto cumulativo do array                          |

In [None]:
print(np.mean(serie), serie.mean())

In [None]:
serie.quantile(0.1)

In [None]:
serie.count_nonzero()

Há, entretanto, alguns outros métodos que são exclusivos do pandas, mas são muito úteis

- .describe: Gera o resumo estatístico da série
- .mode: O valor da moda da série
- .count: Obtém a contagem de elementos não nulos
- .nunique: Conta o total de elementos únicos
- .value_counts: Produz o número de ocorrências de cada elemento na série
- .clip: Força os elementos da série a estarem dentro de um determinado intervalo
- .pct_change: Variação percentual entre elementos consecutivos da série
- .shift: Desloca a série por um certo número de elementos

In [None]:
serie.describe()

In [None]:
serie.mode()

In [None]:
serie.count()

In [None]:
serie.nunique()

In [None]:
serie.value_counts()

In [None]:
print(serie, serie.clip(4, 6))

In [None]:
serie.pct_change()

In [None]:
serie.shift(-1)

Há ainda outras funcionalidades mais desconhecidas como is_monotonic, ou nlargest, mas não tem como saber tudo o que realmente existe. Conforme você resolve problemas e programa você passa a conhecer cada vez mais essas funções, mas a que apresentamos aqui são as principais

In [None]:
serie.replace({6: "OPA!"})

In [None]:
serie.sort_values(ascending=False)

---

**Exercício**

Obtenha os indices dos máximos locais de uma série

In [None]:
ser = pd.Series([2, 10, 3, 4, 9, 10, 2, 7, 3])

In [None]:
#@title Resposta
ser = pd.Series([2, 10, 3, 4, 9, 10, 2, 7, 3])
dd = np.diff(np.sign(np.diff(ser)))
maximos = np.where(dd == -2)[0] + 1
maximos

---

## "Vetorização" 

Tal como o numpy o pandas vem com uma funcionalidade de "vetorização". Este nome está entre parênteses porque não segue exatamente a mesma lógica e propriedades internas do numpy, entretanto o resultado é o mesmo: Funções customizadas que são executadas de forma mais eficiente ao longo de uma série de dados.

Há duas maneiras de fazer isso em pandas

apply -> Aplica uma função sobre cada elemento de uma série

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))
print(serie)
print(serie.apply(lambda x: 1 if x > 5 else x / 5))
def calculo(x):
  if x > 5:
    return 1
  else:
    return x / 5
print(serie.apply(calculo))

map -> Mapeia os valores de uma série de acordo com uma função

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))
print(serie)
print(serie.map(lambda x: 1 if x > 5 else x / 5))

Ué?! Mas qual a diferença? Bom, existe uma diferença sutil primeiro na maneira como eles funcionam. O apply é uma função que trabalha por eixos, por isso podemos roda-lo tanto para executar um processo em linhas quanto em colunas (veremos em DataFrames como fazer isso) enquanto que o map substituí uma valor por outro na série de acordo com a função.

Com base nisso quem você acha que é mais eficiente?

In [None]:
%%timeit
serie.map(lambda x: 1 if x > 5 else x / 5)

In [None]:
%%timeit
serie.apply(lambda x: 1 if x > 5 else x / 5)

---

**Exercício**

Dada uma série de strings, calcule o número de vogais em cada uma

In [None]:
ser = pd.Series(["Maça", "Laranja", "Plano", "Python", "Dinheiro"])

In [None]:
#@title Resposta
ser = pd.Series(["Maça", "Laranja", "Plano", "Python", "Dinheiro"])
ser.map(lambda x: sum([x.count(i) for i in list("aeiou")]))

---

## Tipos de Dados 

Até agora estivemos trabalhandos com os dados sem se preocupar muito com a tipagem do mesmo. Entretanto, tal como numpy, a tipagem de dados é bastante relevante no pandas. Diriamos que é até mais relevante, porque dependendo do tipo dos dados há algumas funcionalidades adicionais que podem ser aplicadas e facilitam trabalhar com os dados, vamos ver a seguir.

### Numéricos 

As variáveis de tipo numérico são exatamente as mesmas que já vimos em numpy. Inclusive a conversão de tipos é feita exatamente da mesma maneira, por meio do astype

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.randint(10, size=10))

In [None]:
serie

In [None]:
serie.astype("int8")

In [None]:
serie.astype("uint8")

In [None]:
serie.astype(int)

In [None]:
serie.astype(np.uint16)

---

### Strings 

O pandas vem com uma série de funcionalidades próprias que permitem utilizar os principais métodos de strings do python só que de maneira vetorizada. Para isso, basta tomar a série e colocar o prefixo .str antes do método e executa-lo

In [None]:
ser = pd.Series(["Maça", "Laranja", "Plano", "Python", "Dinheiro"])

In [None]:
"Maça".upper()

In [None]:
ser.map(lambda x: x.upper())

In [None]:
ser.str.upper()

Abaixo, apenas para relembrar, colocamos os principais métodos utilizados.



- contains: Testa se a string contém um determinado padrão de expressão regular
- count: Conta o número de ocorrências de uma substring dentro da string
- find: Devolve o índice de ocorrência de uma substring dentro da string (devolve -1 se não for encontrado)
- isalpha: Checa se todos os caracteres da string são letras
- isdigit: Checa se a string é um número
- len: Obtém o tamanho da string
- strip: Elimina espaços vazios nos extremos da string
- startswith: Checa se a string começa com uma determinada sub-string
- upper: Converte a string para maiúsculo
- lower: Converte a string para minúsculo
- split: Divide a string de acordo com uma sub-string (cada elemento da série passará a ser uma lista)

In [None]:
ser.str.contains("a")

In [None]:
ser.str.replace("a", "A")

In [None]:
ser.str.split("a")

In [None]:
ser.str.lower()

Além dos métodos, a sintaxe de .str permite realizar o slicing nos elementos da string

In [None]:
ser.str[:3]

In [None]:
ser.str[::-1]

In [None]:
ser.str[0]

Uma questão importante a ser notada, é que uma boa parte dos métodos para strings no pandas também vem da biblioteca "re", uma vez que trabalhar com dados de texto muitas vezes envolve a checagem de expressões regulares. 

O ensino de expressão regulares está além do escopo deste curso, entretanto eu recomendo as seguintes fontes para estudo:
- https://www.youtube.com/watch?v=sa-TUpSx1JA&ab_channel=CoreySchafer
- https://www.youtube.com/watch?v=wBI0yv2FG6U&ab_channel=Ot%C3%A1vioMiranda

In [None]:
import re

In [None]:
re.match("xxxx@provedor.[com, br]", "   Piloto")

In [None]:
ser.str.match("^(P)")

In [None]:
ser[ser.str.match("^(P)")]

---

**Exercício**

Dada uma série de strings utilize a expressão regular fornecida para encontrar os elementos que são e-mails válidos

In [None]:
emails = pd.Series(["compre livros na amazom.com", "rameses@egypt.com", "matt@t.co", "narendra@modi.com"])
padrao = "[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}"

In [None]:
#@title Resposta
import re

emails = pd.Series(["compre livros na amazom.com", "rameses@egypt.com", "matt@t.co", "narendra@modi.com"])
padrao = "[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}"

emails[emails.str.match(padrao, flags=re.IGNORECASE)]

---

### Objetos 

Além de texto e números, na verdade o pandas aceita qualquer objeto do Python como elemento de suas séries, apesar dos mais comuns de serem utilizados são listas, dicionários, tuplas e sets.

In [None]:
serl = pd.Series([["Olá", "prazer"], ["a", "noite"], ["é", "nossa"]])
serl

In [None]:
serd = pd.Series([{"Quando": "Hoje"}, {"Onde": "Meu ape"}, {"Pode": "Aparecer"}])
serd

In [None]:
sers = pd.Series([{"Festa"}, {"Festa", "Tem", "Birita"}, {"Tem", "Até", "Amanhacer"}])
sers

Uma das propriedades interessantes do pandas é a capacidade de executar determinadas funções de agregação contanto que exista essa função definida para um objeto. Por exemplo, a soma de duas listas é a concatenação das mesmas, logo:

In [None]:
["Olá", "prazer"] + ["a", "noite"]

In [None]:
serl + serl

In [None]:
serl.sum()

In [None]:
serl.cumsum()

In [None]:
ser.cumsum()

In [None]:
serl.diff()

In [None]:
sers.diff()

---

**Exercício**

Obtenha uma contagem das letras contidas numa série

In [None]:
ser = pd.Series(["Maça", "Laranja", "Plano", "Python", "Dinheiro"])

In [None]:
#@title Resposta
ser = pd.Series(["Maça", "Laranja", "Plano", "Python", "Dinheiro"])
pd.Series(ser.str.lower().apply(list).sum()).value_counts()

---

### Categóricos 

As vezes você tem dados de texto mas você não pretende trabalha-los de alguma forma. Isto é muito comum quando nós temos variáveis qualitativas, como por exemplo cor, ou mesmo classificações, como escola pública e privada. Neste caso a mesma string aparece várias e várias vezes na mesma coluna e o consumo de memória é relativamente alto, sendo que você não está aproveitando as funcionalidades de texto que o pandas oferece.

Em bancos de dados quando isso acontece, geralmente o que se faz é criar uma tabela com o de-para numérico dessas classificações. Por exemplo 0 = Pública e 1 = Privada. Assim, você pode colocar os números no lugar do texto e reduzir dratiscamente o consumo de memória.

O pandas tem uma solução muito elegante para esses problemas que são as variáveis categóricas

In [None]:
np.random.seed(42)
ser = pd.Series(np.random.choice(["Azul", "Amarelo", "Vermelho"], size=1000))
ser

In [None]:
serc = ser.astype("category")
serc

In [None]:
ser.memory_usage()

In [None]:
serc.memory_usage()

Ao converter uma variável para categórica o pandas gera um novo objeto Category, que realiza exatamente este de-para sem a necessidade de realizar um cruzamento com outra tabela. Internamente, as operações de busca, por exemplo, podem ser feitas com strings normalmente

In [None]:
serc[serc == "Vermelho"]

E podemos inclusive aplicar as funcionalidades de strings, entretanto neste caso, internamente o pandas irá converter a coluna de volta para o tipo de texto e então aplicar a função pedida

In [None]:
serc.str.upper()

In [None]:
serc.str.contains("V")

É possível inclusive criar categorias como tipos proprietários a serem usadas. Por exemplo, suponhamos que além das cores relatadas também houvesse a possibilidade da série conter a cor Verde, mas nenhuma entidade na amostra continha essa cor. Ao converter para categoria usando astype o pandas utiliza apenas as categorias que ele conhece, entretanto uma meneira mais robusta de lidar com isso seria:

In [None]:
categoria = pd.Categorical(["Azul", "Amarelo", "Vermelho", "Verde"])
ser.astype(categoria.dtype)

---

**Exercício**

Calcule a memória consumida antes e depois da conversão de uma série para valores categóricos

In [None]:
np.random.seed(42)
ser = pd.Series(np.random.choice(["Azul", "Amarelo", "Vermelho"], size=1000))

In [None]:
#@title Resposta
np.random.seed(42)
for s in [10, 100, 1000, 10000, 100000, 1000000]:
  ser = pd.Series(np.random.choice(["Azul", "Amarelo", "Vermelho"], size=s))
  m_ant = ser.memory_usage()
  
  ser = ser.astype("category")
  m_desp = ser.memory_usage()

  print(f"Tamanho = %7d:" % s, end=" ")
  print("Antes > %7d" % m_ant, end=" | ")
  print("Depois > %7d" % m_desp, end=" | ")
  print("Delta > %8d" % (m_desp - m_ant), end=" | ")
  print("Var > %3d%%" % (100 * (m_desp - m_ant) / m_ant))

---

### Datetime 

Um tipo de estrutura com a qual nós lidamos recorrentemente são os dados temporais. O Python contém uma biblioteca nativa datetime, que contém uma série de funcionalidades para lidar com datas

In [None]:
import datetime

data = datetime.datetime(2021, 7, 8, 23, 59, 32)

Um objeto data nada mais é do que uma estrura que conta os segundos desde 1970-01-01 e permite facilitar calculos entre datas que não são simples de realizar numericamente

In [None]:
print(data)

Por exemplo, suponhamos que eu queira somar 5 dias a uma determinada data

In [None]:
print(data + datetime.timedelta(days=5))

Ou que eu queira obter características como o dia da semana (0 = Segunda)

In [None]:
data.weekday()

Abaixo listamos os principais atributos e funções que a biblioteca datetime contém

**Funções**
- datetime.datetime(): Define um novo objeto datetime passando os dados de ano, mês, dia, hora, minutos, segundos, microsegundos e fuso
- datetime.timedelta(): Permite somar um intervalo de tempo a uma data
- datetime.datetime.now(): Obtém o dia e hora neste momento (utiliza o fuso horário do computador se nada for passado)
- datetime.datetime.strptime(): Formata uma string em um datetime

**Métodos do Datetime**
- data.year/month/day/hour/minute/second/microsecond: Obtém informação sobre a data
- data.weekday(): Dia da semana da data (sendo 0 = segunda-feira)
- data.strftime(): Formata a data numa string 

In [None]:
print(datetime.datetime.now())
print(data.year)
print(data.strftime("%d/%m/%Y %H:%M:%S"))

In [None]:
datetime.datetime.strptime("11/03/2014 11:43:08", "%d/%m/%Y %H:%M:%S")

Uma parte bastante importante pra nós desse objeto é a formatação de strings, uma vez que será bastante comum realizar a conversão de strings para objetos datetime. Esta formatação é feita utilizando a sintaxe do % na qual cada caracter representa um tipo de formatação para o datetime. Abaixo descrevemos essas formações:

<img src="https://i.stack.imgur.com/i6Hg7.jpg" />

Todas essas funcionalidades giram ao redor do objeto datetime, ao qual o pandas adaptou, tal como strings, de forma que podemos utiliza-los dentro de uma série usando o prefixo dt

In [None]:
ser = pd.Series(["2021-01-01", "2021-01-02", "2021-01-03", "2021-01-04", "2021-01-05"], dtype="datetime64[ns]")
ser

In [None]:
print("Dia da semana >", ser.dt.dayofweek)
print("Dia do ano >", ser.dt.dayofyear)
print("Número de dias do mês >", ser.dt.daysinmonth)
print("Número da semana do ano >", ser.dt.week)
print("Converte o datetime para texto >", ser.dt.strftime("%d %b %Y"))

Apesar de ser possível converter strings para datetime aplicando o datetime.datetime.strptime, o mais comum é utilizar as funções pré-prontas do pandas para isso como o pd.to_datetime

In [None]:
ser = pd.Series(["2021/01/01", "2021/01/02", "2021/01/03", "2021/01/04", "2021/01/05"])
pd.to_datetime(ser)

In [None]:
ser = pd.Series(["01/01/2021", "02/01/2021", "03/01/2021", "04/01/2021", "05/01/2021"])
ser = pd.to_datetime(ser, format="%d/%m/%Y")
ser

De maneira análoga se quisessemos poderíamos utilizar o timedelta para adicionar tempo as datas, entretanto o pandas vem com o pd.DateOffset que obtém os mesmos resultados

In [None]:
ser + pd.DateOffset(days=5)

In [None]:
ser + datetime.timedelta(days=5)

In [None]:
ser + pd.DateOffset(month=5)

Além disso, uma das funções mais utilizadas do pandas nos permite facilmente criar arrays de datas, o pd.date_range

In [None]:
pd.date_range("2021-01-01", "2021-01-05")

In [None]:
pd.Series(pd.date_range("2021-01-01", "2021-01-05"))

In [None]:
pd.Series(pd.date_range("2021-01-01", "2021-01-05", freq="12H"))

In [None]:
pd.Series(pd.date_range("2021-01-01", "2021-01-05", periods=3))

Por fim, é interessante notar que o pandas ainda permite operações entre séries de datatime

In [None]:
ser1 = pd.Series(pd.date_range("2021-01-01", "2021-01-05"))
ser2 = pd.Series(pd.date_range("2021-02-01", "2021-02-05"))
ser1 - ser2

In [None]:
datetime.timedelta(days=31)

O resultado dessas operações é um objeto timedelta, que, tal como o datetime, tem suas propriedades

In [None]:
delta = ser1 - ser2

In [None]:
delta.dt.days

---

**Exercício**

Converta a string abaixo para um objeto datetime.

Dica: Eu não te dei todas as ferramentas para resolver esse exercício então veja como combinar datetime com a biblioteca locale

In [None]:
import locale

ser = pd.Series([
    "1 de Janeiro de 2021", 
    "2 de Janeiro de 2021", 
    "3 de Janeiro de 2021", 
    "4 de Janeiro de 2021", 
    "5 de Janeiro de 2021"
])

In [None]:
#@title Resposta
import locale
string = "2 de Janeiro de 2021"
locale.setlocale(locale.LC_ALL, "pt_BR.utf8")

ser = pd.Series([
    "1 de Janeiro de 2021", 
    "2 de Janeiro de 2021", 
    "3 de Janeiro de 2021", 
    "4 de Janeiro de 2021", 
    "5 de Janeiro de 2021"
])
pd.to_datetime(ser, format="%d de %B de %Y")

---

## Operações Avançadas 

Além das operações que vimos anteriormente o pandas vem com algumas funcionalidades úteis que facilitam algumas operações mais complexas que veremos a seguir

rolling -> Percorre os valores de uma série de forma iterativa em blocos, permitindo realizar uma função de agregação sob esses blocos

Parameters

- window: int, offset, or BaseIndexer subclass
    
      Size of the moving window. This is the number of observations used for calculating the statistic. Each window will be a fixed size. If its an offset then this will be the time period of each window. Each window will be a variable sized based on the observations included in the time-period. This is only valid for datetimelike indexes. If a BaseIndexer subclass is passed, calculates the window boundaries based on the defined ``get_window_bounds`` method. Additional rolling keyword arguments, namely `min_periods`, `center`, and `closed` will be passed to `get_window_bounds`.
    
- min_periods: int, default None

      Minimum number of observations in window required to have a value (otherwise result is NA). For a window that is specified by an offset, `min_periods` will default to 1. Otherwise, `min_periods` will default to the size of the window.

- center : bool, default False
    
      Set the labels at the center of the window.

- win_type : str, default None
    
      Provide a window type. If ``None``, all points are evenly weighted.

- on : str, optional
    
      For a DataFrame, a datetime-like column or Index level on which to calculate the rolling window, rather than the DataFrame's index. Provided integer column is ignored and excluded from result since an integer index is not used to calculate the rolling window.

- axis : int or str, default 0

- closed : str, default None
    
      Make the interval closed on the 'right', 'left', 'both' or 'neither' endpoints. Defaults to 'right'.

In [None]:
serie = pd.Series(np.arange(10))
serie.rolling(3)

In [None]:
serie

In [None]:
serie.rolling(3).mean()

In [None]:
serie.rolling(3, min_periods=2).mean()

interpolate

Parameters

- method : str, default 'linear'
    
      Interpolation technique to use. One of:

      * 'linear': Ignore the index and treat the values as equally spaced. This is the only method supported on MultiIndexes.
      * 'time': Works on daily and higher resolution data to interpolate given length of interval.
      * 'index', 'values': use the actual numerical values of the index.
      * 'pad': Fill in NaNs using existing values.
      * 'nearest', 'zero', 'slinear', 'quadratic', 'cubic', 'spline', 'barycentric', 'polynomial': Passed to `scipy.interpolate.interp1d`.
      * 'krogh', 'piecewise_polynomial', 'spline', 'pchip', 'akima', 'cubicspline': Wrappers around the SciPy interpolation methods of similar names.
      * 'from_derivatives': Refers to `scipy.interpolate.BPoly.from_derivatives`

- axis : {{0 or 'index', 1 or 'columns', None}}, default None. 
        
      Axis to interpolate along.

- limit : int, optional
      
      Maximum number of consecutive NaNs to fill. Must be greater than 0.

- inplace : bool, default False
    
      Update the data in place if possible.

- limit_direction : {{'forward', 'backward', 'both'}}, Optional
    
      Consecutive NaNs will be filled in this direction.

      If limit is specified:
      * If 'method' is 'pad' or 'ffill', 'limit_direction' must be 'forward'.
      * If 'method' is 'backfill' or 'bfill', 'limit_direction' must be 'backwards'.

      If 'limit' is not specified:
      * If 'method' is 'backfill' or 'bfill', the default is 'backward'
      * else the default is 'forward'

- limit_area : {{`None`, 'inside', 'outside'}}, default None
    
      If limit is specified, consecutive NaNs will be filled with this restriction.

      * ``None``: No fill restriction.
      * 'inside': Only fill NaNs surrounded by valid values (interpolate).
      * 'outside': Only fill NaNs outside valid values (extrapolate).

- downcast : optional, 'infer' or None, defaults to None
    
      Downcast dtypes if possible.

In [None]:
np.random.seed(42)
serie = pd.Series(np.random.normal(10, size=10))
serie[np.random.randint(10, size=3)] = np.nan
print(serie)
print(serie.interpolate("linear"))
print(serie.interpolate("linear", limit_direction="both"))

---

**Exercício**

Usando a série abaixo, calcule a média móvel de mortes em 14 dias no Brasil e responda se a média móvel de mortes está subindo ou não, com base na comparação da média móvel de 14 dias atrás, na qual se essa razão for < -15%, a média está caindo, se for > +15% está subindo, caso contrário está em estabilidade 

In [None]:
ser = pd.read_csv(
    "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv"
).loc[lambda f: f["Country/Region"] == "Brazil"].T.iloc[4:, 0]
ser.name = "Mortes"

In [None]:
#@title Resposta
ser = pd.read_csv(
    "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv"
).loc[lambda f: f["Country/Region"] == "Brazil"].T.iloc[4:, 0]
ser.name = "Mortes"

mortes_por_dia = ser.diff()
media_movel = mortes_por_dia.rolling(14).mean()
media_movel_lag14 = media_movel.shift(14)
var = media_movel / media_movel_lag14 - 1

def tendencia(x):
  if pd.isnull(x):
    return None
  elif x >= 0.15:
    return "Em Alta"
  elif x <= -0.15: 
    return "Em Queda"
  else:
    return "Em Estabilidade"

var = var.map(tendencia)
var.tail(30)

---