# 10 Minutes to pandas

https://pandas.pydata.org/pandas-docs/stable/10min.html

Como sempre, precisamos importar as bibliotecas que vamos utilizar
<hr style='height:1px'>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Comando 'mágico' do Jupyter para plotar os gráficos no notebook
%matplotlib inline

<hr style='height:1px'>
## Criação de objetos
**Criação de um `Series`**

Crie um objeto do tipo [`Series`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html) passando uma lista de valores. Por padrão o pandas irá adicionar um índice de inteiros.
<hr style='height:1px'>

In [None]:
pd.Series([1,3,5,np.nan,6,8])

<hr style='height:1px'>
**Criação de DataFrames**

Cria um objeto do tipo [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame) passando um array numpy, um índice de datas e os nomes das colunas como uma lista.
<hr style='height:1px'>

In [None]:
dates = pd.date_range('20130101', periods=6)
dates

In [None]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

<hr style='height:1px'>
Cria um `DataFrame` a partir de um dicionário de objetos que podem ser convertidos em `Series`
<hr style='height:1px'>

In [None]:
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train"]*2),
                     'F' : 'foo' })

df2

<hr style='height:1px'>
Tendo seus `dtypes` específicos
<hr style='height:1px'>

In [None]:
df2.dtypes

<hr style='height:1px'>
## Visualizando os dados
Vendo as primeiras e as últimas linhas dos dados
<hr style='height:1px'>

In [None]:
df.head()

In [None]:
df.tail()

<hr style='height:1px'>
Exibindo o índice, as colunas, as dimensões do `DataFrame`, os dados "sob o capô" e informações gerais do `DataFrame`.
<hr style='height:1px'>

In [None]:
# Índice
df.index

In [None]:
# Colunas
df.columns

In [None]:
# Dimensões (linhas, colunas)
df.shape

In [None]:
# Dados (Um array Numpy)
df.values

In [None]:
# Informações gerais
df.info()

<hr style='height:1px'>
O método `describe` apresenta um breve resumo estatístico dos seus dados **numéricos**
<hr style='height:1px'>

In [None]:
df.describe()

<hr style='height:1px'>
Transposta do `DataFrame`
<hr style='height:1px'>

In [None]:
df.T

<hr style='height:1px'>
Ordenar por índice e por valor
<hr style='height:1px'>

In [None]:
# Ordenando pelo nome das colunas (axis=1)
df.sort_index(axis=1, ascending=False)

In [None]:
# Ordenando pelo índice ("nomes" das linhas, axis=0 - valor padrão) em ordem decrescente
df.sort_index(ascending=False)

In [None]:
# Ordenando pelos valores da coluna B
df.sort_values(by='B')

<hr style='height:1px'>
## Seleção
<div style='background-color:#e2e2e2'>
**Nota:** Enquanto a notação padrão do Python/Numpy para seleção e atribuição são intuitivas e acessíveis para trabalho interativo, para códigos em produção recomenda-se o uso dos métodos de acesso otimizados do pandas <code style='background-color:#e2e2e2'>.at .iat .loc .iloc e .ix</code>
</div>
<hr style='height:1px'>
**Selecionando**

Selecionando uma única coluna, o que retorna um `Series`, equivalente a `df.A`
<hr style='height:1px'>

In [None]:
df['A']

<hr style='height:1px'>
Selecionando via `[]` fatiando as linhas
<hr style='height:1px'>

In [None]:
df[:3]

In [None]:
df['20130102':'20130104']

<hr style='height:1px'>
**Selecionando pelo _label_**

Selecionando uma seção cruzada através do _label_
<hr style='height:1px'>

In [None]:
df.loc[dates[0]]

<hr style='height:1px'>
Selecionando múltiplos eixos pelo _label_
<hr style='height:1px'>

In [None]:
df.loc[:, ['A', 'B']]

<hr style='height:1px'>
Na seleção pelo _label_ os dois _endpoints_ **são incluídos**
<hr style='height:1px'>

In [None]:
df.loc['20130101':'20130103', ['A', 'C']]

<hr style='height:1px'>
Redução nas dimensões do objeto retornado
<hr style='height:1px'>

In [None]:
df.loc['20130105', 'A':'C']

<hr style='height:1px'>
Para selecionar um valor escalar
<hr style='height:1px'>

In [None]:
df.loc[dates[0], 'A']

In [None]:
# Para acesso rápido a um escalar. Equivalente ao método acima
df.at[dates[0], 'A']

In [None]:
%%timeit
df.loc[dates[0], 'A']

In [None]:
%%timeit
df.at[dates[0], 'A']

<hr style='height:1px'>
**Seleção por posição**

Seleciona pela posição do inteiro informado
<hr style='height:1px'>

In [None]:
df.iloc[3]

<hr style='height:1px'>
Por faixa de inteiros como Python/Numpy
<hr style='height:1px'>

In [None]:
df.iloc[3:5, 0:2]

<hr style='height:1px'>
Por listas de inteiros como Python/Numpy
<hr style='height:1px'>

In [None]:
df.iloc[[1,2,4],[0,2]]

<hr style='height:1px'>
Fatiando as linhas e colunas explicitamente
<hr style='height:1px'>

In [None]:
# Linhas
df.iloc[1:3, :]

In [None]:
# Colunas
df.iloc[:, 1:3]

<hr style='height:1px'>
Acessando um valor explicitamente
<hr style='height:1px'>

In [None]:
df.iloc[1, 1]

In [None]:
# Método mais rápido e equivalente ao anterior
df.iat[1, 1]

In [None]:
%%timeit
df.iloc[1, 1]

In [None]:
%%timeit
df.iat[1, 1]

<hr style='height:1px'>
**Indexação booleana**

Usando valores de uma única coluna para selecionar os dados
<hr style='height:1px'>

In [None]:
df[df.A > 0]

<hr style='height:1px'>
Selecionando valores em um `DataFrame` quando uma condição é satisfeita
<hr style='height:1px'>

In [None]:
df[df > 0]

<hr style='height:1px'>
Usando o método `.isin()` para filtrar
<hr style='height:1px'>

In [None]:
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
df2

In [None]:
df2[df2['E'].isin(['two','four'])]

In [None]:
df2[(df2.E == 'two') | (df2.E == 'four')]

In [None]:
%%timeit
df2[df2['E'].isin(['two','four'])]

In [None]:
%%timeit
df2[(df2.E == 'two') | (df2.E == 'four')]

<hr style='height:1px'>
## Atribuição

Atribuir uma nova coluna automaticamente alinha os dados pelo índice
<hr style='height:1px'>

In [None]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1

In [None]:
df['F'] = s1
df

<hr style='height:1px'>
Atribuir um valor pelo _label_
<hr style='height:1px'>

In [None]:
df.at[dates[0], 'A'] = 0

<hr style='height:1px'>
Atribuir um valor pela posição
<hr style='height:1px'>

In [None]:
df.iat[0, 1] = 0

<hr style='height:1px'>
Atribuir um array numpy
<hr style='height:1px'>

In [None]:
df.loc[:, 'D'] = np.array([5] * len(df))

<hr style='height:1px'>
O resultado das atribuições acima:
<hr style='height:1px'>

In [None]:
df

<hr style='height:1px'>
Uma operação `where` com atribuição
<hr style='height:1px'>

In [None]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

<hr style='height:1px'>
## Valores faltantes (_missing_)
O pandas geralmente usa o valor `np.nan` para representar dados faltantes. Por padrão dados faltantes não são usados em cálculos.

Reindexar te permite mudar/inserir/excluir o índice em um dado eixo retornando uma cópia dos dados
<hr style='height:1px'>

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

<hr style='height:1px'>
Excluir as linhas que têm qualquer valor _missing_
<hr style='height:1px'>

In [None]:
df1.dropna(how='any')

<hr style='height:1px'>
Preenchendo os valores faltantes
<hr style='height:1px'>

In [None]:
df1.fillna(value=5)

In [None]:
# Preencher com a média
df1.fillna(df1.mean())

In [None]:
# Usa o próximo valor válido pra preencher a tabela
df1.fillna(method='bfill')

In [None]:
# Usa o último valor válido pra preencher a tabela
df1.fillna(method='ffill')

<hr style='height:1px'>
Máscara booleana para localizar os valores faltantes
<hr style='height:1px'>

In [None]:
pd.isnull(df1)

In [None]:
df1.isnull()

In [None]:
%%timeit
pd.isnull(df1)

In [None]:
%%timeit
df.isnull()

In [None]:
pd.notnull(df1)

In [None]:
df1.notnull()

In [None]:
%%timeit
pd.notnull(df1)

In [None]:
%%timeit
df1.notnull()

<hr style='height:1px'>
## Operações

**Estatísticas**

Em geral as operações **excluem** os dados faltantes.

Fazendo estatísticas descritivas.
<hr style='height:1px'>

In [None]:
df.mean()

<hr style='height:1px'>
A mesma operação no outro eixo.
<hr style='height:1px'>

In [None]:
df.mean(1)

<hr style='height:1px'>
Fazendo operações em objetos com dimensionalidades diferentes e precisam de alinhamento. Adicionalmente o pandas transmite a operação no eixo especificado.
<hr style='height:1px'>

In [None]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
s

In [None]:
df

In [None]:
df.sub(s, axis='index')

<hr style='height:1px'>
**Apply**

Aplicando funções nos dados
<hr style='height:1px'>

In [None]:
df.apply(np.cumsum)

In [None]:
df.apply(lambda linha: linha.max() - linha.min(), axis=1)

<hr style='height:1px'>
**"Histogramando" <font size=5px>😶😒😜</font>**
<hr style='height:1px'>

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

In [None]:
s.value_counts()

In [None]:
s.value_counts(sort=False)

<hr style='height:1px'>
`Series` são equipadas com um conjunto de métodos de processamento de strings no atributo `str` que tornam fáceis as operações em cada elemento do vetor, como no código abaixo. Note que a verificação de padrões em `str` geralmente usa expressões regulares por padrão (e em alguns casos **sempre** usa)
<hr style='height:1px'>

In [None]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower()

In [None]:
s.str.replace("[A-Z].{3}", lambda x: x.group(0)[1:-1])

<hr style='height:1px'>
## Merge
pandas fornece várias formas de combinar facilmente objetos `Series` e `DataFrame`. Vários tipos de lógicas para os índices e funcioalidades de álgebra relacional nas operações tipo _join/merge_

**Concat**

Concatenando objetos pandas usando o `concat()`
<hr style='height:1px'>

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df

In [None]:
# Quebra o df em partes
pieces = [df[:3], df[3:7], df[7:]]
pieces[0]

In [None]:
pd.concat(pieces)

In [None]:
pd.concat([pieces[0], pieces[2]], axis=1)

In [None]:
pd.concat([pieces[0], pieces[2].reset_index(drop=True)], axis=1)

<hr style='height:1px'>
**Join**

Unir `DataFrame`s no esilo SQL
<hr style='height:1px'>

In [None]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
left

In [None]:
right

In [None]:
pd.merge(left, right, on='key')

<hr style='height:1px'>
Outro exemplo
<hr style='height:1px'>

In [None]:
left = pd.DataFrame({'lkey': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'rkey': ['bar', 'foo'], 'rval': [4, 5]})
left

In [None]:
right

In [None]:
pd.merge(left, right, left_on='lkey', right_on='rkey')

<hr style='height:1px'>
**Append**

Adiciona novas linhas no fim do `DataFrame`
<hr style='height:1px'>

In [None]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
df

In [None]:
s = df.iloc[3]
df.append(s, ignore_index=True)

<hr style='height:1px'>
## Agrupando

Por "agrupamento" estamos nos referindo a um processo que envolve um ou mais dos passos abaixo:
* **Separar** os dados com base em algum critério
* **Aplicar** uma função a cada grupo independente
* **Combinar** os resultados em uma estrutura de dados

<hr style='height:1px'>

In [None]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
df

<hr style='height:1px'>
Agrupando e aplicando a soma sobre os dados
<hr style='height:1px'>

In [None]:
df.groupby("A").sum()

<hr style='height:1px'>
Agrupar por múltiplas colunas gera uma estrutura multiindex e então a função é aplicada
<hr style='height:1px'>

In [None]:
df.groupby(['A', 'B']).sum()

<hr style='height:1px'>
Aplicando funções mais complexas
<hr style='height:1px'>

In [None]:
df.groupby('A').apply(lambda x: x['C'].max() - x['D'].min())

<hr style='height:1px'>
## "Reformando"
Reshaping. Alterando a forma dos dados

**Empilhar**
<hr style='height:1px'>

In [None]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
tuples

In [None]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df

In [None]:
df2 = df[:4]
df2

<hr style='height:1px'>
O método `stack()` "comprime" um nível nas colunas do `DataFrame`
<hr style='height:1px'>

In [None]:
stacked = df2.stack()
stacked

<hr style='height:1px'>
Com um `DataFrame` ou uma `Series` "empilhada" (tendo um `MultiIndex` como `Index`), a operação inversa de `stack()` é `unstack()` que por padrão desempilha o último nível.
<hr style='height:1px'>

In [None]:
stacked.unstack()

In [None]:
stacked.unstack(1)

In [None]:
stacked.unstack(0)

<hr style='height:1px'>
**Pivot tables**
<hr style='height:1px'>

In [None]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})
df

<hr style='height:1px'>
Conseguimos facilmente produzir _pivot tables_ desses dados
<hr style='height:1px'>

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

In [None]:
pd.pivot_table(df, values='D', index=['A'], columns=['C'], aggfunc=sum)

<hr style='height:1px'>
## Séries Temporais
pandas tem funcionalidades simples, poderosas e eficientes para fazer operações de reamostragem durante conversões de frequência (por exemplo, converter dados coletados em segundos em intervalos de 5 minutos).

<hr style='height:1px'>

In [None]:
rng = pd.date_range('1/1/2012', periods=10000, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts.head()

In [None]:
ts.tail()

In [None]:
 ts.resample('15Min').sum()

In [None]:
ts[:100].resample('30S').mean()

<hr style='height:1px'>
Representação da _Time Zone_
<hr style='height:1px'>

In [None]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

In [None]:
ts_utc = ts.tz_localize('UTC')
ts_utc

<hr style='height:1px'>
Converter para outra _Time Zone_
<hr style='height:1px'>

In [None]:
ts_utc.tz_convert('America/Sao_Paulo')

<hr style='height:1px'>
Converter entre representações de períodos
<hr style='height:1px'>

In [None]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

In [None]:
ps = ts.to_period()
ps

In [None]:
ps.to_timestamp()

<hr style='height:1px'>
## Dados categóricos
Desde a versão 0.15 pandas permite a inclusão de dados categóricos em um `DataFrame`
<hr style='height:1px'>

In [None]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})
df

<hr style='height:1px'>
Converte as notas 'cruas' em categóricas
<hr style='height:1px'>

In [None]:
df['grade'] = df.raw_grade.astype("category")
df['grade']

<hr style='height:1px'>
Colocar nomes mais representativos (atribuir dados a .cat.categories é uma modificação _inplace_)
<hr style='height:1px'>

In [None]:
df["grade"].cat.categories = ["very good", "good", "very bad"]

<hr style='height:1px'>
Reordena as categorias e insere as que estavam faltando (os métodos de `.cat` retornam um objeto `Series`)
<hr style='height:1px'>

In [None]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df['grade']

<hr style='height:1px'>
Ordenação é pela ordem das categorias, não pela ordem alfabética ou numérica
<hr style='height:1px'>

In [None]:
df.sort_values(by='grade')

<hr style='height:1px'>
Agrupamento por dados categóricos geram dados inclusive para categorias vazias
<hr style='height:1px'>

In [None]:
df.groupby('grade').size()

In [None]:
df.grade.value_counts()

<hr style='height:1px'>
## Gráficos

<hr style='height:1px'>

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

<hr style='height:1px'>
Em um `DataFrame` o méotodo `plot` é uma facilidade para imprimir todas as colunas
<hr style='height:1px'>

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])

df = df.cumsum()
plt.figure(); df.plot(); plt.legend(loc='best')

<hr style='height:1px'>
## Entrada e saída de dados

**CSV**

Escrevendo em um CSV

Funções semelhantes para Excel, fwf (_Fixed Width Format_), SAS etc.
<hr style='height:1px'>

In [None]:
df.to_csv('foo.csv')

<hr style='height:1px'>
Lendo um CSV
<hr style='height:1px'>

In [None]:
pd.read_csv('foo.csv')

In [None]:
import sqlite3
conexão = sqlite3.connect('banco.db')
df.to_sql("minha_tabela", conexão)

In [None]:
pd.read_sql("SELECT * FROM minha_tabela LIMIT 10", conexão)

In [None]:
conexão.close()