# Pandas

O pacote *pandas* é uma das ferramentas de *Python* mais importantes para cientistas e analistas de dados atualmente. Ele é a base da maior parte dos projetos que incluem leitura, manipulação, limpeza e escrita de dados. O nome *pandas* é derivado do termo *panel data* (dados em painel), que é um termo econométrico que descreve dados compostos de múltiplas observações através do tempo para os mesmos indivíduos.

*Pandas* foi desenvolvido como uma camada acima do *NumPy*, mas boa parte de suas funcionalidades de análise estatística são feitas pelo *SciPy*, além do uso do *Matplotlib* para funções de visualização. Dessa forma, *pandas* simplifica o uso de diversas bibliotecas úteis para estatísticos e cientistas de dados.

Os dois principais objetos de *pandas* são as séries (*Series*) e as tabelas (*DataFrame*). Uma *Series* é basicamente uma coluna, enquanto uma *DataFrame* é uma tabela multidimensional composta de uma coleção de Series. Exemplo:

In [1]:
import numpy as np
import pandas as pd

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

A Series acima foi criada por meio de uma lista de valores, incluindo o valor *NaN* (*not a number*), que equivale a uma posição nula. A lista de valores foi passada para o construtor *pd.Series* e *pandas* criou um índice númerico para cada linha e determinou o tipo de  que melhor se representaria os dados (*float64*). Note que todos os valores passados foram inteiros, menos o *NaN*, cujo valor é tratado como *float64*. A criação de *DataFrames* também é muito simples, porém muito versátil. No exemplo abaixo, criamos uma *DataFrame* composta por uma matriz de inteiros. Após a chamada ao construtor *pd.DataFrame*, *pandas* cria um índice númerico para cada linha e atribui um número como título de cada coluna.

In [3]:
pd.DataFrame(np.arange(12).reshape(4, 3))

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Podemos passar mais informações ao construtor da *DataFrame*, como um nome para cada coluna:

In [4]:
pd.DataFrame(
    np.arange(12).reshape(4, 3),
    columns=['A', 'B', 'C']
)

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Podemos também criar um índice customizado para cada linha. Por exemplo, vamos criar um índice com um intervalo de datas:

In [5]:
dates = pd.date_range(
    '20200101', periods=4
)  # experimente trocar a string da data por 'today'

pd.DataFrame(
    np.arange(12).reshape(4, 3),
    index=dates,
    columns=['A', 'B', 'C']
)

Unnamed: 0,A,B,C
2020-01-01,0,1,2
2020-01-02,3,4,5
2020-01-03,6,7,8
2020-01-04,9,10,11


Uma outra forma de criar uma *DataFrame* é passar um dicionário com objetos que podem ser convertidos a objetos do tipo *Series*.

In [6]:
df = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20130102'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': list('abcd')
})

df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,a
1,1.0,2013-01-02,1.0,3,train,b
2,1.0,2013-01-02,1.0,3,test,c
3,1.0,2013-01-02,1.0,3,train,d


Note que as colunas resultantes tem tipos diferentes:

In [7]:
df.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## Acessando os dados

O pacote oferece diversas formas de acessar os dados contidos em uma *DataFrame*. Por exemplo, para acessar as primeiras linhas, usa-se o método *head*:

In [41]:
df2 = pd.DataFrame(
    np.arange(200).reshape(40, 5),
    columns=list('ABCDE')
)

df2.head()

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


Se o método *head* for chamado sem parâmetro algum, ele irá retornar as cinco primeiras linhas da *DataFrame*. Caso receba um número inteiro, o método irá retornar a quantidade desejada.

In [9]:
df2.head(2)

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,4
1,5,6,7,8,9


De forma similar, podemos acessar as últimas linhas da *DataFrame*:

In [10]:
df2.tail()

Unnamed: 0,A,B,C,D,E
35,175,176,177,178,179
36,180,181,182,183,184
37,185,186,187,188,189
38,190,191,192,193,194
39,195,196,197,198,199


In [11]:
df2.tail(3)

Unnamed: 0,A,B,C,D,E
37,185,186,187,188,189
38,190,191,192,193,194
39,195,196,197,198,199


Para listar o índice e as colunas:

In [12]:
df2.index

RangeIndex(start=0, stop=40, step=1)

In [13]:
df2.columns

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

Para verificar o formato da tabela, usa-se o atributo *shape*:

In [14]:
df2.shape

(40, 5)

O método *to_numpy* fornece uma representação dos dados na forma de um *array* de *NumPy*. Isso pode ser uma operação simples, caso os dados da *DataFrame* sejam homogêneos:

In [15]:
df2.to_numpy()

array([[  0,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14],
       [ 15,  16,  17,  18,  19],
       [ 20,  21,  22,  23,  24],
       [ 25,  26,  27,  28,  29],
       [ 30,  31,  32,  33,  34],
       [ 35,  36,  37,  38,  39],
       [ 40,  41,  42,  43,  44],
       [ 45,  46,  47,  48,  49],
       [ 50,  51,  52,  53,  54],
       [ 55,  56,  57,  58,  59],
       [ 60,  61,  62,  63,  64],
       [ 65,  66,  67,  68,  69],
       [ 70,  71,  72,  73,  74],
       [ 75,  76,  77,  78,  79],
       [ 80,  81,  82,  83,  84],
       [ 85,  86,  87,  88,  89],
       [ 90,  91,  92,  93,  94],
       [ 95,  96,  97,  98,  99],
       [100, 101, 102, 103, 104],
       [105, 106, 107, 108, 109],
       [110, 111, 112, 113, 114],
       [115, 116, 117, 118, 119],
       [120, 121, 122, 123, 124],
       [125, 126, 127, 128, 129],
       [130, 131, 132, 133, 134],
       [135, 136, 137, 138, 139],
       [140, 141, 142, 143, 144],
       [145, 1

No entanto, como *arrays* de *NumPy* devem ser homogêneos, no caso de *DataFrames* heterogêneas, a operação pode ser custosa, porque *pandas* vai precisar encontrar o tipo que melhorar representará todos os dados em um *array*. Por vezes, esse tipo pode terminar sendo *object*. 

In [16]:
df.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'a'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'b'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'c'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'd']],
      dtype=object)

Note que o índice e os nomes das colunas não aparecem na saída de *to_numpy*. Para transpor a *DataFrame*, basta accessar o atributo *T*:

In [17]:
df2.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,30,31,32,33,34,35,36,37,38,39
A,0,5,10,15,20,25,30,35,40,45,...,150,155,160,165,170,175,180,185,190,195
B,1,6,11,16,21,26,31,36,41,46,...,151,156,161,166,171,176,181,186,191,196
C,2,7,12,17,22,27,32,37,42,47,...,152,157,162,167,172,177,182,187,192,197
D,3,8,13,18,23,28,33,38,43,48,...,153,158,163,168,173,178,183,188,193,198
E,4,9,14,19,24,29,34,39,44,49,...,154,159,164,169,174,179,184,189,194,199


Para acessar uma única coluna, retornada como uma *Series*, podemos usar notação de colchetes ou de atributo:

In [18]:
df['E']

0     test
1    train
2     test
3    train
Name: E, dtype: category
Categories (2, object): [test, train]

In [19]:
df.E

0     test
1    train
2     test
3    train
Name: E, dtype: category
Categories (2, object): [test, train]

Para acessar linhas pelos seus índices, podemos usar o atributo *loc*:

In [20]:
dates = pd.date_range(
    '20200101', periods=6
)

df3 = pd.DataFrame(
    np.arange(18).reshape(6, 3),
    index=dates,
    columns=['A', 'B', 'C']
)

df3.loc[dates[0]]

A    0
B    1
C    2
Name: 2020-01-01 00:00:00, dtype: int64

O atributo *loc* também permite acessar listas de índices, bem como especificar quais colunas devem ser retornadas:

In [21]:
df3.loc[[dates[2], dates[4]]]

Unnamed: 0,A,B,C
2020-01-03,6,7,8
2020-01-05,12,13,14


In [22]:
df3.loc[[dates[2], dates[4]], ['A', 'C']]

Unnamed: 0,A,C
2020-01-03,6,8
2020-01-05,12,14


Se apenas um índice e uma coluna forem especificados, *pandas* retornará o valor correspondente da tabela:

In [23]:
df3.loc[df3.index[0], 'B']

1

Note a diferença de comportamento se a única coluna for informada dentro de uma lista:

In [24]:
df3.loc[df3.index[0], ['B']]  # retorna uma Series com apenas um elemento

B    1
Name: 2020-01-01 00:00:00, dtype: int64

Para acessar apenas um valor de forma mais rápida, o atributo *loc* pode ser substituído por *at*:

In [25]:
df3.at[df3.index[0], 'B']

1

Similar ao *loc*, o atributo *iloc* também permite acessar os dados da *DataFrame*, porém ao invés de acessar através dos valores dos índices, ele permite acessar pelas posições das linhas. Exemplo:

In [26]:
df3.iloc[0]  # equivale a df3.loc[df3.index[0]]

A    0
B    1
C    2
Name: 2020-01-01 00:00:00, dtype: int64

As colunas também são tratadas numericamente por *iloc*. Inclusive, é possível usá-lo para acessar fatias da tabela, assim como em um *array* de *NumPy*:

In [27]:
df3.iloc[0, [0, 2]]

A    0
C    2
Name: 2020-01-01 00:00:00, dtype: int64

In [28]:
df3.iloc[0, 0]

0

In [29]:
df3.iloc[0:2, 0:2]  # exclui o final

Unnamed: 0,A,B
2020-01-01,0,1
2020-01-02,3,4


Continuando as similaridades com *arrays*, também é possível acessar os dados de uma *DataFrame* usando condições booleanas:

In [30]:
df2[df2.A % 2 == 0]  # apenas as linhas em que a coluna A é par

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,4
2,10,11,12,13,14
4,20,21,22,23,24
6,30,31,32,33,34
8,40,41,42,43,44
10,50,51,52,53,54
12,60,61,62,63,64
14,70,71,72,73,74
16,80,81,82,83,84
18,90,91,92,93,94


In [31]:
df2[df2 % 2 == 0]  # Apenas os valores pares

Unnamed: 0,A,B,C,D,E
0,0.0,,2.0,,4.0
1,,6.0,,8.0,
2,10.0,,12.0,,14.0
3,,16.0,,18.0,
4,20.0,,22.0,,24.0
5,,26.0,,28.0,
6,30.0,,32.0,,34.0
7,,36.0,,38.0,
8,40.0,,42.0,,44.0
9,,46.0,,48.0,


O método *isin* permite filtrar dados:

In [32]:
df[df['F'].isin(['a', 'd'])]

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,a
3,1.0,2013-01-02,1.0,3,train,d


Além de acessar dados, *loc*, *iloc*, *at* e *iat* permitem atribuir valores às posições indicadas:

In [36]:
df3.iloc[2] = 1

df3

Unnamed: 0,A,B,C
2020-01-01,0,1,2
2020-01-02,3,4,5
2020-01-03,1,1,1
2020-01-04,9,10,11
2020-01-05,12,13,14
2020-01-06,15,16,17


In [37]:
df3.loc['20200101', 'C'] = 10

df3

Unnamed: 0,A,B,C
2020-01-01,0,1,10
2020-01-02,3,4,5
2020-01-03,1,1,1
2020-01-04,9,10,11
2020-01-05,12,13,14
2020-01-06,15,16,17


In [38]:
df3.iat[2, 2] = -5

df3

Unnamed: 0,A,B,C
2020-01-01,0,1,10
2020-01-02,3,4,5
2020-01-03,1,1,-5
2020-01-04,9,10,11
2020-01-05,12,13,14
2020-01-06,15,16,17


Também é possível usar máscaras booleanas para atribuir valores:

In [42]:
df2[df2 % 2 == 0] = -df2

df2

Unnamed: 0,A,B,C,D,E
0,0,1,-2,3,-4
1,5,-6,7,-8,9
2,-10,11,-12,13,-14
3,15,-16,17,-18,19
4,-20,21,-22,23,-24
5,25,-26,27,-28,29
6,-30,31,-32,33,-34
7,35,-36,37,-38,39
8,-40,41,-42,43,-44
9,45,-46,47,-48,49


Para adicionar uma nova coluna, basta usar a notação de colchetes com o nome da nova coluna:

In [43]:
df2['F'] = 1

df2

Unnamed: 0,A,B,C,D,E,F
0,0,1,-2,3,-4,1
1,5,-6,7,-8,9,1
2,-10,11,-12,13,-14,1
3,15,-16,17,-18,19,1
4,-20,21,-22,23,-24,1
5,25,-26,27,-28,29,1
6,-30,31,-32,33,-34,1
7,35,-36,37,-38,39,1
8,-40,41,-42,43,-44,1
9,45,-46,47,-48,49,1


## Estatística descritiva

O pacote *pandas* oferece diversas funções para análise de Estatística descritiva. A mais geral dessas funcionalidades é o método *describe*, que computa uma variedade de medidas:

In [44]:
df2.describe()

Unnamed: 0,A,B,C,D,E,F
count,40.0,40.0,40.0,40.0,40.0,40.0
mean,2.5,-2.5,2.5,-2.5,2.5,1.0
std,114.718161,115.591012,116.466128,117.343458,118.222953,0.0
min,-190.0,-196.0,-192.0,-198.0,-194.0,1.0
25%,-92.5,-98.5,-94.5,-100.5,-96.5,1.0
50%,2.5,-2.5,2.5,-2.5,2.5,1.0
75%,97.5,93.5,99.5,95.5,101.5,1.0
max,195.0,191.0,197.0,193.0,199.0,1.0


É possivel selecionar os percentis que serão incluídos (a mediana é sempre retornada por padrão):

In [45]:
df2.describe(percentiles=[.05, .25, .75, .95])

Unnamed: 0,A,B,C,D,E,F
count,40.0,40.0,40.0,40.0,40.0,40.0
mean,2.5,-2.5,2.5,-2.5,2.5,1.0
std,114.718161,115.591012,116.466128,117.343458,118.222953,0.0
min,-190.0,-196.0,-192.0,-198.0,-194.0,1.0
5%,-170.5,-176.5,-172.5,-178.5,-174.5,1.0
25%,-92.5,-98.5,-94.5,-100.5,-96.5,1.0
50%,2.5,-2.5,2.5,-2.5,2.5,1.0
75%,97.5,93.5,99.5,95.5,101.5,1.0
95%,175.5,171.5,177.5,173.5,179.5,1.0
max,195.0,191.0,197.0,193.0,199.0,1.0


Para colunas não-númericas, *describe* retorna um sumário mais simples:

In [51]:
df['E'].describe()

count         4
unique        2
top       train
freq          2
Name: E, dtype: object

Numa *DataFrame* com tipos mistos, *describe* irá incluir apenas as colunas numéricas:

In [53]:
frame = pd.DataFrame({'a': ['Yes', 'Yes', 'No', 'No'], 'b': range(4)})

frame.describe()

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


Esse comportamento pode ser controlado pelos argumentos *include* e *exclude*:

In [54]:
frame.describe(include=['object'])

Unnamed: 0,a
count,4
unique,2
top,No
freq,2


In [55]:
frame.describe(include=['number'])

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


In [58]:
frame.describe(include=['object', 'number'])

Unnamed: 0,a,b
count,4,4.0
unique,2,
top,No,
freq,2,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25


In [59]:
frame.describe(include='all')

Unnamed: 0,a,b
count,4,4.0
unique,2,
top,No,
freq,2,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25
