# Pandas

Pandas é uma ferramenta em Python desenhada para trabalhar eficientemente com dados tabulares e heterogêneos. Ele se inspira bastante em NumPy e o usa internamente.
Dado que a fundação de Pandas é baseado em NumPy, podemos usar expressões e funções de NumPy nas estruturas do Pandas.

Forma convencional para importar Pandas:

In [1]:
import pandas as pd

In [2]:
import numpy as np

## Data Structure
As duas principais estruturas de dados presentes no Pandas são: *Series* e *Dataframe*.

### Series
Uma Series (ou séries em português) é um objeto do tipo array unidimensional contendo uma sequência de valores do mesmo tipo e um array de índices associado. É similar a uma coluna em uma tabela de dados, onde cada valor é identificado por um rótulo de índice único.

Criando uma Series a partir de um array:

In [3]:
obj = pd.Series([4, 7, -5, 3])

In [4]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Se não especificarmos os rótulos do índice, ele assumira uma forma numérica e sequencial, indo de `0` até `N-1` (sendo `N` o tamanho da Series).

Os campos `array` e `index` devolvem o array interno da série e o índice associado, respectivamente:

In [5]:
obj.array

<NumpyExtensionArray>
[np.int64(4), np.int64(7), np.int64(-5), np.int64(3)]
Length: 4, dtype: int64

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Especificando rótulos para os índices:

In [28]:
obj2 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'd'])

In [8]:
obj2

a    4
b    7
c   -5
d    3
dtype: int64

In [9]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Semelhante ao NumPy, podemos selecionar ou atribuir valores baseado no índice, *slicing*, expressões booleanos, ou em um outro array:

In [10]:
obj2["a"]

np.int64(4)

In [11]:
obj2["d"] = 6

In [12]:
obj2["d"]

np.int64(6)

In [30]:
obj2[:-1] # todos os valores menos o último

a    4
b    7
c   -5
dtype: int64

In [14]:
obj2[obj2 > 0]

a    4
b    7
d    6
dtype: int64

In [13]:
obj2[['b', 'c', 'd']]

b    7
c   -5
d    6
dtype: int64

É possível alterar o rótulo de índices existentes:

In [15]:
obj2.index = ["e", "f", "g", "h"]

In [16]:
obj2

e    4
f    7
g   -5
h    6
dtype: int64

Realizando operações matemáticas e usando funções NumPy:

In [17]:
obj2 * 2

e     8
f    14
g   -10
h    12
dtype: int64

In [18]:
np.exp(obj2)

e      54.598150
f    1096.633158
g       0.006738
h     403.428793
dtype: float64

Uma Series é semelhante a um dicionário do Python:

In [19]:
"e" in obj2

True

In [20]:
"a" in obj2

False

In [21]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}

In [37]:
obj3 = pd.Series(sdata) # criando uma série a partir de um dicionário

In [23]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [24]:
obj3.to_dict() # converte para dicionário

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

A série irá respeitar a ordem das chaves do dicionário. Para alterá-la, podemos usar o campo `index`:

In [25]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [26]:
obj4 = pd.Series(sdata, index=states)

In [27]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

O rótulo `California` não existia no dicionário `sdata`, então ele aparece como `NaN` (not a number) ou `NA` (not available) que é usado no pandas para indicar dados faltantes ou ausentes. Além disso, como não incluimos `Utah` no índice, ele foi excluído da série.

As funções `pd.isna` e `pd.notna` ou o método `isna` podem ser usadas para detectar dados ausentes:

In [28]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [29]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [30]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Em operações aritméticas envolvendo duas ou mais séries, os índices são automaticamente alinhados:

In [31]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [32]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [33]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

É possível atribuir um nome ao objeto Series, bem como ao array de índices:

In [34]:
obj4.name = "population"

In [35]:
obj4.index.name = "state"

In [36]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### DataFrame
Um DataFrame representa uma tabela de dados organizada por colunas ordenadas e linhas (i.e. duas ou mais dimensões). Cada coluna pode armazenar um tipo diferente de valor (numérico, string, booleano etc.).\
Um DataFrame possui um índice de coluna e outro de linha.\
Ele pode ser imaginado como um dicionário de Series, com um grupo compartilhando o mesmo índice.

Há várias maneiras de criar um DataFrame. A mais comum utiliza um dicionário com listas (ou *ndarrays*) de mesmo tamanho:

In [4]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2003, 2004, 2005],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [5]:
frame = pd.DataFrame(data)

Assim como uma série, um DataFrame receberá um índice numérico sequencial caso não atribuirmos um.

In [40]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


O método `head` seleciona apenas as 5 primeiras linhas:

In [41]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9


O método `tail` seleciona as 5 últimas linhas:

In [42]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2003,2.4
4,Nevada,2004,2.9
5,Nevada,2005,3.2


O atributo `columns` retorna os rótulos das colunas (que é o índice do DataFrame):

In [7]:
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

Durante a criação de um DataFrame, é possível especificar a ordem das colunas:

In [43]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2003,Nevada,2.4
4,2004,Nevada,2.9
5,2005,Nevada,3.2


Se uma coluna não existir no DataFrame, ela ficará vazia (`NaN`):

In [9]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])

In [45]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,
5,2005,Nevada,3.2,


Uma coluna pode ser selecionada usando uma notação do tipo dicionário ou com um ponto (`.`):

In [46]:
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [48]:
# essa notação só funciona se o nome da coluna não tiver espaço, caracteres especiais e não for igual a nenhum método do DataFrame
frame2.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

Quando selecionas apenas uma coluna, percebemos que uma Series é retornada.\
Os valores retornados são apenas visões do DataFrame e, portanto, qualquer alteração feita sobre esses dados será refletida no objeto original.

Para alterar os valores sem alterar o objeto original, precisamos copiar o DataFrame ou a coluna explicitamente.

Copiando um DataFrame com o método `copy`:

In [17]:
frame3 = frame2.copy()

In [18]:
frame3

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,-1.5
5,2005,Nevada,3.2,-1.7


In [19]:
colCopy = frame3["state"].copy()

In [20]:
colCopy

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

Para selecionar uma linha, usamos os atributos `iloc` ou `loc`:

In [49]:
frame2.loc[0]

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: 0, dtype: object

In [50]:
frame2.iloc[0]

year     2000
state    Ohio
pop       1.5
debt      NaN
Name: 0, dtype: object

Atribuindo um valor a uma coluna inteira:

In [10]:
frame2["debt"] = 16.5

In [52]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2003,Nevada,2.4,16.5
4,2004,Nevada,2.9,16.5
5,2005,Nevada,3.2,16.5


In [11]:
frame2["debt"] = np.arange(6.)

In [54]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2003,Nevada,2.4,3.0
4,2004,Nevada,2.9,4.0
5,2005,Nevada,3.2,5.0


Para atribuir uma lista ou Series a uma coluna, o seu tamanho precisa ser igual ao do DataFrame.\
Se os índices da Series não coincidir com o do DataFrame, a coluna pode acabar com linhas vazias.

In [12]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 4, 5])

In [13]:
frame2["debt"] = val

In [64]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,-1.5
5,2005,Nevada,3.2,-1.7


Ao atribuir um valor a uma coluna que não existe, ela é adicionada ao DataFrame (só funciona com a notação de dicionário):

In [14]:
frame2["eastern"] = frame2.state == "Ohio"

In [66]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2003,Nevada,2.4,,False
4,2004,Nevada,2.9,-1.5,False
5,2005,Nevada,3.2,-1.7,False


O operador `del` deleta uma coluna:

In [15]:
del frame2["eastern"]

In [16]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2003,Nevada,2.4,
4,2004,Nevada,2.9,-1.5
5,2005,Nevada,3.2,-1.7


É possível criar um DataFrame a partir de um dicionário aninhado. Nesse caso, as chaves do dicionário externo são transformadas em índices de coluna, enquanto as chaves do dicionário mais interno são transformadas em índices de linha:

In [21]:
population = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
              "Nevada": {2001: 2.4, 2002: 2.9}}

In [22]:
frame3 = pd.DataFrame(population)

In [23]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Semelhante a NumPy, é possível inverter as colunas e linhas (transposição):

In [24]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


> **Cuidado**
>
> Transpor e transpor devolta um DataFrame com colunas de diferentes tipos de dados pode causar perdas de dados, visto que os tipos não são preservados.

Usando colunas de um DataFrame para construir outro DataFrame:

In [25]:
pdata = {"Ohio": frame3["Ohio"][:-1],    # pega todos os elementos menos o último
         "Nevada": frame3["Nevada"][:2]} # pega os dois primeiros elementos

In [26]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


O construtor do DataFrame aceita os seguintes tipos de dados:

| Type                      | Notes
----------------------------|------------------------------------------------
2D ndarray                  | Matriz de dados, passando rótulos de colunas e linhas (opcional)
Dicionário de arrays, listas ou tuplas | Cada sequência se torna uma coluna; todas as sequências precisam ter o mesmo tamanho
Dicionário de séries        | Cada série se torna uma coluna
Estrutura de dados NumPy    | O caso do dicionário de arrays se aplica
Dicionários aninhados       | Cada dicionário interno se torna uma coluna
Lista de dicionários ou séries | Cada item se torna uma linha; a união de todas as chaves dos dicionários ou séries se tornam os rótulos das colunas
Lista aninhada ou de tuplas | O caso do "2D ndarray" se aplica
Outro DataFrame             | A estrutura do DataFrame é replicada
NumPy MaskedArray           | O caso do "2D ndarray" se aplica, mas os valores mascarados ficam vazios

É possível adicionar nomes às colunas e linhas:

In [31]:
frame3.index.name = "year"

In [32]:
frame3.columns.name = "state"

In [33]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


O método `to_numpy` retorna um ndarray bidimensional:

In [35]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

### Funcionalidades essenciais

O método `reindex` gera um novo objeto com os valores reordenados:

In [3]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])

In [4]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [15]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"]) # "e" não existe na série

In [6]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Se um índice passado ao método `reindex` não existir, ele é adicionado ao resultado.

É possível preencher lacunas ou interpolar valores com o atributo `method`:

In [7]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])

In [8]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [10]:
obj3.reindex(np.arange(6), method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Com DataFrames, é possível reordenar linhas, colunas ou ambos:

In [11]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=["a", "c", "d"], columns=["Ohio", "Texas", "California"])

In [12]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [16]:
# Reordenando as linhas
frame2 = frame.reindex(index=["a", "b", "c", "d"])

In [14]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [20]:
# Reordenando as colunas
frame.reindex(columns=["Texas", "Utah", "California"]) # Utah não existe no objeto

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Uma forma alternativa de reordenar é usando a propriedade `axis`:

In [21]:
frame.reindex(["Texas", "Utah", "California"], axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


O método `loc` pode ser usado no lugar de `reindex`. A diferença é que, caso um índice não exista, um erro é lançado:

In [28]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


O método `drop` retorna um novo objeto e remove um ou mais índices:

In [29]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])

In [31]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [32]:
new_obj = obj.drop("c")

In [33]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [34]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

Com DataFrames, é possível remover tanto índices de linha quanto de coluna:

In [36]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                     index=["Ohio", "Colorado", "Utah", "New York"],
                     columns=["one", "two", "three", "four"])

In [37]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [38]:
data.drop(index=["Colorado", "Ohio"])
# ou

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [39]:
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


Uma forma alternativa é usar o atributo `axis`:

In [40]:
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [41]:
data.drop("two", axis="columns")

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


Removendo valores nulos:

In [42]:
data = pd.Series([1, None, 2, 3, None])

In [43]:
data.dropna()

0    1.0
2    2.0
3    3.0
dtype: float64

Removendo valores duplicados:

In [44]:
data = pd.Series([1, 2, 2, 3, 4, 5, 5])

In [45]:
data.drop_duplicates()

0    1
1    2
3    3
4    4
5    5
dtype: int64

Embora seja possível selecionar valores usando somente chaves, é preferível utilizar os métodos `loc` e `iloc`.

O método `loc` seleciona valores a partir do rótulo dos índices:

In [46]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])

In [47]:
obj.loc["b"] # perceba que usamos chaves [] em vez de parênteses ()

np.float64(1.0)

In [48]:
obj.loc[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

O método `iloc` nos permite utilizar números em vez dos rótulos:

In [49]:
obj.iloc[[0, 1, 2]]

a    0.0
b    1.0
c    2.0
dtype: float64

Enquanto a forma tradicional de selecionar valores (ex. `obj[...]`) permite o uso de rótulos e números, os métodos `loc` e `iloc` tornam isso mais explícito.

É possível fatiar rótulos:

In [51]:
obj.loc["b":"c"] # b e c são inclusivos

b    1.0
c    2.0
dtype: float64

Assinalando valores a uma fatia:

In [52]:
obj.loc["b":"c"] = 5

In [53]:
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

Selecionando valores no DataFrame:

In [54]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                     index=["Ohio", "Colorado", "Utah", "New York"],
                     columns=["one", "two", "three", "four"])

In [55]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [56]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [57]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [58]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [59]:
data[data["three"] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [60]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [61]:
data[data < 5] = 0

In [62]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Também podemos usar os métodos `loc` e `iloc`:

In [64]:
data.loc["Colorado"]

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [65]:
data.loc[['Colorado', 'New York']]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
New York,12,13,14,15


In [67]:
# Selecionando colunas e linhas
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [71]:
data.loc[data['three'] == 6, 'three']

Colorado    6
Name: three, dtype: int64

In [68]:
# Usando iloc
data.iloc[1, [1, 2]]

two      5
three    6
Name: Colorado, dtype: int64

Quando somamos dois objetos com índices diferentes, o resultado é nulo:

In [72]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])

In [73]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=["a", "c", "e", "f", "g"])

In [74]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [75]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [76]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [77]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"), index=["Ohio", "Texas", "Colorado"])

In [78]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"), index=["Utah", "Ohio", "Texas", "Oregon"])

In [79]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [80]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [81]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Se dois objetos não tiverem nenhum índice em comum, o resultado será somente nulo:

In [82]:
df1 = pd.DataFrame({"A": [1, 2]})

In [83]:
df2 = pd.DataFrame({"B": [3, 4]})

In [84]:
df1

Unnamed: 0,A
0,1
1,2


In [85]:
df2

Unnamed: 0,B
0,3
1,4


In [86]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


Com o método `add` e o argumento `fill_value`, podemos substituir valores ausentes por um valor arbitrário:

In [92]:
df1.add(df2, fill_value=0) # os valores nulos serão substituído por 0, permitindo a soma

Unnamed: 0,A,B
0,1.0,3.0
1,2.0,4.0


Cada método aritmético possui um versão que inverte a ordem dos operandos. Por exemplo, as duas declarações abaixo são equivalentes:

In [93]:
1 / df1

Unnamed: 0,A
0,1.0
1,0.5


In [94]:
df1.rdiv(1)

Unnamed: 0,A
0,1.0
1,0.5


Alguns métodos disponíveis:

| Método      | Descrição
--------------|----------
`add`, `radd` | Adição (+)
`sub`, `rsub` | Subtração (-)
`div`, `rdiv` | Divisão (/)
`floordiv`, `rfloordiv` | Divisão de piso (//)
`mul`, `rmul` | Multiplicação (*)
`pow`, `rpow` | Exponenciação (**)

É possível realizar operações aritméticas entre uma Series e um DataFrame:

In [102]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"), index=["Utah", "Ohio", "Texas", "Oregon"])

In [103]:
series = frame.iloc[0] # pega a primeira linha

In [104]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [105]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

Por padrão, o índice da série será alinhado à coluna do DataFrame, com a operação se repetindo em cada linha:

In [107]:
frame - series # subtrai cada linha do DataFrame pela primeira linha

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Para inverter a ordem da operação, precisamos usar o método aritmético e o argumento `axis`:

In [114]:
series2 = frame["d"]

In [116]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [117]:
series2

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [118]:
frame.sub(series2, axis="index") # subtrai cada coluna do DataFrame pela coluna "d"

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


Se houver algum índice não correspondente, um valor nulo é gerado:

In [111]:
series3 = pd.Series(np.arange(3), index=["b", "e", "f"])

In [112]:
series3

b    0
e    1
f    2
dtype: int64

In [113]:
frame + series3

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Funções NumPy (métodos de array elemento a elemento) também funcionam com os objetos do pandas:

In [123]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)), columns=list("bde"), index=["Utah", "Ohio", "Texas", "Oregon"])

In [125]:
frame

Unnamed: 0,b,d,e
Utah,0.655811,0.281826,-0.552726
Ohio,0.760631,0.041867,-1.291393
Texas,0.55853,-1.253272,-1.713726
Oregon,0.388461,-0.735149,-0.401034


In [126]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.655811,0.281826,0.552726
Ohio,0.760631,0.041867,1.291393
Texas,0.55853,1.253272,1.713726
Oregon,0.388461,0.735149,0.401034


Aplicando uma função em cada coluna ou linha de um DataFrame com o método `apply`:

In [129]:
def f1(x):
  return x.max() - x.min() # subtrai o maior valor pelo menor valor da série

In [132]:
frame.apply(f1) # aplica a função f1 em cada coluna

b    0.372170
d    1.535098
e    1.312692
dtype: float64

Para inverter o eixo, usamos o argumento `axis`:

In [131]:
frame.apply(f1, axis="columns") # aplica a função em cada linha

Utah      1.208536
Ohio      2.052024
Texas     2.272256
Oregon    1.123610
dtype: float64

A função também pode retornar uma Series:

In [133]:
def f2(x):
  return pd.Series([x.min(), x.max()], index=["min", "max"])

In [134]:
frame.apply(f2)

Unnamed: 0,b,d,e
min,0.388461,-1.253272,-1.713726
max,0.760631,0.281826,-0.401034


O método `map` permite aplicar uma função individualmente em cada elemento:

In [135]:
def my_format(x):
  return f"{x:.2f}"

In [137]:
frame.map(my_format)

Unnamed: 0,b,d,e
Utah,0.66,0.28,-0.55
Ohio,0.76,0.04,-1.29
Texas,0.56,-1.25,-1.71
Oregon,0.39,-0.74,-0.4


O método `sort_index` ordenar um objeto pelos índices:

In [138]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])

In [139]:
obj

d    0
a    1
b    2
c    3
dtype: int64

In [140]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [141]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=["three", "one"], columns=["d", "a", "b", "c"])

In [142]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


Por padrão, um DataFrame é ordenado pelos índices de linha:

In [143]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [144]:
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Para inverter a ordem de classificação, usamos o argumento `ascending`:

In [145]:
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


O método `sort_values` ordena um objeto pelos valores:

In [146]:
obj = pd.Series([4, 7, -3, 2])

In [147]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Valores nulos são posicionados no final:

In [148]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [149]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

É possível altererar esse comportamento com o argumento `na_position`:

In [150]:
obj.sort_values(na_position="first")

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64

É possível ordenar um DataFrame a partir dos valores de uma ou mais colunas:

In [153]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [1, 2, 3, 4]})

In [154]:
frame

Unnamed: 0,b,a
0,4,1
1,7,2
2,-3,3
3,2,4


In [156]:
frame.sort_values("b")

Unnamed: 0,b,a
2,-3,3
3,2,4
0,4,1
1,7,2


In [159]:
frame2 = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})

In [160]:
frame2.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


O método `is_unique` verifica se os valores dos índices são únicos:

In [168]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])

In [169]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [162]:
obj.index.is_unique

False

Enquanto a seleção de um índice único retorna um escalar, a seleção de um índice duplicado retorna uma Serie:

In [165]:
obj["a"]

a    0
a    1
dtype: int64

In [167]:
obj["c"]

np.int64(4)

# Summarizing

In [170]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
                  index=["a", "b", "c", "d"],
                  columns=["one", "two"])

In [171]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


O método `sum` retorna uma série contendo a soma das colunas ou linhas:

In [175]:
df.sum() # soma as linhas

one    9.25
two   -5.80
dtype: float64

In [176]:
df.sum(axis="columns") # soma as colunas

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Por padrão, valores `NaN` são tratados como 0.

O método `mean` retorna uma série contendo a média das colunas ou linhas:

In [177]:
df.mean() # média das linhas

one    3.083333
two   -2.900000
dtype: float64

In [178]:
df.mean(axis="columns") # média das colunas

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

Os métodos `min` e `max` retornam o menor e maior valor de cada coluna ou linha, respectivamente:

In [182]:
df.min() # menor valor das linhas

one    0.75
two   -4.50
dtype: float64

In [183]:
df.max() # maior valor das linhas

one    7.1
two   -1.3
dtype: float64

Os métodos `idxmin` e `idxmax` retornam os índices que possuem o menor e maior valor, respectivamente:

In [180]:
df.idxmin() # índice do menor valor de cada coluna

one    d
two    b
dtype: object

In [181]:
df.idxmax() # índice do maior valor de cada coluna

one    b
two    d
dtype: object

O método `describe` retorna múltiplas estatísticas:

In [184]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


Sobre valores não-numéricos, o método retorna estatisticas alternativas:

In [185]:
obj = pd.Series(["a", "a", "b", "c"] * 4)

In [187]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

O método `unique` retorna um array com os valores únicos de uma série:

In [188]:
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])

In [190]:
obj.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

Os valores não estarão necessariamente ordenados.

O método `value_counts` retorna uma série contendo a frequência de cada valor:

In [191]:
obj.value_counts()

c    3
a    3
b    2
d    1
Name: count, dtype: int64

O método `isin` verifica se determinados valores existem na série ou DataFrame:

In [192]:
obj.isin(["b", "c"])

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

Ele pode ser usado para filtrar valores no dataset:

In [193]:
obj[obj.isin(["b", "c"])]

0    c
5    b
6    b
7    c
8    c
dtype: object