# Pandas
Bernardo Pandolfi Costa (19207646)

Pandas contém estruturas de dados e ferramentas de manipulação de dados criadas para limpeza e análise de dados mais serem mais fáceis e rápidas em Python.

Enquanto pandas adotam diversos caminhos parecidos com o NumPy, a maior diferença é que pandas são feitos para trabalhar com dados tabulados ou heterogêneos. NumPy, por sua vez, é melhor encaixado para trabalhos com arrays numéricas homogêneas.

<a href="http://pandas.pydata.org/pandas-docs/stable/reference/index.html">Referência</a>

In [106]:
import pandas as pd

In [107]:
from pandas import Series, DataFrame

In [108]:
import numpy as np
np.random.seed(12345)

import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))

PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.set_printoptions(precision=4, suppress=True)

## Introdução a pandas

Para começar com pandas, é preciso entender suas duas principais estruturas de dados: Series e DataFrames.

### Series

Séries são objetos parecidos como arrays unidimensionais que contêm uma sequência de valores e uma array de dados associados que servirão de índices.

In [109]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [110]:
obj.values


array([ 4,  7, -5,  3], dtype=int64)

In [111]:
obj.index  # like range(4)

RangeIndex(start=0, stop=4, step=1)

Aqui, ['c', 'a', 'd'] são interpretados como uma lista de índices, mesmo que contenham strings ao invés de inteiros.

In [112]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2


d    4
b    7
a   -5
c    3
dtype: int64

In [113]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [114]:
obj2['a']


-5

In [115]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [116]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [117]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [118]:
obj2[obj2 > 0]


d    6
b    7
c    3
dtype: int64

In [119]:
obj2 * 2


d    12
b    14
a   -10
c     6
dtype: int64

In [120]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [121]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [122]:
'b' in obj2


True

Caso possua dados contidos em um dict, podemos extrair os dados para uma série da seguinte forma:

In [123]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Quando estamos apenas passando um dict, o índice na série resultante será as chaves que ordenavam o dict originalmente. Podemos mudar isso passando os índices que queiramos na ordem desejada:

In [124]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

As funções ```isnull``` e ```notnull``` são usadas para detectar dados perdidos:

In [125]:
pd.isnull(obj4)


California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [126]:
pd.notnull(obj4)


California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Uma funcionalidade útil para séries é que eles alinham autimaticamente os índices em operações aritméticas.

In [127]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [128]:
obj4


California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [129]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Tanto a série por si só e seus índices têm um atributo nome,  que se integram com outras áreas de pandas:

In [130]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Podemos alterar os índices de uma série da seguinte maneira:

In [131]:
obj


0    4
1    7
2   -5
3    3
dtype: int64

In [132]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

Uma diferença importante entre séries e ndarray é que operações entre séries automaticamente alinham os dados baseado nos nomes dados a eles. Assim, podemos fazer operações entre séries mesmo sem saber se elas possuem os mesmos labels. 

### DataFrames

Um DataFrame representa uma tabela de dados retangular que contém uma combinação de colunas em que cada uma pode ter um tipo diferente de dados. DataFrames tem índices para linhas e colunas.

Existem diversas maneiras para formar DataFrames, sendo um dos mais comuns é a partir de um dict de mesmo copmrimento ou a partir de NumPy arrays:

In [133]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Para DataFrames grandes, o método ```head``` seleciona apenas as primeiras 5 linhas:

In [134]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


O método ```tail```, por sua vez, seleciona as últimas 5 linhas:

In [135]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Se você especificar uma sequência de colunas, as colunas do DataFrame serão colocadas na ordem especificada:

In [136]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Caso uma coluna não contida no DataFrame for passada, tal coluna será criada, mas nenhum valor será colocado nas linhas: 

In [137]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                            index=['one', 'two', 'three', 'four','five', 'six'])
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [138]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Uma coluna em um DataFrame pode ser colocado em Séries a partir das notações:

In [139]:
frame2['state']


one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [140]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

Linhas podem ser chamadas pela posição ou nome com o atributo ```loc```:

In [141]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [142]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Colunas podem ser modificadas a partir de colchetes:

In [143]:
frame2['debt'] = 16.5
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


Quando associando a listas ou arrays a uma coluna, o comprimento deve ser o mesmo do DataFrame. Caso seja uma Série, seu label será realinhado exatamente no índice do DataFrame, colocando valores desconhecidos (NAN) em qualquer espaço vazio.

In [144]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
#print(val)

frame2['debt'] = val

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


A palavra chave ```del``` deletará uma coluna, assim como nos dicts:

In [145]:
del frame2['pop']


In [146]:
frame2

Unnamed: 0,year,state,debt
one,2000,Ohio,
two,2001,Ohio,-1.2
three,2002,Ohio,
four,2001,Nevada,-1.5
five,2002,Nevada,-1.7
six,2003,Nevada,


Outra forma comum de dados são dicts de dicts. Se um dict de dict é passado a um DataFrame, pandas irá interpretar o dict externo como as colunas e o interno como as linhas:

In [147]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [148]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Podemos transpor o DataFrame (trocar as linhas pelas colunas) com a sintaxe similar a array de NumPy:

In [149]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


As chaves do dict interno são combinados e ordenados para formar o índice no resultado. Isto não acontecerá se um índice for especificado explicitamente:

In [150]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [151]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [152]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Em séries, os valores dos atributos retornam o dado contido no DataFrame como uma ndarray bidimensional:

In [153]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [154]:
frame2.values

array([[2000, 'Ohio', nan],
       [2001, 'Ohio', -1.2],
       [2002, 'Ohio', nan],
       [2001, 'Nevada', -1.5],
       [2002, 'Nevada', -1.7],
       [2003, 'Nevada', nan]], dtype=object)

### Indexando Objetos

Qualquer array ou outra sequência de labels usados quando construindo uma série ou DataFrame é convertido internamente em um índice:

In [155]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [156]:
index[1:]

Index(['b', 'c'], dtype='object')

In [157]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [158]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [159]:
obj2.index is labels

True

In [160]:
frame3
frame3.columns
'Ohio' in frame3.columns
2003 in frame3.index

False

In [161]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

## Funcionalidades Essenciais

### Reindexação

Criar um novo objeto com um novo índice:

In [162]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [163]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [164]:
obj2 = obj.reindex(['a', 'c'])
obj2

a   -5.3
c    3.6
dtype: float64

Para dados ordenados como séries temporais, pode ser desejado fazer alguma interpolação quando reindexando. Isso é possível com o método ```ffill``` podemos fazer isso:

In [165]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3


0      blue
2    purple
4    yellow
dtype: object

In [166]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Com DataFrames, reindexação pode alterar a o índice de linhas, coolunas ou ambos. Quando passamos apenas uma sequência, as linhas serão reindexadas:

In [167]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame


Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [168]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


As colunas podem ser reindexadas com a palavra-chave ```columns```

In [169]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### Tirando Elementos de um Eixo

Tirar um ou mais elementos de um eixo é fáacil se já tivermos uma array de índices:

In [170]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj


a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [171]:
new_obj = obj.drop('c')
new_obj


a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [172]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [173]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

Com DataFrame, índices podem ser deletados de seus eixos:

In [174]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), 
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [175]:
#linhas
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [176]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Podemos retirar valores das colunas passando ```axis=1``` ou ```axis='columns'```:

In [177]:
data.drop('two', axis=1)


Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [178]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Várias funções, como ```drop```, que modificam o tamanhou ou formato de uma Series ou DataFrame, podem manipular um objeto sem retornar um novo.

Deve-se ter cuidado com ```inplace```, pois destrói qualquer dado retirado:

In [179]:
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### Indexação, Seleção e Filtragem

Indexação de séries (obj[...]) funciona de forma análoga à indexação de NumPy array, exceto que podemos usar índices de séries ao invés de apenas inteiros:

In [180]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj


a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [181]:
obj['b']


1.0

In [182]:
#position

obj[2:4]


c    2.0
d    3.0
dtype: float64

In [183]:
obj[['b', 'a', 'd']]


b    1.0
a    0.0
d    3.0
dtype: float64

In [184]:
obj[[1, 3]]


b    1.0
d    3.0
dtype: float64

In [185]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [186]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

Cortes com labels funcionam de forma diferente de cortes normais de Python, em que o elemento final é inclusivo:

In [187]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [188]:
obj['a':'c']

a    0.0
b    1.0
c    2.0
dtype: float64

In [189]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

Criar usando estes métodos modifica a seção correspondente da série:

In [190]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [191]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data


Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [192]:
data['two']


Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [193]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [194]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [195]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [196]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [197]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [198]:
data < 5


Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [199]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### Seleção com loc e iloc

Para indexação de labels para DataFrames, existem operadores especiais ```loc``` e ```iloc```.

Tais operadores permitem que sejam selecionados um subset de linhas e colunas de um DataFrame com uma notação parecida com NumPy, usando ou eixos para loc ou inteiros para iloc.

Selecionando apenas uma linha e múltiplas colunas por label:

In [200]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [201]:
data.loc[['Colorado', 'Ohio'], ['two', 'three']]

Unnamed: 0,two,three
Colorado,5,6
Ohio,0,0


In [202]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [203]:
data.iloc[2, [3, 0, 1]]


four    11
one      8
two      9
Name: Utah, dtype: int32

In [204]:
data.iloc[2]


one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

Ambas as funções de indexação funcionam com cortes em adição a labels ou listas de labels:

In [205]:
data.loc[:'Utah', 'two']


Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [206]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


### Índices inteiros

Usando objetos de pandas com índices inteiros é geralmente confuso para iniciantes. Por exemplo, o código a seguir não dá erro, apesar de parecer errado:

In [207]:
ser = pd.Series(np.arange(3.))

In [208]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [209]:
ser[-1]

KeyError: -1

Enquanto isso, um objeto com índices não-inteiros, não existe chance de ambiguidade:

In [None]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
print(ser2)
ser2[-1]

a    0.0
b    1.0
c    2.0
dtype: float64


2.0

Caso você tenha um eixo que contenha índices inteiros, seleção de dados será sempre orientado por labels. Para um controle mais preciso, use loc para labels e iloc para inteiros.

In [None]:
ser[:1]


0    0.0
dtype: float64

In [None]:
ser.loc[:1]


0    0.0
1    1.0
dtype: float64

In [None]:
ser.iloc[:1]

0    0.0
dtype: float64

### Alinhamento de dados e Aritmético

Quando adicionando objetos, se qualquer par de índices não for igual, o índice respectivo no resultado será a união dos pares.

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [None]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

No caso do DataFrame, o alinhamento é feito tanto em linhas quanto nas colunas:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Caso sejam adicionado objetos no DataFrame sem labels de colunas ou linhas em comum, o resultado terá todos nulos:

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
df1


Unnamed: 0,A
0,1
1,2


In [None]:
df2


Unnamed: 0,B
0,3
1,4


In [None]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


#### Métodos Aritméticos com valores de preenchimento

Em operações aritméticas entre objetos de índices diferentes, pode ser útil preencher com um valor específico quando um label é encontrado em um dos objetos mas no outro não.

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))



In [None]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df2.loc[1, 'b'] = np.nan

In [None]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Adicionar os dois resulta em valores NaN nos locais que não intersectam:

In [None]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Usando o método ```add```, podemos colocar o arguento ```fill_value``` para preencher, no lugar dos NaN, um valor:

In [None]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
1 / df1
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


### Operações entre DataFrames e Series

Considere a diferença entre uma array bidimensional e uma de suas linhas. Quando subtraimos arr[0] de arr, a subtração é performada uma vez para cada linha. Isto é chamado de broadcasting:

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr


array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [None]:
arr[0]


array([0., 1., 2., 3.])

In [None]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Por padrão, operações aritméticas entre DataFrames e Series coloca os índices da Series nas colunas do DataFrame, fazendo o broadcast nas linhas.

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]


In [None]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [None]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [None]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [None]:
series3 = frame['d']
frame
series3
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


## Aplicação de Funções e Mapeamento

Funções universais de NumPy também funcionam com objetos pandas.

Uma função universal (ufunc) é uma função que opera em ndarrays na forma elemento por elemento, suportando, também, o broadcasting.

In [210]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.204708,0.478943,-0.519439
Ohio,-0.55573,1.965781,1.393406
Texas,0.092908,0.281746,0.769023
Oregon,1.246435,1.007189,-1.296221


In [211]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.204708,0.478943,0.519439
Ohio,0.55573,1.965781,1.393406
Texas,0.092908,0.281746,0.769023
Oregon,1.246435,1.007189,1.296221


Outra operação comum é aplicar uma função em uma array unidimensional para cada coluna ou linha. O método ```apply``` faz exatamente isso em DataFrames.

In [212]:
f = lambda x: x.max() - x.min()
f

<function __main__.<lambda>(x)>

Em Python, uma função lambda é uma função de linha única declarada sem nome e pode ter qualquer número de argumentos. Mas pode ter apenas uma expressão.

Tal função é capaz de se comportar de forma similar a uma função normal declarada com a palavra-chave ```def```.

In [213]:
frame

Unnamed: 0,b,d,e
Utah,-0.204708,0.478943,-0.519439
Ohio,-0.55573,1.965781,1.393406
Texas,0.092908,0.281746,0.769023
Oregon,1.246435,1.007189,-1.296221


In [214]:
frame.apply(f)

b    1.802165
d    1.684034
e    2.689627
dtype: float64

Aqui, a função f, que computa a diferença entre o máximo e mínimo de uma série, é invocada uma vez em cada coluna do DataFrame.

O resultado é uma série que possui as colunas do DataFrame como seu índice.

Se passarmos ```axis='columns'``` na aplicação, a função será invocada uma vez por linha:

In [215]:
frame.apply(f, axis='columns')

Utah      0.998382
Ohio      2.521511
Texas     0.676115
Oregon    2.542656
dtype: float64

In [216]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-0.55573,0.281746,-1.296221
max,1.246435,1.965781,1.393406


In [217]:
format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.2,0.48,-0.52
Ohio,-0.56,1.97,1.39
Texas,0.09,0.28,0.77
Oregon,1.25,1.01,-1.3


In [218]:
frame['e'].map(format)

Utah      -0.52
Ohio       1.39
Texas      0.77
Oregon    -1.30
Name: e, dtype: object

## Ordenando e Ranqueando

### Ordenação

Ordenar um dataset por um critério é outra operação importante. Podemos usar o método ```sort_index``` que retorna um novo objeto ordenado:

In [219]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [220]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

Com um DataFrame, podemos ordenar por índice em qualquer um dos eixos:

In [221]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


Por padrão, isto é, se não colocarmos argumento na função, as linhas serão ordenadas.

In [222]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [223]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Os dados são ordenados de forma ascendente por padrão. Isso pode ser alterado:

In [224]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Para ordenar uma série por seus valores, usa-se o método ```sort_values```:

In [225]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [226]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

Quando ordenando um DataFrame, podemos usar os dados em uma ou mais colunas como as chaves de ordenamento. Para isso, passamos um ou mais nomes de colunas para a opção de ```sort_values```:

In [227]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [228]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [229]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


### Ranqueamento

Ranqueamento associa ranques de um até o número válido de dados em uma array. O método ```rank``` é usado para este tipo de ocasião:

In [230]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [231]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [232]:
# Assign tie values the maximum rank in the group
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [233]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame
frame.rank(axis='columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


## Índices de Eixos com Labels Duplicadas

Até o momento todos os exemplo tinham labels únicos para os eixos. Enquanto muitas funções de pandas, como ```reindex```, precisamos que uma das labels seja única, não é necessário. Consideremos uma pequena série com índices duplicados:

In [234]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [235]:
obj.index.is_unique

False

Seleção de dados é um dos principais aspectos que se comportam diferentemente com duplicatas. Indexar uma label com multiplas entradas, retorna uma série, enquanto entradas individuais retornam um valor escalar:

In [236]:
obj['a']


a    0
a    1
dtype: int64

In [237]:
obj['c']

4

In [238]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df
df.loc['b']

Unnamed: 0,0,1,2
b,1.669025,-0.43857,-0.539741
b,0.476985,3.248944,-1.021228


## Resumindo e Computando Estatísticas Descritivas

In [239]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


Chamar o método ```sum``` do DataFrame retorna uma série que contém uma coluna:

In [240]:
df.sum()

one    9.25
two   -5.80
dtype: float64

Passando ```axis='columns'``` ou ```axis=1``` soma por todas as colunas:

In [241]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Valores NaN podem ser excluidos a menos  que um corte inteiro (linha ou coluna neste caso) seja NaN. Isso pode ser desabilitado com a opção skipna: 

In [242]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

Alguns métodos, como ```idxmin``` e ```idxmax```, retornam estatísticas indiretas como o índice em que o valor mínimo e máximo são colocados:

In [243]:
df.idxmax()

one    b
two    d
dtype: object

In [244]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [245]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [246]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object