Capítulo 5
===========
Introdução ao pandas
-----------
-----------

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

### Introdução às estruturas de dados do pandas
Para começar a trabalhar com o pandas, você precisará se sentir à
vontade com as duas estruturas de dados que são a sua força de
trabalho: *Series* e *DataFrame*. Embora não sejam uma solução
universal para todos os problemas, eles oferecem uma base sólida e
fácil de usar para a maioria das aplicações.

### Series
Uma Series é um objeto do tipo array unidimensional contendo uma
sequência de valores (de tipos semelhantes aos tipos do NumPy) e
um array associado de rótulos (labels) de dados, chamado de *índice*.
A Series mais simples é composta de apenas um array de dados:

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

A representação em string de uma Series exibida interativamente
mostra o índice à esquerda e os valores à direita. Como não
especificamos um índice para os dados, um índice default
constituído dos inteiros de 0 a N - 1 (em que N é o tamanho dos
dados) é criado. Podemos obter a representação do array e o objeto
de índice de Series por meio de seus atributos de valores ( *values* ) e
de índice ( *index* ), respectivamente:

In [3]:
obj.values

array([ 4,  7, -5,  3])

In [4]:
obj.index # como range(4)

RangeIndex(start=0, stop=4, step=1)

Com frequência, será desejável criar uma Series com um índice que
identifique cada ponto de dado com um rótulo:

In [5]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

Em comparação com os arrays NumPy, podemos usar rótulos no
índice quando selecionamos valores únicos ou um conjunto de
valores:

In [7]:
obj2['a']

-5

In [8]:
obj2['d'] = 6
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

Nesse caso, ['c', 'a', 'd'] é interpretado como uma lista de índices,
apesar de conter strings em vez de inteiros.

Usar funções NumPy ou operações do tipo NumPy, como filtragem
com um array booleano, multiplicação escalar ou aplicação de funções matemáticas, preservará a ligação entre índice e valor:

In [9]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [10]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [11]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [12]:
'b' in obj2

True

In [13]:
'e' in obj2

False

Se você tiver dados contidos em um dicionário Python, uma Series
poderá ser criada a partir dele, passando-lhe o dicionário:

In [14]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Se você passar somente um dicionário, o índice na Series resultante
terá as chaves do dicionário ordenadas. É possível sobrescrever
isso passando as chaves do dicionário na ordem que você quiser
que elas apareçam na Series resultante:

In [15]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Nesse caso, três valores encontrados em *sdata* foram colocados nos
locais apropriados, mas, como nenhum valor para *'California'* foi
encontrado, ele aparece como NaN (not a number), que é
considerado um marcador de valores ausentes ou *NA* no pandas.
Como *'Utah'* não estava incluído em *states*, ele foi excluído do objeto
resultante.

Usarei os termos “ausente” ou “NA” indistintamente para me referir
aos dados que estejam faltando. As funções *isnull* e *notnull* no pandas
devem ser utilizadas para detectar dados ausentes:

In [16]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [17]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Um recurso útil de Series para muitas aplicações é que um
alinhamento automático pelo rótulo do índice é feito nas operações
aritméticas:

In [18]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [19]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [20]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Tanto o próprio objeto Series quanto seu índice têm um atributo
*name*, que se integra com outras áreas essenciais de
funcionalidades do pandas:

In [21]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Um índice de Series pode ser alterado in-place por atribuição:

In [22]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [23]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame
Um DataFrame representa uma tabela de dados retangular e
contém uma coleção ordenada de colunas, em que cada uma pode
ter um tipo de valor diferente (numérico, string, booleano etc.). O
DataFrame tem índice tanto para linha quanto para coluna; pode ser
imaginado como um dicionário de Series, todos compartilhando o
mesmo índice. Internamente, os dados são armazenados como um
ou mais blocos bidimensionais em vez de serem armazenados
como uma lista, um dicionário ou outra coleção de arrays
unidimensionais. Os detalhes exatos do funcionamento interno do
DataFrame estão fora do escopo deste livro.

OBS: *Embora um DataFrame seja fisicamente bidimensional, podemos usá-lo
para representar dados de dimensões maiores em um formato tabular
usando indexação hierárquica – um assunto que será discutido no Capítulo
8 e é um ingrediente de alguns dos recursos mais sofisticados de
manipulação de dados do pandas.*

Há várias formas de construir um DataFrame, embora uma das mais
comuns seja a partir de um dicionário de listas de mesmo tamanho
ou de arrays NumPy:



In [24]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Para DataFrames grandes, o método *head* selecionará somente as
cinco primeiras linhas:

In [25]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Se você especificar uma sequência de colunas, as colunas do
DataFrame serão organizadas nesta ordem:

In [26]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Se você passar uma coluna que não esteja contida no dicionário, ela
aparecerá com valores ausentes no resultado:

In [27]:
frame2 = pd.DataFrame(data, 
                      columns=['year', 'state', 'pop', 'debt'],                     
                      index=['one', 'two', 'three', 'four', 'five', 'six'])

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [28]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Uma coluna em um DataFrame pode ser obtida como uma Series,
seja usando uma notação do tipo dicionário ou por meio de atributo:

In [29]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [30]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

OBS: *Um acesso na forma de atributo (por exemplo, frame2.year) e um
preenchimento automático de nomes de coluna com tabulação no IPython
são oferecidos como conveniência.frame2[column] funciona para qualquer nome de coluna, mas frame2.column
só funcionará quando o nome da coluna for um nome de variável válido em
Python.*

Observe que a Series devolvida tem o mesmo índice que o
DataFrame, e o seu atributo *name* foi definido de modo apropriado.

As linhas também podem ser obtidas com base na posição ou no
nome, com o atributo especial *loc* (mais detalhes sobre esse assunto
posteriormente):


In [31]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

As colunas podem ser modificadas por atribuição. Por exemplo, a
coluna vazia 'debt' poderia receber um valor escalar ou um array de
valores:

In [32]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [33]:
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


Quando você estiver atribuindo listas ou arrays para uma coluna, o
tamanho do valor deve coincidir com o tamanho do DataFrame. Se
você atribuir uma Series, seus rótulos serão realinhados exatamente
com o índice do DataFrame, e valores indicando ausência serão
inseridos em quaisquer lacunas:

In [34]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


Fazer uma atribuição a uma coluna que não exista fará uma nova
coluna ser criada. A palavra reservada *del* apagará colunas, como
ocorre em um dicionário.

Como um exemplo de *del* , inicialmente adicionarei uma nova coluna
de valores booleanos, em que a coluna state seja igual a *'Ohio'* :

In [35]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


OBS: *Novas colunas não podem ser criadas com a sintaxe frame2.eastern.*

O método del pode então ser usado para remover essa coluna:

In [36]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

OBS: *A coluna devolvida pela indexação de um DataFrame é uma visualização
(view) dos dados subjacentes, e não uma cópia. Assim, qualquer
modificação in-place em Series se refletirá no DataFrame. A coluna pode ser explicitamente copiada com o método copy de Series.*

Outro formato de dados comum é um dicionário de dicionários
aninhados:

In [37]:
pop = { 'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

Se o dicionário aninhado for passado para o DataFrame, o pandas
interpretará as chaves do dicionário mais externo como as colunas e
as chaves mais internas como os índices das linhas:

In [38]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Podemos fazer a transposição do DataFrame (trocar linhas e
colunas) com uma sintaxe semelhante àquela usada em um array
NumPy:

In [39]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


As chaves dos dicionários mais internos são combinadas e
ordenadas para compor o índice no resultado. Isso não será
verdade se um índice explícito for especificado:

In [40]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Dicionários de Series são tratados praticamente do mesmo modo:

In [41]:
pdata = {
    'Ohio': frame3['Ohio'][:-1],
    'Nevada': frame3['Nevada'][:2]
}
pdata

{'Nevada': 2001    2.4
 2002    2.9
 Name: Nevada, dtype: float64, 'Ohio': 2001    1.7
 2002    3.6
 Name: Ohio, dtype: float64}

In [42]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


Se *index* e *columns* de um DataFrame tiverem seus atributos *name*
definidos, esses também serão exibidos:

In [43]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


### Tabela – Possíveis entradas de dados para o construtor de DataFrame

Tipo | Observações 
-----|------------
ndarray 2D | Uma matriz de dados, passando rótulos opcionais para linhas e colunas
Dicionário de arrays, listas ou tuplas | Cada sequência se transforma em uma coluna no DataFrame; todas as sequências devem ter o mesmo tamanho
Array NumPy estruturado/de registros | Tratado como o caso de “dicionário de arrays”
Dicionário de Series | Cada valor se transforma em uma coluna; os índices de cada Series são unidos para compor o índice das linhas do resultado caso nenhum índice explícito seja passado
Dicionário de dicionários | Cada dicionário interno se transforma em uma coluna; as chavessão unidas para compor o índice das linhas, como no caso do “dicionário de Series”
Lista de dicionários ou de Series | Cada item se transforma em uma linha no DataFrame; a união das chaves do dicionário ou dos índices de Series se transforma nos rótulos das colunas do DataFrame
Lista de listas ou de tuplas | Tratado como o caso de “ndarray 2D”
Outro DataFrame | Os índices do DataFrame são usados, a menos que índices diferentes sejam passados
MaskedArray do NumPy | Como no caso do “ndarray 2D”, exceto que valores com máscara passam a ser NA/ausentes no DataFrame resultante


Como ocorre com Series, o atributo *values* devolve os dados contidos
no DataFrame como um ndarray bidimensional:

In [44]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

Se as colunas do DataFrame tiverem dtypes distintos, o dtype do
array de valores será escolhido de modo a acomodar todas as
colunas:

In [45]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

### Objetos Index

Os objetos Index do pandas são responsáveis por armazenar os
rótulos dos eixos e outros metadados (como o nome ou os nomes
dos eixos). Qualquer array ou outra sequência de rótulos que você
usar ao construir uma Series ou um DataFrame será internamente
convertido em um Index:

In [46]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [47]:
index[1:]

Index(['b', 'c'], dtype='object')

Os objetos Index são ***imutáveis*** e, desse modo, não podem ser
modificados pelo usuário:

In [48]:
# index[1] = 'd'

A imutabilidade faz com que seja mais seguro compartilhar objetos
Index entre estruturas de dados:

In [49]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [50]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [51]:
obj2.index is labels

True

OBS: *Alguns usuários não tirarão frequentemente proveito dos recursos
oferecidos pelos índices; entretanto, como algumas operações produzirão
resultados contendo dados indexados, é importante compreender como eles
funcionam.*

Além de ser como os arrays, um Index também se comporta como
um conjunto de tamanho fixo:

In [52]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [53]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [54]:
'Ohio' in frame3.columns

True

In [55]:
2003 in frame3.index

False

In [56]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

As seleções com rótulos duplicados conterão todas as ocorrências
desse rótulo.


### Tabela - Alguns métodos e propriedades de Index

Método | Descrição
-------|----------
append | Concatena com objetos Index adicionais, gerando um novo Index
difference | Calcula a diferença entre conjuntos como um Index
intersection | Calcula a intersecção entre conjuntos
union | Calcula a união entre conjuntos
isin | Calcula um array booleano indicando se cada valor está contido na coleção recebida
delete | Calcula um novo Index com o elemento no índice i apagado
drop | Calcula um novo Index apagando os valores recebidos
insert | Calcula um novo Index inserindo um elemento no índice i
is_monotonic | Devolve True se cada elemento for maior ou igual ao elemento anterior
is_unique | Devolve True se o Index não tiver valores duplicados
unique | Calcula o array de valores únicos no Index

### Funcionalidades essenciais
Esta seção descreverá o mecanismo fundamental da interação com
os dados contidos em uma Series ou um DataFrame. Nos próximos
capítulos, mergulharemos mais profundamente nos assuntos
referentes à análise e à manipulação de dados usando o pandas. O
propósito deste livro não é servir como uma documentação
exaustiva da biblioteca pandas; em vez disso, manteremos o foco
nos recursos mais importantes, deixando os aspectos menos
comuns (ou seja, os mais exotéricos) para você explorar por conta
própria.

### Reindexação
Um método importante dos objetos do pandas é *reindex*, que implica
criar um novo objeto com os dados de *acordo com* um novo índice.
Vamos considerar um exemplo:

In [57]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

Chamar *reindex* nessa Series reorganiza os dados de acordo com o
novo índice, introduzindo valores indicativos de ausência se algum
valor de índice não estava presente antes:

In [58]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Para dados ordenados, como as séries temporais, talvez seja
desejável fazer alguma interpolação ou preenchimento de valores
na reindexação. A opção *method* nos permite fazer isso, usando um
método como *ffill* , que faz um preenchimento para a frente (forward-
fill) dos valores:

In [59]:
obj3 = pd.Series(['blue', 'purple', 'yellow'],index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [60]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Com DataFrame, *reindex* pode alterar o índice (linha), as colunas, ou
ambos. Se apenas uma sequência for passada, as linhas serão
reindexadas no resultado:

In [61]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), # cria uma matriz 3 x 3
                     index=['a', 'b', 'c'],
                     columns=['Ohio', 'Texas', 'California']
                     )

frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [62]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,


As colunas podem ser reindexadas com a palavra reservada
*columns*:

In [63]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
b,4,,5
c,7,,8


### Tabela – Argumentos da função reindex

Argumento | Descrição
----------|-----------
index | Nova sequência para ser usada como índice. Pode ser uma instância de Index ou qualquer outra estrutura de dados Python do tipo sequência. Um Index será usado exatamente como está, sem qualquer cópia.
method | Método de interpolação (preenchimento); 'ffill' preenche para a frente, enquanto 'bfill' preenche para trás.
fill_value | Valor de substituição a ser usado quando dados ausentes forem introduzidos pela reindexação.
limit | Quando fizer o preenchimento para a frente ou para trás, é o tamanho máximo da lacuna (em número de elementos) a ser preenchido.
tolerance | Quando fizer o preenchimento para a frente ou para trás, é o tamanho máximo da lacuna (em distância numérica absoluta) para preencher no caso de correspondências inexatas.
level | Faz a correspondência entre um Index simples e um nível de MultiIndex; caso contrário, seleciona um subconjunto.
copy | Se for True, sempre copia os dados subjacentes, mesmo que o novo índice seja equivalente ao antigo; se for False, não copia os dados quando os índices forem equivalentes.

### Descartando entradas de um eixo
Descartar uma ou mais entradas de um eixo é fácil se você já tiver
um array ou uma lista de índices sem essas entradas. Como isso
pode exigir um pouco de manipulação de dados e lógica de
conjuntos, o método drop devolverá um novo objeto com o valor ouos valores indicados apagados de um eixo:

In [64]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [65]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [66]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

Com DataFrame, os valores dos índices podem ser apagados de
qualquer eixo. Para demonstrar isso, inicialmente criaremos um
DataFrame de exemplo:

In [67]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four']
                    )

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Chamar *drop* com uma sequência de rótulos fará *valores serem
descartados das linhas com esses rótulos (eixo 0)*:

In [68]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


Podemos descartar valores das colunas passando *axis=1* ou
*axis='columns'*:

In [69]:
data.drop('two', axis=1) # ou axis='columns'

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [70]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


Muitas funções, como *drop*, que modificam o tamanho ou o formato
de uma Series ou de um DataFrame, são capazes de manipular um
objeto *in-place, sem devolver um novo objeto:*

In [71]:
obj.drop('c', inplace=True)

In [72]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

OBS: *Tome cuidado com o ***inplace***, pois ele destruirá qualquer dado
descartado.*

### Indexação, seleção e filtragem
A indexação de séries *(obj[...])* funciona de modo análogo à
indexação de arrays NumPy, exceto que você pode usar os valores
de índice da Series em vez de utilizar somente inteiros. Eis alguns
exemplos disso:

In [73]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [74]:
obj['b']

1.0

In [75]:
obj[1]

1.0

In [76]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [77]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [78]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [79]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

O fatiamento com rótulos comporta-se de modo diferente do
fatiamento usual de Python, pois o ponto final estará incluído:

In [80]:
obj['b': 'c']

b    1.0
c    2.0
dtype: float64

*Uma definição usando esses métodos modificará a seção* correspondente da
Series:

In [81]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

A indexação em um DataFrame serve para obter uma ou mais
colunas, seja com um único valor ou com uma sequência:

In [82]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four']
                    )
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [83]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [84]:
data[['three', 'two']]

Unnamed: 0,three,two
Ohio,2,1
Colorado,6,5
Utah,10,9
New York,14,13


Uma indexação como essa tem alguns casos especiais. Em primeiro
lugar, temos o fatiamento e a seleção de dados com um array
booleano:

In [85]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [86]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


A sintaxe de seleção de linhas data[:2] é disponibilizada como uma
conveniência. Passar um único elemento ou uma lista para o
operador [] seleciona colunas.

Outro caso de uso está na indexação com um DataFrame booleano,
como aquele gerado por uma comparação escalar:

In [87]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [88]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Isso faz com que o DataFrame seja sintaticamente mais semelhante
a um array NumPy bidimensional, nesse caso em particular.

### Seleção com loc e iloc

Para indexação nas linhas do DataFrame com rótulos, apresentarei
os operadores especiais de indexação *loc* e *iloc*. Eles permitem
selecionar um subconjunto de linhas e colunas de um DataFrame
com uma notação semelhante àquela do NumPy, usando rótulos de
eixo (*loc*) ou inteiros(*iloc*).

Como exemplo preliminar, vamos selecionar uma única linha e
várias colunas pelo rótulo:

In [89]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

Então, faremos algumas seleções semelhantes com inteiros usando *iloc*:

In [90]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [91]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [92]:
data.iloc[[1, 2], [3, 0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


As duas funções de indexação trabalham com fatias, além de
rótulos únicos ou listas de rótulos:

In [93]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [94]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


*Quando fiz inicialmente o design do pandas, achei que precisar digitar
frame[:, col] para selecionar uma coluna era muito verboso (e suscetível a
erros), pois a seleção de colunas é uma das operações mais comuns. Fiz
uma negociação de custo-benefício no design, de modo a colocar todo o
comportamento da indexação sofisticada (tanto rótulos quanto inteiros) no
operador ix. Na prática, isso resultou em muitos casos inusitados em dados
cujos rótulos eram inteiros nos eixos, de modo que a equipe do pandas
decidiu criar os operadores loc e iloc para lidar com a indexação baseada
estritamente em rótulos e em inteiros, respectivamente.
O operador de indexação ix continua existindo, mas é considerado obsoleto.
Não recomendo usá-lo.*

### Tabela – Opções de indexação com DataFrame

Tipo | Observações
-----|-------------
df[val] | Seleciona uma única coluna ou uma sequência de colunas do DataFrame; conveniências para casos especiais: array booleano (filtra linhas),
 | fatia (fatia linhas) ou DataFrame booleano (define valores com base em algum critério)
df.loc[val] | Seleciona uma única linha ou um subconjunto de linhas do DataFrame pelo rótulo
df.loc[:, val] | Seleciona uma única coluna ou um subconjunto de colunas pelo rótulo
df.loc[val1, val2] | Seleciona tanto linhas quanto colunas pelo rótulo
df.iloc[where] | Seleciona uma única linha ou um subconjunto de linhas do DataFrame pela posição com um inteiro
df.iloc[:, where] | Seleciona uma única coluna ou um subconjunto de colunas pela posição com um inteiro
df.iloc[where_i, where_j] | Seleciona tanto linhas quanto colunas pela posição com um inteiro
df.at[label_i, label_j] | Seleciona um único valor escalar pelo rótulo da linha e da coluna
df.iat[i, j] | Seleciona um único valor escalar pela posição (inteiros) da linha e da coluna
método reindex | Seleciona linhas ou colunas pelos rótulos
métodos get_value, set_value | Seleciona um único valor pelo rótulo da linha e da coluna

### Índices inteiros
Trabalhar com objetos do pandas indexados por inteiros é algo que,
com frequência, confunde os novos usuários por causa de algumas
diferenças com a semântica de indexação em estruturas de dados
embutidas de Python, como listas e tuplas. Por exemplo, talvez você
não esperasse que o código a seguir gerasse um erro:

In [95]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [96]:
# ser[-1] # Esse código gera um Erro

Por outro lado, com um índice que não seja inteiro, não há potencial
para ambiguidades:

In [97]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

Para manter o código consistente, se você tiver um índice de eixo
contendo inteiros, a seleção de dados sempre será orientada arótulos. Para um tratamento mais preciso, utilize *loc* (para rótulos) ou
*iloc* (para inteiros):

In [98]:
ser[:1]

0    0.0
dtype: float64

In [99]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [100]:
ser.iloc[:1]

0    0.0
dtype: float64

### Aritmética e alinhamento de dados
Um recurso importante do pandas para algumas aplicações é o
comportamento da aritmética entre objetos com índices diferentes.
Quando objetos estiverem sendo somados, se algum par de índices
não for igual, o respectivo índice no resultado será a união dos
pares de índices. Para usuários com experiência em banco de
dados, isso é semelhante a uma outer join (junção externa)
automática nos rótulos do índice. Vamos ver um exemplo:

In [101]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [102]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [103]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

Somar isso resulta em:

In [104]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

O alinhamento de dados interno introduz valores indicativos de
ausência nos locais dos rótulos que não se sobrepõem. Esses
valores então se propagarão para outros cálculos aritméticos.

No caso do DataFrame, o alinhamento é feito tanto nas linhas
quanto nas colunas:

In [105]:
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])

df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [106]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [107]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


Somar esses dados devolve um DataFrame cujos índice e colunas
são as uniões dos dados de cada DataFrame:

In [108]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Como as colunas *'c'* e *'e'* não se encontram nos dois objetos
DataFrame, eles aparecerão como dados ausentes no resultado. O
mesmo vale para linhas cujos rótulos não são comuns aos dois
objetos.

Se você somar objetos DataFrame sem rótulos para colunas ou
linhas em comum, o resultado conterá somente nulos:

In [109]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})

In [110]:
df1

Unnamed: 0,A
0,1
1,2


In [111]:
df2

Unnamed: 0,B
0,3
1,4


In [112]:
df1 - df2

Unnamed: 0,A,B
0,,
1,,


### Métodos aritméticos com valores para preenchimento

Em operações aritméticas entre objetos indexados de modo
diferente, talvez você queira fazer um preenchimento com um valor
especial, como 0, quando um rótulo de eixo for encontrado em um
objeto, mas não no outro:

In [113]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [114]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [115]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Somar esses dados resulta em valores NA nas posições que não se
sobrepõem:

In [116]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Usando o método *add* em *df1*, passarei *df2* e um argumento para
*fill_value*:

In [117]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Veja a Tabela abaixo, que contém uma lista de métodos de Series e
DataFrame para operações aritméticas. Cada um deles tem uma
contrapartida que começa com a letra **r**, com argumentos invertidos.
Assim, as duas instruções a seguir são equivalentes:

In [118]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [119]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


Relacionado a esse caso, quando reindexamos uma Series ou um
DataFrame, podemos também especificar um valor diferente para
preenchimento:

In [120]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


### Tabela – Métodos aritméticos flexíveis
Método | Descrição
-------|----------
add, radd |  Métodos para adição (+)
sub, rsub | Métodos para subtração (-)
div, rdiv | Métodos para divisão (/)
floordiv, rfloordiv | Métodos para divisão pelo piso (//)
mul, rmul | Métodos para multiplicação (*)
pow, rpow | Métodos para exponencial (**)

### Operações entre DataFrame e Series
Como ocorre com os arrays NumPy de dimensões diferentes, a
aritmética entre DataFrame e Series também está definida.
Inicialmente, como um exemplo motivador, considere a diferença
entre um array bidimensional e uma de suas linhas:

In [121]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [122]:
arr[0]

array([0., 1., 2., 3.])

In [123]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Quando subtraímos *arr[0]* de *arr*, a subtração é realizada uma vez
para cada linha. Isso é chamado de *broadcasting* , e será explicadocom mais detalhes, conforme se relaciona aos arrays NumPy
genéricos, no Apêndice A. As operações entre um DataFrame e
uma Series são semelhantes:

In [124]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

series = frame.iloc[0]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [125]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

Por padrão, a aritmética entre DataFrame e Series realiza a
correspondência entre o índice da Series e as colunas do
DataFrame, fazendo broadcasting pelas linhas:

In [126]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Se o valor de um índice não for encontrado nas colunas do
DataFrame nem no índice de Series, os objetos serão reindexados
para formar a união:

In [127]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [128]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Se, por outro lado, você quiser fazer broadcast pelas colunas,
fazendo correspondências nas linhas, terá que usar um dos
métodos aritméticos. Por exemplo:

In [129]:
series3 = frame['d']
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [130]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [131]:
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


O número do eixo que você passar é o eixo a ser correspondido . Nesse
caso, pretendemos fazer a correspondência do índice da linha do
DataFrame (*axis='index'* ou *axis=0*) e fazer o broadcast.

### Aplicação de funções e mapeamento

As ufuncs do NumPy (métodos de array para todos os elementos)
também funcionam com objetos do pandas:

In [132]:
frame = pd.DataFrame(np.random.randn(4, 3), 
                     columns=list('bde'), 
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

frame

Unnamed: 0,b,d,e
Utah,-1.067729,-0.777046,-1.534087
Ohio,-1.390519,-0.017501,0.360739
Texas,-0.812677,-1.022859,1.011217
Oregon,-1.138992,0.607037,0.193275


In [133]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.067729,0.777046,1.534087
Ohio,1.390519,0.017501,0.360739
Texas,0.812677,1.022859,1.011217
Oregon,1.138992,0.607037,0.193275


Outra operação frequente consiste em aplicar uma função em arrays
unidimensionais para cada coluna ou linha. O método *apply* de
DataFrame faz exatamente isso:

In [134]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    0.577841
d    1.629897
e    2.545304
dtype: float64

Nesse caso, a função f , que calcula a diferença entre o máximo e o
mínimo de uma Series, é chamada uma vez em cada coluna de
*frame*. O resultado é uma Series com as colunas de *frame* como seu
índice.

Por outro lado, se você passar *axis='columns'* para *apply* , a função seráchamada uma vez por linha

In [135]:
frame.apply(f, axis='columns')

Utah      0.757041
Ohio      1.751258
Texas     2.034076
Oregon    1.746029
dtype: float64

Muitas das estatísticas mais comuns em arrays (como *sum* e *mean*)
são métodos de DataFrame, portanto usar *apply* não será
necessário.

A função passada para *apply* não precisa devolver um valor escalar;
ela também pode devolver uma Series com múltiplos valores:

In [136]:
def func(x):
  return pd.Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(func)

Unnamed: 0,b,d,e
min,-1.390519,-1.022859,-1.534087
max,-0.812677,0.607037,1.011217


Funções Python para todos os elementos também podem ser
usadas. Suponha que você quisesse calcular uma string formatada
para cada valor de ponto flutuante em *frame*. Isso poderia ser feito
com *applymap*:

In [137]:
formata = lambda x: '%.2f' % x
frame.applymap(formata)

Unnamed: 0,b,d,e
Utah,-1.07,-0.78,-1.53
Ohio,-1.39,-0.02,0.36
Texas,-0.81,-1.02,1.01
Oregon,-1.14,0.61,0.19


O motivo para o nome *applymap* está no fato de Series ter um método
*map* para aplicar uma função em todos os elementos:

In [138]:
frame['e'].map(formata)

Utah      -1.53
Ohio       0.36
Texas      1.01
Oregon     0.19
Name: e, dtype: object

### Ordenação e classificação
Ordenar um conjunto de dados de acordo com algum critério é outra
operação embutida importante. Para ordenar de modo lexicográfico
pelo índice da linha ou da coluna, utilize o método *sort_index*, que
devolve um novo objeto ordenado:

In [139]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

Com um DataFrame, você pode ordenar pelo índice em qualquer
eixo:

In [140]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), 
                     index=['three', 'one'], 
                     columns=['d', 'a', 'b', 'c'])

frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [141]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Os dados são ordenados em ordem crescente por padrão, mas
podem ser ordenados também em ordem decrescente:

In [142]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Para ordenar uma Series de acordo com seus valores, utilize o seu
método *sort_values*:

In [143]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Qualquer valor indicativo de ausência será ordenado no final da
Series, por padrão:

In [144]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

Quando ordenar um DataFrame, você poderá usar os dados de uma
ou mais colunas como chaves de ordenação. Para isso, passe um
ou mais nomes de coluna para a opção *by* de *sort_values*:

In [145]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [146]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


Para ordenar de acordo com várias colunas, passe uma lista de
nomes:

In [147]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


A *classificação* (ranking) atribui posições de um até o número de
pontos de dados válidos em um array. Os métodos *rank* de Series e
de DataFrame são aqueles a serem observados; por padrão, *rank*
resolve empates atribuindo a cada grupo a classificação *média*:

In [148]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

As classificações também podem ser atribuídas de acordo com a
ordem em que são observadas nos dados:

In [149]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

Nesse caso, em vez de usar a classificação média 6.5 para as
entradas 0 e 2, elas foram definidas com 6 e 7 porque o rótulo 0
antecede o rótulo 2 nos dados.

Você pode classificar em ordem decrescente também:

In [150]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

O DataFrame pode calcular classificações nas linhas ou nas
colunas:

In [151]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 
                     'a': [0, 1, 0, 1],
                     'c': [-2, 5, 8, -2.5]})

frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [152]:
frame.rank(axis='columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### Tabela – Métodos de desempate com rank

Método | Descrição
-------|----------
'average' | Default: atribui a classificação média para cada entrada no mesmo grupo
'min' | Utiliza a classificação mínima do grupo todo
'max' | Utiliza a classificação máxima do grupo todo
'first' | Atribui classificações na ordem em que os valores aparecem nos dados
'dense' | Como method='min', porém as classificações sempre aumentam de 1 entre grupos, em vez do número de elementos iguais em um grupo

### Índices de eixos com rótulos duplicados
Até agora, todos os exemplos que vimos tinham rótulos (valores de
índice) únicos nos eixos. Embora muitas funções do pandas (como
*reindex*) exijam que os rótulos sejam únicos, isso não é obrigatório.
Vamos considerar uma pequena Series com índices duplicados:

In [153]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

A propriedade *is_unique* do índice pode dizer se seus rótulos são
únicos ou não:

In [154]:
obj.index.is_unique

False

A seleção de dados é uma das principais tarefas que se comporta
de modo diferente com duplicatas. Indexar um rótulo com várias
entradas devolve uma Series, enquanto entradas únicas devolvem
um valor escalar:

In [155]:
obj['a']

a    0
a    1
dtype: int64

In [156]:
obj['c']

4

Isso pode deixar seu código mais complicado, pois o tipo da saída
da indexação pode variar conforme um rótulo esteja repetido ou
não.

A mesma lógica se estende para a indexação de linhas em um
DataFrame:

In [157]:
df = pd.DataFrame(np.random.randn(4,3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,-0.523609,0.006741,1.685058
a,-1.398572,-0.493986,2.227312
b,0.138512,1.453053,-0.146436
b,-0.965327,-3.330945,0.635587


In [158]:
df.loc['b']

Unnamed: 0,0,1,2
b,0.138512,1.453053,-0.146436
b,-0.965327,-3.330945,0.635587


### Resumindo e calculando estatísticas descritivas

Os objetos do pandas estão equipados com um conjunto de
métodos matemáticos e estatísticos comuns. A maior parte deles se
enquadra na categoria de *reduções* ou de *estatísticas de resumo*: são
métodos que extraem um único valor (como a soma ou a média) de
uma Series ou uma Series de valores das linhas ou colunas de um
DataFrame. Em comparação com métodos similares que se
encontram em arrays NumPy, eles têm tratamento embutido para
dados ausentes. Considere um pequeno DataFrame:

In [159]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


Chamar o método *sum* de DataFrame devolve uma Series contendo
as somas das colunas:

In [160]:
df.sum()

one    9.25
two   -5.80
dtype: float64

Por outro lado, passar axis='columns' ou axis=1 faz a soma pelas
colunas:

In [161]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Valores NA são excluídos, a menos que a fatia inteira (linha ou
coluna, nesse caso) seja NA. Isso pode ser desativado com a opção
*skipna*:

In [162]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

### Tabela – Opções para os métodos de redução
Método | Descrição
-------|-----------
axis |  Eixo sobre o qual ocorrerá a redução; 0 para as linhas do DataFrame e 1 para as colunas
skipna | Exclui valores ausentes; True por padrão
level | Redução agrupada por nível se o eixo estiver hierarquicamente indexado (MultiIndex)

Alguns métodos como *idxmin* e *idxmax* devolvem estatísticas indiretas
como o valor do índice em que os valores mínimo e máximo são
encontrados:

In [163]:
df.idxmax()

one    b
two    d
dtype: object

Outros métodos são de *acúmulo*:

In [164]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


Há outro tipo de método que não é nem de redução nem de
acúmulo. *describe* é um exemplo desse tipo, e gera vários dados
estatísticos de resumo de uma só vez:

In [165]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


Em dados não numéricos, *describe* gera estatísticas de resumo
alternativas:

In [166]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### Tabela – Estatísticas descritivas e de resumo

Método | Descrição
-------|-----------
count | Número de valores diferentes de NA
describe | Calcula o conjunto de dados estatísticos de resumo para Series ou cada coluna de DataFrame
min, max | Calcula os valores mínimo e máximo
argmin, argmax | Calcula as posições dos índices (inteiros) nas quais os valores mínimo ou máximo são obtidos, respectivamente
idxmin, idxmax | Calcula os rótulos dos índices nos quais os valores mínimo ou máximo são obtidos, respectivamente
quantile | Calcula o quantil da amostragem variando de 0 a 1
sum | Soma dos valores
mean | Média dos valores
median | Mediana aritmética (quantil 50%) dos valores
mad | Desvio absoluto médio do valor médio
prod | Produto de todos os valores
var | Variância dos valores da amostra
std | Desvio-padrão dos valores da amostra
skew | Assimetria ou obliquidade (skewness, ou terceiro momento) dos valores da amostra
kurt | Curtose (quarto momento) dos valores da amostra
cumsum | Soma cumulativa dos valores
cummin, cummax | Mínimo ou máximo cumulativo dos valores, respectivamente
cumprod | Produto cumulativo dos valores
diff | Calcula a primeira diferença aritmética (útil para séries temporais)
pct_change | Calcula mudanças percentuais

### Correlação e covariância

Utilizarei o módulo *pandas_datareader* para fazer download de algunsdados de algumas listas de ações:



In [167]:
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker) 
                    for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                      for ticker, data in all_data.items()})

volume = pd.DataFrame({ticker: data['Volume']
                       for ticker, data in all_data.items()})

OBS: *É possível que, quando você estiver lendo este livro, o Yahoo! Finance
não exista mais, pois o Yahoo! foi adquirido pela Verizon em 2017. Consulte
a documentação online do pandas-datareader para ver as funcionalidades
mais recentes.*

In [168]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2021-05-06,0.012802,0.022036,0.013227,0.010442
2021-05-07,0.005327,-0.008993,0.010932,0.007282
2021-05-10,-0.025805,0.004881,-0.020914,-0.023775
2021-05-11,-0.00741,-0.013341,-0.003843,-0.01405
2021-05-12,-0.024939,-0.020247,-0.029363,-0.030181


O método *corr* de Series calcula a correlação entre os valores
diferentes de NA de duas Series, alinhados pelo índice e que se
sobrepõem. De forma relacionada, *cov* calcula a covariância:

In [170]:
returns['MSFT'].corr(returns['IBM'])

0.5314279721556305

In [171]:
returns['MSFT'].cov(returns['IBM'])

0.0001508785461489041

Como MSFT é um atributo Python válido, podemos também
selecionar essas colunas usando uma sintaxe mais concisa:

In [172]:
returns.MSFT.corr(returns.IBM)

0.5314279721556305

Os métodos *corr* e *cov* de DataFrame, por outro lado, devolvem uma
matriz completa de correlação ou de covariância como um
DataFrame, respectivamente:

In [173]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.447285,0.72432,0.658737
IBM,0.447285,1.0,0.531428,0.494509
MSFT,0.72432,0.531428,1.0,0.771643
GOOG,0.658737,0.494509,0.771643,1.0


In [None]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000366,0.00014,0.000237,0.000209
IBM,0.00014,0.000268,0.000152,0.000138
MSFT,0.000237,0.000152,0.000301,0.000227
GOOG,0.000209,0.000138,0.000227,0.000282


Ao usar o método *corrwith* de DataFrame, podemos calcular
correlações de pares entre as colunas ou linhas de um DataFrame
com outra Series ou um DataFrame. Passar uma Series devolve
uma Series com o valor das correlações calculado para cada
coluna:

In [None]:
returns.corrwith(returns.IBM)

AAPL    0.447261
IBM     1.000000
MSFT    0.533153
GOOG    0.500208
dtype: float64

Passar um DataFrame calcula as correlações entre os nomes de
coluna correspondentes. Nesse caso, calculei as correlações entreas mudanças percentuais e o volume:

In [None]:
returns.corrwith(volume)

AAPL   -0.074514
IBM    -0.115231
MSFT   -0.084872
GOOG   -0.134394
dtype: float64

Passar *axis='columns'* faz as operações serem linha a linha. Em todos
os casos, os pontos de dados serão alinhados pelo rótulo antes de a
correlação ser calculada.

### Valores únicos, contadores de valores e pertinência

Outra classe de métodos relacionados extrai informações sobre os
valores contidos em uma Series unidimensional. Para ilustrar isso,
considere o exemplo a seguir:

In [180]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

A primeira função é *unique*, que devolve um array de valores únicos
*em uma* Series:

In [181]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

Os valores únicos não são necessariamente devolvidos de forma
ordenada, mas poderão ser ordenados posteriormente se for preciso
(*uniques.sort()*).De modo relacionado, *value_counts* calcula uma Series
contendo as frequências dos valores:

In [182]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

A Series é ordenada pelo valor em ordem decrescente como
conveniência. *value_counts* também está disponível como um método
de nível superior do pandas, e pode ser usado com qualquer array
ou sequência:

In [183]:
pd.value_counts(obj.values, sort=False)

d    1
c    3
b    2
a    3
dtype: int64

*isin* executa uma verificação vetorizada de pertinência a conjuntos, e
pode ser útil para filtrar um conjunto de dados e obter um
subconjunto de valores em uma Series ou coluna de um DataFrame:

In [184]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [186]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [187]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

Relacionado a *isin*, temos o método *Index.get_indexer*, que nos dá um
array de índices de um array de valores possivelmente não distintos
para outro array de valores distintos:

In [None]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

### Tabela – Métodos para unicidade, contadores de valores e pertinência a conjuntos

Método | Descrição
-------|-----------
Isin | Calcula um array booleano indicando se cada valor de uma Series está contido na sequência de valores recebida
match |  Calcula índices inteiros para cada valor de um array em outro array de valores distintos; é útil para alinhamento de dados e operações do tipo junção (join)
unique | Calcula um array de valores únicos em uma Series, devolvido na ordem observada
value_counts | Devolve uma Series contendo valores únicos como seu índice e as frequências como seus valores; a ordem dos contadores é decrescente

Em alguns casos, talvez você queira calcular um histograma de
várias colunas relacionadas em um DataFrame. Veja um exemplo:

In [188]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})

data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


Passar *pandas.value_counts* para a função *apply* desse DataFrame
resulta em:

In [189]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


Nesse caso, os rótulos das linhas no resultado são os valores
distintos que ocorrem em todas as colunas. Os valores são os
respectivos contadores desses valores em cada coluna.