# Pandas

O pacote *pandas* é uma das ferramentas de *Python* mais importantes para cientistas e analistas de dados atualmente. Ele é a base da maior parte dos projetos que incluem leitura, manipulação, limpeza e escrita de dados. O nome *pandas* é derivado do termo *panel data* (dados em painel), que é um termo econométrico que descreve dados compostos de múltiplas observações através do tempo para os mesmos indivíduos.

*Pandas* foi desenvolvido como uma camada acima do *NumPy*, mas boa parte de suas funcionalidades de análise estatística são feitas pelo *SciPy*, além do uso do *Matplotlib* para funções de visualização. Dessa forma, *pandas* simplifica o uso de diversas bibliotecas úteis para estatísticos e cientistas de dados.

Os dois principais objetos de *pandas* são as séries (*Series*) e as tabelas (*DataFrame*). Uma *Series* é basicamente uma coluna, enquanto uma *DataFrame* é uma tabela multidimensional composta de uma coleção de Series. Exemplo:

In [1]:
import numpy as np
import pandas as pd

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

A Series acima foi criada por meio de uma lista de valores, incluindo o valor *NaN* (*not a number*), que equivale a uma posição nula. A lista de valores foi passada para o construtor *pd.Series* e *pandas* criou um índice númerico para cada linha e determinou o tipo de  que melhor se representaria os dados (*float64*). Note que todos os valores passados foram inteiros, menos o *NaN*, cujo valor é tratado como *float64*. A criação de *DataFrames* também é muito simples, porém muito versátil. No exemplo abaixo, criamos uma *DataFrame* composta por uma matriz de inteiros. Após a chamada ao construtor *pd.DataFrame*, *pandas* cria um índice númerico para cada linha e atribui um número como título de cada coluna.

In [3]:
pd.DataFrame(np.arange(12).reshape(4, 3))

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Podemos passar mais informações ao construtor da *DataFrame*, como um nome para cada coluna:

In [4]:
pd.DataFrame(
    np.arange(12).reshape(4, 3),
    columns=['A', 'B', 'C']
)

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Podemos também criar um índice customizado para cada linha. Por exemplo, vamos criar um índice com um intervalo de datas:

In [5]:
dates = pd.date_range(
    '20200101', periods=4
)  # experimente trocar a string da data por 'today'

pd.DataFrame(
    np.arange(12).reshape(4, 3),
    index=dates,
    columns=['A', 'B', 'C']
)

Unnamed: 0,A,B,C
2020-01-01,0,1,2
2020-01-02,3,4,5
2020-01-03,6,7,8
2020-01-04,9,10,11


Uma outra forma de criar uma *DataFrame* é passar um dicionário com objetos que podem ser convertidos a objetos do tipo *Series*.

In [6]:
df = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20130102'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': list('abcd')
})

df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,a
1,1.0,2013-01-02,1.0,3,train,b
2,1.0,2013-01-02,1.0,3,test,c
3,1.0,2013-01-02,1.0,3,train,d


Note que as colunas resultantes tem tipos diferentes:

In [7]:
df.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## Acessando os dados

O pacote oferece diversas formas de acessar os dados contidos em uma *DataFrame*. Por exemplo, para acessar as primeiras linhas, usa-se o método *head*:

In [8]:
df2 = pd.DataFrame(
    np.arange(200).reshape(40, 5),
    columns=list('ABCDE')
)

df2.head()

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


Se o método *head* for chamado sem parâmetro algum, ele irá retornar as cinco primeiras linhas da *DataFrame*. Caso receba um número inteiro, o método irá retornar a quantidade desejada.

In [9]:
df2.head(2)

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,4
1,5,6,7,8,9


De forma similar, podemos acessar as últimas linhas da *DataFrame*:

In [10]:
df2.tail()

Unnamed: 0,A,B,C,D,E
35,175,176,177,178,179
36,180,181,182,183,184
37,185,186,187,188,189
38,190,191,192,193,194
39,195,196,197,198,199


In [11]:
df2.tail(3)

Unnamed: 0,A,B,C,D,E
37,185,186,187,188,189
38,190,191,192,193,194
39,195,196,197,198,199


Para listar o índice e as colunas:

In [12]:
df2.index

RangeIndex(start=0, stop=40, step=1)

In [13]:
df2.columns

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

Para verificar o formato da tabela, usa-se o atributo *shape*:

In [14]:
df2.shape

(40, 5)

O método *to_numpy* fornece uma representação dos dados na forma de um *array* de *NumPy*. Isso pode ser uma operação simples, caso os dados da *DataFrame* sejam homogêneos:

In [15]:
df2.to_numpy()

array([[  0,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14],
       [ 15,  16,  17,  18,  19],
       [ 20,  21,  22,  23,  24],
       [ 25,  26,  27,  28,  29],
       [ 30,  31,  32,  33,  34],
       [ 35,  36,  37,  38,  39],
       [ 40,  41,  42,  43,  44],
       [ 45,  46,  47,  48,  49],
       [ 50,  51,  52,  53,  54],
       [ 55,  56,  57,  58,  59],
       [ 60,  61,  62,  63,  64],
       [ 65,  66,  67,  68,  69],
       [ 70,  71,  72,  73,  74],
       [ 75,  76,  77,  78,  79],
       [ 80,  81,  82,  83,  84],
       [ 85,  86,  87,  88,  89],
       [ 90,  91,  92,  93,  94],
       [ 95,  96,  97,  98,  99],
       [100, 101, 102, 103, 104],
       [105, 106, 107, 108, 109],
       [110, 111, 112, 113, 114],
       [115, 116, 117, 118, 119],
       [120, 121, 122, 123, 124],
       [125, 126, 127, 128, 129],
       [130, 131, 132, 133, 134],
       [135, 136, 137, 138, 139],
       [140, 141, 142, 143, 144],
       [145, 1

No entanto, como *arrays* de *NumPy* devem ser homogêneos, no caso de *DataFrames* heterogêneas, a operação pode ser custosa, porque *pandas* vai precisar encontrar o tipo que melhorar representará todos os dados em um *array*. Por vezes, esse tipo pode terminar sendo *object*. 

In [16]:
df.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'a'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'b'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'c'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'd']],
      dtype=object)

Note que o índice e os nomes das colunas não aparecem na saída de *to_numpy*. Para transpor a *DataFrame*, basta accessar o atributo *T*:

In [17]:
df2.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,30,31,32,33,34,35,36,37,38,39
A,0,5,10,15,20,25,30,35,40,45,...,150,155,160,165,170,175,180,185,190,195
B,1,6,11,16,21,26,31,36,41,46,...,151,156,161,166,171,176,181,186,191,196
C,2,7,12,17,22,27,32,37,42,47,...,152,157,162,167,172,177,182,187,192,197
D,3,8,13,18,23,28,33,38,43,48,...,153,158,163,168,173,178,183,188,193,198
E,4,9,14,19,24,29,34,39,44,49,...,154,159,164,169,174,179,184,189,194,199


Para acessar uma única coluna, retornada como uma *Series*, podemos usar notação de colchetes ou de atributo:

In [18]:
df['E']

0     test
1    train
2     test
3    train
Name: E, dtype: category
Categories (2, object): [test, train]

In [19]:
df.E

0     test
1    train
2     test
3    train
Name: E, dtype: category
Categories (2, object): [test, train]

Para acessar linhas pelos seus índices, podemos usar o atributo *loc*:

In [20]:
dates = pd.date_range(
    '20200101', periods=6
)

df3 = pd.DataFrame(
    np.arange(18).reshape(6, 3),
    index=dates,
    columns=['A', 'B', 'C']
)

df3.loc[dates[0]]

A    0
B    1
C    2
Name: 2020-01-01 00:00:00, dtype: int64

O atributo *loc* também permite acessar listas de índices, bem como especificar quais colunas devem ser retornadas:

In [21]:
df3.loc[[dates[2], dates[4]]]

Unnamed: 0,A,B,C
2020-01-03,6,7,8
2020-01-05,12,13,14


In [22]:
df3.loc[[dates[2], dates[4]], ['A', 'C']]

Unnamed: 0,A,C
2020-01-03,6,8
2020-01-05,12,14


Se apenas um índice e uma coluna forem especificados, *pandas* retornará o valor correspondente da tabela:

In [23]:
df3.loc[df3.index[0], 'B']

1

Note a diferença de comportamento se a única coluna for informada dentro de uma lista:

In [24]:
df3.loc[df3.index[0], ['B']]  # retorna uma Series com apenas um elemento

B    1
Name: 2020-01-01 00:00:00, dtype: int64

Para acessar apenas um valor de forma mais rápida, o atributo *loc* pode ser substituído por *at*:

In [25]:
df3.at[df3.index[0], 'B']

1

Similar ao *loc*, o atributo *iloc* também permite acessar os dados da *DataFrame*, porém ao invés de acessar através dos valores dos índices, ele permite acessar pelas posições das linhas. Exemplo:

In [26]:
df3.iloc[0]  # equivale a df3.loc[df3.index[0]]

A    0
B    1
C    2
Name: 2020-01-01 00:00:00, dtype: int64

As colunas também são tratadas numericamente por *iloc*. Inclusive, é possível usá-lo para acessar fatias da tabela, assim como em um *array* de *NumPy*:

In [27]:
df3.iloc[0, [0, 2]]

A    0
C    2
Name: 2020-01-01 00:00:00, dtype: int64

In [28]:
df3.iloc[0, 0]

0

In [29]:
df3.iloc[0:2, 0:2]  # exclui o final

Unnamed: 0,A,B
2020-01-01,0,1
2020-01-02,3,4


Continuando as similaridades com *arrays*, também é possível acessar os dados de uma *DataFrame* usando condições booleanas:

In [30]:
df2[df2.A % 2 == 0]  # apenas as linhas em que a coluna A é par

Unnamed: 0,A,B,C,D,E
0,0,1,2,3,4
2,10,11,12,13,14
4,20,21,22,23,24
6,30,31,32,33,34
8,40,41,42,43,44
10,50,51,52,53,54
12,60,61,62,63,64
14,70,71,72,73,74
16,80,81,82,83,84
18,90,91,92,93,94


In [31]:
df2[df2 % 2 == 0]  # Apenas os valores pares

Unnamed: 0,A,B,C,D,E
0,0.0,,2.0,,4.0
1,,6.0,,8.0,
2,10.0,,12.0,,14.0
3,,16.0,,18.0,
4,20.0,,22.0,,24.0
5,,26.0,,28.0,
6,30.0,,32.0,,34.0
7,,36.0,,38.0,
8,40.0,,42.0,,44.0
9,,46.0,,48.0,


O método *isin* permite filtrar dados:

In [32]:
df[df['F'].isin(['a', 'd'])]

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,a
3,1.0,2013-01-02,1.0,3,train,d


Além de acessar dados, *loc*, *iloc*, *at* e *iat* permitem atribuir valores às posições indicadas:

In [33]:
df3.iloc[2] = 1

df3

Unnamed: 0,A,B,C
2020-01-01,0,1,2
2020-01-02,3,4,5
2020-01-03,1,1,1
2020-01-04,9,10,11
2020-01-05,12,13,14
2020-01-06,15,16,17


In [34]:
df3.loc['20200101', 'C'] = 10

df3

Unnamed: 0,A,B,C
2020-01-01,0,1,10
2020-01-02,3,4,5
2020-01-03,1,1,1
2020-01-04,9,10,11
2020-01-05,12,13,14
2020-01-06,15,16,17


In [35]:
df3.iat[2, 2] = -5

df3

Unnamed: 0,A,B,C
2020-01-01,0,1,10
2020-01-02,3,4,5
2020-01-03,1,1,-5
2020-01-04,9,10,11
2020-01-05,12,13,14
2020-01-06,15,16,17


Também é possível usar máscaras booleanas para atribuir valores:

In [36]:
df2[df2 % 2 == 0] = -df2

df2

Unnamed: 0,A,B,C,D,E
0,0,1,-2,3,-4
1,5,-6,7,-8,9
2,-10,11,-12,13,-14
3,15,-16,17,-18,19
4,-20,21,-22,23,-24
5,25,-26,27,-28,29
6,-30,31,-32,33,-34
7,35,-36,37,-38,39
8,-40,41,-42,43,-44
9,45,-46,47,-48,49


Para adicionar uma nova coluna, basta usar a notação de colchetes com o nome da nova coluna:

In [37]:
df2['F'] = 1

df2

Unnamed: 0,A,B,C,D,E,F
0,0,1,-2,3,-4,1
1,5,-6,7,-8,9,1
2,-10,11,-12,13,-14,1
3,15,-16,17,-18,19,1
4,-20,21,-22,23,-24,1
5,25,-26,27,-28,29,1
6,-30,31,-32,33,-34,1
7,35,-36,37,-38,39,1
8,-40,41,-42,43,-44,1
9,45,-46,47,-48,49,1


## Estatística descritiva

O pacote *pandas* oferece diversas funções para análise de Estatística descritiva. A mais geral dessas funcionalidades é o método *describe*, que computa uma variedade de medidas:

In [38]:
df2.describe()

Unnamed: 0,A,B,C,D,E,F
count,40.0,40.0,40.0,40.0,40.0,40.0
mean,2.5,-2.5,2.5,-2.5,2.5,1.0
std,114.718161,115.591012,116.466128,117.343458,118.222953,0.0
min,-190.0,-196.0,-192.0,-198.0,-194.0,1.0
25%,-92.5,-98.5,-94.5,-100.5,-96.5,1.0
50%,2.5,-2.5,2.5,-2.5,2.5,1.0
75%,97.5,93.5,99.5,95.5,101.5,1.0
max,195.0,191.0,197.0,193.0,199.0,1.0


É possivel selecionar os percentis que serão incluídos (a mediana é sempre retornada por padrão):

In [39]:
df2.describe(percentiles=[.05, .25, .75, .95])

Unnamed: 0,A,B,C,D,E,F
count,40.0,40.0,40.0,40.0,40.0,40.0
mean,2.5,-2.5,2.5,-2.5,2.5,1.0
std,114.718161,115.591012,116.466128,117.343458,118.222953,0.0
min,-190.0,-196.0,-192.0,-198.0,-194.0,1.0
5%,-170.5,-176.5,-172.5,-178.5,-174.5,1.0
25%,-92.5,-98.5,-94.5,-100.5,-96.5,1.0
50%,2.5,-2.5,2.5,-2.5,2.5,1.0
75%,97.5,93.5,99.5,95.5,101.5,1.0
95%,175.5,171.5,177.5,173.5,179.5,1.0
max,195.0,191.0,197.0,193.0,199.0,1.0


Para colunas não-númericas, *describe* retorna um sumário mais simples:

In [40]:
df['E'].describe()

count         4
unique        2
top       train
freq          2
Name: E, dtype: object

Numa *DataFrame* com tipos mistos, *describe* irá incluir apenas as colunas numéricas:

In [41]:
frame = pd.DataFrame({'a': ['Yes', 'Yes', 'No', 'No'], 'b': range(4)})

frame.describe()

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


Esse comportamento pode ser controlado pelos argumentos *include* e *exclude*:

In [42]:
frame.describe(include=['object'])

Unnamed: 0,a
count,4
unique,2
top,Yes
freq,2


In [43]:
frame.describe(include=['number'])

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


In [44]:
frame.describe(include=['object', 'number'])

Unnamed: 0,a,b
count,4,4.0
unique,2,
top,Yes,
freq,2,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25


In [45]:
frame.describe(include='all')

Unnamed: 0,a,b
count,4,4.0
unique,2,
top,Yes,
freq,2,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25


Cada uma das funções separadas de estatística descritiva pode ser calculada para um dado eixo (*axis*), assim como *NumPy*:

In [46]:
df = pd.DataFrame({
    'one': pd.Series(np.random.randn(3), index=['a', 'b', 'c']),
    'two': pd.Series(np.random.randn(4), index=['a', 'b', 'c', 'd']),
    'three': pd.Series(np.random.randn(3), index=['b', 'c', 'd'])
})

df

Unnamed: 0,one,two,three
a,-0.01546,-0.495448,
b,0.63004,1.026235,-0.42019
c,-1.058797,0.066048,1.886072
d,,0.486868,-0.886477


In [47]:
df.mean(0)

one     -0.148072
two      0.270926
three    0.193135
dtype: float64

In [48]:
df.mean(1)

a   -0.255454
b    0.412028
c    0.297774
d   -0.199804
dtype: float64

Diferente de *NumPy*, se o eixo não for informado, o padrão é *axis=0* (*NumPy* calcula a média para o *array* todo).

In [49]:
df.mean()

one     -0.148072
two      0.270926
three    0.193135
dtype: float64

Note que os valores *NaN* são descartados. Isso pode ser controlado pelo argumento *skipna*, que é *True* por padrão:

In [50]:
df.mean(0, skipna=False)

one           NaN
two      0.270926
three         NaN
dtype: float64

Combinando comportameto aritmético e *broadcasting*, é possível realizar operações estatísticas, como a padronização (média 0 e desvio 1), de forma concisa:

In [51]:
df_stand = (df - df.mean()) / df.std()

df_stand.std()

one      1.0
two      1.0
three    1.0
dtype: float64

In [52]:
df_stand = df.sub(df.mean(1), axis=0).div(df.std(1), axis=0)

df_stand.std(1)

a    1.0
b    1.0
c    1.0
d    1.0
dtype: float64

Métodos como *cumsum* (soma acumulada) e *cumprod* (produto acumulado) preservam a posição de valores *NaN*:

In [53]:
df.cumsum()

Unnamed: 0,one,two,three
a,-0.01546,-0.495448,
b,0.614581,0.530787,-0.42019
c,-0.444216,0.596835,1.465882
d,,1.083703,0.579405


In [54]:
df.cumprod(1)

Unnamed: 0,one,two,three
a,-0.01546,0.007659,
b,0.63004,0.646569,-0.271682
c,-1.058797,-0.069932,-0.131896
d,,0.486868,-0.431598


A tabela abaixo oferece um sumário de funções comumente usadas:


| Função        | Convenção           |
|------------- |-------------|
| *count*      | número de observações não-*NaN* |
| *sum* | soma dos valores      |
| *mean*      | média dos valores     |
| *mad* | desvio absoluto médio      |
| *median* | mediana dos valores      |
| *min* | mínimo      |
| *max* | máximo     |
| *mode* | moda      |
| *abs* | valores absolutos      |
| *prod* | produto dos valores      |
| *std* | desvio padrão amostral      |
| *var* | variância amostral      |
| *skew* | assimetria amostral      |
| *kurt* | curtose amostral    |
| *quantile* | quantis amostrais    |
| *cumsum* | soma acumulada    |
| *cumprod* | produto acumulado    |
| *cummax* | máximo acumulado    |
| *cummin* | mínimo acumulado  |

As funções *idxmin* e *idxmax* retornam os índices dos menores e maiores valores, respectivamente, através do eixo informado:

In [55]:
df.idxmin(0)

one      c
two      a
three    d
dtype: object

In [56]:
df.idxmax(1)

a      one
b      two
c    three
d      two
dtype: object

Os objetos do tipo *Series* disponibilizam um método chamado *value_counts* (que também pode ser usado como uma função) que computa um histograma de um *array* unidimensional:

In [57]:
data = np.random.randint(0, 7, size=50)

data

array([2, 1, 3, 2, 4, 1, 3, 3, 5, 6, 3, 0, 3, 0, 6, 3, 5, 5, 5, 6, 5, 0,
       2, 5, 4, 4, 0, 2, 5, 4, 2, 3, 1, 1, 4, 4, 1, 6, 0, 2, 3, 3, 2, 0,
       4, 4, 0, 4, 0, 3])

In [58]:
s = pd.Series(data)

s.value_counts()

3    10
4     9
0     8
5     7
2     7
1     5
6     4
dtype: int64

In [59]:
pd.value_counts(data)

3    10
4     9
0     8
5     7
2     7
1     5
6     4
dtype: int64

Valores contínuos podem ser discretizados usando as funções *cut* (intervalos baseados nos valores) e *qcut* (intervalos baseados nos quantis).

In [60]:
arr = np.random.randn(20)

factor = pd.cut(arr, 4)

factor

[(0.023, 0.872], (0.023, 0.872], (0.872, 1.72], (0.872, 1.72], (-0.826, 0.023], ..., (0.023, 0.872], (-0.826, 0.023], (-0.826, 0.023], (0.872, 1.72], (-0.826, 0.023]]
Length: 20
Categories (4, interval[float64]): [(-1.678, -0.826] < (-0.826, 0.023] < (0.023, 0.872] < (0.872, 1.72]]

In [61]:
factor = pd.cut(arr, [-5, -1, 0, 1, 5])

factor

[(0, 1], (0, 1], (1, 5], (1, 5], (-1, 0], ..., (0, 1], (-1, 0], (-1, 0], (1, 5], (-1, 0]]
Length: 20
Categories (4, interval[int64]): [(-5, -1] < (-1, 0] < (0, 1] < (1, 5]]

In [62]:
pd.value_counts(factor)

(-1, 0]     8
(1, 5]      6
(0, 1]      5
(-5, -1]    1
dtype: int64

In [63]:
factor = pd.qcut(arr, [0, .25, .5, .75, 1])

factor

[(0.106, 1.089], (0.106, 1.089], (1.089, 1.72], (1.089, 1.72], (-0.647, 0.106], ..., (-0.647, 0.106], (-1.6749999999999998, -0.647], (-0.647, 0.106], (1.089, 1.72], (-1.6749999999999998, -0.647]]
Length: 20
Categories (4, interval[float64]): [(-1.6749999999999998, -0.647] < (-0.647, 0.106] < (0.106, 1.089] < (1.089, 1.72]]

In [64]:
pd.value_counts(factor)

(1.089, 1.72]                    5
(0.106, 1.089]                   5
(-0.647, 0.106]                  5
(-1.6749999999999998, -0.647]    5
dtype: int64

## Ordenando valores

Três formas de ordenação estão disponíveis em *pandas*: pelos índices, pelas colunas e pelas duas coisas. Os métodos *Series.sort_index()* e *DataFrame.sort_index()* são usados para ordenar objetos *pandas* pelos seus índices:

In [65]:
df = pd.DataFrame({
     'one': pd.Series(np.random.randn(3), index=['a', 'b', 'c']),
     'two': pd.Series(np.random.randn(4), index=['a', 'b', 'c', 'd']),
     'three': pd.Series(np.random.randn(3), index=['b', 'c', 'd'])
})

df

Unnamed: 0,one,two,three
a,-0.002024,-0.377273,
b,0.333584,-2.356798,-0.893518
c,0.724531,-0.162024,-0.035322
d,,0.843558,-1.407044


In [66]:
df.sort_index(ascending=False)

Unnamed: 0,one,two,three
d,,0.843558,-1.407044
c,0.724531,-0.162024,-0.035322
b,0.333584,-2.356798,-0.893518
a,-0.002024,-0.377273,


In [67]:
df.sort_index(axis=1)

Unnamed: 0,one,three,two
a,-0.002024,,-0.377273
b,0.333584,-0.893518,-2.356798
c,0.724531,-0.035322,-0.162024
d,,-1.407044,0.843558


In [68]:
df['three'].sort_index(ascending=False)

d   -1.407044
c   -0.035322
b   -0.893518
a         NaN
Name: three, dtype: float64

O método *Series.sort_values()* é usado para ordenar uma *Series* pelos seus valores. Já o método *DataFrame.sort_values()* pode ser usado para ordenar uma *DataFrame* pelos valores das linhas ou das colunas e tem um parâmetro opcional *by=* que serve para especificar uma ou mais colunas para determinar a ordem.

In [69]:
df1 = pd.DataFrame({'one': [2, 1, 1, 1],
                    'two': [1, 3, 2, 4],
                    'three': [5, 4, 3, 2]})

df1

Unnamed: 0,one,two,three
0,2,1,5
1,1,3,4
2,1,2,3
3,1,4,2


In [70]:
df1.sort_values(by='two')

Unnamed: 0,one,two,three
0,2,1,5
2,1,2,3
1,1,3,4
3,1,4,2


In [71]:
df1[['one', 'two', 'three']].sort_values(by=['one', 'two'])

Unnamed: 0,one,two,three
2,1,2,3
1,1,3,4
3,1,4,2
0,2,1,5


Esses métodos tem um tratamento especial para valores faltantes, por meio do parâmetro *na_position*:

In [72]:
s = pd.Series(
    ['A', 'B', np.nan, 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'],
    dtype="object"
)

s.sort_values()

0       A
3    Aaba
1       B
4    Baca
6    CABA
8     cat
7     dog
2     NaN
5     NaN
dtype: object

In [73]:
s.sort_values(na_position='first')

2     NaN
5     NaN
0       A
3    Aaba
1       B
4    Baca
6    CABA
8     cat
7     dog
dtype: object

Strings passadas para o argumento *by=* podem se referir a colunas ou nomes de índices. Aliás, esse é um bom momento para introduzir índices múltiplos:

In [74]:
idx = pd.MultiIndex.from_tuples(
    [('a', 1), ('a', 2), ('a', 2), ('b', 2), ('b', 1), ('b', 1)]
)

idx.names = ['first', 'second']

df_multi = pd.DataFrame(
    {'A': np.arange(6, 0, -1)},
    index=idx
)

df_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,A
first,second,Unnamed: 2_level_1
a,1,6
a,2,5
a,2,4
b,2,3
b,1,2
b,1,1


In [75]:
df_multi.sort_values(by=['second', 'A'])

Unnamed: 0_level_0,Unnamed: 1_level_0,A
first,second,Unnamed: 2_level_1
b,1,1
b,1,2
a,1,6
b,2,3
a,2,4
a,2,5


*Series* também oferece os métodos *nsmallest()* e *nlargest()*, que retornam os menores ou maiores *n* valores, o que pode ser bem mais eficiente do que ordenar a *Series* toda só para chamar *tail(n)* ou *head(n)* no resultado. Esses métodos também são oferecidos por *DataFrames* e é preciso informar a(s) coluna(s) desejada(s).

In [76]:
s = pd.Series(np.random.permutation(10))

s

0    9
1    3
2    4
3    5
4    8
5    7
6    6
7    1
8    2
9    0
dtype: int64

In [77]:
s.sort_values()

9    0
7    1
8    2
1    3
2    4
3    5
6    6
5    7
4    8
0    9
dtype: int64

In [78]:
s.nsmallest(3)

9    0
7    1
8    2
dtype: int64

In [79]:
s.nlargest(2)

0    9
4    8
dtype: int64

In [80]:
df = pd.DataFrame({'a': [-2, -1, 1, 10, 8, 11, -1],
                   'b': list('abdceff'),
                   'c': [1.0, 2.0, 4.0, 3.2, np.nan, 3.0, 4.0]})
df

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
2,1,d,4.0
3,10,c,3.2
4,8,e,
5,11,f,3.0
6,-1,f,4.0


In [81]:
df.nlargest(3, 'a')

Unnamed: 0,a,b,c
5,11,f,3.0
3,10,c,3.2
4,8,e,


In [82]:
df.nsmallest(5, ['a', 'c'])

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
6,-1,f,4.0
2,1,d,4.0
4,8,e,


## Combinando *Series* e *DataFrames*

*Pandas* oferece diversas formas para combinar objetos *Series* e *DataFrames*, usando lógica de conjuntos para os índices e colunas e álgebra relacional para operações do tipo *join* (que remetem a operações de bancos de dados SQL).

A função *concat* faz o trabalho de concatenação ao longo de um eixo (*axis*), usando lógica de conjuntos (união ou interseção) dos índices ou colunas no outro eixo, se o outro eixo existir (*Series* tem apenas um eixo). Um exemplo:

In [83]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
 

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])
 

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])


frames = [df1, df2, df3]
result = pd.concat(frames)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


Suponha que você queira associar chaves específicas para os dados que pertenciam a cada *DataFrame* original. Para isso, pode-se usar o argumento *keys*:

In [84]:
result = pd.concat(frames, keys=['x', 'y', 'z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


O mesmo efeito pode ser obtido passando um dicionário com as *DataFrames* parciais:

In [85]:
pieces = {'x': df1, 'y': df2, 'z': df3}

result = pd.concat(pieces)

result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


O objeto resultante da concatenação passou a ter um índice múltiplo e hierárquico, o que permite selecionar cada bloco original usando o atributo *loc*. Note que no *jupyter notebook*, ao passar o ponteiro do *mouse* sobre um dos índices, as linhas que pertencem a ele são destacadas.

In [86]:
result.loc['y']

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [87]:
result.index.levels

FrozenList([['x', 'y', 'z'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

O uso da função *concat* realiza uma cópia dos dados, então ela não deve ser usada iterativamente, i.e. se seus dados são gerados por um processo repetido, o ideal é guardar as *DataFrames* parciais em uma lista e aplicar *concat* uma única vez.

Ao juntar múltiplas *DataFrames*, é possível escolher como lidar com os outros eixos de duas formas usando o argumento *join*:

  1. Tomando a união, i.e. *join='outer'*. Essa é a opção padrão e nunca resulta em perda de informação.
  2. Tomando a interseção, i.e. *join='inner'*.

Primeiro vejamos um exemplo de *join='outer'*:

In [88]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [89]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                    index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [90]:
result = pd.concat([df1, df4], axis=1, sort=False)
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [91]:
result = pd.concat([df1, df4], axis=0, sort=False)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [92]:
result = pd.concat([df1, df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [93]:
result = pd.concat([df1, df4], axis=0, join='inner')
result

Unnamed: 0,B,D
0,B0,D0
1,B1,D1
2,B2,D2
3,B3,D3
2,B2,D2
3,B3,D3
6,B6,D6
7,B7,D7


Para *DataFrames* que não possem índices importantes, é possível concatená-las e ignorar os índices originais, o que pode ser útil quando existem índices repetidos, como no exemplo acima. Para isso, usa-se o argumento *ignore_index*.

In [94]:
result = pd.concat([df1, df4], axis=0, ignore_index=True, join='inner')
result

Unnamed: 0,B,D
0,B0,D0
1,B1,D1
2,B2,D2
3,B3,D3
4,B2,D2
5,B3,D3
6,B6,D6
7,B7,D7


In [95]:
result = pd.concat([df1, df4], axis=1, ignore_index=True, join='inner')
result

Unnamed: 0,0,1,2,3,4,5,6
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


É possível concatenar uma mistura de objetos *Series* e *DataFrame*. Internamente, *pandas* transforma a(s) *Series* em *DataFrame(s)* com apenas um coluna com o(s) mesmo(s) nome(s) da(s) *Series*.

In [96]:
s1 = pd.Series(['X0', 'X1', 'X2', 'X3'], name='X')

pd.concat([df1, s1], axis=1)

Unnamed: 0,A,B,C,D,X
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3


Caso a(s) *Series* não tenha(m) nome, o(s) nome(s) será(ão) atribuído(s) numericamente e consecutivamente:

In [97]:
s2 = pd.Series(['_0', '_1', '_2', '_3'])

pd.concat([df1, s2, s2, s2], axis=1)

Unnamed: 0,A,B,C,D,0,1,2
0,A0,B0,C0,D0,_0,_0,_0
1,A1,B1,C1,D1,_1,_1,_1
2,A2,B2,C2,D2,_2,_2,_2
3,A3,B3,C3,D3,_3,_3,_3


In [98]:
pd.concat(
    [df1, s1], axis=1, ignore_index=True
)  # todas as colunas perdem seus nomes

Unnamed: 0,0,1,2,3,4
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3


O argumento *keys* tem um uso interessante que é sobrescrever os nomes das colunas quando uma nova *DataFrame* é criada por meio da concatenação de várias *Series*. Note que o comportamento padrão, como vimos acima, é que a *DataFrame* resultante use o nome de cada *Series* como nome para a coluna resultante (caso a *Series* tenha nome).

In [99]:
s3 = pd.Series([0, 1, 2, 3], name='foo')

s4 = pd.Series([0, 1, 2, 3])

s5 = pd.Series([0, 1, 4, 5])

pd.concat([s3, s4, s5], axis=1)

Unnamed: 0,foo,0,1
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


In [100]:
pd.concat([s3, s4, s5], axis=1, keys=['red', 'blue', 'yellow'])

Unnamed: 0,red,blue,yellow
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


Mesmo não sendo muito eficiente (porque um novo objeto precisa ser criado), é possível adicionar um única linha nova a uma *DataFrame* passando uma *Series* para o método *append*.

In [101]:
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'], name='t')
df1.append(s2)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
t,X0,X1,X2,X3


Caso a *Series* não tenha nome, é necessário usar o argumento *ignore_index*:

In [102]:
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
df1.append(s2, ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,X0,X1,X2,X3


## Iterando sobre objetos

O comportamento de iteração em objetos *pandas* depende do tipo. Ao iterar sobre uma *Series*, o comportamento é igual a um *array* unidimensional, produzindo os seus valores.

In [111]:
for value in s2:
    print(value)

X0
X1
X2
X3


No caso de *DataFrames*, *pandas* itera sobre as colunas, como se estivesse iterando sobre as chaves de um dicionário.

In [113]:
for col in df1:
    print(col)

A
B
C
D


Para iterar sobre as linhas de uma *DataFrame*, *pandas* oferece os seguintes métodos: *iterrows()* e *itertuples()*. O método *iterrows()* retorna as linhas de uma *DataFrame* como pares (índice, *Series*). Como cada linha é retornada como uma *Series*, valores de colunas com tipos diferentes são convertidos para o tipo mais geral.

In [114]:
df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c']})

for row_index, row in df.iterrows():
    print(row_index, row, sep='\n')

0
a    1
b    a
Name: 0, dtype: object
1
a    2
b    b
Name: 1, dtype: object
2
a    3
b    c
Name: 2, dtype: object


O método *itertuples()*, por outro lado, retorna uma tupla nomeada para cada linha da *DataFrame*. O primeiro elemento da tupla será o índice e cada elemento seguinte corresponderá ao valor em cada coluna na linha. Caso o nome da coluna não possa ser convertido para um identificador Python válido, ele será substituído para um nome posicional. Se o número de colunas for maior do 255, tuplas comuns são retornadas. 

In [115]:
for row in df.itertuples():
    print(row)

Pandas(Index=0, a=1, b='a')
Pandas(Index=1, a=2, b='b')
Pandas(Index=2, a=3, b='c')


In [121]:
df = pd.DataFrame({'1': [1, 2, 3], '2': ['a', 'b', 'c']})

for row in df.itertuples():
    print(row)

Pandas(Index=0, _1=1, _2='a')
Pandas(Index=1, _1=2, _2='b')
Pandas(Index=2, _1=3, _2='c')


## Dividindo um objeto em grupos

Objetos *pandas* podem ser divididos através de qualquer de seus eixos por meio de um mapeamento de valores para nomes de grupos. Essa operação cria um objeto do tipo *GroupBy*.

In [123]:
df = pd.DataFrame([('bird', 'Falconiformes', 389.0),
                   ('bird', 'Psittaciformes', 24.0),
                   ('mammal', 'Carnivora', 80.2),
                   ('mammal', 'Primates', np.nan),
                   ('mammal', 'Carnivora', 58)],
                  index=['falcon', 'parrot', 'lion', 'monkey', 'leopard'],
                  columns=('class', 'order', 'max_speed'))

df

Unnamed: 0,class,order,max_speed
falcon,bird,Falconiformes,389.0
parrot,bird,Psittaciformes,24.0
lion,mammal,Carnivora,80.2
monkey,mammal,Primates,
leopard,mammal,Carnivora,58.0


In [125]:
grouped = df.groupby('class')
print(grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f361db8c3c8>


Note que objetos do tipo *GroupBy* não têm comportamento definido de impressão. Eles existem para facilitar operações agrupadas. No entanto, é possível iterar sobre os diferentes grupos:

In [127]:
for name_of_the_group, group in grouped:
    print(name_of_the_group)
    print(group)
    print()

bird
       class           order  max_speed
falcon  bird   Falconiformes      389.0
parrot  bird  Psittaciformes       24.0

mammal
          class      order  max_speed
lion     mammal  Carnivora       80.2
monkey   mammal   Primates        NaN
leopard  mammal  Carnivora       58.0



In [128]:
grouped = df.groupby('order', axis='columns')

for name_of_the_group, group in grouped:
    print(name_of_the_group)
    print(group)
    print()

In [129]:
grouped = df.groupby(['class', 'order'])

for name_of_the_group, group in grouped:
    print(name_of_the_group)
    print(group)
    print()

('bird', 'Falconiformes')
       class          order  max_speed
falcon  bird  Falconiformes      389.0

('bird', 'Psittaciformes')
       class           order  max_speed
parrot  bird  Psittaciformes       24.0

('mammal', 'Carnivora')
          class      order  max_speed
lion     mammal  Carnivora       80.2
leopard  mammal  Carnivora       58.0

('mammal', 'Primates')
         class     order  max_speed
monkey  mammal  Primates        NaN



Por padrão, as chaves dos grupos são ordenadas para realizar o agrupamento, mas é possível desativar esse comportamento usando *sort=False* para aumentar a performance da operação.

In [130]:
df2 = pd.DataFrame({'X': ['B', 'B', 'A', 'A'], 'Y': [1, 2, 3, 4]})

df2.groupby(['X']).sum()

Unnamed: 0_level_0,Y
X,Unnamed: 1_level_1
A,7
B,3


In [132]:
df2.groupby(['X'], sort=False).sum()

Unnamed: 0_level_0,Y
X,Unnamed: 1_level_1
B,3
A,7


Apesar de ordenar as chaves dos grupos por padrão, o agrupamento mantém a ordem original das observações em cada grupo.

In [133]:
df3 = pd.DataFrame({'X': ['A', 'B', 'A', 'B'], 'Y': [1, 4, 3, 2]})

df3.groupby(['X']).get_group('A')

Unnamed: 0,X,Y
0,A,1
2,A,3


In [134]:
df3.groupby(['X']).get_group('B')

Unnamed: 0,X,Y
1,B,4
3,B,2


Uma vez que um objeto *GroupBy* é criado, é possível usá-lo para realizar diversas operações de agregação de forma bastante eficiente, usando os métodos *aggregate* e *agg*.

In [138]:
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]


index = pd.MultiIndex.from_arrays(arrays, names=['first', 'second'])
    
    
df = pd.DataFrame({'A': [1, 1, 1, 1, 2, 2, 3, 3],
                   'B': np.arange(8)},
                   index=index)

grouped = df.groupby('A')

grouped.aggregate(np.sum)

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,6
2,9
3,13


In [142]:
grouped.aggregate([np.sum, np.mean, np.std])

Unnamed: 0_level_0,B,B,B
Unnamed: 0_level_1,sum,mean,std
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,1.5,1.290994
2,9,4.5,0.707107
3,13,6.5,0.707107


Outra operação agregada simples pode ser feita usando o método *size* que retorna a quantidade de elementos em cada grupo:

In [143]:
grouped.size()

A
1    4
2    2
3    2
dtype: int64

É possível controlar o nome das colunas resultantes das operações de agregação por meio de um sintaxe especial no método *agg()*, chamada de agregação nomeada. Nesse caso, os argumentos serão os nomes das colunas resultantes e os valores dos argumentos serão tuplas, cujo primeiro elemento é a coluna a ser agregada e o segunda é a função de agregação a ser aplicada. A função de agregação pode ser passada como *string* ou pelo seu nome (e també pode ter sido criada pelo usuário).

In [145]:
animals = pd.DataFrame({'kind': ['cat', 'dog', 'cat', 'dog'],
                        'height': [9.1, 6.0, 9.5, 34.0],
                        'weight': [7.9, 7.5, 9.9, 198.0]})




animals.groupby("kind").agg(
    min_height=pd.NamedAgg(column='height', aggfunc='min'),
    max_height=pd.NamedAgg(column='height', aggfunc='max'),
    average_weight=pd.NamedAgg(column='weight', aggfunc=np.mean),
)

Unnamed: 0_level_0,min_height,max_height,average_weight
kind,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cat,9.1,9.5,8.9
dog,6.0,34.0,102.75


## Lendo e escrevendo dados

*Pandas* consegue ler e escrever arquivos de diversos tipos, incluindo *csv*, *excel*, *json*, *HDF5*, *SAS*, *SPSS* e outros. Os tipos disponíveis podem ser visualizados na [documentação de entrada e saída](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html). De uma maneira geral, as funções de leitura tem assinatura *read_tipo*, e.g. *read_csv*, e podem ler arquivos locais ou remotos, enquanto os métodos de escrita tem assinatura *to_tipo*, e.g. *to_csv*. O código abaixo lê um arquivo *csv* hospedado em um repositório do *Github* e calcula as correlações entre as colunas. O parâmetro *index_col* indica qual coluna do arquivo *csv* deve ser usada como índice da tabela. Por padrão, supõe-se que cada coluna de um arquivo *csv* é separada por vírgulas. Isso pode ser modificado por meio do parâmetro *sep*. 

In [107]:
url = 'https://tmfilho.github.io/pyestbook/data/google-trends-timeline.csv'
trends = pd.read_csv(url, index_col=0, parse_dates=True, sep=',')

trends

Unnamed: 0_level_0,Python,R,Machine learning,Data science
Week,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-10-05,37,24,1,1
2014-10-12,37,24,1,1
2014-10-19,38,24,1,1
2014-10-26,37,24,1,1
2014-11-02,38,23,1,1
...,...,...,...,...
2019-08-25,88,22,8,6
2019-09-01,90,22,7,6
2019-09-08,97,24,8,6
2019-09-15,100,25,8,7


Os dados lidos são compostos por séries temporais com 260 observações, que representam o interesse mundial por quatro tópicos de buscas no Google: Python, R, aprendizagem de máquina e ciência de dados. A quantidade de buscas de cada tópico foi medida semanalmente. O argumento *parse_dates* indica que as datas no índice da *DataFrame* devem ser tratadas como objetos *datetime*, não como *strings*.

In [108]:
trends.index

DatetimeIndex(['2014-10-05', '2014-10-12', '2014-10-19', '2014-10-26',
               '2014-11-02', '2014-11-09', '2014-11-16', '2014-11-23',
               '2014-11-30', '2014-12-07',
               ...
               '2019-07-21', '2019-07-28', '2019-08-04', '2019-08-11',
               '2019-08-18', '2019-08-25', '2019-09-01', '2019-09-08',
               '2019-09-15', '2019-09-22'],
              dtype='datetime64[ns]', name='Week', length=260, freq=None)

In [109]:
trends.index[0].weekday()

6

O argumento *parse_dates* pode receber diferentes valores, tendo comportamentos diferentes:

  1. boolean: Se True -> tentar tratar o índice;
  2. list de inteiros ou nomes: Se [1, 2, 3] -> tentar tratar colunas 1, 2 e 3 como colunas separadas de datas;
  3. list de lists: Se [[1, 3]] -> combinar colunas 1 e 3 e tratar como uma única coluna de datas;
  4. dict: Se {‘foo’ : [1, 3]} -> tratar colunas 1 e 3 como datas e chamar a coluna resultante de *foo*.

Se uma das colunas especificadas ou um índice possuir um valor não tratável ou uma mistura de fusos horários, seus valores serão retornados não-tratados com tipo *object*.

Para escrever uma *DataFrame* em um arquivo *csv*, pode-se usar o método *to_csv*:

In [110]:
trends.to_csv('google-trends-timeline.csv')

Se nenhum diretório for especificado, a *DataFrame* será escrita em um arquivo com o nome informado, localizado no mesmo diretório do *script* *Python* que chamou o método. Caso o método tenha sido chamado em um *script* interno de um projeto, o arquivo será salvo no mesmo diretório do *script* que contém o *main*.