# Comandos e procedimentos básicos em python com pandas

Aqui neste notebook vou registrar o processo de importação de dados em formato `CSV` utilizando a biblioteca `pandas`.

## Carregar bibliotecas

A primeira coisa a ser feita é carregar a biblioteca, para disponibilizar suas funções no ambiente de trabalho.

In [111]:
# importar pandas
import pandas as pd

# importar matplotlib
import matplotlib.pyplot as plt
from pylab import *

import numpy as np

Agora que a biblioteca já está ativada, já é possível utilizar suas funções.

A estrutura básica para chamar uma função ou módulo de uma biblioteca no Python é a seguinte:

- ```biblioteca.NomeDaFunção```
- `biblioteca.NomeDoMódulo`

Como carregamos a biblioteca com um `as pd`, podemos chamar a biblioteca usando o apelido `pd`. Isto é muito útil para facilitar o uso das bibliotecas.

Então, importar os dados do curso Python and Statistics for Financial Analysis, que estão na pasta `../data` do projeto, é feito dessa maneira:

## Importar dados csv

In [66]:
# importar os dados
fb = pd.read_csv('../data/facebook.csv',parse_dates=['Date'])
ms = pd.read_csv('../data/microsoft.csv', parse_dates=['Date'])

Com estes comandos os dados foram importados e já podem ser acessados

In [67]:
print(type(fb))
print(type(ms))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


Os dados foram importados com a estrutura de data frames, que é familiar para quem trabalha com alguma linguagem de programação.

## Métodos para data frames


### Checar atributos

Abaixo estão algumas formas de verificar os atributos dos dados.

In [68]:
# checar número de observações e variáveis
print(fb.shape)
print(ms.shape)

(780, 7)
(780, 7)


In [69]:
# checar número de células (valores)
print(fb.size)
print(ms.size)

5460
5460


In [70]:
# checar número de dimensões do dataframe
print(fb.ndim)
print(ms.ndim)

2
2


In [71]:
# checar nomes das colunas
print(fb.columns)
print(ms.columns)

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')
Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')


### Checar estrutura

Abaixo estão algumas formas de extrair informações sobre a estrutura dos dados.

In [72]:
# Retirar primeiras linhas
fb.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-12-31,20.4,20.51,19.99,20.049999,19.45927,4157500
1,2015-01-02,20.129999,20.280001,19.809999,20.129999,19.536913,2842000
2,2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800
3,2015-01-06,19.82,19.84,19.17,19.190001,18.624611,4944100
4,2015-01-07,19.33,19.5,19.08,19.139999,18.576082,8045200


In [73]:
ms.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-12-31,46.73,47.439999,46.450001,46.450001,42.848763,21552500
1,2015-01-02,46.66,47.419998,46.540001,46.759998,43.134731,27913900
2,2015-01-05,46.369999,46.73,46.25,46.330002,42.738068,39673900
3,2015-01-06,46.380001,46.75,45.540001,45.650002,42.110783,36447900
4,2015-01-07,45.98,46.459999,45.490002,46.23,42.645817,29114100


In [74]:
# Retirar últimas linhas
fb.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
775,2018-01-30,241.110001,246.419998,238.410004,242.720001,242.720001,14270800
776,2018-01-31,245.770004,249.270004,244.449997,245.800003,245.800003,11964400
777,2018-02-01,238.520004,246.899994,238.059998,240.5,240.5,12980600
778,2018-02-02,237.0,237.970001,231.169998,233.520004,233.520004,17961600
779,2018-02-05,227.0,233.229996,205.0,213.699997,213.699997,28869000


In [75]:
ms.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
775,2018-01-30,93.300003,93.660004,92.099998,92.739998,92.306389,38635100
776,2018-01-31,93.75,95.400002,93.510002,95.010002,94.565781,48756300
777,2018-02-01,94.790001,96.07,93.580002,94.260002,93.81929,47227900
778,2018-02-02,93.639999,93.970001,91.5,91.779999,91.350883,47867800
779,2018-02-05,90.559998,93.239998,88.0,88.0,87.588554,51031500


### Indexar data frames

A indexação no Python funciona um pouco diferente da indexação no R. Em primeiro lugar, o primeiro *index* é sempre 0, enquanto no R é sempre 1.

Por exemplo:

In [76]:
# Obter index da primeira observação
print(fb.index[0])

0


In [77]:
ms.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
775,2018-01-30,93.300003,93.660004,92.099998,92.739998,92.306389,38635100
776,2018-01-31,93.75,95.400002,93.510002,95.010002,94.565781,48756300
777,2018-02-01,94.790001,96.07,93.580002,94.260002,93.81929,47227900
778,2018-02-02,93.639999,93.970001,91.5,91.779999,91.350883,47867800
779,2018-02-05,90.559998,93.239998,88.0,88.0,87.588554,51031500


Como a indexação é circular e o primeiro index é 0, significa que eu posso utilizar a indexação "-1" para obter o acessar a última linha.

In [78]:
# Obter index da última observação
print(fb.index[-1])

779


Outra diferença básica: a indexação será sempre do primeiro ao último index -1. Veja o exemplo abaixo

In [79]:
# extrair as duas primeiras observações (atenção ao index)
fb[0:2 :]

# extrair as linhas 3 a 6
fb[2:6 :]

# extrair as linhas 45 a 50
fb[44:50]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
44,2015-03-06,22.73,22.84,22.530001,22.549999,21.969885,6434800
45,2015-03-09,22.559999,22.780001,22.51,22.610001,22.028341,5559700
46,2015-03-10,22.709999,23.15,22.67,23.0,22.408308,13145300
47,2015-03-11,23.0,23.299999,22.82,22.879999,22.291393,6553000
48,2015-03-12,22.66,22.83,22.24,22.67,22.0868,10174300
49,2015-03-13,22.559999,22.76,22.25,22.700001,22.116024,8982200


Uma forma de compreender esta lógica é perceber que o número final passado na indexação não será o mesmo número do index, mas realmente será o número da última linha retirada. Por exemplo, ao indexar de 44:50 retirei da linha 45 até a linha 50. Ou seja, a primeira linha a ser retirada é index -1, e a última linha será o index passado.

In [80]:
# extrair as duas primeiras linhas, menos o index 2
fb[0:2]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-12-31,20.4,20.51,19.99,20.049999,19.45927,4157500
1,2015-01-02,20.129999,20.280001,19.809999,20.129999,19.536913,2842000


In [81]:
# extrair as linhas 45 a 50
fb[44:50]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
44,2015-03-06,22.73,22.84,22.530001,22.549999,21.969885,6434800
45,2015-03-09,22.559999,22.780001,22.51,22.610001,22.028341,5559700
46,2015-03-10,22.709999,23.15,22.67,23.0,22.408308,13145300
47,2015-03-11,23.0,23.299999,22.82,22.879999,22.291393,6553000
48,2015-03-12,22.66,22.83,22.24,22.67,22.0868,10174300
49,2015-03-13,22.559999,22.76,22.25,22.700001,22.116024,8982200


In [82]:
# extrair as linhas 3 a 6
fb[2:6 :]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
2,2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800
3,2015-01-06,19.82,19.84,19.17,19.190001,18.624611,4944100
4,2015-01-07,19.33,19.5,19.08,19.139999,18.576082,8045200
5,2015-01-08,19.360001,19.98,19.35,19.860001,19.27487,7094500


## Filtrar e selecionar dados

E para criar subconjuntos mais consistentemente é possível usar as funções `.loc` e `.iloc` da biblioteca pandas. Cada um tem a sua funcionalidade para situações específicas:

- `.loc`: faz a indexação por "labels"
- `.iloc`: faz a indexação por números

### Slicing com .loc

Indexar por labels significa que ela feita pelos nomes das linhas e das colunas.

A estrutura da função é dada por

- `NomeDoObjeto.loc[linhas, colunas]`
- `NomeDoObjeto.loc[[linhas], colunas]`

#### Selecionando linhas com .loc

Nos dois casos, com uma ou com duas chaves, é possível ignorar o argumento indicando a ou as colunas:

- `NomeDoObjeto.loc[linhas]`
- `NomeDoObjeto.loc[[linhas]]`

Neste caso a função indexará apenas as linhas informadas.

A diferença entre as duas formas são duas: a indexação e o formato de saída. Exemplo, para retirar a primeira linha do objeto `fb` deveria ser utilizado `fb.loc[0]` ou `fb.loc[[0]]`.

In [83]:
x = fb.loc[0]
x

Date         2014-12-31 00:00:00
Open                        20.4
High                       20.51
Low                        19.99
Close                      20.05
Adj Close                19.4593
Volume                   4157500
Name: 0, dtype: object

In [84]:
print("Com uma chave a saída de .loc tem a seguinte classe:", type(x))

Com uma chave a saída de .loc tem a seguinte classe: <class 'pandas.core.series.Series'>


Agora extraindo dados com duas chaves:

In [85]:
x = fb.loc[[0]]
x

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-12-31,20.4,20.51,19.99,20.049999,19.45927,4157500


In [86]:
print("Com duas chaves a saída de .loc tem a seguinte classe:", type(x))

Com duas chaves a saída de .loc tem a seguinte classe: <class 'pandas.core.frame.DataFrame'>


Ou seja, quando extraindo apenas uma linha do data frame:

- Uma chave extrai os dados em formato de série (dado que ele entende a existência de uma variável em formato de data)
- Duas chaves extrai os dados em formato data frame

No caso de múltiplas linhas o output será sempre um data frame, o que muda é a forma de indexar. No primeiro caso as linhas chamadas pelo seu índice, no segundo por um array indicando os índices.

In [87]:
fb.loc[0:4]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-12-31,20.4,20.51,19.99,20.049999,19.45927,4157500
1,2015-01-02,20.129999,20.280001,19.809999,20.129999,19.536913,2842000
2,2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800
3,2015-01-06,19.82,19.84,19.17,19.190001,18.624611,4944100
4,2015-01-07,19.33,19.5,19.08,19.139999,18.576082,8045200


In [88]:
fb.loc[[0, 1, 2, 3, 4]]

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2014-12-31,20.4,20.51,19.99,20.049999,19.45927,4157500
1,2015-01-02,20.129999,20.280001,19.809999,20.129999,19.536913,2842000
2,2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800
3,2015-01-06,19.82,19.84,19.17,19.190001,18.624611,4944100
4,2015-01-07,19.33,19.5,19.08,19.139999,18.576082,8045200


#### Agregando colunas na seleção com .loc

A lógica é a mesma da seleção de linhas, mas do lado direito da vírgula.

In [89]:
fb.loc[0:4, 'Open']

0    20.400000
1    20.129999
2    20.129999
3    19.820000
4    19.330000
Name: Open, dtype: float64

In [90]:
fb.loc[0:4, ['Open']]

Unnamed: 0,Open
0,20.4
1,20.129999
2,20.129999
3,19.82
4,19.33


In [91]:
fb.loc[0:4, 'Date':'Low']

Unnamed: 0,Date,Open,High,Low
0,2014-12-31,20.4,20.51,19.99
1,2015-01-02,20.129999,20.280001,19.809999
2,2015-01-05,20.129999,20.190001,19.700001
3,2015-01-06,19.82,19.84,19.17
4,2015-01-07,19.33,19.5,19.08


In [92]:
fb.loc[0:4, ['Date', 'Open', 'High', 'Low']]

Unnamed: 0,Date,Open,High,Low
0,2014-12-31,20.4,20.51,19.99
1,2015-01-02,20.129999,20.280001,19.809999
2,2015-01-05,20.129999,20.190001,19.700001
3,2015-01-06,19.82,19.84,19.17
4,2015-01-07,19.33,19.5,19.08


No caso da função `.loc`, quando o index é um sequência numérica, a indexação é completa. Então 0:4 extrai efetivamente as linhas de 0 a 4. Isto é porque estes são efetivamente os labels das linhas e é por eles que estamos indexando.

#### Slicing com .loc quando o index não é numérico

Em alguns casos, porém, é interessante estabelecer um index diferente para as observações. Os dados que estou usando, por exemplo, tratam-se de uma série temporal, cuja marcação temporal é feita pela variável `Date`. 

In [93]:
fb.loc[:, "Date"].describe()

count                     780
unique                    780
top       2016-09-08 00:00:00
freq                        1
first     2014-12-31 00:00:00
last      2018-02-05 00:00:00
Name: Date, dtype: object

É uma sequência temporal diária, que vai de 31 de dezembro de 2014 a 5 de fevereiro de 2018, sendo cada observação correspondente a um dia. Nesta situação pode ser útil indexar por data:

In [94]:
# estabelecer coluna Date como index
fb = fb.set_index('Date')
fb.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2014-12-31,20.4,20.51,19.99,20.049999,19.45927,4157500
2015-01-02,20.129999,20.280001,19.809999,20.129999,19.536913,2842000
2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800
2015-01-06,19.82,19.84,19.17,19.190001,18.624611,4944100
2015-01-07,19.33,19.5,19.08,19.139999,18.576082,8045200


Agora, usando `.loc` só é possível indexar os dados pelo dia, ou conjunto de dias.

In [95]:
fb.loc['2015-01-05']

Open         2.013000e+01
High         2.019000e+01
Low          1.970000e+01
Close        1.979000e+01
Adj Close    1.920693e+01
Volume       4.948800e+06
Name: 2015-01-05 00:00:00, dtype: float64

In [96]:
fb.loc['2015-01-05':'2015-01-05']

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800


In [97]:
fb.loc['2015-01-05':'2015-01-09']

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800
2015-01-06,19.82,19.84,19.17,19.190001,18.624611,4944100
2015-01-07,19.33,19.5,19.08,19.139999,18.576082,8045200
2015-01-08,19.360001,19.98,19.35,19.860001,19.27487,7094500
2015-01-09,19.93,20.09,19.66,19.940001,19.352512,5238500


In [98]:
fb.loc['2015-01-05':'2015-01-09', 'Volume']

Date
2015-01-05    4948800
2015-01-06    4944100
2015-01-07    8045200
2015-01-08    7094500
2015-01-09    5238500
Name: Volume, dtype: int64

In [99]:
fb.loc['2015-01-05':'2015-01-09', ['Volume']]

Unnamed: 0_level_0,Volume
Date,Unnamed: 1_level_1
2015-01-05,4948800
2015-01-06,4944100
2015-01-07,8045200
2015-01-08,7094500
2015-01-09,5238500


In [100]:
fb.loc['2015-01-05':'2015-01-09', 'Open':'High']

Unnamed: 0_level_0,Open,High
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-05,20.129999,20.190001
2015-01-06,19.82,19.84
2015-01-07,19.33,19.5
2015-01-08,19.360001,19.98
2015-01-09,19.93,20.09


### Slicing com .iloc

Já a função `.iloc` faz a indexação sempre por números. Isto é útil quando os dados são indexados por valores não numéricos, como os dados estão neste momento. A estrutura de aplicação é a mesma:

In [101]:
fb.iloc[0:6]

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2014-12-31,20.4,20.51,19.99,20.049999,19.45927,4157500
2015-01-02,20.129999,20.280001,19.809999,20.129999,19.536913,2842000
2015-01-05,20.129999,20.190001,19.700001,19.790001,19.206934,4948800
2015-01-06,19.82,19.84,19.17,19.190001,18.624611,4944100
2015-01-07,19.33,19.5,19.08,19.139999,18.576082,8045200
2015-01-08,19.360001,19.98,19.35,19.860001,19.27487,7094500


Aqui, novamente volta a funcionar o esquema de indexação do Python. Isto é porque agora sim estamos, com `.iloc`, indexando pelo número da linha, e não pela seu nome (label).

## Resumir os dados

Realizar resumos dos dados é extremamente simples.

In [102]:
fb.describe()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,780.0,780.0,780.0,780.0,780.0,780.0
mean,80.212705,81.285654,79.022397,80.264897,79.914215,12044530.0
std,64.226121,65.048907,63.190963,64.198375,64.327846,8221848.0
min,19.25,19.5,18.940001,19.139999,18.576082,1311200.0
25%,25.525,26.085,24.845,25.475,25.134513,7215200.0
50%,53.379999,54.034999,52.93,53.42,53.035403,9728700.0
75%,113.322502,115.779999,110.297499,113.702501,113.261238,14088850.0
max,245.770004,249.270004,244.449997,246.850006,246.850006,92323200.0


O resultado é uma tabela com as estatísticas básicas de cada variável. Para resumir subconjuntos de variáveis é só juntar tudo:

In [103]:
fb['Volume'].describe()

count    7.800000e+02
mean     1.204453e+07
std      8.221848e+06
min      1.311200e+06
25%      7.215200e+06
50%      9.728700e+06
75%      1.408885e+07
max      9.232320e+07
Name: Volume, dtype: float64

In [104]:
fb.loc[:, 'Volume'].describe()

count    7.800000e+02
mean     1.204453e+07
std      8.221848e+06
min      1.311200e+06
25%      7.215200e+06
50%      9.728700e+06
75%      1.408885e+07
max      9.232320e+07
Name: Volume, dtype: float64

In [105]:
fb.loc[:, 'Open':'Low'].describe()

Unnamed: 0,Open,High,Low
count,780.0,780.0,780.0
mean,80.212705,81.285654,79.022397
std,64.226121,65.048907,63.190963
min,19.25,19.5,18.940001
25%,25.525,26.085,24.845
50%,53.379999,54.034999,52.93
75%,113.322502,115.779999,110.297499
max,245.770004,249.270004,244.449997
