# Introdução ao Pandas

In [3]:
import pandas as pd
import numpy as np

## Operações entre DataFrame e Series
> Como ocorre com os arrays NumPy de dimensões diferentes, a aritmética entre DataFrame e Series também está definida. Inicialmente, como um exemplo motivador, considere a diferença entre um array bidimensional e uma de suas linhas

In [4]:
arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [5]:
arr[0]

array([0., 1., 2., 3.])

In [6]:
arr - arr[0]
#Quando subtraímos arr[0] de arr, a subtração é realizada uma vez para cada linha. Isso é chamado de broadcasting.

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [7]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
        columns=list('bde'), 
        index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [8]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [9]:
frame - series
#Por padrão, a aritmética entre DataFrame e Series realiza a correspondência entre o índice da Series e as colunas do DataFrame, fazendo broadcasting pelas linhas.

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [11]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int64

In [12]:
#Se o valor de um índice não for encontrado nas colunas do DataFrame nem no índice de Series, os objetos serão reindexados para formar a união
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
print(series2)
frame + series2

b    0
e    1
f    2
dtype: int64


Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


## Aplicação de funções e mapeamento
>As ufuncs do NumPy (métodos de array para todos os elementos) também funcionam com objetos do pandas

In [4]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
        index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.394003,-1.281442,1.457318
Ohio,-1.677538,0.940696,-0.406905
Texas,-0.170524,-1.215366,0.475337
Oregon,-0.281181,-0.378774,1.34167


In [5]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.394003,1.281442,1.457318
Ohio,1.677538,0.940696,0.406905
Texas,0.170524,1.215366,0.475337
Oregon,0.281181,0.378774,1.34167


In [6]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
        index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.229331,1.014757,-0.2071
Ohio,-1.924999,-0.386323,0.957159
Texas,0.560891,0.593574,1.286539
Oregon,0.011438,0.508486,-1.519469


In [7]:
#Outra operação frequente consiste em aplicar uma função em arrays unidimensionais para cada coluna ou linha.
f = lambda x: x.max() - x.min()
frame.apply(f)
#Nesse caso, a função f, que calcula a diferença entre o máximo e o
# mínimo de uma Series, é chamada uma vez em cada coluna de frame. 
# O resultado é uma Series com as colunas de frame como seu índice.

b    2.485890
d    1.401080
e    2.806008
dtype: float64

In [9]:
frame.apply(f, axis='columns')

Utah      1.221857
Ohio      2.882159
Texas     0.725648
Oregon    2.027955
dtype: float64

>Funções Python para todos os elementos também podem ser usadas. Suponha que você quisesse calcular uma string formatada para cada valor de ponto flutuante em frame. Isso poderia ser feito com applymap

In [10]:
format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,0.23,1.01,-0.21
Ohio,-1.92,-0.39,0.96
Texas,0.56,0.59,1.29
Oregon,0.01,0.51,-1.52


In [11]:
#O motivo para o nome applymap está no fato de Series ter um método map para aplicar uma função em todos os elementos
frame['e'].map(format)

Utah      -0.21
Ohio       0.96
Texas      1.29
Oregon    -1.52
Name: e, dtype: object

## Ordenação e Classificação
> Ordenar um conjunto de dados de acordo com algum critério é outra operação embutida importante. Para ordenar de modo lexicográfico pelo índice da linha ou da coluna, utilize o método sort_index, que devolve um novo objeto ordenado

In [12]:
ser = pd.Series(range(4), index=['d','a','b','c'])
ser.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [13]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), 
        index=['three', 'one'], 
        columns=['d', 'a', 'b', 'c'])
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [15]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [18]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [19]:
#Para ordenar uma Series de acordo com seus valores, utilize o seu método sort_values:
ser = pd.Series([4, 7, -3, 2])
ser.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [20]:
ser = pd.Series([4, np.nan,7, np.nan -3, 2])
ser.sort_values()

4    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [22]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [23]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [24]:
frame.sort_values(by=['a','b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


> A classificação (ranking) atribui posições de um até o número de pontos de dados válidos em um array. Os métodos rank de Series e de DataFrame são aqueles a serem observados; por padrão, rank resolve empates atribuindo a cada grupo a classificação média

In [25]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [26]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 
        'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [29]:
frame.rank()

Unnamed: 0,b,a,c
0,3.0,1.5,2.0
1,4.0,3.5,3.0
2,1.0,1.5,4.0
3,2.0,3.5,1.0


In [30]:
frame.rank(axis='columns')

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


|Método|&nbsp;&nbsp;&nbsp;| Descrição |
|----|-|----------------|
|'average'| |Default: atribui a classificação média para cada entrada no mesmo grupo|
|'min'| |Utiliza a classificação mínima do grupo todo|
|'max'| |Utiliza a classificação máxima do grupo todo|
|'first'| |Atribui classificações na ordem em que os valores aparecem nos dados| 
|'dense'| |Como method='min', porém as classificações sempre aumentam de 1 entre grupos, em vez do número de elementos iguais em um grupo|

## Índices de eixos com rótulos duplicados
> Até agora, todos os exemplos que vimos tinham rótulos (valores de índice) únicos nos eixos. Embora muitas funções do pandas (como reindex) exijam que os rótulos sejam únicos, isso não é obrigatório. Vamos considerar uma pequena Series com índices duplicados:

In [31]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [33]:
obj.index.is_unique

False

In [34]:
obj['a']

a    0
a    1
dtype: int64

In [35]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,0.469988,0.493631,-0.7129
a,-1.856323,0.439541,-1.647252
b,-1.083545,1.32862,0.260498
b,0.636317,0.366735,-0.515618


In [36]:
df.loc['b']

Unnamed: 0,0,1,2
b,-1.083545,1.32862,0.260498
b,0.636317,0.366735,-0.515618


# Resumindo e calculando estatística descritiva
>Os objetos do pandas estão equipados com um conjunto de métodos matemáticos e estatísticos comuns. A maior parte deles se enquadra na categoria de reduções ou de estatísticas de resumo: são métodos que extraem um único valor (como a soma ou a média) de uma Series ou uma Series de valores das linhas ou colunas de um DataFrame. Em comparação com métodos similares que se encontram em arrays NumPy, eles têm tratamento embutido para dados ausentes.

In [37]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], 
                  [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'], 
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [38]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [39]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [40]:
#Valores NA são excluídos, a menos que a fatia inteira (linha ou coluna, nesse caso) seja NA. Isso pode ser desativado com a opção skipna
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [42]:
#Alguns métodos como idxmin e idxmax devolvem estatísticas indiretas como o valor do índice em que os valores mínimo e máximo são encontrados
df.idxmax()

one    b
two    d
dtype: object

In [43]:
#Acúmulo
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [45]:
#Há outro tipo de método que não é nem de redução nem de acúmulo. describe é um exemplo desse tipo, e gera vários dados estatísticos de resumo de uma só vez
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [46]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

|Método|&nbsp;&nbsp;&nbsp;| Descrição |
|----|-|----------------|
|count| | Número de valores diferentes de NA|
|describe| |Calcula o conjunto de dados estatísticos de resumo para Series ou cada coluna de DataFrame|
|min, max| |Calcula os valores mínimo e máximo|
|argmin, argmax| | Calcula as posições dos índices (inteiros) nas quais os valores mínimo ou máximo são obtidos, respectivamente|
|idxmin, idxmax| |Calcula os rótulos dos índices nos quais os valores mínimo ou máximo|
|quantile| |Calcula o quantil da amostragem variando de 0 a 1|
|sum| |Soma dos valores| 
|mean| |Média dos valores| 
|median| |Mediana aritmética (quantil 50%) dos valores|
|mad| |Desvio absoluto médio do valor médio|
|prod| |Produto de todos os valores|
|var| |Variância dos valores da amostra|
|std| |Desvio-padrão dos valores da amostra|
|skew| |Assimetria ou obliquidade (skewness, ou terceiro momento) dos valores da amostra|
|kurt| |Curtose (quarto momento) dos valores da amostra|
|cumsum| |Soma cumulativa dos valores|
|cummin, cummax| |Mínimo ou máximo cumulativo dos valores, respectivamente|
|cumprod| |Produto cumulativo dos valores|
|diff| | Calcula a primeira diferença aritmética (útil para séries temporais)| 
|pct_change| |Calcula mudanças percentuais|

# Correção e covariância
> Algumas estatísticas de resumo, como correlação e covariância, são calculadas a partir de pares de argumentos.

In [None]:
#Abrir o terminal da VM
# Digitar: pip install pandas-datareader
#https://github.com/pydata/pandas-datareader/tree/master/docs/source/readers

In [5]:
import pandas_datareader.data as web 
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']} 
price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()}) 
volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

{'AAPL':                   High         Low        Open       Close       Volume  \
 Date                                                                      
 2015-11-09   30.452499   30.012501   30.240000   30.142500  135485600.0   
 2015-11-10   29.517500   29.014999   29.225000   29.192499  236511600.0   
 2015-11-11   29.355000   28.802500   29.092501   29.027500  180872000.0   
 2015-11-12   29.205000   28.912500   29.065001   28.930000  130102400.0   
 2015-11-13   28.892500   28.067499   28.799999   28.084999  183249600.0   
 ...                ...         ...         ...         ...          ...   
 2020-11-02  110.680000  107.320000  109.110001  108.769997  122866900.0   
 2020-11-03  111.489998  108.730003  109.660004  110.440002  107624400.0   
 2020-11-04  115.589996  112.349998  114.139999  114.949997  138235500.0   
 2020-11-05  119.620003  116.870003  117.949997  119.029999  125734400.0   
 2020-11-06  119.184998  116.129997  117.949997  118.620003   65910168.0   
 
  

In [7]:
price.describe()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
count,1259.0,1259.0,1259.0,1259.0
mean,47.823803,128.106921,102.98009,1060.121425
std,23.560501,11.050911,49.044179,247.832066
min,21.202499,92.30722,44.939899,668.26001
25%,31.394614,122.866646,60.521696,819.109985
50%,42.022755,129.366455,93.434364,1070.079956
75%,54.043097,134.313881,135.077278,1207.505005
max,134.179993,155.360657,231.649994,1763.369995


In [8]:
#Vamos agora calcular as mudanças percentuais nos preços – uma operação de série temporal
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-11-02,-0.000827,0.011195,-0.000691,0.003097
2020-11-03,0.015354,0.011071,0.020264,0.014871
2020-11-04,0.040837,-0.019797,0.048249,0.059944
2020-11-05,0.035494,0.025648,0.031887,0.008141
2020-11-06,-0.003444,-0.007667,-0.002893,-0.003794


In [15]:
#O método corr de Series calcula a correlação entre os valores diferentes 
#de NA de duas Series, alinhados pelo índice e que se sobrepõem. De forma 
#relacionada, cov calcula a covariância:

#Correlação - varia de -1 a 1 onde 1 diversificação ZERO -1 indica total diversificação
#Covariância - grau de diversificação entre duas variáveis
print(returns['MSFT'].corr(returns['IBM']))
print(returns['MSFT'].cov(returns['IBM']))

print(returns.corrwith(returns.IBM))
print(returns.corrwith(volume))

0.5695604037766911
0.0001612255217833562
AAPL    0.483602
IBM     1.000000
MSFT    0.569560
GOOG    0.525241
dtype: float64
AAPL   -0.095832
IBM    -0.080331
MSFT   -0.095618
GOOG   -0.162205
dtype: float64


## Valores únicos, contadores de valores e pertinência

In [16]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b','c','c'])
obj.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

In [17]:
obj.value_counts()

a    3
c    3
d    1
b    1
dtype: int64