<h1>Introdução aos Pandas - Ch 05
    

In [1]:
import pandas as pd
#importando Serie e Dataframe para o namespace local
from pandas import Series, DataFrame
import numpy as np

<h2>Series

Uma **Series** é um objeto do tipo array unidimensional contendo uma sequência de valores e um array associado de rótulos (labels) chaamado de índice.

In [2]:
obj = pd.Series([4,7,5-3])
print("Série:\n", obj)
print("Valores:",obj.values)
print("Índice:",obj.index)

Série:
 0    4
1    7
2    2
dtype: int64
Valores: [4 7 2]
Índice: RangeIndex(start=0, stop=3, step=1)


Podemos criar um índice diferente do índice numérico padrão, já na declaração de uma série:

In [3]:
obj2 = pd.Series([4,7,5,-3], index = ['a','b','c','d'])
print(obj2)
obj2.index

a    4
b    7
c    5
d   -3
dtype: int64


Index(['a', 'b', 'c', 'd'], dtype='object')

Assim, como em um array, podemos selecionar valores específicos de uma série a partir do seu índice, além de usar a biblioteca Numpy preservando a relação entre valor e índice.

In [4]:
print(obj2['c'])
print(obj2[['a','b','d']])
print(obj2[obj2>0])
print(np.exp(obj2))

5
a    4
b    7
d   -3
dtype: int64
a    4
b    7
c    5
dtype: int64
a      54.598150
b    1096.633158
c     148.413159
d       0.049787
dtype: float64


Podemos criar um objeto do tipo Series **a partir de um dic**, usando a expressão Series:

In [5]:
sdata = {"Rio de Janeiro": 10000,'São Paulo': 5000, "Bahia": 20000, "Alagoas": 2000}
obj3 = Series(sdata)
obj3

Rio de Janeiro    10000
São Paulo          5000
Bahia             20000
Alagoas            2000
dtype: int64

Podemos também passar uma lista de índices para gerar uma nova série a partir do nosso dicionário. Essa lista será preenchida com NaN sempre que não encontrar valores:

In [6]:
indice = ["Rio de Janeiro", "São Paulo", "Maranhão", "Bahia"]
obj4 = Series(sdata, index=indice)
print(obj4)

#Podemos verificar se um valor é vazio ou não
print(pd.isnull(obj4))
print(obj4.notnull())

#somando séries
obj3 + obj4
#obs. veja que o alinhamento é feito automaticamente

Rio de Janeiro    10000.0
São Paulo          5000.0
Maranhão              NaN
Bahia             20000.0
dtype: float64
Rio de Janeiro    False
São Paulo         False
Maranhão           True
Bahia             False
dtype: bool
Rio de Janeiro     True
São Paulo          True
Maranhão          False
Bahia              True
dtype: bool


Alagoas               NaN
Bahia             40000.0
Maranhão              NaN
Rio de Janeiro    20000.0
São Paulo         10000.0
dtype: float64

In [7]:
#podemos "dar nome aos bois" usando atributos da série

obj4.name = "População"
obj4.index.name = "Estado"
print(obj4)

Estado
Rio de Janeiro    10000.0
São Paulo          5000.0
Maranhão              NaN
Bahia             20000.0
Name: População, dtype: float64


<h2>DataFrame

Um **dataframe** representa uma tabela de dados retangular e contém uma coleção de colunas, em que cada coluna pode ter um tipo de valor diferente

In [8]:
#O dataframe pode ser imaginado como um dicionário com listas compartilhando o mesmo índice
data = {'state':["SP","SP","SP","RJ","RJ","RJ"],
       'year':[2000,2001,2002,2000,2001,2002],
       'population':[1.5,1.7,3.6,2.4,2.9,3.2]}

frame = pd.DataFrame(data)
frame.head()

Unnamed: 0,state,year,population
0,SP,2000,1.5
1,SP,2001,1.7
2,SP,2002,3.6
3,RJ,2000,2.4
4,RJ,2001,2.9


In [18]:
#Ou um dicionário de dicionários em que os valores faltantes são preenchidos com NaN
data = {'São Paulo':{2001:2.4, 2002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame = pd.DataFrame(data)
frame.index.name = 'ano'
frame.columns.name = 'estado'
frame.head()

estado,São Paulo,Ohio
ano,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [9]:
#Para reorganizar as colunas, é só especificar um argumento da função DataFrame()

frame2 = pd.DataFrame(data,columns=['year','population','state'])
frame2.head()

Unnamed: 0,year,population,state
0,2000,1.5,SP
1,2001,1.7,SP
2,2002,3.6,SP
3,2000,2.4,RJ
4,2001,2.9,RJ


In [10]:
#Se passarmos uma coluna que não existe, ela será criada.
#Se passarmos um índice novo, as linhas serão renomeadas

frame2 = pd.DataFrame(data, columns=['year','population','gender'], index = ['entry_1','entry_2','entry_3','entry_4','entry_5','entry_6'])
frame2.head()

Unnamed: 0,year,population,gender
entry_1,2000,1.5,
entry_2,2001,1.7,
entry_3,2002,3.6,
entry_4,2000,2.4,
entry_5,2001,2.9,


In [11]:
#listando as colunas do df
print(frame2.columns)

#Selencionando uma coluna específica
print(frame2.year)
print("é a mesma coisa que")
print(frame2['year'])

#E uma linha específica
print(frame2.loc['entry_4'])

Index(['year', 'population', 'gender'], dtype='object')
entry_1    2000
entry_2    2001
entry_3    2002
entry_4    2000
entry_5    2001
entry_6    2002
Name: year, dtype: int64
é a mesma coisa que
entry_1    2000
entry_2    2001
entry_3    2002
entry_4    2000
entry_5    2001
entry_6    2002
Name: year, dtype: int64
year          2000
population     2.4
gender         NaN
Name: entry_4, dtype: object


In [12]:
#É possível fazer atribuição a uma coluna usando atribuição de escalar ou de arrays

frame2['gender'] = "Male"
print(frame2)

random_array = np.random.randint(0,2,size=6)
gender_array = np.where(random_array == 0, "Male", "Female")
frame2['gender'] = gender_array
print(frame2)

         year  population gender
entry_1  2000         1.5   Male
entry_2  2001         1.7   Male
entry_3  2002         3.6   Male
entry_4  2000         2.4   Male
entry_5  2001         2.9   Male
entry_6  2002         3.2   Male
         year  population  gender
entry_1  2000         1.5    Male
entry_2  2001         1.7    Male
entry_3  2002         3.6  Female
entry_4  2000         2.4    Male
entry_5  2001         2.9  Female
entry_6  2002         3.2    Male


In [15]:
#Se não tivermos certeza que o tamanho do array coincide com o número de linhas da tabela, devemos usar um objeto series
#Quando fazemos isso, os valores válidos são preenchidos e os faltantes recebem NaN

valores = pd.Series(["Male","Female","Male"], index = ['entry_1','entry_2','entry_5'])
frame2['gender2'] = valores
print(frame2.head())

#Para deletar uma coluna, assim como em um dicionário usamos 'del'
del frame2['gender2']
frame2.columns

         year  population  gender gender2
entry_1  2000         1.5    Male    Male
entry_2  2001         1.7    Male  Female
entry_3  2002         3.6  Female     NaN
entry_4  2000         2.4    Male     NaN
entry_5  2001         2.9  Female    Male


Index(['year', 'population', 'gender'], dtype='object')

<h2>Funcionalidades Essenciais

<h3> Reindexação

In [23]:
obj = pd.Series([4.0, 3.8, 2.7, 6.2], index = ['d','a','b','c'])
print(obj)

#reindex ordena uma série, adicionando NaN quando não há valores disponíveis
obj2 = obj.reindex(['a','b','c','d','e'])
print(obj2)

d    4.0
a    3.8
b    2.7
c    6.2
dtype: float64
a    3.8
b    2.7
c    6.2
d    4.0
e    NaN
dtype: float64


In [25]:
#podemos usar o forward fill (ffill) do reindex para preencher valores faltantes ou o backward fill (bfill)

obj3 = pd.Series(['blue','purple','yellow'], index=[0,2,4])
print(obj3)
obj3.reindex(range(6),method='ffill')

0      blue
2    purple
4    yellow
dtype: object


0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Em dataframes, o **reindex** pode alterar a linha (passando a lista diretamente), as colunas (usando a palavra reservada *columns*) ou ambos

In [30]:
#criando um frame
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index=['a','c','d'],
                    columns=['Ohio','Texas','California'])
print(frame)

#reindexando as linhas
frame2 = frame.reindex(['a','b','c','d'])
print(frame2)

#reindexando as colunas e filling in
states = ['São Paulo', 'California', 'Rio','Ohio']
frame2 = frame.reindex(columns=states, fill_value=0)
print(frame2)

   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0
   São Paulo  California  Rio  Ohio
a          0           2    0     0
c          0           5    0     3
d          0           8    0     6


<h3>Drop

In [38]:
#criando uma série qualquer

obj = pd.Series(np.arange(5), index=['a','b','c','d','e'])
print(obj)

#Dropando as linhas c e d
obj = obj.drop(['c','d'])
print(obj)

#No caso de DFs, precisamos especificar os eixos '0' para linhas e '1 para colunas'
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['São Paulo', 'Rio de Janeiro', 'Paraná', 'Bahia'],
                   columns = ['one', 'two','three','four'])
print(data)

data = data.drop(['Paraná'], axis=0)
print(data)

data = data.drop(['two'],axis=1)
print(data)

a    0
b    1
c    2
d    3
e    4
dtype: int32
a    0
b    1
e    4
dtype: int32
                one  two  three  four
São Paulo         0    1      2     3
Rio de Janeiro    4    5      6     7
Paraná            8    9     10    11
Bahia            12   13     14    15
                one  two  three  four
São Paulo         0    1      2     3
Rio de Janeiro    4    5      6     7
Bahia            12   13     14    15
                one  three  four
São Paulo         0      2     3
Rio de Janeiro    4      6     7
Bahia            12     14    15


<h3> Indexação, seleção e filtragem

In [47]:
#criando um objeto series
obj = pd.Series(np.arange(4), index=['a','b','c','d'])

#indexando pelo rótulo
print(obj[['c','d']])
print(obj['b':'d'])
#intervalo direita e esquerda abertos

#indexando com números inteiros
print(obj[1:3])
#intervalo esquerda fechado, direta aberto

#indexando com booleanos
print(obj[obj>2])

c    2
d    3
dtype: int32
b    1
c    2
d    3
dtype: int32
b    1
c    2
dtype: int32
d    3
dtype: int32


In [56]:
#a indexação em um DF serve para obter uma ou mais colunas
data = pd.DataFrame(np.arange(16).reshape(4,4),
                   index=['Ohio','Colorado','Utah','New York'],
                   columns = ['one','two','three', 'four'])

print(data)

#indexando pelo rótulo
print(data[['one','two']])

#indexando por número inteiro(único caso que pega linha, não coluna)
print(data[:3])

#indexando booleano
print(data[data<5])

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
          one  two
Ohio        0    1
Colorado    4    5
Utah        8    9
New York   12   13
          one  two  three  four
Ohio      0.0  1.0    2.0   3.0
Colorado  4.0  NaN    NaN   NaN
Utah      NaN  NaN    NaN   NaN
New York  NaN  NaN    NaN   NaN
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11


<h3>Loc e iloc

Existem dois comandos de indexação especiais: **loc** para localizar linhas e/ou colunas a partir do label e **iloc** para selecionar linhas ou colunas a partir do seu índice inteiro

In [61]:
print(data.loc['Colorado', ['two','three']])

print(data.iloc[:3,:2])

two      5
three    6
Name: Colorado, dtype: int32
          one  two
Ohio        0    1
Colorado    4    5
Utah        8    9


-----
df[val] --> seleciona uma coluna ou um intervalo de colunas

df.loc[val] --> seleciona uma única linha ou um intervalo de linhas

df.loc[:,val] --> seleciona uma única coluna ou um intervalo de colunas

df.loc[val1,val2] --> seleciona um intervalo de linhas e colunas

df.iloc[int] --> seleciona linha(s) a partir de inteiro(s)

df.iloc[,int] --> seleciona coluna(s) a partir de inteiro(s)

df.iloc[int1,int2] --> seleciona linhas e colunas a partir de inteiro(s)

df.at[label1,label2] --> seleciona ponto do dataframe a partir de rótulos

df.iat[i,j] --> seleciona ponto do dataframe a partir de inteiros


----

<h3>Métodos Aritméticos

In [69]:
s1 = Series([10,8,5,-2], index=['a','c','d','e'])
s2 = Series([2,4,-1,5],index=['b','c','a','e'])

#soma simples
print(s1 + s2)

#lidando com os NaN
print(s1.add(s2,fill_value=0))

#Cada operação tem uma contrapartida que começa com a letra 'r' que lida com os argumentos invertidos
print(s1.div(s2,fill_value=0))
print(s1.rdiv(s2, fill_value=0))

a     9.0
b     NaN
c    12.0
d     NaN
e     3.0
dtype: float64
a     9.0
b     2.0
c    12.0
d     5.0
e     3.0
dtype: float64
a   -10.0
b     0.0
c     2.0
d     inf
e    -0.4
dtype: float64
a   -0.1
b    inf
c    0.5
d    0.0
e   -2.5
dtype: float64


<h3>Operações entre Dataframes e Series

O conceito mais importante das operações definidas entre Series e Dataframe é o de **broadcasting**, vejamos:

In [74]:
arr = np.arange(12).reshape(3,4)
print(arr)
print(arr[0])

#agora o broadcasting
arr - arr[0]

#broadcasting é quando fazemos a mesma operação ao longo de todas as linhas os colunas

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[0 1 2 3]


array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

In [81]:
#Outra maneira de fazer broadcasting, agora com DF
frame = DataFrame(np.arange(12).reshape(4,3),columns=list('bde'))
print(frame)

series = frame.iloc[0]
print(series)

#broadcasting de um series em um framing
frame-series

   b   d   e
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
b    0
d    1
e    2
Name: 0, dtype: int32


Unnamed: 0,b,d,e
0,0,0,0
1,3,3,3
2,6,6,6
3,9,9,9


<h3> Funções e Mapping

As **ufuncs** do numpy também funcionam no pandas! Além disso, podemos aplicar funções em todo o dataframe usando o método apply(). Isso é chamado de **mapping**

In [84]:
#usando ufuncs
frame = DataFrame(np.arange(-6,6,step=1).reshape(4,3),columns=list('bde'))
print(frame)
print(np.abs(frame))

   b  d  e
0 -6 -5 -4
1 -3 -2 -1
2  0  1  2
3  3  4  5
   b  d  e
0  6  5  4
1  3  2  1
2  0  1  2
3  3  4  5


In [86]:
#usando lambda functions
f = lambda x: x.max() - x.min()
print(frame.apply(f, axis=0))
print(frame.apply(f, axis=1))

b    9
d    9
e    9
dtype: int64
0    2
1    2
2    2
3    2
dtype: int64


<h3>Ordenação e Classificação

In [95]:
#sort_index()

#em Series
obj = pd.Series(range(4),index=['d','a','b','c'])
print(obj)
print(obj.sort_index())

#em DataFrame
frame = DataFrame(np.arange(16).reshape(4,4), index = [3,2,1,4], columns = ['red','yellow','blue','purple'])
print(frame)
print(frame.sort_index(axis=0))
print(frame.sort_index(axis=1))

d    0
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    0
dtype: int64
   red  yellow  blue  purple
3    0       1     2       3
2    4       5     6       7
1    8       9    10      11
4   12      13    14      15
   red  yellow  blue  purple
1    8       9    10      11
2    4       5     6       7
3    0       1     2       3
4   12      13    14      15
   blue  purple  red  yellow
3     2       3    0       1
2     6       7    4       5
1    10      11    8       9
4    14      15   12      13


In [101]:
#sort_values()
obj = pd.Series([10,8,np.nan,-2],index=['a','b','c','d'])

#em Series
print(obj.sort_values())

#em DataFrame
frame = pd.DataFrame({'b':[4,7,-3,2], 'a': [0,1,0,1]})
print(frame)
print(frame.sort_values(by='b'))

d    -2.0
b     8.0
a    10.0
c     NaN
dtype: float64
   b  a
0  4  0
1  7  1
2 -3  0
3  2  1
   b  a
2 -3  0
3  2  1
0  4  0
1  7  1


In [102]:
#outra maneira é usar o método rank herdado em Series e Dataframe. Para isso, consultar a documentação.

<h3>Eixos com rótulos duplicados

In [105]:
#para descobrir se um eixo possui rótulos duplicados, usar o is_unique

obj = pd.Series(range(5), index=['a','a','b','b','c'])
print(obj.index.is_unique)
print(obj['a']) 

#sempre tratar esses casos para não ter resultados errôneos

False
a    0
a    1
dtype: int64


<h2>Estatísticas Descritivas

Objetos pandas vem equipados com um conjunto de métodos matemáticos e estatísticos. A maior parte deles se enquadra na categoria de **reduções** ou **estatística descritiva**, transformando um objeto tipo Series em um valor único ou um DataFrame em um objeto tipo Series.

In [114]:
#criando o DF

df = DataFrame([[1.4,np.nan], [7.1,-4.5],
               [np.nan,np.nan], [0.75,-1.3]],
               index = ['a','b','c','d'],
               columns = ['one','two'])

print(df)
print("As somas das colunas DF são:\n",df.sum(axis=0))
print("As somas das linhas do DF são:\n",df.sum(axis=1))
print("A média é:\n",df.mean(axis=0))
#estatísticas descritivas
df.describe()

#para mais detalhes, checkar: https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
As somas das colunas DF são:
 one    9.25
two   -5.80
dtype: float64
As somas das linhas do DF são:
 a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64
A média é:
 one    3.083333
two   -2.900000
dtype: float64


Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


<h3>Correlação e Covariância

Algumas estatísticas de resumo, como **correlação** e **covariância** são calculadas a partir de pares de argumentos. Veremos isso a partir de algumas estatísticas do nosso estudo de caso específico: as Big Tech Companies (retirado do Yahoo Finanças.

In [133]:
import pandas_datareader.data as web
all_data = {ticker:web.get_data_yahoo(ticker) for ticker in ['AAPL','AMZN','MSFT','GOOG','FB']}

price = DataFrame({ticker:data['Adj Close'] for ticker,data in all_data.items()})
volume = DataFrame({ticker:data['Volume'] for ticker,data in all_data.items()})

#podemos calcular as mudanças percentuais nos preços das ações de cada empresa por meio de uma série temporal

calculos = price.pct_change()
print(calculos.tail())

#Podemos calcular a matriz de correlações dos preços das ações entre essas empresas
print(calculos.corr())
print()

#E as correlações de um player específico
print(calculos.corrwith(calculos.AMZN))

                AAPL      AMZN      MSFT      GOOG        FB
Date                                                        
2021-02-08  0.001097 -0.008714  0.001115 -0.002426 -0.005670
2021-02-09 -0.006574 -0.005399  0.005362 -0.004491  0.010766
2021-02-10 -0.004558 -0.005573 -0.003897  0.005697  0.008981
2021-02-11 -0.001920 -0.007439  0.006878  0.000243 -0.005444
2021-02-12  0.001776  0.004776  0.002045  0.003922  0.000407
          AAPL      AMZN      MSFT      GOOG        FB
AAPL  1.000000  0.610368  0.709089  0.650456  0.592934
AMZN  0.610368  1.000000  0.700435  0.664304  0.617401
MSFT  0.709089  0.700435  1.000000  0.777694  0.633995
GOOG  0.650456  0.664304  0.777694  1.000000  0.684334
FB    0.592934  0.617401  0.633995  0.684334  1.000000
AAPL    0.610368
AMZN    1.000000
MSFT    0.700435
GOOG    0.664304
FB      0.617401
dtype: float64


<h3>Valores Únicos, Contadores e Pertinência

In [144]:
#valores únicos

obj = Series(['c','a','a','b','c','b','a','b','b','b'])
uniques = obj.unique()
uniques.sort()
print(uniques)

#contadores
print(obj.value_counts())

['a' 'b' 'c']
b    5
a    3
c    2
dtype: int64


In [147]:
#pertinência de conjuntos
print(obj)
mask = obj.isin(['b','c'])
print(mask)
print(obj[mask])

#para recuperar os índices de cada valor, basta usar o get_indexer
pd.Index(['a','b','c']).get_indexer(obj)

0    c
1    a
2    a
3    b
4    c
5    b
6    a
7    b
8    b
9    b
dtype: object
0     True
1    False
2    False
3     True
4     True
5     True
6    False
7     True
8     True
9     True
dtype: bool
0    c
3    b
4    c
5    b
7    b
8    b
9    b
dtype: object


array([2, 0, 0, 1, 2, 1, 0, 1, 1, 1], dtype=int64)