<a href="https://colab.research.google.com/github/leandrobarbieri/pydata-book/blob/2nd-edition/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

In [376]:
# Importando os pacotes/modulos do pandas
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt

# Configurações inicias das bibliotecas
np.random.seed(1234)
plt.rc('figure', figsize=(10, 6))

# salva a quantidade original de linhas exibidas
PREVIOUS_MAX_ROWS = pd.options.display.max_rows

# set a nova quantidade de itens máximo exibidos ao dar um display em um dataframe, usar ... para representar os itens intermediarios
pd.options.display.max_rows = 20

# set o formato de apresentação
np.set_printoptions(precision=4, suppress=True)


## Series

### index e values

In [377]:
# Series do pandas é como um array numpy com um indice que pode conter labels
serie1 = pd.Series([4, 5, 6, -2, 2])

# atribui um indice automaticamente
print(f"{serie1}\n")

# index é um obj do tipo range com inicio, fim, step
print(f"Tipo: {type(serie1.index)}\n")

index = [x for x in serie1.index]
print(f"Somente o index: {index}\n")
print(f"Somente o index: {serie1.index.values}\n")

0    4
1    5
2    6
3   -2
4    2
dtype: int64

Tipo: <class 'pandas.core.indexes.range.RangeIndex'>

Somente o index: [0, 1, 2, 3, 4]

Somente o index: [0 1 2 3 4]



In [378]:
# definindo lables para o indice
serie2 = pd.Series(data=[1, 2, 4, 5], index=["a", "b", "c", "d"])
print(f"Labels como índice:\n{serie2}\n")
print(f"Indice: {serie2.index} \nValores: {serie2.values}")

Labels como índice:
a    1
b    2
c    4
d    5
dtype: int64

Indice: Index(['a', 'b', 'c', 'd'], dtype='object') 
Valores: [1 2 4 5]


### slice e atribuição

In [379]:
# um item específico
serie2["a"]

1

In [380]:
# um range de itens. Limite superior incluido (diferente de indices numpy)
serie2["a":"c"]

a    1
b    2
c    4
dtype: int64

In [381]:
# itens específicos em ordem específica
serie2[["b", "d", "c"]]

b    2
d    5
c    4
dtype: int64

In [382]:
# atribuir valores
serie2[["d", "b"]] = 999
print(serie2)

a      1
b    999
c      4
d    999
dtype: int64


In [383]:
# operações logicas nas series retornam resultados fitrados
serie_nova = serie2[serie2 < 10]
serie_nova

a    1
c    4
dtype: int64

In [384]:
# operação vetorizada
serie_nova * 2

a    2
c    8
dtype: int64

In [385]:
# verificar se um item está na serie (index)

# Retorna True/false
print(f"a in serie2: {'a' in serie2}")

# Retorna True/false
print(f"1 in serie2: {[True for valor in serie2 if valor == 1]}")

# Retona o elemento
print(f"serie2['a']: {serie2['a']}")

# Retona chave/valor
print(f"serie2[serie2.index == 'a']: {serie2[serie2.index == 'a']}")

a in serie2: True
1 in serie2: [True]
serie2['a']: 1
serie2[serie2.index == 'a']: a    1
dtype: int64


### pareamento a partir do index

In [386]:
# Criar uma serie a partir de um dict
estados_dict = {"Sao Paulo": 45000, "Rio de Janeiro": 50141, "Espirito Santo": 30914}

# os estados são transformados em index e os valores e values
serie3 = pd.Series(estados_dict)

print(f"serie3:\n{serie3}\n")
print(f"index:\n{serie3.index}\n")
print(f"values:\n{serie3.values}\n")


serie3:
Sao Paulo         45000
Rio de Janeiro    50141
Espirito Santo    30914
dtype: int64

index:
Index(['Sao Paulo', 'Rio de Janeiro', 'Espirito Santo'], dtype='object')

values:
[45000 50141 30914]



In [387]:
# definindo a propria lista de index. 

# A lista tem apenas 2 estados, ES ficou de fora 
estados_index = ["Sao Paulo", "Rio de Janeiro"]

# apesar dos dados terem o ES, ele não aparece porque foi definido apenas SP e RJ na lista de indices
serie4 = pd.Series(estados_dict, index=estados_index)
serie4

Sao Paulo         45000
Rio de Janeiro    50141
dtype: int64

In [388]:
# se um index não existir na serie de dados, será preenchido com NaN
# É como se um left join entre os indices informados no parametro index de series e os indices preexistentes na serie de dados
serie5 = pd.Series(data=estados_dict, index=["Sao Paulo", "Rio de Janeiro", "Novo Estado"])
serie5

Sao Paulo         45000.0
Rio de Janeiro    50141.0
Novo Estado           NaN
dtype: float64

In [389]:
# descobrir se existe elementos null na serie
# serie5.isnull()
pd.isnull(serie5)

Sao Paulo         False
Rio de Janeiro    False
Novo Estado        True
dtype: bool

In [390]:
# Retorna somente itens não null
serie5[~pd.isnull(serie5)]

Sao Paulo         45000.0
Rio de Janeiro    50141.0
dtype: float64

In [391]:
# somar series faz o pareamento pelo indice
# na serie3 existe ES mas na serie5 não
# Novo Estado existe na serie5 mas não na serie3
# qualquer um que tenha NaN vai gerar um NaN na soma final, mesmo que exista algum valor
# no final faz a soma daqueles que existem nos dois lados
serie3 + serie5

Espirito Santo         NaN
Novo Estado            NaN
Rio de Janeiro    100282.0
Sao Paulo          90000.0
dtype: float64

In [392]:
# para somar sem perder o valor caso tenha algum valor NaN na soma
# o ES agora retorna a população mesmo com uma soma com NaN (porque serie5 não tem ES)
serie3.add(serie5, fill_value=0)

Espirito Santo     30914.0
Novo Estado            NaN
Rio de Janeiro    100282.0
Sao Paulo          90000.0
dtype: float64

In [393]:
# metadado da serie, identifica o nome para a serie
serie5.name = "Populacao"
# nome do index
serie5.index.name = "Estados"

# renomeando os indices
# serie5.index = ["a", "b", "c"]

# alterando o nome da coluna de index
serie5.index.rename('UF', inplace=True)

serie5

UF
Sao Paulo         45000.0
Rio de Janeiro    50141.0
Novo Estado           NaN
Name: Populacao, dtype: float64

## DataFrames
São tabelas com linhas e colunas que podem ser indexadas com os parametros index ou columns.
Vários tipos de objetos podem ser transformados em DataFrames (lists, dicts..)
Possuem uma série de funções para manipulação dos dados e filtragem

### Dataframe a partir de um dict

In [394]:
# dataframes são como series multidimensionais que compartilham o mesmo index
# possuem index/labels nas linhas (index=) e colunas (columns=)

# criando um dataframe a partir de um dict
dados1 = {"estado": ["SP", "RJ", "ES"] * 3, 
          "ano": [2000, 2000, 2000, 2010, 2010, 2010, 2020, 2020, 2020],
          "populacao": [50_000, 30_000, 20_000, 55_000, 33_000, 22_000, 60_000, 40_000, 30_000]}

# transforma um dicionario em um dataframe
df1 = pd.DataFrame(dados1)
df1

Unnamed: 0,estado,ano,populacao
0,SP,2000,50000
1,RJ,2000,30000
2,ES,2000,20000
3,SP,2010,55000
4,RJ,2010,33000
5,ES,2010,22000
6,SP,2020,60000
7,RJ,2020,40000
8,ES,2020,30000


### listar dataframes

In [395]:
# alguns metodos úteis para listar dataframes

# top5
df1.head(5)
#df1[:5]

# ultimos 2
# df1.tail(2)
# df1[-2:]

# lista tudo
#display(df1)

Unnamed: 0,estado,ano,populacao
0,SP,2000,50000
1,RJ,2000,30000
2,ES,2000,20000
3,SP,2010,55000
4,RJ,2010,33000


In [396]:
# lista algumas colunas
df1[["estado", "populacao"]]

# estatisticas da coluna populaçao
df1["populacao"].describe()

count        9.000000
mean     37777.777778
std      14376.871859
min      20000.000000
25%      30000.000000
50%      33000.000000
75%      50000.000000
max      60000.000000
Name: populacao, dtype: float64

### alterando a sequencia das colunas

In [397]:
print(f"Sequência atual das colunas: {list(df1.columns)}\n")

# alterando a sequencia
df_sequencia_colunas_alteradas = pd.DataFrame(df1, columns=["ano", "estado", "populacao"])
df_sequencia_colunas_alteradas

Sequência atual das colunas: ['estado', 'ano', 'populacao']



Unnamed: 0,ano,estado,populacao
0,2000,SP,50000
1,2000,RJ,30000
2,2000,ES,20000
3,2010,SP,55000
4,2010,RJ,33000
5,2010,ES,22000
6,2020,SP,60000
7,2020,RJ,40000
8,2020,ES,30000


### criando colunas em df existente

In [398]:
# criando um df novo a partir de um que já existe mas com a coluna dif que ainda não exite
df3 = pd.DataFrame(dados1, columns=["ano", "estado", "populacao", "dif"], 
                                          index=["a", "b", "c", "d", "e", "f", "g", "h", "i"])

df3

Unnamed: 0,ano,estado,populacao,dif
a,2000,SP,50000,
b,2000,RJ,30000,
c,2000,ES,20000,
d,2010,SP,55000,
e,2010,RJ,33000,
f,2010,ES,22000,
g,2020,SP,60000,
h,2020,RJ,40000,
i,2020,ES,30000,


### filtrando linhas e colunas loc e iloc

In [399]:
# localizando linhas e colunas usando loc e iloc

# filtrando uma coluna
dados_es = df3.loc[df3["estado"] == "ES", ["estado", "ano", "populacao"]]
dados_es
#print(dados_es[["ano", "estado", "populacao"]])

Unnamed: 0,estado,ano,populacao
c,ES,2000,20000
f,ES,2010,22000
i,ES,2020,30000


In [400]:
# filtrando com iloc: usando indices para buscar os 3 primeiros registros e as duas primeiras colunas
dados_es = df3.iloc[:3, :2]
print(dados_es[["ano", "estado"]])

    ano estado
a  2000     SP
b  2000     RJ
c  2000     ES


### filtrando uma coluna com mais de uma condição

In [401]:
# filtrando uma coluna com mais de uma condição
dados_es_2010 = df3.loc[ (df3["ano"] == 2010) & (df3["estado"] == "ES") ]

print(dados_es_2010[["ano", "estado", "populacao"]])

    ano estado  populacao
f  2010     ES      22000


### preencher a nova coluna

In [402]:
# preencher a nova coluna com dados incrementais de arange iniciando em zero e indo até o tamanho maximo da tabela
df3["dif"] = np.arange(len(df3))
df3

Unnamed: 0,ano,estado,populacao,dif
a,2000,SP,50000,0
b,2000,RJ,30000,1
c,2000,ES,20000,2
d,2010,SP,55000,3
e,2010,RJ,33000,4
f,2010,ES,22000,5
g,2020,SP,60000,6
h,2020,RJ,40000,7
i,2020,ES,30000,8


In [403]:
# Cria uma serie independente somente com valores ["a", "b", "c"]
# Faz um left join da serie com o dataframe. Somente onde os indices da nova serie correspondem com o dataframe será inserido
valores_dif = pd.Series(np.arange(3), index=["a", "b", "c"])

# Preenche os primeiros registros com os valores da serie. Acontece um pareamento dos índices do df com a serie
df3["dif"] = valores_dif

# completa os demais com o valor zero
df3.fillna(value=999, inplace=True)
df3

Unnamed: 0,ano,estado,populacao,dif
a,2000,SP,50000,0.0
b,2000,RJ,30000,1.0
c,2000,ES,20000,2.0
d,2010,SP,55000,999.0
e,2010,RJ,33000,999.0
f,2010,ES,22000,999.0
g,2020,SP,60000,999.0
h,2020,RJ,40000,999.0
i,2020,ES,30000,999.0


### Criar coluna com logica boleana

In [404]:
# Criando uma nova coluna a partir de um resultado lógico de outra
df3["Regiao"] = ["SUDESTE-ES" if uf == "ES" else "SUDESTE-OUTRA" for uf in df3["estado"]]
df3

Unnamed: 0,ano,estado,populacao,dif,Regiao
a,2000,SP,50000,0.0,SUDESTE-OUTRA
b,2000,RJ,30000,1.0,SUDESTE-OUTRA
c,2000,ES,20000,2.0,SUDESTE-ES
d,2010,SP,55000,999.0,SUDESTE-OUTRA
e,2010,RJ,33000,999.0,SUDESTE-OUTRA
f,2010,ES,22000,999.0,SUDESTE-ES
g,2020,SP,60000,999.0,SUDESTE-OUTRA
h,2020,RJ,40000,999.0,SUDESTE-OUTRA
i,2020,ES,30000,999.0,SUDESTE-ES


In [405]:
# dict de dicts de população dos estados
pop = {"ES": {2000: 22000, 2010: 24000},
       "RJ": {2000: 33000, 2010: 36000, 2020: 66000}}
# type(pop)

# pd.DataFrame(pop).T
df4 = pd.DataFrame(pop, index=[2000, 2010, 2020])
df4

Unnamed: 0,ES,RJ
2000,22000.0,33000
2010,24000.0,36000
2020,,66000


In [406]:
# remove a ultima linha de ES que tem NaN e considera apenas as dias primeiras de RJ
pdata = {"ES": df4["ES"][:-1], 
         "RJ": df4["RJ"][:2]}

# Define um nome para a coluna de indices e um nome para as colunas da tabela
df4= pd.DataFrame(pdata)
df4.index.name = "ANO"
df4.columns.name = "UF"
df4

UF,ES,RJ
ANO,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,22000.0,33000
2010,24000.0,36000


## Objeto Index
São os objetos responsaveis por armazenar os rotulos dos eixos e outros metadados

In [407]:
obj_index = pd.Series(np.arange(3), index=["a", "b", "c"])

# armazena o index da serie
index = obj_index.index

# pandas.core.indexes.base.Index
type(index)
print(index)
print(index[0])

# um index é sempre imutavel: TypeError: Index does not support mutable operations
# index["a"] = "x"

Index(['a', 'b', 'c'], dtype='object')
a


In [408]:
# criando um obj index
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [409]:
# Usando um obj do tipo index para criar uma series
obj_Series2 = pd.Series([1.4, 3.5, 5.2], index=labels)
obj_Series2

0    1.4
1    3.5
2    5.2
dtype: float64

In [410]:
print(f"df original:\n {df4}\n")

# verificando a existencia de uma coluna
print("ES" in df4.columns)

# verificando a existencia de um indice
print(2010 in df4.index)

df original:
 UF         ES     RJ
ANO                 
2000  22000.0  33000
2010  24000.0  36000

True
True


## Reindexação de linhas e colunas

Redefine o indice de um df já criado. 
Se os novos indices já existem serão mantidos senão serão introduzidos com valores faltantes NaN

In [411]:
obj_Series3 = pd.Series(np.random.randn(4), index=["a", "b", "c", "d"])
obj_Series3

a    0.471435
b   -1.190976
c    1.432707
d   -0.312652
dtype: float64

In [412]:
# Os indices com os mesmos valores são mantidos, os novos recebem os valores NaN
obj_Series3 = obj_Series3.reindex(["a", "b", "c", "d", "x", "y", "z"])
obj_Series3

a    0.471435
b   -1.190976
c    1.432707
d   -0.312652
x         NaN
y         NaN
z         NaN
dtype: float64

In [413]:
obj_Series4 = pd.Series(["Azul", "Amarelo", "Verde"], index=[0, 2, 4])

# passando um range de 6 os valores auxentes no indice atual ficam com o valor NaN
obj_Series4.reindex(range(6))

0       Azul
1        NaN
2    Amarelo
3        NaN
4      Verde
5        NaN
dtype: object

In [414]:
# usando o metodo ffill (forward fill) preenche os valores NaN com o valor anterior a ocorrencia do NaN
# é como um "preencher para frente"
obj_Series4.reindex(range(6), method="ffill")

0       Azul
1       Azul
2    Amarelo
3    Amarelo
4      Verde
5      Verde
dtype: object

In [415]:
# reindexando linhas e colunas
df5 = pd.DataFrame(np.arange(9).reshape((3, 3)),
                   index=["a", "c", "d"],
                   columns=["ES","RJ", "SP"]
                   )
df5

Unnamed: 0,ES,RJ,SP
a,0,1,2
c,3,4,5
d,6,7,8


In [416]:
# reindexar as linhas: inclui o indice "b"
# index=<default>
# columns=<lista de colunas>
df5 = df5.reindex(index=["a", "b", "c", "d"], columns=["ES","RJ", "SP", "MG"])
df5

Unnamed: 0,ES,RJ,SP,MG
a,0.0,1.0,2.0,
b,,,,
c,3.0,4.0,5.0,
d,6.0,7.0,8.0,


In [417]:
# se passar outra lista para indexação, irá ser feito um left join, os valores atuais serão mantidos e os novos serão inseridos com o valor NaN
novos_estados = ["ES","RJ", "SP", "MG", "RS", "PR", "BA"]

df5 = df5.reindex(columns=novos_estados)
df5

Unnamed: 0,ES,RJ,SP,MG,RS,PR,BA
a,0.0,1.0,2.0,,,,
b,,,,,,,
c,3.0,4.0,5.0,,,,
d,6.0,7.0,8.0,,,,


In [418]:
# selecionando colunas a partir de uma lista
filtro_estados = ["ES","RJ", "SP"]
dados = df5.loc[:, filtro_estados]

### drop apagando linhas ou colunas

In [419]:
# copiando dados do df anterior
dados_para_apagar = dados

# apagar linhas

# inplace True para de verdade, False (padrão), remove na memoria mas não apaga do obj original
dados_para_apagar.drop(["b", "d"], inplace=True)

dados_para_apagar

Unnamed: 0,ES,RJ,SP
a,0.0,1.0,2.0
c,3.0,4.0,5.0


In [420]:
# apagar colunas axis=1
dados_sem_RJ_SP = dados_para_apagar.drop(["SP", "RJ"], axis=1)
dados_sem_RJ_SP

Unnamed: 0,ES
a,0.0
c,3.0


In [421]:
dados_para_apagar.drop(["SP", "RJ"], axis="columns", inplace=True)
dados_para_apagar

Unnamed: 0,ES
a,0.0
c,3.0


In [422]:
dados_para_apagar.drop(["a"], axis="index", inplace=True)
dados_para_apagar

Unnamed: 0,ES
c,3.0


## Seleção e Filtragem
a seleção e filtragem de df é semelhante a arrays numpy porém com o uso de rotulos nomeados nos dois eixos.

### Series

In [423]:
# criando uma Series para testes
obj_Series5 = pd.Series(np.arange(4.0), index=["a", "b", "c", "d"])
obj_Series5

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [424]:
# filtrando pelo rótulo da linha
obj_Series5["d"]

3.0

In [425]:
# filtrando pelo indice da linha: implicitamente o pandas cria um índice mesmo que exista um rótulo nomeado
obj_Series5[3]

3.0

In [426]:
# slice do intervalo do índice implicito de 2 ate o 4 (não incluído)
obj_Series5[2:4]

c    2.0
d    3.0
dtype: float64

In [427]:
# diferentemente do acesso pelo índice implicito, o indice pelo rotulo sempre inclui o ultimo elemento
obj_Series5["b":"d"]

b    1.0
c    2.0
d    3.0
dtype: float64

In [428]:
# elementos específicos. Lista de elementos dentro dos colchetes
obj_Series5[["a", "c", "d"]]

a    0.0
c    2.0
d    3.0
dtype: float64

In [429]:
# filtrando usando uma condição: retorna os itens que 
obj_Series5[obj_Series5 > 2]

d    3.0
dtype: float64

In [430]:
# atribuindo valores a uma faixa de indices
obj_Series5["b":"d"] = 4
obj_Series5

a    0.0
b    4.0
c    4.0
d    4.0
dtype: float64

### DataFrame

In [431]:
df6 = pd.DataFrame(np.random.randn(16).reshape(4, 4), 
                   index=["ES", "RJ", "SP", "MG"],
                   columns=[2000, 2010, 2020, 2030])
print("Dados Iniciais:\n")
df6                   

Dados Iniciais:



Unnamed: 0,2000,2010,2020,2030
ES,-0.720589,0.887163,0.859588,-0.636524
RJ,0.015696,-2.242685,1.150036,0.991946
SP,0.953324,-2.021255,-0.334077,0.002118
MG,0.405453,0.289092,1.321158,-1.546906


In [432]:
# uma coluna específica
df6[2020]

ES    0.859588
RJ    1.150036
SP   -0.334077
MG    1.321158
Name: 2020, dtype: float64

In [433]:
# subconjunto de colunas
df6[[2010, 2020]]

Unnamed: 0,2010,2020
ES,0.887163,0.859588
RJ,-2.242685,1.150036
SP,-2.021255,-0.334077
MG,0.289092,1.321158


In [434]:
# quando informa um intervalo, o filtro inicia no eixo das linhas
df6[1:3]

Unnamed: 0,2000,2010,2020,2030
RJ,0.015696,-2.242685,1.150036,0.991946
SP,0.953324,-2.021255,-0.334077,0.002118


In [435]:
# subconjunto de linhas e colunas (podemos misturar acesso pelo indice e pelo rotulo no mesmo comando)
df6[1:3][[2000, 2030]]

Unnamed: 0,2000,2030
RJ,0.015696,0.991946
SP,0.953324,0.002118


In [436]:
# acessando dados com filtro: somente dados onde no ano de 2030 os valores são maiores que Zero
df6[df6[2030] > 0][2030]

RJ    0.991946
SP    0.002118
Name: 2030, dtype: float64

In [437]:
# atribuindo valores Zero onde o valor for negativo
df6[df6 < 0] = 0
df6

Unnamed: 0,2000,2010,2020,2030
ES,0.0,0.887163,0.859588,0.0
RJ,0.015696,0.0,1.150036,0.991946
SP,0.953324,0.0,0.0,0.002118
MG,0.405453,0.289092,1.321158,0.0


### usando loc e iloc

In [478]:
# selecionando linhas e colunas pelos rótulos: df6.loc[ [<linhas], [<colunas>] ] 
df6.loc["ES", [2000, 2020]] 

2000    0.000000
2020    0.859588
Name: ES, dtype: float64

In [479]:
# iloc funciona da mesma forma. Mas opera com os índices implicitos que iniciam em zero
# o mesmo comando acima acessando pelos índices
df6.iloc[0, [0,2]]

2000    0.000000
2020    0.859588
Name: ES, dtype: float64

In [440]:
# loc e iloc acessam por intervalos. Não precisam dos colchetes internos para formar os ranges
df6.loc["RJ":"MG", 2020:2030]

Unnamed: 0,2020,2030
RJ,1.150036,0.991946
SP,0.0,0.002118
MG,1.321158,0.0


## Cálculos e Alinhamento de Dados

In [441]:
# dois DataFrames que compartilham algumas colunas e indices podem ser alinhados
# mesmo com shapes diferentes

data_left = pd.DataFrame(np.random.randn(9).reshape(3,3),
                         index=["ES", "RJ", "SP"],
                         columns=list("bcd"))
data_left

Unnamed: 0,b,c,d
ES,-0.202646,-0.655969,0.193421
RJ,0.553439,1.318152,-0.469305
SP,0.675554,-1.817027,-0.183109


In [442]:
# possue shape diferente
data_rigth = pd.DataFrame(np.random.randn(12).reshape(4, 3),
                          index=["SP", "RJ", "MG", "RS"],
                          columns=list("bde"))
data_rigth

Unnamed: 0,b,d,e
SP,1.058969,-0.39784,0.337438
RJ,1.047579,1.045938,0.863717
MG,-0.122092,0.124713,-0.322795
RS,0.841675,2.390961,0.0762


In [443]:
# o que acontece ao somar os dos dfs com shapes diferentes
# acontece o alinhamento pelos rotulos dos indices
# se o calculo envolver algum valor NaN então retorna NaN

# só retorna algum resultado onde houver um inner join. apenas a coluna b e d e linhas RJ e SP existem nos dois
data_left + data_rigth

Unnamed: 0,b,c,d,e
ES,,,,
MG,,,,
RJ,1.601017,,0.576633,
RS,,,,
SP,1.734523,,-0.580949,


In [444]:
# preenche com Zero o valor NaN quando um dos elementos da soma for NaN, isso presenva o valor que existe em um dos dois lados
# quando os dois valores da soma for NaN retorna NaN
data_left.add(data_rigth, fill_value=0)

Unnamed: 0,b,c,d,e
ES,-0.202646,-0.655969,0.193421,
MG,-0.122092,,0.124713,-0.322795
RJ,1.601017,1.318152,0.576633,0.863717
RS,0.841675,,2.390961,0.0762
SP,1.734523,-1.817027,-0.580949,0.337438


In [445]:
# reindexa o data_left usando apenas as colunas do data_rigth. É como um RIGTH JOIN
data_left.reindex(columns=data_rigth.columns, fill_value=0)

Unnamed: 0,b,d,e
ES,-0.202646,0.193421,0
RJ,0.553439,-0.469305,0
SP,0.675554,-0.183109,0


## Operações entre DataFrames e Series

In [446]:
# criando um df de exemplo
df7 = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['ES', 'RJ', 'SP', 'MG'])

# criando uma serie a partir de uma linha (MG)
serie6 = df7.iloc[3]

# dataframe do exemplo
df7

Unnamed: 0,b,d,e
ES,0.0,1.0,2.0
RJ,3.0,4.0,5.0
SP,6.0,7.0,8.0
MG,9.0,10.0,11.0


In [447]:
# serie criada a partir da linha com o indice MG
serie6

b     9.0
d    10.0
e    11.0
Name: MG, dtype: float64

In [448]:
# faz o alinhamento do índice da serie com os índice das colunas em df e faz o calculo nos correspondentes para todas as linhas
df7 - serie6

Unnamed: 0,b,d,e
ES,-9.0,-9.0,-9.0
RJ,-6.0,-6.0,-6.0
SP,-3.0,-3.0,-3.0
MG,0.0,0.0,0.0


In [449]:
# df7.sub(serie6, axis="index") ???

## Apply: Mapping  e Function
Mapeando funções em valores de series. Aplica a função em todos elementos da serie ou coluna

In [450]:
# criando um df de exemplo
df8 = pd.DataFrame(np.random.randn(12).reshape((4, 3)),
                     columns=list('bde'),
                     index=['ES', 'RJ', 'SP', 'MG'])

print(f"df8 original:\n {df8}\n")

# transforma todos os numeros em absolutos removendo os valores negativos
np.abs(df8)

df8 original:
            b         d         e
ES -0.566446  0.036142 -2.074978
RJ  0.247792 -0.897157 -0.136795
SP  0.018289  0.755414  0.215269
MG  0.841009 -1.445810 -1.401973



Unnamed: 0,b,d,e
ES,0.566446,0.036142,2.074978
RJ,0.247792,0.897157,0.136795
SP,0.018289,0.755414,0.215269
MG,0.841009,1.44581,1.401973


In [451]:
# funções que calculam a diferença entre o max e min de uma coluna
funcao_dif_max_min = lambda x: x.max() - x.min()
funcao_max = lambda x: x.max()
funcao_min = lambda x: x.min()

# APPLY: por padrão a função é aplicada no sentido de agregação das linhas (vertical)
df8.apply(funcao_dif_max_min)

b    1.407455
d    2.201224
e    2.290246
dtype: float64

In [452]:
df8.apply(funcao_max)

b    0.841009
d    0.755414
e    0.215269
dtype: float64

In [453]:
df8.apply(funcao_min)

b   -0.566446
d   -1.445810
e   -2.074978
dtype: float64

In [454]:
# aplicar o calculo no sentido das colunas (horizontal)
df8.apply(funcao_min, axis="columns")

ES   -2.074978
RJ   -0.897157
SP    0.018289
MG   -1.445810
dtype: float64

In [455]:
# aplicando uma função com multiplos retornos
#def f(x):
#  return pd.Series([x.max(), x.min()], index=["max", "min"])

f_lambda = lambda x: pd.Series([x.max(), x.min()], index=["max", "min"])
df8.apply(f_lambda)

Unnamed: 0,b,d,e
max,0.841009,0.755414,0.215269
min,-0.566446,-1.44581,-2.074978


In [480]:
# applymap: aplicando uma formatação em cada elemento da serie
# diferentemente de apply, applymap não faz agregação ela aplica em todas as celulas
formato = lambda x: f"R$ {x: ,.2f}"
df8.applymap(formato)

Unnamed: 0,b,d,e
ES,R$ -0.57,R$ 0.04,R$ -2.07
RJ,R$ 0.25,R$ -0.90,R$ -0.14
SP,R$ 0.02,R$ 0.76,R$ 0.22
MG,R$ 0.84,R$ -1.45,R$ -1.40


In [484]:
# map aplica a formatacao
df8["b"].map(formato)

ES    R$ -0.57
RJ    R$  0.25
SP    R$  0.02
MG    R$  0.84
Name: b, dtype: object

## Ordenação e Rank

In [458]:
obj_Series5 = pd.Series(range(5), index=["x", "y", "z", "a", "b"])

# ordenando uma serie pelo index
obj_Series5.sort_index(ascending=True)

a    3
b    4
x    0
y    1
z    2
dtype: int64

In [459]:
# ordenando uma serie pelos VALORES
obj_Series5.sort_values(ascending=False)

b    4
a    3
z    2
y    1
x    0
dtype: int64

In [460]:
# ordenação de índices de dataframe
df9 = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['LinhaA', 'LinhaB'],
                     columns=['d', 'a', 'b', 'c'])

# ordenando as linhas (padrao) pelos valores dos INDICES
df9.sort_index()

# ordenando as colunas (axis=1) pelos valores dos ROTULOS de coluna
df9.sort_index(axis=1)

Unnamed: 0,a,b,c,d
LinhaA,1,2,3,0
LinhaB,5,6,7,4


In [461]:
# controlando o sentido da ordenação do índice. ascending=TRUE
df9.sort_index(axis=0, ascending=False)

Unnamed: 0,d,a,b,c
LinhaB,4,5,6,7
LinhaA,0,1,2,3


In [462]:
# controlando o sentido da ordenação dos INDICES. ascending=True representa DESC
df9.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
LinhaA,0,3,2,1
LinhaB,4,7,6,5


In [463]:
# ordenando os VALORES de uma ou várias colunas de um um DataFrame
df9.sort_values(by=["c", "d"], ascending=False)

Unnamed: 0,d,a,b,c
LinhaB,4,5,6,7
LinhaA,0,1,2,3


In [464]:
# Ordenação dos VALORES no sentido horizontal (colunas)
df9.sort_values(by=["LinhaB"], ascending=False, axis=1)

Unnamed: 0,c,b,a,d
LinhaA,3,2,1,0
LinhaB,7,6,5,4


## Agregação soma, max, min, mean, cumsum
Funções de agregação de colunas numéricas. Permite analisar as estatísticas e analisar as distribuições dos valores

In [465]:
# a soma acontece no sentido das linhas (vertical) para todas as colunas quando não é especificada
df9.sum()

d     4
a     6
b     8
c    10
dtype: int64

In [466]:
# soma de apenas uma coluna
df9["b"].sum()

8

In [467]:
# soma de colunas específicas
df9[["c","a"]].sum()

c    10
a     6
dtype: int64

In [468]:
# soma no sentido horizontal, agrega as colunas para obter o todal da linha
df9.sum(axis="columns")

LinhaA     6
LinhaB    22
dtype: int64

In [469]:
df9[:1].sum(axis="columns")

LinhaA    6
dtype: int64

In [470]:
# outras medidas de agregação
df9.mean(axis='columns', skipna=False)

LinhaA    1.5
LinhaB    5.5
dtype: float64

In [471]:
# agregação do acumulado na horizontal (colunas)
df9.cumsum(axis=1)

Unnamed: 0,d,a,b,c
LinhaA,0,1,3,6
LinhaB,4,9,15,22


In [472]:
# agregação do acumulado na vertical (linhas)
df9.cumsum(axis=0)

Unnamed: 0,d,a,b,c
LinhaA,0,1,2,3
LinhaB,4,6,8,10


In [473]:
# Estatísticas descritivas das colunas numéricas
df9.describe()

Unnamed: 0,d,a,b,c
count,2.0,2.0,2.0,2.0
mean,2.0,3.0,4.0,5.0
std,2.828427,2.828427,2.828427,2.828427
min,0.0,1.0,2.0,3.0
25%,1.0,2.0,3.0,4.0
50%,2.0,3.0,4.0,5.0
75%,3.0,4.0,5.0,6.0
max,4.0,5.0,6.0,7.0


## Valores únicos value counts
Exibe a lista com valores distintos de uma serie ou de uma coluna de um dataframe

In [474]:
# Valores únicos de uma serie
obj_Series6 = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj_Series6.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

In [475]:
# valores únicos e frequencia da ocorrência do valor ordenado do maior para o menor
obj_Series6.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [476]:
# os elementos das categorias agregadas são o index e os totais agregados são os values
obj_Series6.value_counts().index
obj_Series6.value_counts().values


array([3, 3, 2, 1])

In [486]:
# totais de valores únicos e frequencia por colunas

df10 = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})

df10["Qu1"].value_counts()

4    2
3    2
1    1
Name: Qu1, dtype: int64