# Aula de Pandas 2

Na última aula tivemos uma introdução de pandas e aprendemos a realizar algumas operações essenciais de limpeza, filtragem e manipulação de dados. Além disso, também trabalhamos com algumas técnicas de visualização de dados usando a lib.

Nesta aula, aprenderemos:

- Como acessar nossas bases de dados utilizando os métodos Loc e iLoc;
- Aprender sobre funções agregadoras e suas funcionalidades;
- Aprender métodos úteis como groupby e pivot table;
- Explorar alguns outros métodos como merge, diff, pct_change e shift. 


# Importando pandas as pd

In [1]:
# import pandas as pd
import pandas as pd

In [45]:
# Importando as informações por pandas

# chamando o dataset
maiores_empresas = pd.read_csv("Largest_Companies.csv")

#testando o dataset
maiores_empresas.head()

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7%,2100000,"Bentonville, Arkansas"
1,2,Amazon,Retail and Cloud Computing,513983,9.4%,1540000,"Seattle, Washington"
2,3,Exxon Mobil,Petroleum industry,413680,44.8%,62000,"Spring, Texas"
3,4,Apple,Electronics industry,394328,7.8%,164000,"Cupertino, California"
4,5,UnitedHealth Group,Healthcare,324162,12.7%,400000,"Minnetonka, Minnesota"


In [53]:
maiores_empresas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Rank                    100 non-null    int64  
 1   Name                    100 non-null    object 
 2   Industry                100 non-null    object 
 3   Revenue (USD millions)  100 non-null    object 
 4   Revenue growth          100 non-null    float64
 5   Employees               100 non-null    int32  
 6   Headquarters            100 non-null    object 
dtypes: float64(1), int32(1), int64(1), object(4)
memory usage: 5.2+ KB


# 9.1.1 Loc e iLoc

## .loc

A função loc será utilizada para localizar e acessar dados em seu dataframe a partir do nome de uma linha e/ou coluna e retornará os valores correspondentes às linhas e colunas nomeadas.

Ex:
df.loc[“nome da linha”, “nome da coluna”]

## Selecionando apenas linhas com .loc

In [54]:
display(maiores_empresas)

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7,2100000,"Bentonville, Arkansas"
1,2,Amazon,Retail and Cloud Computing,513983,9.4,1540000,"Seattle, Washington"
2,3,Exxon Mobil,Petroleum industry,413680,44.8,62000,"Spring, Texas"
3,4,Apple,Electronics industry,394328,7.8,164000,"Cupertino, California"
4,5,UnitedHealth Group,Healthcare,324162,12.7,400000,"Minnetonka, Minnesota"
...,...,...,...,...,...,...,...
95,96,Best Buy,Retail,46298,10.6,71100,"Richfield, Minnesota"
96,97,Bristol-Myers Squibb,Pharmaceutical industry,46159,0.5,34300,"New York City, New York"
97,98,United Airlines,Airline,44955,82.5,92795,"Chicago, Illinois"
98,99,Thermo Fisher Scientific,Laboratory instruments,44915,14.5,130000,"Waltham, Massachusetts"


In [55]:
# Selecionando apenas linhas

# podemos chamar uma linha pelo seu índice

maiores_empresas.loc[0]

Rank                                          1
Name                                    Walmart
Industry                                 Retail
Revenue (USD millions)                  611,289
Revenue growth                              6.7
Employees                               2100000
Headquarters              Bentonville, Arkansas
Name: 0, dtype: object

In [56]:
# podemos chamar um array de índices

maiores_empresas.loc[[0, 1, 3]]

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7,2100000,"Bentonville, Arkansas"
1,2,Amazon,Retail and Cloud Computing,513983,9.4,1540000,"Seattle, Washington"
3,4,Apple,Electronics industry,394328,7.8,164000,"Cupertino, California"


In [57]:
# podemos chamar um intervalo de índices

#Exemplo: quais são as 5 maiores empresas
maiores_empresas.loc[0:4]

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7,2100000,"Bentonville, Arkansas"
1,2,Amazon,Retail and Cloud Computing,513983,9.4,1540000,"Seattle, Washington"
2,3,Exxon Mobil,Petroleum industry,413680,44.8,62000,"Spring, Texas"
3,4,Apple,Electronics industry,394328,7.8,164000,"Cupertino, California"
4,5,UnitedHealth Group,Healthcare,324162,12.7,400000,"Minnetonka, Minnesota"


## .set_index

Utilizando set_index para definir um índice a partir de uma coluna

In [58]:
# podemos achar a linha por seu valor contido

# primeiro devemos definir uma coluna como index por meio de set_index

maiores_empresas_index = maiores_empresas.set_index("Name")

#visualizando como ficou

maiores_empresas_index.head()

Unnamed: 0_level_0,Rank,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Walmart,1,Retail,611289,6.7,2100000,"Bentonville, Arkansas"
Amazon,2,Retail and Cloud Computing,513983,9.4,1540000,"Seattle, Washington"
Exxon Mobil,3,Petroleum industry,413680,44.8,62000,"Spring, Texas"
Apple,4,Electronics industry,394328,7.8,164000,"Cupertino, California"
UnitedHealth Group,5,Healthcare,324162,12.7,400000,"Minnetonka, Minnesota"


In [59]:
#a partir disso, podemos buscar um valor contido dentro desta coluna

maiores_empresas_index.loc["Amazon"]

Rank                                               2
Industry                  Retail and Cloud Computing
Revenue (USD millions)                       513,983
Revenue growth                                   9.4
Employees                                    1540000
Headquarters                     Seattle, Washington
Name: Amazon, dtype: object

## Selecionando apenas colunas com .loc

In [60]:
maiores_empresas.head()

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7,2100000,"Bentonville, Arkansas"
1,2,Amazon,Retail and Cloud Computing,513983,9.4,1540000,"Seattle, Washington"
2,3,Exxon Mobil,Petroleum industry,413680,44.8,62000,"Spring, Texas"
3,4,Apple,Electronics industry,394328,7.8,164000,"Cupertino, California"
4,5,UnitedHealth Group,Healthcare,324162,12.7,400000,"Minnetonka, Minnesota"


In [61]:
# Selecionando apenas colunas por nomes
# usando a base de dados sem "name" como index
maiores_empresas.loc[:, ["Rank", "Name", "Revenue (USD millions)"]]

Unnamed: 0,Rank,Name,Revenue (USD millions)
0,1,Walmart,611289
1,2,Amazon,513983
2,3,Exxon Mobil,413680
3,4,Apple,394328
4,5,UnitedHealth Group,324162
...,...,...,...
95,96,Best Buy,46298
96,97,Bristol-Myers Squibb,46159
97,98,United Airlines,44955
98,99,Thermo Fisher Scientific,44915


## Se eu estivesse usado o DataFrame que apliquei set_index?
Não conseguiria usar, já que o nome está definido como index, logo ele não pode ser chamado como uma coluna na função .loc

In [62]:
# KeyError: "['Name'] not in index"
maiores_empresas_index.loc[:, ["Rank", "Name", "Revenue (USD millions)"]]

KeyError: "['Name'] not in index"

In [63]:
# Não precisa chamar "Name", porque ele já está definido como index pelo python
maiores_empresas_index.loc[:, ["Rank", "Revenue (USD millions)"]]

Unnamed: 0_level_0,Rank,Revenue (USD millions)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Walmart,1,611289
Amazon,2,513983
Exxon Mobil,3,413680
Apple,4,394328
UnitedHealth Group,5,324162
...,...,...
Best Buy,96,46298
Bristol-Myers Squibb,97,46159
United Airlines,98,44955
Thermo Fisher Scientific,99,44915


In [64]:
maiores_empresas_index.head()

Unnamed: 0_level_0,Rank,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Walmart,1,Retail,611289,6.7,2100000,"Bentonville, Arkansas"
Amazon,2,Retail and Cloud Computing,513983,9.4,1540000,"Seattle, Washington"
Exxon Mobil,3,Petroleum industry,413680,44.8,62000,"Spring, Texas"
Apple,4,Electronics industry,394328,7.8,164000,"Cupertino, California"
UnitedHealth Group,5,Healthcare,324162,12.7,400000,"Minnetonka, Minnesota"


In [65]:
## Selecionando um conjunto de linhas e colunas

# Não se esqueça: precisamos primeiro definir alguma coluna como index -> note que defini o nome das empresas como index

# Não é necessário chamar "Name" como coluna na função .loc, já que ele já foi definido como index
maiores_empresas_index.loc[["Walmart", "Amazon", "Apple"], ["Rank", "Industry", "Revenue (USD millions)"]] 

Unnamed: 0_level_0,Rank,Industry,Revenue (USD millions)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Walmart,1,Retail,611289
Amazon,2,Retail and Cloud Computing,513983
Apple,4,Electronics industry,394328


## Também podemos criar algumas condições a partir de .loc

In [66]:
# Como selecionar algumas colunas do dataframe a partir de algumas condições?

maiores_empresas.loc[(maiores_empresas["Industry"]) == "Retail"]

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
0,1,Walmart,Retail,611289,6.7,2100000,"Bentonville, Arkansas"
11,12,Costco,Retail,226954,15.8,304000,"Issaquah, Washington"
19,20,The Home Depot,Retail,157403,4.1,471600,"Atlanta, Georgia"
23,24,Kroger,Retail,148258,7.5,430000,"Cincinnati, Ohio"
32,33,Target Corporation,Retail,109120,2.9,440000,"Minneapolis, Minnesota"
38,39,Lowe's,Retail,97059,0.8,244500,"Mooresville, North Carolina"
52,53,Albertsons,Retail,77650,8.0,198650,"Boise, Idaho"
79,80,Publix,Retail,54942,13.5,242000,"Lakeland, Florida"
88,89,TJX,Retail,49936,2.9,329000,"Framingham, Massachusetts"
95,96,Best Buy,Retail,46298,10.6,71100,"Richfield, Minnesota"


In [67]:
maiores_empresas.loc[(maiores_empresas["Revenue growth"]) >= 50]

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
9,10,Chevron Corporation,Petroleum industry,246252,51.6,43846,"San Ramon, California"
16,17,Phillips 66,Petroleum industry,175702,53.0,13000,"Houston, Texas"
17,18,Valero Energy,Petroleum industry,171189,58.0,9743,"San Antonio, Texas"
48,49,ConocoPhillips,Petroleum industry,82156,69.9,9500,"Houston, Texas"
49,50,Tesla,Automotive and Energy,81462,51.4,127855,"Austin, Texas"
60,61,StoneX Group,Financials,66036,55.3,305,"New York City, New York"
65,66,TD Synnex,Infotech,62344,97.2,28500,"Clearwater, Florida"
71,72,World Fuel Services,Petroleum industry and Logistics,59043,88.4,5214,"Miami, Florida"
86,87,Delta Air Lines,Airline,50582,69.2,95000,"Atlanta, Georgia"
90,91,American Airlines,Airline,48971,63.9,129700,"Fort Worth, Texas"


In [68]:
# Ou ainda, podemos modificar uma série de colunas

maiores_empresas.loc[[65,71], "Revenue growth"] = 15

maiores_empresas.loc[[65,71]]

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions),Revenue growth,Employees,Headquarters
65,66,TD Synnex,Infotech,62344,15.0,28500,"Clearwater, Florida"
71,72,World Fuel Services,Petroleum industry and Logistics,59043,15.0,5214,"Miami, Florida"


## # 9.1.2 Loc e iLoc

## .iloc

Da mesma forma que a função loc a função iloc será utilizada para localizar e acessar dados em seu dataframe. Porém, iloc utiliza os índices numéricos ao invés dos nomes das linhas e colunas.

Ex:
df.loc[“número da linha”, “número da coluna”]

In [69]:
# Selecionando apenas a primeira linha

maiores_empresas.iloc[0]

Rank                                          1
Name                                    Walmart
Industry                                 Retail
Revenue (USD millions)                  611,289
Revenue growth                              6.7
Employees                               2100000
Headquarters              Bentonville, Arkansas
Name: 0, dtype: object

In [70]:
# Selecionando apenas a primeira coluna

maiores_empresas.iloc[0, 1]

'Walmart'

In [71]:
# Selecionando algumas linhas e colunas

maiores_empresas.iloc[[0, 1, 2,3], [0, 1,2,3]]

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions)
0,1,Walmart,Retail,611289
1,2,Amazon,Retail and Cloud Computing,513983
2,3,Exxon Mobil,Petroleum industry,413680
3,4,Apple,Electronics industry,394328


In [72]:
# Limitado, não é possível chamar pelos nomes, mesmo que o index seja definido como "Name"

maiores_empresas_index.iloc["Amazon"]

# Cannot index by location index with a non-integer key

TypeError: Cannot index by location index with a non-integer key

In [None]:
# Em .iloc não é possível selecionar um intervalo, para isso, precisamos utilizar range(n), como veremos a seguir

maiores_empresas.iloc[[0:2],[0:4]]

In [73]:
# Selecionando algumas linhas e colunas

maiores_empresas.iloc[range(2),range(4)]

Unnamed: 0,Rank,Name,Industry,Revenue (USD millions)
0,1,Walmart,Retail,611289
1,2,Amazon,Retail and Cloud Computing,513983


## Ao adicionar .name ao final de uma função iloc é possível obter o nome de uma linha ou coluna a partir de seu índice.

In [74]:
# df.iloc[linha, coluna]
maiores_empresas.iloc[:, 2].name 

'Industry'

## É também possível usar o método .unique() após uma função loc ou iloc para retornar apenas valores únicos caso existam duplicatas.

In [75]:
# Utilizando a função .unique()

maiores_empresas.iloc[:, 1].unique()

array(['Walmart', 'Amazon', 'Exxon Mobil', 'Apple', 'UnitedHealth Group',
       'CVS Health', 'Berkshire Hathaway', 'Alphabet',
       'McKesson Corporation', 'Chevron Corporation', 'AmerisourceBergen',
       'Costco', 'Microsoft', 'Cardinal Health', 'Cigna',
       'Marathon Petroleum', 'Phillips 66', 'Valero Energy',
       'Ford Motor Company', 'The Home Depot', 'General Motors',
       'Elevance Health', 'JPMorgan Chase', 'Kroger', 'Centene',
       'Verizon Communications', 'Walgreens Boots Alliance', 'Fannie Mae',
       'Comcast', 'AT&T', 'Meta Platforms', 'Bank of America',
       'Target Corporation', 'Dell Technologies',
       'Archer Daniels Midland', 'Citigroup', 'United Parcel Service',
       'Pfizer', "Lowe's", 'Johnson & Johnson', 'FedEx', 'Humana',
       'Energy Transfer Partners', 'State Farm', 'Freddie Mac', 'PepsiCo',
       'Wells Fargo', 'The Walt Disney Company', 'ConocoPhillips',
       'Tesla', 'Procter & Gamble', 'United States Postal Service',
       'Alb

# 9.2 O que é uma função agregadora?

No pandas, uma função agregadora refere-se a uma função que realiza um cálculo em um conjunto de valores de um DataDrame ou Série e retorna um único valor como resultado. Elas são particularmente úteis ao lidar com um conjunto de dados grande ou na extração eficiente de informações.

Essas funções são frequentemente usadas em conjunto com a operação .groupby()  para agrupar dados com base em determinados critérios e, em seguida, calcular estatísticas para cada agrupamento.

## Exemplos de funções agregadoras:
- sum(): Calcula o somatório dos valores num agrupamento
- median():Calcula a mediana dos valores num agrupamento
- min(): Encontra o valor mínimo num agrupamento
- max(): Encontra o valor máximo num agrupamento
- count(): Conta o número de valores não nulos num agrupamento

## 9.3 Métodos Úteis

## 9.3.1 Groupby

O método .groupby() organiza o data frame em grupos baseado no resultado de uma ou mais colunas e permite realizar funções agregadoras a um conjunto de dados.

In [76]:
vendas_mercado = pd.read_csv("supermarket_sales.csv")

vendas_mercado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Invoice ID               1000 non-null   object 
 1   Branch                   1000 non-null   object 
 2   City                     1000 non-null   object 
 3   Customer type            1000 non-null   object 
 4   Gender                   1000 non-null   object 
 5   Product line             1000 non-null   object 
 6   Unit price               1000 non-null   float64
 7   Quantity                 1000 non-null   int64  
 8   Tax 5%                   1000 non-null   float64
 9   Total                    1000 non-null   float64
 10  Date                     1000 non-null   object 
 11  Time                     1000 non-null   object 
 12  Payment                  1000 non-null   object 
 13  cogs                     1000 non-null   float64
 14  gross margin percentage  

In [77]:
display(vendas_mercado)

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,1/5/2019,13:08,Ewallet,522.83,4.761905,26.1415,9.1
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.8200,80.2200,3/8/2019,10:29,Cash,76.40,4.761905,3.8200,9.6
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,13:23,Credit card,324.31,4.761905,16.2155,7.4
3,123-19-1176,A,Yangon,Member,Male,Health and beauty,58.22,8,23.2880,489.0480,1/27/2019,20:33,Ewallet,465.76,4.761905,23.2880,8.4
4,373-73-7910,A,Yangon,Normal,Male,Sports and travel,86.31,7,30.2085,634.3785,2/8/2019,10:37,Ewallet,604.17,4.761905,30.2085,5.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,233-67-5758,C,Naypyitaw,Normal,Male,Health and beauty,40.35,1,2.0175,42.3675,1/29/2019,13:46,Ewallet,40.35,4.761905,2.0175,6.2
996,303-96-2227,B,Mandalay,Normal,Female,Home and lifestyle,97.38,10,48.6900,1022.4900,3/2/2019,17:16,Ewallet,973.80,4.761905,48.6900,4.4
997,727-02-1313,A,Yangon,Member,Male,Food and beverages,31.84,1,1.5920,33.4320,2/9/2019,13:22,Cash,31.84,4.761905,1.5920,7.7
998,347-56-2442,A,Yangon,Normal,Male,Home and lifestyle,65.82,1,3.2910,69.1110,2/22/2019,15:33,Cash,65.82,4.761905,3.2910,4.1


In [78]:
# O método .groupby() organiza o data frame em grupos baseado no resultado de uma ou mais colunas 

vendas_mercado.groupby("Payment")["Quantity"].count()

# Agrupamos por método de pagamento e queremos saber a quantidade vendida por tipo de método

Payment
Cash           344
Credit card    311
Ewallet        345
Name: Quantity, dtype: int64

In [79]:
# Segue um exemplo
vendas_mercado.groupby("Product line")["Quantity"].count()

# Agrupamos por produtos e queremos saber a quantidade que as pessoas compram por produto

Product line
Electronic accessories    170
Fashion accessories       178
Food and beverages        174
Health and beauty         152
Home and lifestyle        160
Sports and travel         166
Name: Quantity, dtype: int64

In [80]:
# O método .groupby() pode agrupar dados com base em mais de uma coluna.

# Segue um exemplo
vendas_mercado.groupby(["Product line","Gender"])["Quantity"].count()

# Agrupamos por linha de produto e queremos saber a quantidade gasta por cada gênero 

Product line            Gender
Electronic accessories  Female    84
                        Male      86
Fashion accessories     Female    96
                        Male      82
Food and beverages      Female    90
                        Male      84
Health and beauty       Female    64
                        Male      88
Home and lifestyle      Female    79
                        Male      81
Sports and travel       Female    88
                        Male      78
Name: Quantity, dtype: int64

In [81]:
# Da mesma forma, podemos querer saber o faturamento total por branch (cada uma das três cidades)
vendas_mercado.groupby("City")["Total"].sum()

City
Mandalay     106197.6720
Naypyitaw    110568.7065
Yangon       106200.3705
Name: Total, dtype: float64

# Recapitulando 

- sum(): Calcula o somatório dos valores num agrupamento
- median():Calcula a mediana dos valores num agrupamento
- min(): Encontra o valor mínimo num agrupamento
- max(): Encontra o valor máximo num agrupamento
- count(): Conta o número de valores não nulos num agrupamento

## 9.3.2 Pivot Table

Especialmente úteis para lidar com grandes bases de dados, a pivot table é uma ferramente de manipulação de dados que nos permite agrupar e reconfigurar dados em formato de tabela. O método nos permite agregar, analisar, visualizar rapidamente dados de um DataFrame.

Podemos construir uma pivot table a partir de:
 - De um index (Index)
 - Colunas de interesse (Columns)
 - Valores que queremos agregar (values)
 - Função agregadora (aggfunc)

*A partir de um pivot table é possível reconfigurar os dados de um DataFrame para descobrir a quantidade total de cada item vendido por cada vendedor de uma loja.

In [82]:
# Exemplo

vendas_mercado.pivot_table(index="City", columns=["Product line", "Gender"], values="Total", aggfunc="sum")

# Queremos saber a soma do faturamento por genêros dentro de cada linha de produto, separado por cidade.

Product line,Electronic accessories,Electronic accessories,Fashion accessories,Fashion accessories,Food and beverages,Food and beverages,Health and beauty,Health and beauty,Home and lifestyle,Home and lifestyle,Sports and travel,Sports and travel
Gender,Female,Male,Female,Male,Female,Male,Female,Male,Female,Male,Female,Male
City,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Mandalay,8166.5115,8884.932,9081.492,7331.8245,10509.996,4704.8925,6400.3485,13580.3115,9557.1315,7992.033,9212.8155,10775.3835
Naypyitaw,8969.2155,9999.759,11519.6865,10040.3835,15661.1595,8105.6955,6445.74,10169.586,7842.933,6052.62,11246.7285,4515.1995
Yangon,9966.2955,8350.818,9836.2215,6496.287,6999.762,10163.3385,5714.898,6882.855,12636.813,9780.3825,8115.177,11257.5225


## 9.3.3 Merge

pd.merge(df1, df2, on = "nome_da_coluna")

É utilizada para unir dois ou mais DataFrames com base em colunas ou índices em comum, ou seja, unir múltiplas fontes em um único DataFrame, permitindo análise e exploração abragente dos dados combinados.

*O método possibilita unir dois DataFrames que especificam o salário e a idade de uma pessoa em um único DataFrame com os dados de ambas as tabelas.

In [83]:
# Temos os salários e informações dos funcionários em uma planilha

salario_funcionarios = pd.read_excel("salario.xlsx")

#pd.read_excel pode ser usado para arquivos xlsx, ou seja arquivos excel salvos como tipo "Planilha do Microsoft Excel"

#testando o dataset
display(salario_funcionarios)

Unnamed: 0,Nome,Salário,Branch,Setor
0,Fabiano,6500,Rio de Janeiro,Financeiro
1,Maria,3682,São Paulo,Comercial
2,Julia,2088,São Paulo,Comercial
3,Arthur,5425,Rio de Janeiro,Financeiro
4,Carlos,2232,Rio de Janeiro,Financeiro
5,Marcos,4433,São Paulo,Comercial
6,Ana,6058,Rio de Janeiro,Financeiro
7,Luiza,2446,Rio de Janeiro,Comercial
8,Sofia,1964,Rio de Janeiro,Comercial
9,Sergio,2486,São Paulo,Comercial


In [84]:
# E demais informações pessoais em outra planilha 

informacoes_pessoais = pd.read_excel("informacoes_pessoais.xlsx")

#testando o dataset
display(informacoes_pessoais)

Unnamed: 0,Nome,Idade,Genero
0,Mariana,31,Feminino
1,Laura,32,Feminino
2,Luan,25,Masculino
3,Marcelo,24,Masculino
4,Gabriela,23,Feminino
5,Fabiano,33,Masculino
6,Maria,28,Feminino
7,Julia,25,Feminino
8,Arthur,31,Masculino
9,Carlos,21,Masculino


Note que as planilhas possuem em comum o nome dos funcionários

In [85]:
# Exemplo
pd.merge(salario_funcionarios, informacoes_pessoais, on= "Nome")

Unnamed: 0,Nome,Salário,Branch,Setor,Idade,Genero
0,Fabiano,6500,Rio de Janeiro,Financeiro,33,Masculino
1,Maria,3682,São Paulo,Comercial,28,Feminino
2,Julia,2088,São Paulo,Comercial,25,Feminino
3,Arthur,5425,Rio de Janeiro,Financeiro,31,Masculino
4,Carlos,2232,Rio de Janeiro,Financeiro,21,Masculino
5,Marcos,4433,São Paulo,Comercial,25,Masculino
6,Ana,6058,Rio de Janeiro,Financeiro,29,Feminino
7,Luiza,2446,Rio de Janeiro,Comercial,25,Feminino
8,Sofia,1964,Rio de Janeiro,Comercial,25,Feminino
9,Sergio,2486,São Paulo,Comercial,26,Masculino


## É também possível definir como os DataFrames serão unidos a partir de um parâmetro how: 

- how= ”inner”: Inclui apenas valores correspondentes em ambos os DataFrames;

- how= ”left”: Inclui todas as linhas do Data Frame da direita e apenas as linhas correspondentes do Data Frame da esquerda. Linhas não correspondentes são preenchidas com NaN;

- how= ”right”: Inclui todas as linhas do Data Frame da esquerda e apenas as linhas correspondentes do Data Frame da direita. Linhas não correspondentes são preenchidas com NaN;

- how= ”outer”: Inclui todas as linhas de ambos os DataFrames. Linhas não correspondentes são preenchidas com NaN.

In [86]:
# Exemplo -> Inner, inclui apenas valores correspondentes em ambos os DataFrames
pd.merge(salario_funcionarios, informacoes_pessoais, on= "Nome", how= "inner")

Unnamed: 0,Nome,Salário,Branch,Setor,Idade,Genero
0,Fabiano,6500,Rio de Janeiro,Financeiro,33,Masculino
1,Maria,3682,São Paulo,Comercial,28,Feminino
2,Julia,2088,São Paulo,Comercial,25,Feminino
3,Arthur,5425,Rio de Janeiro,Financeiro,31,Masculino
4,Carlos,2232,Rio de Janeiro,Financeiro,21,Masculino
5,Marcos,4433,São Paulo,Comercial,25,Masculino
6,Ana,6058,Rio de Janeiro,Financeiro,29,Feminino
7,Luiza,2446,Rio de Janeiro,Comercial,25,Feminino
8,Sofia,1964,Rio de Janeiro,Comercial,25,Feminino
9,Sergio,2486,São Paulo,Comercial,26,Masculino


In [87]:
# Exemplo -> Outer, inclui todos os valores disponíveis em ambos os DataFrames

pd.merge(salario_funcionarios, informacoes_pessoais, on= "Nome", how= "outer")

Unnamed: 0,Nome,Salário,Branch,Setor,Idade,Genero
0,Fabiano,6500.0,Rio de Janeiro,Financeiro,33,Masculino
1,Maria,3682.0,São Paulo,Comercial,28,Feminino
2,Julia,2088.0,São Paulo,Comercial,25,Feminino
3,Arthur,5425.0,Rio de Janeiro,Financeiro,31,Masculino
4,Carlos,2232.0,Rio de Janeiro,Financeiro,21,Masculino
5,Marcos,4433.0,São Paulo,Comercial,25,Masculino
6,Ana,6058.0,Rio de Janeiro,Financeiro,29,Feminino
7,Luiza,2446.0,Rio de Janeiro,Comercial,25,Feminino
8,Sofia,1964.0,Rio de Janeiro,Comercial,25,Feminino
9,Sergio,2486.0,São Paulo,Comercial,26,Masculino


In [88]:
# Exemplo -> right. Inclui todos os valores do dataframe a direita, aqueles não correspondentes são preenchidos com NaN

pd.merge(salario_funcionarios, informacoes_pessoais, on= "Nome", how= "right")

Unnamed: 0,Nome,Salário,Branch,Setor,Idade,Genero
0,Mariana,,,,31,Feminino
1,Laura,,,,32,Feminino
2,Luan,,,,25,Masculino
3,Marcelo,,,,24,Masculino
4,Gabriela,,,,23,Feminino
5,Fabiano,6500.0,Rio de Janeiro,Financeiro,33,Masculino
6,Maria,3682.0,São Paulo,Comercial,28,Feminino
7,Julia,2088.0,São Paulo,Comercial,25,Feminino
8,Arthur,5425.0,Rio de Janeiro,Financeiro,31,Masculino
9,Carlos,2232.0,Rio de Janeiro,Financeiro,21,Masculino


In [89]:
# Exemplo -> Left. Inclui todos os valores do dataframe a esquerda, aqueles não correspondentes são preenchidos com NaN

pd.merge(salario_funcionarios, informacoes_pessoais, on= "Nome", how= "left")

Unnamed: 0,Nome,Salário,Branch,Setor,Idade,Genero
0,Fabiano,6500,Rio de Janeiro,Financeiro,33,Masculino
1,Maria,3682,São Paulo,Comercial,28,Feminino
2,Julia,2088,São Paulo,Comercial,25,Feminino
3,Arthur,5425,Rio de Janeiro,Financeiro,31,Masculino
4,Carlos,2232,Rio de Janeiro,Financeiro,21,Masculino
5,Marcos,4433,São Paulo,Comercial,25,Masculino
6,Ana,6058,Rio de Janeiro,Financeiro,29,Feminino
7,Luiza,2446,Rio de Janeiro,Comercial,25,Feminino
8,Sofia,1964,Rio de Janeiro,Comercial,25,Feminino
9,Sergio,2486,São Paulo,Comercial,26,Masculino


## 9.3.4 Diff

Sendo muito útil para analisar a taxa de varição ou tendência de uma base de dados, a função retornará todas as variações entre uma linha e sua anterior para cada coluna do DataFrame. No caso de uma Series a função retornará apenas uma coluna.

In [90]:
# PIB do Brasil

pib = pd.read_excel("pib_brasil.xlsx")
display(pib)

Unnamed: 0,Período,PIB
0,1T2019,1756054
1,2T2019,1825143
2,3T2019,1880548
3,4T2019,1927386
4,1T2020,1873398
5,2T2020,1757517
6,3T2020,1929703
7,4T2020,2048979
8,1T2021,2152622
9,2T2021,2182049


In [91]:
# Exemplo

pib["PIB"].diff()

0          NaN
1      69089.0
2      55405.0
3      46838.0
4     -53988.0
5    -115881.0
6     172186.0
7     119276.0
8     103643.0
9      29427.0
10     72443.0
11     55072.0
12      6145.0
13    156128.0
14     71808.0
15     40481.0
16    -27595.0
17     94625.0
Name: PIB, dtype: float64

## periods = n

Para periods=1 (default) a função calcula a diferença entre a linha atual e a última linha, para periods=2 a função calcula a diferença entre a linha atual e a antepenúltima linha.

In [92]:
# Exemplo

pib["PIB"].diff(periods = 4)

0          NaN
1          NaN
2          NaN
3          NaN
4     117344.0
5     -67626.0
6      49155.0
7     121593.0
8     279224.0
9     424532.0
10    324789.0
11    260585.0
12    163087.0
13    289788.0
14    289153.0
15    274562.0
16    240822.0
17    179319.0
Name: PIB, dtype: float64

## 9.3.5 Pct_change

O método pct_change opera de maneira similar ao diff(), porém, ao invés de retornar valores absolutos, a função retorna a variação percentual entre valores consecutivos.

O método no auxilia a analisar o crescimento ou declínio relativo dos pontos de dados, especialmente em situações em que é importante compreender a taxa de mudança, tais como análises financeiras.

In [93]:
# Exemplo 

# Multiplicamos por 100 para termos os valores percentuais
pib["PIB"].pct_change()*100


0          NaN
1     3.934332
2     3.035653
3     2.490657
4    -2.801100
5    -6.185605
6     9.797117
7     6.181055
8     5.058275
9     1.367031
10    3.319953
11    2.442768
12    0.266068
13    6.742125
14    2.905046
15    1.591456
16   -1.067866
17    3.701305
Name: PIB, dtype: float64

In [94]:
# Também é possível utilizar periods = n

pib["PIB"].pct_change(periods = 4)*100

0           NaN
1           NaN
2           NaN
3           NaN
4      6.682255
5     -3.705244
6      2.613866
7      6.308700
8     14.904681
9     24.155214
10    16.831036
11    12.717797
12     7.576202
13    13.280545
14    12.825639
15    11.888045
16    10.399493
17     7.254483
Name: PIB, dtype: float64

## 9.3.6 Shift

Útil para análise de séries em função do tempo, cálculo de diferenças entre valores deslocados e execução de vários tipos de transformações de dados, a função shift() é usada para deslocar os valores de uma série ou DataFrame ao longo de um eixo específico, ou seja, movê-los para cima ou para baixo nas posições do índice.

In [95]:
# Exemplo: todos os valores do DataFrame são deslocados duas linhas abaixo

pib_shift = pib.shift(periods=2)

display(pib_shift)

Unnamed: 0,Período,PIB
0,,
1,,
2,1T2019,1756054.0
3,2T2019,1825143.0
4,3T2019,1880548.0
5,4T2019,1927386.0
6,1T2020,1873398.0
7,2T2020,1757517.0
8,3T2020,1929703.0
9,4T2020,2048979.0


## fillna()

Note que quando todos os valores são deslocados para baixo os valores do topo acabam por ficarem vazios. Desta forma, é possível definir um parâmetro fillna(value = n) que preenche valores vazios criados pelo deslocamento.

In [96]:
# pode fazer a busca dos valores vazios, para saber quantos precisam ser preenchidos

#isnull().sum()

print(pib_shift.isnull().sum())

Período    2
PIB        2
dtype: int64


In [97]:
# para alterar os valores para 0

pib_shift2 = pib_shift.fillna(value = 0)

pib_shift2.head()

Unnamed: 0,Período,PIB
0,0,0.0
1,0,0.0
2,1T2019,1756054.0
3,2T2019,1825143.0
4,3T2019,1880548.0


In [98]:
# Da mesma forma, pode se alterar para qualquer outro valor que desejar

pib_shift25 = pib_shift.fillna(value = 25)

pib_shift25.head()

Unnamed: 0,Período,PIB
0,25,25.0
1,25,25.0
2,1T2019,1756054.0
3,2T2019,1825143.0
4,3T2019,1880548.0
