# Funções de agregação
- **mean():** média dos valores
- **sum():** soma dos valores
- **count():** número de valores não nulos
- **min():** valor mínimo
- **max():** valor máximo
- **std():** desvio padrão dos valores
- **var():** variância dos valores
- **median():** mediana dos valores em uma série ou dataframe
- **quantile():** encontra o valor do quantil para uma série ou dataframe

In [3]:
#importando biblioteca
import pandas as pd
fastfood = pd.read_excel('fastfood.xlsx')

#printando valores com as funções de agregação
print(f"count: {fastfood['protein'].count()}")
print(f"max: {fastfood['protein'].max()}")
print(f"min: {fastfood['protein'].min()}")
print(f"mean: {fastfood['protein'].mean()}")
print(f"std: {fastfood['protein'].std()}")
print(f"var: {fastfood['protein'].var()}")

#mediana de todas as colunas
fastfood.median(numeric_only= True)

#mediana e quantil de uma coluna em específico
print(f"median: {fastfood['protein'].median()}")
print(f"quantile: {fastfood['protein'].quantile(0)}") # é o mesmo que o min()
print(f"quantile: {fastfood['protein'].quantile(0.25)}")
print(f"quantile: {fastfood['protein'].quantile()}") # é o mesmo que a median()
print(f"quantile: {fastfood['protein'].quantile(0.75)}")
print(f"quantile: {fastfood['protein'].quantile(1)}") # é o mesmo que o max()



count: 514
max: 186.0
min: 1.0
mean: 27.891050583657588
std: 17.683920672636788
var: 312.72105035611077
median: 24.5
quantile: 1.0
quantile: 16.0
quantile: 24.5
quantile: 36.0
quantile: 186.0


## Describe
Gera estatisticas descritivas para uma série ou dataframe, incluindo a contagem, média, desvio padrão, valor mínimo e máximo e quartis. 

In [4]:
fastfood.describe().round(1)

Unnamed: 0,calories,cal_fat,total_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium
count,515.0,515.0,515.0,515.0,515.0,515.0,503.0,515.0,514.0,301.0,305.0,305.0
mean,530.9,238.8,26.6,72.5,1246.7,45.7,4.1,7.3,27.9,18.9,20.2,24.9
std,282.4,166.4,18.4,63.2,690.0,24.9,3.0,6.8,17.7,31.4,30.6,25.5
min,20.0,0.0,0.0,0.0,15.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
25%,330.0,120.0,14.0,35.0,800.0,28.5,2.0,3.0,16.0,4.0,4.0,8.0
50%,490.0,210.0,23.0,60.0,1110.0,44.0,3.0,6.0,24.5,10.0,10.0,20.0
75%,690.0,310.0,35.0,95.0,1550.0,57.0,5.0,9.0,36.0,20.0,30.0,30.0
max,2430.0,1270.0,141.0,805.0,6080.0,156.0,17.0,87.0,186.0,180.0,400.0,290.0


# Group By
Permite agrupar dados de um dataframe com base em uma ou mais colunas e, em seguida, aplicar funções de agregação a esses grupos. **Ele é especialmente útil para analisar grandes conjuntos de dados**
É possível utilizar qualquer uma das funções de agregação e também aplicá-las sobre todas as colunas.

In [7]:
# média de calorias por restaurante
fastfood.groupby('restaurant')[['calories']].mean()


Unnamed: 0_level_0,calories
restaurant,Unnamed: 1_level_1
Arbys,532.727273
Burger King,608.571429
Chick Fil-A,384.444444
Dairy Queen,520.238095
Mcdonalds,640.350877
Sonic,631.698113
Subway,503.020833
Taco Bell,443.652174


In [13]:
# media de todas as colunas por restaurante
fastfood.groupby('restaurant').median(numeric_only= True)

Unnamed: 0_level_0,calories,cal_fat,total_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium
restaurant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Arbys,550.0,250.0,28.0,65.0,1480.0,46.0,2.0,6.0,29.0,6.0,10.0,15.0
Burger King,555.0,285.0,31.5,85.0,1150.0,41.0,2.0,7.5,29.0,,,
Chick Fil-A,390.0,126.0,14.0,70.0,1000.0,29.0,1.0,4.0,29.0,2.0,8.0,8.0
Dairy Queen,485.0,220.0,24.5,60.0,1030.0,34.0,2.0,6.0,23.0,10.0,4.0,10.0
Mcdonalds,540.0,240.0,27.0,95.0,1120.0,46.0,3.0,9.0,33.0,6.0,15.0,15.0
Sonic,570.0,290.0,32.0,80.0,1250.0,44.0,2.0,7.0,30.0,6.0,6.0,15.0
Subway,460.0,137.5,15.0,50.0,1130.0,47.0,5.0,8.0,26.0,16.0,40.0,35.0
Taco Bell,420.0,180.0,20.0,35.0,960.0,44.0,5.0,4.0,16.0,12.5,4.0,25.0


## Group By - agg()
- É uma função que permite aplicar várias funções de agregação a uma coluna ou um conjunto de colunas em um dataframe. É usada frequentemente em conjunto com o **groupby()**.

In [16]:
# soma e valor máximo das calorias por restaurante
fastfood.groupby('restaurant').agg({'calories': ['sum', 'max']})

Unnamed: 0_level_0,calories,calories
Unnamed: 0_level_1,sum,max
restaurant,Unnamed: 1_level_2,Unnamed: 2_level_2
Arbys,29300,1030
Burger King,42600,1550
Chick Fil-A,10380,970
Dairy Queen,21850,1260
Mcdonalds,36500,2430
Sonic,33480,1350
Subway,48290,1160
Taco Bell,51020,880


# Ordenação
**sort_values()** é uma função que permite ordenar um dataframe com base em uma ou mais colunas. Essa função é útil para organizar dados em ordem crescente ou decrescente para facilitar a análise e interpretação. 
É possível especificar mais de uma coluna, para ordenar de forma decrescente utilize **ascending = False**

In [19]:
fastfood.sort_values('calories')


Unnamed: 0,restaurant,item,calories,cal_fat,total_fat,sat_fat,trans_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium,salad
187,Arbys,Chopped Side Salad,70,45,5,2023-05-02 00:00:00,0,15,100,4,1.0,2,5.0,35.0,10.0,10.0,Other
186,Arbys,Turkey 'n Cheese Slider,200,60,7,2023-05-02 00:00:00,0,25,760,21,1.0,2,14.0,,,,Other
182,Arbys,Ham 'n Cheese Slider,210,70,8,3,0,25,780,21,1.0,2,13.0,,,,Other
181,Arbys,Corned Beef 'n Cheese Slider,220,80,9,2023-05-03 00:00:00,0,30,890,21,1.0,1,14.0,,,,Other
190,Arbys,Roast Turkey Farmhouse Salad,230,120,13,7,0,55,870,8,2.0,5,22.0,60.0,20.0,25.0,Other
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
510,Taco Bell,Spicy Triple Double Crunchwrap,780,340,38,10,0.5,50,1850,87,9.0,8,23.0,20.0,10.0,25.0,Other
512,Taco Bell,Fiesta Taco Salad-Beef,780,380,42,10,1,60,1340,74,11.0,7,26.0,,,,Other
432,Taco Bell,XXL Grilled Stuft Burrito - Steak,820,320,36,12,1,70,2020,91,10.0,7,33.0,,,,Other
431,Taco Bell,XXL Grilled Stuft Burrito - Chicken,830,320,35,11,0,85,1940,91,10.0,6,37.0,,,,Other


In [20]:
# especificando duas colunas
fastfood.sort_values(['restaurant', 'calories'])

Unnamed: 0,restaurant,item,calories,cal_fat,total_fat,sat_fat,trans_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium,salad
187,Arbys,Chopped Side Salad,70,45,5,2023-05-02 00:00:00,0,15,100,4,1.0,2,5.0,35.0,10.0,10.0,Other
186,Arbys,Turkey 'n Cheese Slider,200,60,7,2023-05-02 00:00:00,0,25,760,21,1.0,2,14.0,,,,Other
182,Arbys,Ham 'n Cheese Slider,210,70,8,3,0,25,780,21,1.0,2,13.0,,,,Other
181,Arbys,Corned Beef 'n Cheese Slider,220,80,9,2023-05-03 00:00:00,0,30,890,21,1.0,1,14.0,,,,Other
190,Arbys,Roast Turkey Farmhouse Salad,230,120,13,7,0,55,870,8,2.0,5,22.0,60.0,20.0,25.0,Other
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
510,Taco Bell,Spicy Triple Double Crunchwrap,780,340,38,10,0.5,50,1850,87,9.0,8,23.0,20.0,10.0,25.0,Other
512,Taco Bell,Fiesta Taco Salad-Beef,780,380,42,10,1,60,1340,74,11.0,7,26.0,,,,Other
432,Taco Bell,XXL Grilled Stuft Burrito - Steak,820,320,36,12,1,70,2020,91,10.0,7,33.0,,,,Other
431,Taco Bell,XXL Grilled Stuft Burrito - Chicken,830,320,35,11,0,85,1940,91,10.0,6,37.0,,,,Other


In [21]:
# especificando valor decrescente
fastfood.sort_values('calories', ascending=False)

Unnamed: 0,restaurant,item,calories,cal_fat,total_fat,sat_fat,trans_fat,cholesterol,sodium,total_carb,fiber,sugar,protein,vit_a,vit_c,calcium,salad
39,Mcdonalds,20 piece Buttermilk Crispy Chicken Tenders,2430,1270,141,24,2,475,6080,103,2.0,3,186.0,0.0,2.0,8.0,Other
44,Mcdonalds,40 piece Chicken McNuggets,1770,960,107,18,0.5,295,3370,105,7.0,1,98.0,0.0,15.0,6.0,Other
47,Mcdonalds,10 piece Sweet N' Spicy Honey BBQ Glazed Tenders,1600,600,66,10,0,265,4450,156,5.0,87,97.0,8.0,40.0,10.0,Other
192,Burger King,American Brewhouse King,1550,1134,126,47,8,805,1820,21,3.0,7,134.0,,,,Other
38,Mcdonalds,12 piece Buttermilk Crispy Chicken Tenders,1510,790,88,15,1,295,3770,64,1.0,2,115.0,0.0,2.0,6.0,Other
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
127,Sonic,Ultimate Chicken Club,100,580,64,15,0.5,100,2070,65,4.0,12,39.0,15.0,8.0,30.0,Other
72,Chick Fil-A,4 Piece Grilled Chicken Nuggets,70,18,2,1,0,35,220,1,0.0,0,13.0,0.0,6.0,0.0,Other
187,Arbys,Chopped Side Salad,70,45,5,2023-05-02 00:00:00,0,15,100,4,1.0,2,5.0,35.0,10.0,10.0,Other
392,Subway,Veggie Delite Salad,50,10,1,0,0,0,65,9,4.0,4,3.0,25.0,45.0,4.0,Other


# Combinação de dataframes
A função **concat()** permite concatenar dataframes ao longo de um eixo especifico (linhas ou colunas) e pode ser usada para combinar dataframes que possuem as mesmas colunas
- é possível passar o parâmetro **ignore_index=True** para ajustar os índices
- para concatenar dataframes horizontalmente (ao longo das colunas), utilizamos o parâmetro **axis=1**

In [30]:
df1 = pd.DataFrame({'produto': ['relogio', 'pulseira', 'anel', 'brinco'],
                    'loja': ['cea', 'renner', 'pernambucanas', 'riachuelo'],
                    'valor': [45, 56, 8, 30]})

df2 = pd.DataFrame({'produto': ['bolsa', 'sapato'],
                    'loja': ['cea', 'renner'],
                    'valor': [100, 40]})

df3 = pd.DataFrame({'cidade': ['salvador', 'rio de janeiro'],
                    'loja': ['pernambucanas', 'cea']})

# sem usar o parametro de index
pd.concat([df1, df2])


Unnamed: 0,produto,loja,valor
0,relogio,cea,45
1,pulseira,renner,56
2,anel,pernambucanas,8
3,brinco,riachuelo,30
0,bolsa,cea,100
1,sapato,renner,40


In [31]:

#usando parametro ignore index
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,produto,loja,valor
0,relogio,cea,45
1,pulseira,renner,56
2,anel,pernambucanas,8
3,brinco,riachuelo,30
4,bolsa,cea,100
5,sapato,renner,40


In [32]:
# usando o parametro axis para concatenar horizontalmente
pd.concat([df1, df3], axis=1)

Unnamed: 0,produto,loja,valor,cidade,loja.1
0,relogio,cea,45,salvador,pernambucanas
1,pulseira,renner,56,rio de janeiro,cea
2,anel,pernambucanas,8,,
3,brinco,riachuelo,30,,


# Merge (join)
o **merge()** ou join permite combinar dois ou mais dataframes com base em uma ou mais colunas comuns chamadas chaves

In [33]:
df1.merge(df3, on='loja', how='left')

Unnamed: 0,produto,loja,valor,cidade
0,relogio,cea,45,rio de janeiro
1,pulseira,renner,56,
2,anel,pernambucanas,8,salvador
3,brinco,riachuelo,30,


A combinação pode ser feita em diferentes modos:

**Inner Join:** apenas as linhas em que há correspondência em ambas as tabelas.
**Left Join:** todas as linhas da tabela esquerda e as linhas correspondentes da tabela direita.
**Right Join:** todas as linhas da tabela direita e as linhas correspondentes da tabela esquerda.
**Outer Join:** Retorna todas as linhas de ambas as tabelas.


In [34]:
# left join
df1.merge(df3, on='loja', how='left')

Unnamed: 0,produto,loja,valor,cidade
0,relogio,cea,45,rio de janeiro
1,pulseira,renner,56,
2,anel,pernambucanas,8,salvador
3,brinco,riachuelo,30,


In [35]:
#inner join
df1.merge(df3, on='loja', how='inner')

Unnamed: 0,produto,loja,valor,cidade
0,relogio,cea,45,rio de janeiro
1,anel,pernambucanas,8,salvador


In [37]:
# outer join
df1.merge(df3, on='loja', how='outer')

Unnamed: 0,produto,loja,valor,cidade
0,relogio,cea,45,rio de janeiro
1,pulseira,renner,56,
2,anel,pernambucanas,8,salvador
3,brinco,riachuelo,30,


In [38]:
#right join
df1.merge(df3, on='loja', how='right')

Unnamed: 0,produto,loja,valor,cidade
0,anel,pernambucanas,8,salvador
1,relogio,cea,45,rio de janeiro
