Научимся группировать и аггрегировать данные

- Изучим как использовать [groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) в связке с [aggregate](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html)



In [1]:
import pandas as pd
import numpy as np

In [2]:
student_performance = pd.read_csv('data/StudentsPerformance.csv')

In [3]:
student_performance.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [4]:
student_performance.groupby('gender').mean()

Unnamed: 0_level_0,math score,reading score,writing score
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,63.633205,72.608108,72.467181
male,68.728216,65.473029,63.311203


In [5]:
student_performance.groupby('gender').aggregate(mean_math_score=('math score', 'mean'),
                                                mean_reading_score=('reading score', 'mean'))

Unnamed: 0_level_0,mean_math_score,mean_reading_score
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
female,63.633205,72.608108
male,68.728216,65.473029


In [6]:
# Если подавать значения для ключей в виде списка, то можно, 
# во-первых, выводить несколько статистик для одной переменной, 
# а, во-вторых, колонки будут иметь названия в соответствии со статистикой.

student_performance.groupby('gender', as_index=False).aggregate({'math score': ['mean', 'count', 'std'],
                                                                  'reading score': ['std', 'min', 'max']})

Unnamed: 0_level_0,gender,math score,math score,math score,reading score,reading score,reading score
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count,std,std,min,max
0,female,63.633205,518,15.491453,14.378245,17,100
1,male,68.728216,482,14.356277,13.931832,23,100


In [7]:
mean_score = student_performance.groupby(['gender', 'race/ethnicity'])\
    .aggregate(mean_math_score=('math score', 'mean'), mean_reading_score=('reading score', 'mean'))

In [8]:
mean_score

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_math_score,mean_reading_score
gender,race/ethnicity,Unnamed: 2_level_1,Unnamed: 3_level_1
female,group A,58.527778,69.0
female,group B,61.403846,71.076923
female,group C,62.033333,71.944444
female,group D,65.248062,74.046512
female,group E,70.811594,75.84058
male,group A,63.735849,61.735849
male,group B,65.930233,62.848837
male,group C,67.611511,65.42446
male,group D,69.413534,66.135338
male,group E,76.746479,70.295775


In [9]:
student_performance.groupby(['gender', 'race/ethnicity'], as_index=False)\
    .aggregate(mean_math_score=('math score', 'mean'), mean_reading_score=('reading score', 'mean'))

Unnamed: 0,gender,race/ethnicity,mean_math_score,mean_reading_score
0,female,group A,58.527778,69.0
1,female,group B,61.403846,71.076923
2,female,group C,62.033333,71.944444
3,female,group D,65.248062,74.046512
4,female,group E,70.811594,75.84058
5,male,group A,63.735849,61.735849
6,male,group B,65.930233,62.848837
7,male,group C,67.611511,65.42446
8,male,group D,69.413534,66.135338
9,male,group E,76.746479,70.295775


In [10]:
mean_score.loc[ [ ('female', 'group A'), ('female', 'group B') ] ]

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_math_score,mean_reading_score
gender,race/ethnicity,Unnamed: 2_level_1,Unnamed: 3_level_1
female,group A,58.527778,69.0
female,group B,61.403846,71.076923


In [11]:
student_performance.columns = student_performance.columns.str.replace(' ','_')

In [12]:
# уникальные значения
student_performance.math_score.unique()

array([ 72,  69,  90,  47,  76,  71,  88,  40,  64,  38,  58,  65,  78,
        50,  18,  46,  54,  66,  44,  74,  73,  67,  70,  62,  63,  56,
        97,  81,  75,  57,  55,  53,  59,  82,  77,  33,  52,   0,  79,
        39,  45,  60,  61,  41,  49,  30,  80,  42,  27,  43,  68,  85,
        98,  87,  51,  99,  84,  91,  83,  89,  22, 100,  96,  94,  48,
        35,  34,  86,  92,  37,  28,  24,  26,  95,  36,  29,  32,  93,
        19,  23,   8])

In [13]:
# число уникальных значений
student_performance.math_score.nunique()

81

In [14]:
student_performance.groupby(['gender', 'race/ethnicity']).math_score.nunique()

gender  race/ethnicity
female  group A           29
        group B           51
        group C           59
        group D           53
        group E           44
male    group A           38
        group B           43
        group C           56
        group D           49
        group E           38
Name: math_score, dtype: int64

In [16]:
student_performance.sort_values(['gender', 'math_score'], ascending=False)\
    .groupby('gender').head(5)

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
149,male,group E,associate's degree,free/reduced,completed,100,100,93
623,male,group A,some college,standard,completed,100,96,86
625,male,group D,some college,standard,completed,100,97,99
916,male,group E,bachelor's degree,standard,completed,100,100,100
306,male,group E,some college,standard,completed,99,87,81
451,female,group E,some college,standard,none,100,92,97
458,female,group E,bachelor's degree,standard,none,100,100,100
962,female,group E,associate's degree,standard,none,100,100,100
114,female,group E,bachelor's degree,standard,completed,99,100,100
263,female,group E,high school,standard,none,99,93,90


In [23]:
student_performance['total_score'] = student_performance.math_score + student_performance.reading_score + student_performance.writing_score

In [24]:
student_performance.math_score + student_performance.reading_score + student_performance.writing_score

0      218
1      247
2      278
3      148
4      229
      ... 
995    282
996    172
997    195
998    223
999    249
Length: 1000, dtype: int64

In [25]:
student_performance.total_score

0      218
1      247
2      278
3      148
4      229
      ... 
995    282
996    172
997    195
998    223
999    249
Name: total_score, Length: 1000, dtype: int64

In [26]:
student_performance = student_performance.assign(total_score_log = np.log(student_performance.total_score))

In [27]:
np.log(student_performance.total_score)

0      5.384495
1      5.509388
2      5.627621
3      4.997212
4      5.433722
         ...   
995    5.641907
996    5.147494
997    5.273000
998    5.407172
999    5.517453
Name: total_score, Length: 1000, dtype: float64

In [28]:
student_performance.head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score,total_score,total_score_log
0,female,group B,bachelor's degree,standard,none,72,72,74,218,5.384495
1,female,group C,some college,standard,completed,69,90,88,247,5.509388
2,female,group B,master's degree,standard,none,90,95,93,278,5.627621
3,male,group A,associate's degree,free/reduced,none,47,57,44,148,4.997212
4,male,group C,some college,standard,none,76,78,75,229,5.433722


In [29]:
student_performance.drop(['total_score'], axis=1)

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score,total_score_log
0,female,group B,bachelor's degree,standard,none,72,72,74,5.384495
1,female,group C,some college,standard,completed,69,90,88,5.509388
2,female,group B,master's degree,standard,none,90,95,93,5.627621
3,male,group A,associate's degree,free/reduced,none,47,57,44,4.997212
4,male,group C,some college,standard,none,76,78,75,5.433722
...,...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95,5.641907
996,male,group C,high school,free/reduced,none,62,55,55,5.147494
997,female,group C,high school,free/reduced,completed,59,71,65,5.273000
998,female,group D,some college,standard,completed,68,78,77,5.407172


In [30]:
# Можно просуммировать несколько колонок так (вдруг у нас 50 скоров?):
df = pd.read_csv('data/StudentsPerformance.csv')
df.filter(like = 'score').sum(axis=1)

0      218
1      247
2      278
3      148
4      229
      ... 
995    282
996    172
997    195
998    223
999    249
Length: 1000, dtype: int64

In [31]:
# C фильтром уже знакомы, а sum(axis=1) суммирует колонки построчно, а не строки по колонкам, 
# как стоит по умолчанию (axis=0, результатом этой операции стало бы):
df.filter(like = 'score').sum(axis=0)

math score       66089
reading score    69169
writing score    68054
dtype: int64

# Пример 

Пересчитаем число ног у героев игры Dota2! Сгруппируйте героев из датасэта по числу их ног (колонка legs), и заполните их число в задании ниже.

Данные взяты [отсюда](https://api.opendota.com/api/heroes), на этом же [сайте](https://www.opendota.com/) можно найти больше разнообразных данных по Dota2.

In [32]:
df = pd.read_csv('data/dota_hero_stats.csv')

In [33]:
df['legs'].value_counts().sort_index()

0    11
2    95
4     7
6     3
8     1
Name: legs, dtype: int64

In [34]:
df.groupby('legs').size()

legs
0    11
2    95
4     7
6     3
8     1
dtype: int64

In [35]:
df.aggregate({'legs': 'value_counts'}).sort_index()

Unnamed: 0,legs
0,11
2,95
4,7
6,3
8,1


# Пример
К нам поступили данные из бухгалтерии о заработках Лупы и Пупы за разные задачи! Посмотрите у кого из них больше средний заработок в различных категориях (колонка Type) и заполните таблицу, указывая исполнителя с большим заработком в каждой из категорий.

In [36]:
df2 = pd.read_csv('data/accountancy.csv')
df2.head()

Unnamed: 0.1,Unnamed: 0,Executor,Type,Salary
0,0,Pupa,D,63
1,1,Pupa,A,158
2,2,Pupa,D,194
3,3,Pupa,E,109
4,4,Loopa,E,184


In [37]:
df2.groupby(['Type','Executor']).mean().unstack()

Unnamed: 0_level_0,Unnamed: 0,Unnamed: 0,Salary,Salary
Executor,Loopa,Pupa,Loopa,Pupa
Type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,46.0,16.0,58.0,160.833333
B,24.0,41.0,145.166667,77.0
C,31.666667,23.0,154.333333,74.5
D,31.857143,14.0,137.714286,146.5
E,23.5,19.8,164.0,131.2
F,20.0,25.75,238.0,136.25


### Пояснение 
группируем по Type и берем первую запись из каждой группы. В pandas группировка сохраняет тот порядок, в котором шли строки в исходном DataFrame-е. Т.е. если на прошлом шаге была сделана сортировка, то её порядок после группировки сохранится. Сортировка была в порядке убывания Salary => в первой строке в разрезе Type всегда будет максимум.
Поэтому достаточно из каждой группы просто взять первую строку, что и делается методом head.

In [38]:
df2.drop('Unnamed: 0', axis=1) \
   .groupby(['Type', 'Executor'], as_index=False) \
   .mean() \
   .sort_values(['Type', 'Salary'], ascending=[True, False]) \
   .groupby('Type') \
   .head(1)

Unnamed: 0,Type,Executor,Salary
1,A,Pupa,160.833333
2,B,Loopa,145.166667
4,C,Loopa,154.333333
7,D,Pupa,146.5
8,E,Loopa,164.0
10,F,Loopa,238.0


# Вопрос 
Продолжим исследование героев Dota2. Сгруппируйте по колонкам attack_type и primary_attr и выберите самый распространённый набор характеристик.

In [39]:
df = pd.read_csv('data/dota_hero_stats.csv')

In [40]:
df.head()

Unnamed: 0.1,Unnamed: 0,attack_type,id,legs,localized_name,name,primary_attr,roles
0,0,Melee,1,2,Anti-Mage,npc_dota_hero_antimage,agi,"['Carry', 'Escape', 'Nuker']"
1,1,Melee,2,2,Axe,npc_dota_hero_axe,str,"['Initiator', 'Durable', 'Disabler', 'Jungler']"
2,2,Ranged,3,4,Bane,npc_dota_hero_bane,int,"['Support', 'Disabler', 'Nuker', 'Durable']"
3,3,Melee,4,2,Bloodseeker,npc_dota_hero_bloodseeker,agi,"['Carry', 'Disabler', 'Jungler', 'Nuker', 'Ini..."
4,4,Ranged,5,2,Crystal Maiden,npc_dota_hero_crystal_maiden,int,"['Support', 'Disabler', 'Nuker', 'Jungler']"


In [41]:
df.groupby(['attack_type', 'primary_attr']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,id,legs,localized_name,name,roles
attack_type,primary_attr,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Melee,agi,19,19,19,19,19,19
Melee,int,2,2,2,2,2,2
Melee,str,35,35,35,35,35,35
Ranged,agi,18,18,18,18,18,18
Ranged,int,40,40,40,40,40,40
Ranged,str,3,3,3,3,3,3


In [42]:
df.groupby(['attack_type', 'primary_attr']).agg({'id': 'count'}).sort_values('id', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,id
attack_type,primary_attr,Unnamed: 2_level_1
Ranged,int,40
Melee,str,35
Melee,agi,19
Ranged,agi,18
Ranged,str,3
Melee,int,2


In [43]:
df.filter(items=['attack_type','primary_attr']).mode()

Unnamed: 0,attack_type,primary_attr
0,Ranged,int


# Задание 
Аспирант Ростислав изучает метаболом водорослей и получил такую табличку. В ней он записал вид каждой водоросли, её род (группа, объединяющая близкие виды), группа (ещё одно объединение водорослей в крупные фракции) и концентрации анализируемых веществ.

Помогите Ростиславу найти среднюю концентрацию каждого из веществ в каждом из родов (колонка genus)! Для этого проведите группировку датафрэйма, сохранённого в переменной concentrations, и примените метод, сохранив результат в переменной mean_concentrations.

In [44]:
concentrations = pd.read_csv('data/algae.csv')
concentrations.head()

Unnamed: 0,species,genus,group,sucrose,alanin,citrate,glucose,oleic_acid
0,Fucus_vesiculosus,Fucus,brown,3.001472,3.711498,5.004262,2.548459,6.405165
1,Saccharina_japonica,Saccharina,brown,6.73107,1.255251,5.621499,6.013219,4.1567
2,Fucus_serratus,Fucus,brown,3.27687,0.346431,1.216767,3.623225,0.304573
3,Fucus_distichus,Fucus,brown,6.786996,6.641303,6.423606,2.272724,3.393203
4,Cladophora_fracta,Cladophora,green,3.86147,1.64845,6.940588,2.316955,2.528886


In [45]:
mean_concentrations = concentrations.groupby('genus').mean()

In [46]:
mean_concentrations

Unnamed: 0_level_0,sucrose,alanin,citrate,glucose,oleic_acid
genus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ascophyllum,6.825467,0.875429,5.253527,3.414961,2.432526
Cladophora,4.008792,3.997055,5.288311,2.800276,2.263472
Fucus,4.355112,3.566411,4.214878,2.814803,3.367647
Palmaria,0.70458,3.17644,5.573905,3.24209,2.245538
Saccharina,4.183596,3.524207,3.34671,4.980594,4.487252


## Вопрос
Пользуясь предыдущими данными, укажите через пробел (без запятых) чему равны минимальная, средняя и максимальная концентрации аланина (alanin) среди видов рода Fucus. Округлите до 2-ого знака, десятичным разделителем является точка.

In [47]:
concentrations.groupby('genus').aggregate({'alanin': ['min', 'mean', 'max']}).style.format("{:.3}")

Unnamed: 0_level_0,alanin,alanin,alanin
Unnamed: 0_level_1,min,mean,max
genus,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Ascophyllum,0.875,0.875,0.875
Cladophora,1.65,4.0,6.88
Fucus,0.346,3.57,6.64
Palmaria,3.18,3.18,3.18
Saccharina,1.26,3.52,5.79


In [48]:
concentrations.groupby('genus').agg(['min', 'mean', 'max']).loc['Fucus', 'alanin'].round(2)

min     0.35
mean    3.57
max     6.64
Name: Fucus, dtype: float64

In [49]:
concentrations.query('genus == "Fucus"').describe().loc[['min','mean','max'],['alanin']].round(2)

Unnamed: 0,alanin
min,0.35
mean,3.57
max,6.64


In [50]:
concentrations.query("genus == 'Fucus'")['alanin'].describe().round(2)

count    3.00
mean     3.57
std      3.15
min      0.35
25%      2.03
50%      3.71
75%      5.18
max      6.64
Name: alanin, dtype: float64

In [51]:
'{min} {mean} {max}'.format(
    **concentrations.loc[concentrations.genus == 'Fucus', 'alanin'] \
        .agg(['min', 'mean', 'max']) \
        .round(2)
)

'0.35 3.57 6.64'

## Вопрос
Сгруппируйте данные по переменной group и соотнесите вопросы с ответами

Размах (максимум - минимум) сахарозы в бурых, зелёных и красных водорослях -- 5.19, 3.26, 0

Число видов бурых, зелёных и красных водорослей -- 6, 3, 1

Дисперсия концентрации цитрата в бурых, зелёных и красных водорослях -- 5.47, 3.95, NaN 

In [52]:
concentrations.groupby('group').describe()

Unnamed: 0_level_0,sucrose,sucrose,sucrose,sucrose,sucrose,sucrose,sucrose,sucrose,alanin,alanin,...,glucose,glucose,oleic_acid,oleic_acid,oleic_acid,oleic_acid,oleic_acid,oleic_acid,oleic_acid,oleic_acid
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
brown,6.0,4.709666,2.336471,1.636122,3.070321,5.00397,6.773014,6.825467,6.0,3.103846,...,3.866782,6.013219,6.0,3.584995,2.094095,0.304573,2.672695,3.774952,4.652528,6.405165
green,3.0,4.008792,1.634817,2.452623,3.157047,3.86147,4.786877,5.712284,3.0,3.997055,...,3.041936,3.343707,3.0,2.263472,0.735111,1.432514,1.9807,2.528886,2.678951,2.829016
red,1.0,0.70458,,0.70458,0.70458,0.70458,0.70458,0.70458,1.0,3.17644,...,3.24209,3.24209,1.0,2.245538,,2.245538,2.245538,2.245538,2.245538,2.245538


In [53]:
concentrations.groupby('group').aggregate({"species":'nunique', 'citrate':'var','sucrose': np.ptp})

Unnamed: 0_level_0,species,citrate,sucrose
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
brown,6,5.468942,5.189345
green,3,3.950113,3.259662
red,1,,0.0


In [54]:
concentrations.groupby('group') \
.agg({'citrate': 'var', 'sucrose': lambda x: x.max() - x.min(), 'species': 'count'}) \
.round(2)

Unnamed: 0_level_0,citrate,sucrose,species
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
brown,5.47,5.19,6
green,3.95,3.26,3
red,,0.0,1
