# Создание и удаление новых колонок датафреймов.
Теперь научимся создавать новые колонки датафреймов Pandas.

In [33]:
import pandas as pd
import numpy as np
students_performance = pd.read_csv("../../../Datasets/StudentsPerformance.csv")
students_performance.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


Например, хотим добавить переменную **total_score**, которая сохраняет общую успеваемость студентов:

In [34]:
students_performance["total_score"] = students_performance["math score"] + students_performance["reading score"] + students_performance["writing score"]
students_performance["total_score"]

0      218
1      247
2      278
3      148
4      229
      ... 
995    282
996    172
997    195
998    223
999    249
Name: total_score, Length: 1000, dtype: int64

In [35]:
students_performance.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score,total_score
0,female,group B,bachelor's degree,standard,none,72,72,74,218
1,female,group C,some college,standard,completed,69,90,88,247
2,female,group B,master's degree,standard,none,90,95,93,278
3,male,group A,associate's degree,free/reduced,none,47,57,44,148
4,male,group C,some college,standard,none,76,78,75,229


Такой способ хорош, однако позволяет сделать только одну колонку. Для более сложных преобразований с множественным созданием колонок есть метод **assign()**:
<br>Docs: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.assign.html

In [36]:
students_performance = students_performance.assign(total_score_log = np.log(students_performance.total_score))
students_performance.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score,total_score,total_score_log
0,female,group B,bachelor's degree,standard,none,72,72,74,218,5.384495
1,female,group C,some college,standard,completed,69,90,88,247,5.509388
2,female,group B,master's degree,standard,none,90,95,93,278,5.627621
3,male,group A,associate's degree,free/reduced,none,47,57,44,148,4.997212
4,male,group C,some college,standard,none,76,78,75,229,5.433722


### Удаление колонок.
Колонок насоздавали, а теперь научимся из удалять.

In [37]:
students_performance.drop(["total_score", "lunch"], axis=1) 
#axis=1 - удаление колонки, axis=0 - строки

Unnamed: 0,gender,race/ethnicity,parental level of education,test preparation course,math score,reading score,writing score,total_score_log
0,female,group B,bachelor's degree,none,72,72,74,5.384495
1,female,group C,some college,completed,69,90,88,5.509388
2,female,group B,master's degree,none,90,95,93,5.627621
3,male,group A,associate's degree,none,47,57,44,4.997212
4,male,group C,some college,none,76,78,75,5.433722
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,completed,88,99,95,5.641907
996,male,group C,high school,none,62,55,55,5.147494
997,female,group C,high school,completed,59,71,65,5.273000
998,female,group D,some college,completed,68,78,77,5.407172


## Практические задания

№1: Пересчитаем число ног у героев игры Dota2! Сгруппируйте героев из датасэта по числу их ног (колонка legs), и заполните их число в задании ниже.
<br>Название датасета: dota_hero_stats.csv

In [38]:
dota_heroes = pd.read_csv("../../../Datasets/dota_hero_stats.csv")
legs_df = dota_heroes.groupby("legs")["id"].nunique()
legs_df

legs
0    11
2    95
4     7
6     3
8     1
Name: id, dtype: int64

№2: К нам поступили данные из бухгалтерии о заработках Лупы и Пупы за разные задачи! Посмотрите у кого из них больше средний заработок в различных категориях (колонка Type) и заполните таблицу, указывая исполнителя с большим заработком в каждой из категорий.

In [39]:
accountancy = pd.read_csv("../../../Datasets/accountancy.csv")
accountancy.head()

Unnamed: 0.1,Unnamed: 0,Executor,Type,Salary
0,0,Pupa,D,63
1,1,Pupa,A,158
2,2,Pupa,D,194
3,3,Pupa,E,109
4,4,Loopa,E,184


In [40]:
means = accountancy.groupby(["Type", "Executor"]).aggregate({"Salary": "mean"})
means

Unnamed: 0_level_0,Unnamed: 1_level_0,Salary
Type,Executor,Unnamed: 2_level_1
A,Loopa,58.0
A,Pupa,160.833333
B,Loopa,145.166667
B,Pupa,77.0
C,Loopa,154.333333
C,Pupa,74.5
D,Loopa,137.714286
D,Pupa,146.5
E,Loopa,164.0
E,Pupa,131.2


№3: Продолжим исследование героев Dota2. Сгруппируйте по колонкам attack_type и primary_attr и выберите самый распространённый набор характеристик.

In [41]:
attack_types = dota_heroes\
    .groupby(["attack_type", "primary_attr"])["id"]\
    .nunique()
attack_types

attack_type  primary_attr
Melee        agi             19
             int              2
             str             35
Ranged       agi             18
             int             40
             str              3
Name: id, dtype: int64

№4: Пользуясь данными *algae.csv*, укажите через пробел (без запятых) чему равны минимальная, средняя и максимальная концентрации аланина (alanin) среди видов рода Fucus. Округлите до 2-ого знака, десятичным разделителем является точка.

In [42]:
algae = pd.read_csv("../../../Datasets/algae.csv")
algae.head()

Unnamed: 0,species,genus,group,sucrose,alanin,citrate,glucose,oleic_acid
0,Fucus_vesiculosus,Fucus,brown,3.001472,3.711498,5.004262,2.548459,6.405165
1,Saccharina_japonica,Saccharina,brown,6.73107,1.255251,5.621499,6.013219,4.1567
2,Fucus_serratus,Fucus,brown,3.27687,0.346431,1.216767,3.623225,0.304573
3,Fucus_distichus,Fucus,brown,6.786996,6.641303,6.423606,2.272724,3.393203
4,Cladophora_fracta,Cladophora,green,3.86147,1.64845,6.940588,2.316955,2.528886


In [49]:
mean_f = algae.groupby("genus").mean().loc[["Fucus"], ["alanin"]]
min_f  = algae.groupby("genus").min().loc[["Fucus"], ["alanin"]]
max_f  = algae.groupby("genus").max().loc[["Fucus"], ["alanin"]]

print(mean_f, min_f, max_f)

         alanin
genus          
Fucus  3.566411          alanin
genus          
Fucus  0.346431          alanin
genus          
Fucus  6.641303


  mean_f = algae.groupby("genus").mean().loc[["Fucus"], ["alanin"]]
