### 3.3. Основные функции агрегации и группировки данных
* Применение функций к данным
* Вычисление среднего, медианы, минимального и максимального значения
* Группировка данных по определенному столбцу и применение агрегирующих функций к этим группам

Задача: Применить группировку к датасету по определенному признаку и подсчитать статистику по другим столбцам в каждой группе.

In [17]:
import pandas as pd
# Загрузка CSV файла в DataFrame.
# Используем сохраненный в предыдущем примере датасет, указываем, что первый столбец является индексом
df = pd.read_csv('train_dataset.csv', encoding = 'utf-8', sep = ',', index_col=0)


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 227 entries, 0 to 226
Data columns (total 22 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Страна                             227 non-null    object 
 1   Регион                             227 non-null    object 
 2   Численность                        227 non-null    int64  
 3   Площадь (sq. mi.)                  227 non-null    int64  
 4   Плотность населения (per sq. mi.)  227 non-null    float64
 5   Длина побережья к общей площади    227 non-null    float64
 6   Миграция                           224 non-null    float64
 7   Детская смертность                 224 non-null    float64
 8   ВВП на душу населения              226 non-null    float64
 9   Грамотность(%)                     209 non-null    float64
 10  Телефонов (на 1000)                223 non-null    float64
 11  пахотные земли (%)                 225 non-null    float64
 12 

### Применение функций к данным:

In [19]:
#Для преобразование населения в миллионы, создадим новый столбец, применив функцию к существующему
df['Численность в млн'] = df['Численность'].apply(lambda x: x / 1e6)
df[['Страна','Численность','Численность в млн']]

Unnamed: 0,Страна,Численность,Численность в млн
0,Afghanistan,31056997,31.056997
1,Albania,3581655,3.581655
2,Algeria,32930091,32.930091
3,American Samoa,57794,0.057794
4,Andorra,71201,0.071201
...,...,...,...
222,West Bank,2460492,2.460492
223,Western Sahara,273008,0.273008
224,Yemen,21456188,21.456188
225,Zambia,11502010,11.502010


### Вычисление среднего, медианы, минимального и максимального значения

Pandas имеет удобные методы для вычисления статистических показателей. Например, для вычисления среднего значения столбца, используйте метод .mean():

In [20]:
# Среднее значение численности населения
mean_population = df['Численность'].mean()
print('Среднее значение численности населения:', mean_population.round(2))


Среднее значение численности населения: 28740284.37


Метод .median() используется для вычисления медианы, .min() и .max() - для минимального и максимального значений соответственно:

In [22]:
# Медианное значение ВВП на душу населения
median_gdp = df['ВВП на душу населения'].median()
print('Медианное значение ВВП на душу населения:', median_gdp)

# Минимальное значение грамотности
min_literacy = df['Грамотность(%)'].min()
print('Минимальное значение грамотности:', min_literacy)

# Максимальное значение плотности населения
max_density = df['Плотность населения(на кв.км)'].max()
print('Максимальное значение плотности населения:', max_density)


Медианное значение ВВП на душу населения: 5550.0
Минимальное значение грамотности: 17.6
Максимальное значение плотности населения: 42143.185


### Группировка данных по определенному столбцу и применение агрегирующих функций

Pandas предоставляет метод .groupby() для группировки данных по определенному столбцу:

In [23]:
# Среднее значение ВВП на душу населения по регионам
mean_gdp_per_capita = df.groupby('Регион')['ВВП на душу населения'].mean()
print(mean_gdp_per_capita.round(2))

Регион
ex-USSR               4000.00
Азия                  8053.57
Ближний Восток       10456.25
ВОСТОЧНАЯ ЕВРОПА      9808.33
Западная Европа      27046.43
Латинская Америка     8682.22
ОКЕАНИЯ               8247.62
Прибалтика           11300.00
СЕВЕРНАЯ АФРИКА       5460.00
Северная Америка     26100.00
Южная Африка          2323.53
Name: ВВП на душу населения, dtype: float64


In [24]:
# Группировка данных по региону и вычисление средней численности населения в каждом регионе
grouped = df.groupby('Регион')['Численность в млн'].agg(['mean', 'median'])
print(grouped)


                         mean     median
Регион                                  
ex-USSR             23.340129   7.641217
Азия               131.713651  26.336503
Ближний Восток      12.191774   3.488139
ВОСТОЧНАЯ ЕВРОПА     9.992893   6.412407
Западная Европа     14.155000   4.921096
Латинская Америка   12.484991   1.065842
ОКЕАНИЯ              1.577698   0.114689
Прибалтика           2.394991   2.274735
СЕВЕРНАЯ АФРИКА     26.901189  21.552552
Северная Америка    66.334461   0.065773
Южная Африка        14.694843   8.090068
