# Основы анализа данных в Python

*Алла Тамбовцева*

## Практикум 2. Описательные статистики, группировка и агрегирование данных с `pandas`


В этом практикуме предлагается поработать с данными из части C демонстрационного варианта независимого экзамена. В первой части практикума мы разберём задачи непосредственно из экзамена, а во второй части посмотрим ещё на несколько примеров работы с данными (вопросы не из экзамена, из жизни).

Файл `c.xlsx` содержит данные о рейтингах видео-игр по данным Metacritic. Набор данных содержит следующие переменные:

* `Name` – название игры.
* `Platform` – платформа для запуска игры.
* `Year_of_Release` – год запуска игры.
* `Genre` – жанр игры.
* `Publisher` – компания, выпустившая игру.
* `NA_Sales` – продажи в Северной Америке (миллионы копий).
* `EU_Sales` – продажи в Европейском Союзе (миллионы копий).
* `JP_Sales` – продажи в Японии (миллионы копий).
* `Other_Sales` – продажи в прочих странах (миллионы копий).
* `Global_Sales` – общие продажи по миру (миллионы копий).
* `Critic_Score` – агрегированный рейтинг команды Metacritic.
* `Critic_Count` – количество экспертов, участвовавших в расчёте `Critic_Score`.
* `User_Score` – агрегированный рейтинг пользователей Metacritic.
* `User_Count` – количество пользователей, участвовавших в расчёте `User_Score`.
* `Developer` – разработчик игры.
* `Rating` – рейтинг ESRB (Everyone, Teen, Adults Only, ...).

Импортируем библиотеку `pandas` с сокращённым названием:

In [1]:
import pandas as pd

Загрузим данные из файла:

In [2]:
games = pd.read_excel("c.xlsx")

Выведем описательные статистики для каждого числового (`int` или `float`) столбца, полезная информация на первом этапе работы с данными:

In [3]:
games.describe() # проинтерпретируем

Unnamed: 0.1,Unnamed: 0,Year_of_Release,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Count
count,16719.0,16450.0,16719.0,16719.0,16719.0,16719.0,16719.0,8137.0,8137.0,7590.0
mean,8359.0,2006.487356,0.26333,0.145025,0.077602,0.047332,0.533543,68.967679,26.360821,162.229908
std,4826.503911,5.878995,0.813514,0.503283,0.308818,0.18671,1.547935,13.938165,18.980495,561.282326
min,0.0,1980.0,0.0,0.0,0.0,0.0,0.01,13.0,3.0,4.0
25%,4179.5,2003.0,0.0,0.0,0.0,0.0,0.06,60.0,12.0,10.0
50%,8359.0,2007.0,0.08,0.02,0.0,0.01,0.17,71.0,21.0,24.0
75%,12538.5,2010.0,0.24,0.11,0.04,0.03,0.47,79.0,36.0,81.0
max,16718.0,2020.0,41.36,28.96,10.22,10.57,82.53,98.0,113.0,10665.0


**Пояснения:** 

* `count`: число заполненных ячеек;
* `mean`: среднее арифметическое;
* `std`: стандартное отклонение;
* `min` и `max`: минимальное и максимальное значение;
* `50%`: медиана;
* `25%` и `75%`: нижний и верхний квартиль.

Для текстовых данных метод `.describe()` тоже работает, нужно только указать, что нас интересует тип `object`:

In [4]:
games.describe(include = "object") # проинтерпретируем

Unnamed: 0,Name,Platform,Genre,Publisher,User_Score,Developer,Rating
count,16717,16719,16717,16665,10015,10096,9950
unique,11562,31,12,581,96,1696,8
top,Need for Speed: Most Wanted,PS2,Action,Electronic Arts,tbd,Ubisoft,E
freq,12,2161,3370,1356,2425,204,3991


**Пояснения:**

* `count`: число заполненных ячеек;
* `unique`: число уникальных значений (например, всего 12 разных жанров игр);
* `top`: мода, самое частое значение (наиболее встречающийся жанр - Action);
* `freq`: частота, соответствующая моде (3370 игр жанра Action).

В целом, если описать данные в самом начале, уже на некоторые вопросы части C мы сможем ответить без дополнительного кода. Но на функции для отдельных описательных статистик мы тоже посмотрим!

## Часть 1: описательные статистики

### Задача 1

Вычислите среднее по продажам в Северной Америке (в миллионах копий) – переменная `NA_Sales`.

Пример ответа: 13.20

In [5]:
games["NA_Sales"].mean() # 0.26

0.2633303427238687

### Задача 2

Вычислите минимальное значение по продажам в Северной Америке (в миллионах копий) – переменная `NA_Sales`.

Пример ответа: 12.00

In [6]:
games["NA_Sales"].min() # 0.00

0.0

### Задача 3

Вычислите стандартное отклонение по продажам в Северной Америке (в миллионах копий) – переменная `NA_Sales`.

Пример ответа: 20.04

In [7]:
games["NA_Sales"].std() # 0.81

0.8135138347516405

### Задача 4

Определите наиболее часто встречающийся жанр игр.

Пример ответа: Simulation

In [8]:
games["Genre"].mode() # Action

0    Action
dtype: object

In [9]:
games["Genre"].value_counts() # так тоже можно посмотреть

Action          3370
Sports          2348
Misc            1750
Role-Playing    1500
Shooter         1323
Adventure       1303
Racing          1249
Platform         888
Simulation       874
Fighting         849
Strategy         683
Puzzle           580
Name: Genre, dtype: int64

### Задача 5

Добавьте в таблицу новый признак `Platform_Coded`, который будет представлять собой закодированное название платформы для запуска игры. Кодировку проведите следующим образом: если платформа – это `PS3`, то код равен 1, а если любая другая, то код равен 0. 

Выведите среднее по признаку `Platform_Coded`, округлённое до сотых.

In [10]:
games["Platform_Coded"] = (games["Platform"] == "PS3").astype(int) 

In [11]:
games["Platform_Coded"].mean() # 0.08 – доля игр для платформы PS3 (доля единиц)

0.07961002452299779

### Задача 6

Вычислите средний агрегированный рейтинг команды Metacritic для игр, выпущенных (published) компаниями Tecmo Koei или Wanadoo. Выпишите полученное значение, округлённое до сотых.

Пример ответа: 17.20

In [12]:
chosen = games[(games["Publisher"] == "Tecmo Koei") | (games["Publisher"] == "Wanadoo")] 

In [13]:
chosen["Publisher"].unique() # удостоверимся, что отфильтровали правильно

array(['Tecmo Koei', 'Wanadoo'], dtype=object)

In [14]:
chosen["Critic_Score"].mean() # 65.60

65.60135135135135

## Часть 2: группировка и агрегирование

### Задача 7

Сгруппируйте игры по жанру и вычислите среднее число продаж в Европейском союзе для каждого жанра.

In [15]:
# в .groupby() – основание для группировки (название столбца)
# в .agg() – название функции для агрегирования (если встроенная в pandas, то в кавычках)

games.groupby("Genre").agg("mean")

Unnamed: 0_level_0,Unnamed: 0,Year_of_Release,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Count,Platform_Coded
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Action,8096.666469,2008.050181,0.260834,0.154045,0.047905,0.054777,0.517884,66.629101,27.780952,188.889617,0.11276
Adventure,11631.069839,2008.263728,0.080783,0.048764,0.040138,0.012655,0.182417,65.331269,22.114551,103.41,0.056792
Fighting,7671.209658,2004.653524,0.263086,0.118174,0.103039,0.042827,0.527067,69.217604,27.909535,64.929825,0.089517
Misc,8649.013714,2007.328298,0.232726,0.121566,0.061777,0.042509,0.45896,66.619503,21.533461,31.113895,0.071429
Platform,6947.822072,2003.857631,0.501689,0.225619,0.147331,0.057534,0.932523,68.05835,23.698189,109.128505,0.041667
Puzzle,9681.574138,2005.230228,0.211845,0.086224,0.09881,0.021345,0.419,67.424107,20.308036,32.5,0.005172
Racing,7990.485989,2004.8646,0.28771,0.189359,0.045404,0.060929,0.583587,67.963612,23.028302,69.372855,0.073659
Role-Playing,8116.014,2007.130816,0.22054,0.125807,0.236973,0.039753,0.622933,72.652646,32.489824,320.746972,0.079333
Shooter,7368.891156,2006.033179,0.447649,0.239864,0.029297,0.078692,0.795873,70.181144,35.610169,374.577922,0.117914
Simulation,8693.340961,2006.66317,0.208455,0.129886,0.072998,0.035183,0.446705,68.619318,21.446023,82.656977,0.035469


In [16]:
# .agg() по умолчанию считает среднее по всем столбцам, 
# но можем выбрать один

games.groupby("Genre").agg("mean")["EU_Sales"] 

Genre
Action          0.154045
Adventure       0.048764
Fighting        0.118174
Misc            0.121566
Platform        0.225619
Puzzle          0.086224
Racing          0.189359
Role-Playing    0.125807
Shooter         0.239864
Simulation      0.129886
Sports          0.160473
Strategy        0.066135
Name: EU_Sales, dtype: float64

In [17]:
# еще одна альтернатива – можно в .agg() вписать словарь
# где ключи – названия столбцов, значения – названия статистик

games.groupby("Genre").agg({"EU_Sales" : "mean"})

Unnamed: 0_level_0,EU_Sales
Genre,Unnamed: 1_level_1
Action,0.154045
Adventure,0.048764
Fighting,0.118174
Misc,0.121566
Platform,0.225619
Puzzle,0.086224
Racing,0.189359
Role-Playing,0.125807
Shooter,0.239864
Simulation,0.129886


### Задача 8

Сгруппируйте игры по жанру и вычислите медианное число продаж в Европейском союзе для каждого жанра.

In [18]:
# то же, только функция median

games.groupby("Genre").agg("median")["EU_Sales"] 

Genre
Action          0.03
Adventure       0.00
Fighting        0.02
Misc            0.01
Platform        0.05
Puzzle          0.01
Racing          0.04
Role-Playing    0.01
Shooter         0.05
Simulation      0.01
Sports          0.02
Strategy        0.01
Name: EU_Sales, dtype: float64

In [19]:
# альтернатива – со словарем

games.groupby("Genre").agg({"EU_Sales" : "median"})

Unnamed: 0_level_0,EU_Sales
Genre,Unnamed: 1_level_1
Action,0.03
Adventure,0.0
Fighting,0.02
Misc,0.01
Platform,0.05
Puzzle,0.01
Racing,0.04
Role-Playing,0.01
Shooter,0.05
Simulation,0.01


### Задача 9

Сгруппируйте игры по жанру и вычислите минимальное и максимальное значение рейтинга команды `Critic_Score` для каждого жанра. Добавьте в получившуюся таблицу столбец с размахом пользовательского рейтинга для каждого жанра. Игры какого жанра имеют наиболее разнообразные значения рейтинга?

In [20]:
# в .agg() можно вписывать список функций, здесь min и max
# потом так же извлекаем Critic_Score

# res – обычный датафрейм, можем выбирать из него столбцы
# и создавать на их основе новые

res = games.groupby("Genre").agg(["min", "max"])["Critic_Score"] 
res["range"] = res["max"] - res["min"] 

In [21]:
res

Unnamed: 0_level_0,min,max,range
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Action,19.0,98.0,79.0
Adventure,17.0,93.0,76.0
Fighting,23.0,98.0,75.0
Misc,19.0,93.0,74.0
Platform,19.0,97.0,78.0
Puzzle,25.0,90.0,65.0
Racing,13.0,96.0,83.0
Role-Playing,35.0,96.0,61.0
Shooter,22.0,97.0,75.0
Simulation,31.0,92.0,61.0


### Задача 10

Сформируйте таблицу сопряжённости, по строкам которой указаны значения жанра игры (`Genre`), а по столбцам – значения возрастного рейтинга игры (`Rating`). Подробнее о значениях рейтинга можно почитать [здесь](https://www.esrb.org/ratings-guide/).

In [22]:
# cross tabulation или contingency table

pd.crosstab(games["Genre"], games["Rating"]) 

Rating,AO,E,E10+,EC,K-A,M,RP,T
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Action,1,416,481,1,0,608,0,681
Adventure,0,162,68,2,0,99,0,115
Fighting,0,8,19,0,0,49,0,362
Misc,0,457,167,5,1,13,0,239
Platform,0,358,144,0,0,3,0,64
Puzzle,0,289,43,0,0,0,0,10
Racing,0,585,96,0,0,18,1,172
Role-Playing,0,84,111,0,0,162,0,420
Shooter,0,48,58,0,0,565,0,348
Simulation,0,326,48,0,0,5,0,190


**Пояснения:** мы видим, сколько игр каждого возрастного рейтинга в каждом жанре. Так, например, в жанре 
*Fighting* всего 8 игр для любого возраста (*E* – *Everyone*), что довольно логично, учитывая наличие насилия в игре. А вот в категории *Sports*, наоборот, больше всего игр без возрастной маркировки (то же *E* – *Everyone*).