# Анализ и визуализация данных

## Лабораторная 3. Описательные статистики, группировка и агрегирование данных с `pandas`


В этом практикуме предлагается поработать с данными из части C демонстрационного варианта независимого экзамена. В первой части практикума мы разберём задачи непосредственно из экзамена, а во второй части посмотрим ещё на несколько примеров работы с данными (вопросы не из экзамена, из жизни).

Файл `c.xlsx` содержит данные о рейтингах видео-игр по данным Metacritic. Набор данных содержит следующие переменные:

* `Name` – название игры.
* `Platform` – платформа для запуска игры.
* `Year_of_Release` – год запуска игры.
* `Genre` – жанр игры.
* `Publisher` – компания, выпустившая игру.
* `NA_Sales` – продажи в Северной Америке (миллионы копий).
* `EU_Sales` – продажи в Европейском Союзе (миллионы копий).
* `JP_Sales` – продажи в Японии (миллионы копий).
* `Other_Sales` – продажи в прочих странах (миллионы копий).
* `Global_Sales` – общие продажи по миру (миллионы копий).
* `Critic_Score` – агрегированный рейтинг команды Metacritic.
* `Critic_Count` – количество экспертов, участвовавших в расчёте `Critic_Score`.
* `User_Score` – агрегированный рейтинг пользователей Metacritic.
* `User_Count` – количество пользователей, участвовавших в расчёте `User_Score`.
* `Developer` – разработчик игры.
* `Rating` – рейтинг ESRB (Everyone, Teen, Adults Only, ...).

Импортируем библиотеку `pandas` с сокращённым названием:

In [1]:
import pandas as pd

Загрузим данные из файла:

In [2]:
games = pd.read_excel("c.xlsx")

Выведем описательные статистики для каждого числового (`int` или `float`) столбца, полезная информация на первом этапе работы с данными:

In [3]:
games.describe() # проинтерпретируем

Unnamed: 0.1,Unnamed: 0,Year_of_Release,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Count
count,16719.0,16450.0,16719.0,16719.0,16719.0,16719.0,16719.0,8137.0,8137.0,7590.0
mean,8359.0,2006.487356,0.26333,0.145025,0.077602,0.047332,0.533543,68.967679,26.360821,162.229908
std,4826.503911,5.878995,0.813514,0.503283,0.308818,0.18671,1.547935,13.938165,18.980495,561.282326
min,0.0,1980.0,0.0,0.0,0.0,0.0,0.01,13.0,3.0,4.0
25%,4179.5,2003.0,0.0,0.0,0.0,0.0,0.06,60.0,12.0,10.0
50%,8359.0,2007.0,0.08,0.02,0.0,0.01,0.17,71.0,21.0,24.0
75%,12538.5,2010.0,0.24,0.11,0.04,0.03,0.47,79.0,36.0,81.0
max,16718.0,2020.0,41.36,28.96,10.22,10.57,82.53,98.0,113.0,10665.0


Для текстовых данных метод `.describe()` тоже работает, нужно только указать, что нас интересует тип `object`:

In [4]:
games.describe(include = "object") # проинтерпретируем

Unnamed: 0,Name,Platform,Genre,Publisher,User_Score,Developer,Rating
count,16717,16719,16717,16665,10015,10096,9950
unique,11562,31,12,581,96,1696,8
top,Need for Speed: Most Wanted,PS2,Action,Electronic Arts,tbd,Ubisoft,E
freq,12,2161,3370,1356,2425,204,3991


В целом, если описать данные в самом начале, уже на некоторые вопросы части C мы сможем ответить без дополнительного кода. Но на функции для отдельных описательных статистик мы тоже посмотрим!

## Часть 1: описательные статистики

### Задача 1

Вычислите среднее по продажам в Северной Америке (в миллионах копий) – переменная `NA_Sales`.

Пример ответа: 13.20

In [5]:
mean_na_sales = games['NA_Sales'].mean()
print(round(mean_na_sales, 2))

0.26


### Задача 2

Вычислите минимальное значение по продажам в Северной Америке (в миллионах копий) – переменная `NA_Sales`.

Пример ответа: 12.00

In [6]:
min_na_sales = games['NA_Sales'].min()
print(f"Если считать с нулями: {round(min_na_sales, 2)}")
min_na_sales_not_zero = games.loc[games['NA_Sales'] > 0, 'NA_Sales'].min()
print(f"Если считать без нулей: {round(min_na_sales_not_zero, 2)}")

Если считать с нулями: 0.0
Если считать без нулей: 0.01


### Задача 3

Вычислите стандартное отклонение по продажам в Северной Америке (в миллионах копий) – переменная `NA_Sales`.

Пример ответа: 20.04

In [7]:
std_na_sales = games['NA_Sales'].std()
print(round(std_na_sales, 2))

0.81


### Задача 4

Определите наиболее часто встречающийся жанр игр.

Пример ответа: Simulation

In [8]:
most_common_genre = games['Genre'].mode()[0]
print(most_common_genre)

Action


### Задача 5

Добавьте в таблицу новый признак `Platform_Coded`, который будет представлять собой закодированное название платформы для запуска игры. Кодировку проведите следующим образом: если платформа – это `PS3`, то код равен 1, а если любая другая, то код равен 0. 

Выведите среднее по признаку `Platform_Coded`, округлённое до сотых.

In [9]:
games['Platform_Coded'] = (games['Platform'] == 'PS3').astype(int)

games.to_excel("с_new.xlsx", index=False)
print("Обновленная таблица сохранена как 'с_new.xlsx'.")

mean_platform_coded = round(games['Platform_Coded'].mean(), 2)
print(mean_platform_coded)

Обновленная таблица сохранена как 'с_new.xlsx'.
0.08


### Задача 6

Вычислите средний агрегированный рейтинг команды Metacritic для игр, выпущенных (published) компаниями Tecmo Koei или Wanadoo. Выпишите полученное значение, округлённое до сотых.

Пример ответа: 17.20

In [10]:
filter_publishers = games['Publisher'].isin(['Tecmo Koei', 'Wanadoo'])
mean_critic_score = games.loc[filter_publishers, 'Critic_Score'].mean()
print(round(mean_critic_score, 2))

65.6


## Часть 2: группировка и агрегирование

### Задача 7

Сгруппируйте игры по жанру и вычислите среднее число продаж в Европейском союзе для каждого жанра.

In [11]:
mean_sales_by_genre = games.groupby('Genre')['EU_Sales'].mean()
print(mean_sales_by_genre)

Genre
Action          0.154045
Adventure       0.048764
Fighting        0.118174
Misc            0.121566
Platform        0.225619
Puzzle          0.086224
Racing          0.189359
Role-Playing    0.125807
Shooter         0.239864
Simulation      0.129886
Sports          0.160473
Strategy        0.066135
Name: EU_Sales, dtype: float64


### Задача 8

Сгруппируйте игры по жанру и вычислите медианное число продаж в Европейском союзе для каждого жанра.

In [12]:
median_sales_by_genre = games.groupby('Genre')['EU_Sales'].median()
print(median_sales_by_genre)

Genre
Action          0.03
Adventure       0.00
Fighting        0.02
Misc            0.01
Platform        0.05
Puzzle          0.01
Racing          0.04
Role-Playing    0.01
Shooter         0.05
Simulation      0.01
Sports          0.02
Strategy        0.01
Name: EU_Sales, dtype: float64


### Задача 9

Сгруппируйте игры по жанру и вычислите минимальное и максимальное значение пользовательского рейтинга `User_Score` для каждого жанра. Добавьте в получившуюся таблицу столбец с размахом пользовательского рейтинга для каждого жанра. Игры какого жанра имеют наиболее разнообразные значения рейтинга?

In [13]:
games['User_Score'] = pd.to_numeric(games['User_Score'], errors='coerce')

grouped_user_scores = games.groupby('Genre')['User_Score'].agg(['min', 'max'])
print(grouped_user_scores)

grouped_user_scores['Range'] = grouped_user_scores['max'] - grouped_user_scores['min']
print(grouped_user_scores)

most_varied_genre = grouped_user_scores['Range'].idxmax()
print(f"Жанр с наиболее разнообразными значениями рейтинга: {most_varied_genre}.")

              min  max
Genre                 
Action        0.3  9.5
Adventure     0.0  9.4
Fighting      0.9  9.2
Misc          0.5  9.2
Platform      0.2  9.4
Puzzle        1.1  9.5
Racing        0.3  9.5
Role-Playing  1.4  9.7
Shooter       1.2  9.3
Simulation    2.1  9.6
Sports        0.2  9.5
Strategy      0.6  9.4
              min  max  Range
Genre                        
Action        0.3  9.5    9.2
Adventure     0.0  9.4    9.4
Fighting      0.9  9.2    8.3
Misc          0.5  9.2    8.7
Platform      0.2  9.4    9.2
Puzzle        1.1  9.5    8.4
Racing        0.3  9.5    9.2
Role-Playing  1.4  9.7    8.3
Shooter       1.2  9.3    8.1
Simulation    2.1  9.6    7.5
Sports        0.2  9.5    9.3
Strategy      0.6  9.4    8.8
Жанр с наиболее разнообразными значениями рейтинга: Adventure.


### Задача 10

Сформируйте таблицу сопряжённости, по строкам которой указаны значения жанра игры (`Genre`), а по столбцам – значения возрастного рейтинга игры (`Rating`). Подробнее о значениях рейтинга можно почитать [здесь](https://www.esrb.org/ratings-guide/).

In [14]:
genre_rating_crosstab = pd.crosstab(games['Genre'], games['Rating'])
print(genre_rating_crosstab)

Rating        AO     E  E10+  EC  K-A    M  RP    T
Genre                                              
Action         1   416   481   1    0  608   0  681
Adventure      0   162    68   2    0   99   0  115
Fighting       0     8    19   0    0   49   0  362
Misc           0   457   167   5    1   13   0  239
Platform       0   358   144   0    0    3   0   64
Puzzle         0   289    43   0    0    0   0   10
Racing         0   585    96   0    0   18   1  172
Role-Playing   0    84   111   0    0  162   0  420
Shooter        0    48    58   0    0  565   0  348
Simulation     0   326    48   0    0    5   0  190
Sports         0  1188   107   0    0   16   0  198
Strategy       0    70    78   0    2   25   2  162
