# 04. Сборный проект №1

# Исследование популярности компьютерных игр

Заказчик - интернет-магазин «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и игровые платформы (например, Xbox или PlayStation). 

**Нам нужно выявить определяющие успешность игры закономерности.** Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Перед нами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и мы планируем кампанию на 2017-й. Нужно отработать принцип работы с данными. Неважно, прогнозируете ли мы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Изучение-общей-информации" data-toc-modified-id="Изучение-общей-информации-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Изучение общей информации</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Преобразование-данных" data-toc-modified-id="Преобразование-данных-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Преобразование данных</a></span></li><li><span><a href="#Обработка-пропущенных-значений" data-toc-modified-id="Обработка-пропущенных-значений-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Обработка пропущенных значений</a></span></li><li><span><a href="#Преобразование-типов-данных" data-toc-modified-id="Преобразование-типов-данных-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Преобразование типов данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Обработка дубликатов</a></span></li><li><span><a href="#Проведение-дополнительных-расчетов" data-toc-modified-id="Проведение-дополнительных-расчетов-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Проведение дополнительных расчетов</a></span></li></ul></li><li><span><a href="#Исследовательский-анализ" data-toc-modified-id="Исследовательский-анализ-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследовательский анализ</a></span></li><li><span><a href="#Анализ-пользователей-различных-регионов" data-toc-modified-id="Анализ-пользователей-различных-регионов-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Анализ пользователей различных регионов</a></span></li><li><span><a href="#Проверка-гипотез" data-toc-modified-id="Проверка-гипотез-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка гипотез</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Изучение общей информации

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st
import math as mt
import warnings
warnings.filterwarnings('ignore')

Информация о продажах игр содержится в файле 'games.csv'. Преобразуем данные из файла в таблицу и посмотрим первые 5 строк:

In [2]:
df = pd.read_csv('games.csv')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'games.csv'

**Описание данных:**
- `Name` — название игры;
- `Platform` — игровая платформа;
- `Year_of_Release` — год выпуска;
- `Genre` — жанр игры;
- `NA_sales` — продажи в Северной Америке (миллионы проданных копий);
- `EU_sales` — продажи в Европе (миллионы проданных копий);
- `JP_sales` — продажи в Японии (миллионы проданных копий);
- `Other_sales` — продажи в других странах (миллионы проданных копий);
- `Critic_Score` — оценка критиков (максимум 100);
- `User_Score` — оценка пользователей (максимум 10);
- `Rating` — рейтинг от организации ESRB (англ. Entertainment Software Rating Board).

Посмотрим общую информацию о данных в таблице, а также проверим наличие пропущенных значений.

In [None]:
df.info()

Видим, что в таблице присутствуют пропуски, которые необходимо обработать. Также потребуется преобразование типов данных в столбцах `Year_of_Release` и `User_Score`. Наконец, для дальнейшего упрощения, преобразуем названия всех столбцов к нижнему регистру.

Проанализируем вариативность данных в столбцах `Platform`, `Genre`, `Critic_Score`, `User_Score` и `Rating`.

In [None]:
df['Platform'].unique()

Данные в столбце `Platform` корректны. 

In [None]:
df['Genre'].unique()

В столбце `Genre`, кроме пропущенных значений, ошибочных данных нет.

In [None]:
df['Critic_Score'].unique()

In [None]:
df['User_Score'].unique()

В столбцах `Critic_Score` и `User_Score` требуется выполнить несколько преобразований. Во-первых, привести данные к единой балльной шкале, например к 10-балльной. Во-вторых, обработать значение 'tbd' в столбце `User_Score`, которое обозначает отсутствие рейтинга из-за малого количество оценок пользователей.

In [None]:
df['Rating'].unique()

В этом столбце, кроме пропусков, требует внимания значение 'K-A'. До 1998 года оно использовалось для обозначения игр "для всех", а, в настоящее время, игры такой категории обозначают как 'E'. По этой причине, необходимо заменить 'K-A' на 'E'.

**Вывод** 

**Необходима предобработка данных, а именно:**
1. Необходимо изменить названия столбцов - привести их к нижнему регистру.
2. Разобраться с природой возникновения пропусков в столбцах `Name`, `Year_of_Release`, `Genre`, `Critic_Score`, `User_Score` и `Rating`.
3. Преобразовать типы данных в столбцах `Year_of_Release` и `User_Score`.
4. Преобразовать данные:
    - в столбце `Critic_Score` данные привести к 10-балльной шкале;
    - в столбце `User_Score` обработать значение 'tbd';
    - в столбце `Rating` значение 'K-A' заменить на 'E'.

## Предобработка данных

### Преобразование данных

**Изменение названия столбцов**

Изменим названия всех столбцов таблицы, а именно приведем их к нижнему регистру.

In [None]:
df.columns = df.columns.str.lower()

In [None]:
# Проверяем
df.columns

**Преобразование значений столбца `critic_score`**

Текущая ситуация такова, что шкалы оценок критиков и пользователей отличаются: критики оценивают игры по 100-балльной шкале, а пользователи - по 10-балльной. Удобнее, когда данные нормированы, т.е. приведены к единой форме. Поэтому переведем оценки критиков в 10-балльную шкалу. Для этого разделим все данные из `critic_score` на 10.

In [None]:
df['critic_score'] = df['critic_score']/10

**Преобразование значений столбца `user_score`**

Среди значений этого столбца выделяется 'tbd' (To Be Determined - Будет определено). Это означает, что какая-либо игра не получила рейтинг от пользователей из-за ничтожно малого количества оценок. Посмотрим сколько строк в таблице с таким значением рейтинга.

In [None]:
len(df.query('user_score=="tbd"'))/len(df)

Таких строк слишком много, чтобы их отбросить. Заменить на '0' - также является не правильным решением, т.к. нам неизвестны причины получения игрой малого количества оценок, и может сложиться такая ситуация, что какая-либо игра получила только высокие оценки, но их количество не позволило присвоить рейтинг. 

Принимая во внимание то, что в рамках исследования, возможно, потребуется найти среднее значение рейтинга, заменим значение 'tbd' на пропуск (NaN-значение).

In [None]:
df['user_score'] = df['user_score'].replace('tbd', np.nan)

**Преобразование значений столбца `rating`**

Как отмечалось выше, значение рейтинга ESRB 'K-A' является устаревшей формой современного значения 'E'. По этой причине, заменим 'K-A' на 'E'.

In [None]:
df['rating'] = df['rating'].replace('K-A', 'E')

**Вывод**

Произвели пребразование данных:
- привели названия столбцов к нижнему регистру;
- в столбце `critic_score` данные привели к 10-балльной шкале;
- в столбце `user_score` обработали значение 'tbd', объяснили причины замены на NaN-значение;
- в столбце `rating` значение 'K-A' заменили на 'E'.

### Обработка пропущенных значений

Посмотрим в каких столбцах присутствуют пропущенные значения и как часто.

In [None]:
df.isna().sum()

**Обработка пропусков в столбцах `name` и `genre`.**

Посмотрим на строки, в которых присутствуют пропуски в столбце `name`.

In [None]:
df.query('name.isna()')

Замечаем, что пропуски в столбцах `name` и `genre` парные. Причиной мог быть технический сбой или человеческий фактор. Мы не можем предположить на основе имеющейся у нас информации, что это за игры и какого они жанра, поэтому уберем эти строки из рассматриваемой таблицы.

In [None]:
df = df.dropna(subset=['name']).reset_index(drop=True)

**Обработка пропусков в столбце `year_of_release`.** 

Выведем некоторые строки, содержащие пропущенные значения в столбце `year_of_release`.

In [None]:
df.query('year_of_release.isna()').head()

Отметим интересный момент: среди выведенных строк присутствуют довольно популярные игры (например, 'FIFA Soccer 2004'). Обычно, игры выпускаются сразу на нескольких платформах. Посмотрим информацию, для примера, об одной игре, бывшей популярной в свое время.

In [None]:
df.query('name=="FIFA Soccer 2004"')

Видим, что год выпуска не указан только для одной игровой платформы. Конечно возможны случаи, когда одна и та же игра для разных платформ выходила в разные годы, но это редкие события и разница в датах выхода не превышает 1-2 лет. Также возможна ситуация, когда в таблице присутствует информация об игре только для одной игровой платформы и год выпуска пропущен, тогда, в этом случае, удалим строку из таблицы.

Можем попробовать заполнить пропуски (часть пропусков) в столбце по следующему алгоритму:
1. Определим список игр из таблицы, для которых не указан год выпуска для каких-либо игровых платформ.
2. Выведем все данные из таблицы для игр из списка, определенного в п.1.
3. Определим, где это возможно, год выпуска игры.
    - если для какой-либо конкретной игры годы выпуска для различных игровых платформ различаются, то год выпуска определим как среднее значение (для избежания дробного значения года выпуска - используем медианное значение)
4. Заменим пропуски на найденные в п.3 значения.

In [None]:
# Игры, для которых не указан год выпуска для какой-либо платформы
games_no_year = df.query('year_of_release.isna()')['name'].unique()
games_no_year[:5]

Теперь для этих игр выведем всю информацию из таблицы и определим год выпуска игры, согласно алгоритму, описанному выше.

In [None]:
game_year = ( 
    df
    .query('name in @games_no_year and not year_of_release.isna()')
    .groupby('name')['year_of_release']
    .median()
)
game_year

Чтобы заполнить пропуски, сначала заменим их на '0', а затем, с помощью функции 'add_year', заменим '0' на значения из таблицы 'game_year'.

In [None]:
#Заполним пропуски нулями в столбце 'year_of_release'
df['year_of_release'] = df['year_of_release'].fillna(0)

In [None]:
#Функция на вход получает строку таблицы и если в столбце 'year_of_release' стоит 0, 
#то меняет его на значение из таблицы 'game_year'
def add_year(row):
    game_name = row['name']
    year = row['year_of_release']
    if year == 0 and (game_name in game_year.index):
        return game_year[game_name]
    else:
        return year

In [None]:
#Применяем функцию для каждой строки таблицы
df['year_of_release'] = df.apply(add_year, axis=1)

Уберем строки, в которых в столбце `year_of_release` остались нулевые значения.

In [None]:
df = df.query('year_of_release !=0').reset_index(drop=True)

**Обработка пропусков в столбцах `critic_score` и `user_score`.** 

In [None]:
df.isna().sum()['critic_score']

In [None]:
df.isna().sum()['user_score']

В этих столбцах оставим пропуски без изменений. Первая причина - их большое количество, удаление приведет к потере значимого количества данных. Вторая причина - заполнение пропусков, например, средним значением приведет к искажению общей картины популярности игр.

**Обработка пропусков в столбце `rating`.** 

Для заполнения части пропусков в этом столбце, применим способ, использованный для столбца `year_of_release`, т.к. можем предположить, что рейтинг ESRB не указан только для одной определенной платформы. Также будем считать, что рейтинг для одной и той же игры для всех платформ одинаковый.

In [None]:
# Игры, для которых не указан рейтинг ESRB
game_no_rating = df.query('rating.isna()')['name'].unique()
game_no_rating[:5]

Теперь для этих игр выведем всю информацию из таблицы и определим год рейтинг ESRB согласно алгоритму.

In [None]:
game_rating = ( 
    df
    .query('name in @game_no_rating and not rating.isna()')[['name', 'rating']]
    .drop_duplicates()
    .groupby('name')['rating']
    .agg('first')
)
game_rating

In [None]:
#Заполним пропуски нулями в столбце 'rating'
df['rating'] = df['rating'].fillna(0)

In [None]:
#Функция на вход получает строку таблицы и если в столбце 'rating' стоит 0, 
#то меняет его на медианное значение из таблицы 'game_rating'
def add_rating(row):
    game_name = row['name']
    rate = row['rating']
    if rate == 0 and (game_name in game_rating.index):
        return game_rating[game_name]
    else:
        return rate

In [None]:
#Применяем функцию для каждой строки таблицы
df['rating'] = df.apply(add_rating, axis=1)

Строки, в которых не удалось заменить '0' на значение из таблицы `game_rating` удалять не будем. Вместо этого заменим '0' на 'undef'.

In [None]:
df['rating'] = df['rating'].replace(0, 'undef')

После всех преобразований получаем следующее количество пропусков:

In [None]:
df.isna().sum()

**Вывод**

Разобрались с пропущенными значениями, объяснили причины их возникновения. В столбцах `name` и `genre` пропусков было всего 2, поэтому приняли решение их удалить. В столбцах `year_of_release` и `rating`, где это было возможно, заменили пропущенные значения на данные, соответствующие конкретным играм. Пропуски в `critic_score` и `user_score` оставили без внимания, т.к. их появление объясняется банальным отсутствием оценок. 

### Преобразование типов данных

Посмотрим на типы данных, присутствующие в рассматриваемом датафрейме.

In [None]:
df.dtypes

Преобразуем типы данных в следующих столбцах:
1. `year_of_release` в челочисленный ('int'), т.к. столбец содержит год выпуска, который не может быть дробным.
2. `user_score` в числовой ('float'), потому что в столбце содержится оценка игры в числовом формате.

In [None]:
df['year_of_release'] = df['year_of_release'].astype('int')

In [None]:
df['user_score'] = df['user_score'].astype('float')

In [None]:
# проверяем
df.dtypes

**Вывод**

Преобразовали типы данных в столбцах `year_of_release` и `user_score` на более подходящие. Объяснили причины данных преобразований.

### Обработка дубликатов

Проверим, нет ли таких записей в датафрейме, у которых название игры (`name`), игровая платформа (`platform`) и год выхода игры (`year_of_release`) совпадают. Для этого выделим из исследуемого массива данных только три перечисленных столбца и проверим наличие дубликатов.

In [None]:
df1 = df[['name', 'platform', 'year_of_release']]

In [None]:
df1.duplicated().sum()

Получили два дублирующих значения. Определим, что это за игры.

In [None]:
df1.loc[df1.duplicated()==True]

Посмотрим на эти игры в исследуемом датафрейме `df`.

In [None]:
df.query('name=="Sonic the Hedgehog"')

Видим, что для игры 'Sonic the Hedgehog' в таблице присутствует две записи для платформы 'PS3' 2006 года выпуска. Необходимо оставить только одну запись, предварительно сложив данные из столбцов `na_sales`, `eu_sales`, `jp_sales`, `other_sales`.

In [None]:
df.loc[1736, 'eu_sales'] = df.loc[1736, 'eu_sales'] + df.loc[4106, 'eu_sales']

In [None]:
# удаляем дублирующую строку
df = df.query("index != 4106")

Смотрим строки датафрейма игры 'Madden NFL 13'.

In [None]:
df.query('name=="Madden NFL 13"')

Аналогичные действия необходимо провести и для игры 'Madden NFL 13' для платформы 'PS3'.

In [None]:
df.loc[603, 'eu_sales'] = df.loc[603, 'eu_sales'] + df.loc[16087, 'eu_sales']

In [None]:
# удаляем дублирующую строку
df = df.query("index != 16087").reset_index(drop=True)

**Вывод**

Обнаружили дубликаты, провели их обработку (суммирование значений в столбце `eu_sales`).

### Проведение дополнительных расчетов

В исследуемом датафрейме содержится информация о продажах в различных регионах: Северная Америка, Европа, Япония и другие. Интересна информация об общей выручке, объединяющей все регионы. Найдем эти значения и поместим их в новый столбец `total_sales`.

In [None]:
# общую выручку определяем как сумму выручек по всем регионам
df['total_sales'] = df['na_sales']+df['eu_sales']+df['jp_sales']+df['other_sales']

In [None]:
# проверяем
df.head()

**Вывод**

Для дальшейшего использования в исследовании, определили общую выручку для каждой игры. Поместили вычисленные значения в столбец `total_sales`.

## Исследовательский анализ

**Определение количества выпущенных игр**

Посмотрим, сколько игр выпускалось в разные годы. Построим графики, отражающие количество выпущенных игр по годам, а также суммарную прибыль с продаж видеоигр за все время наблюдения.

In [None]:
(
    df
    .pivot_table(index='year_of_release', values='name', aggfunc='count')
    .plot(style='o-', grid=True, figsize=(16,5), title='Количество выпущенных игр по годам')
)
plt.legend(['Количество игр'])
plt.show()

In [None]:
(
    df
    .groupby('year_of_release')['total_sales']
    .agg('sum')
    .plot(style='o-', grid=True, figsize=(16,5), title='Суммарная выручка со всех игр по годам')
)
plt.legend(['Выручка, млн'])
plt.show()

Анализируя эти графики, можно сделать вывод о том, что период времени до 1994 года является незначительным. До этого времени ежегодно выпускалось менее 100 игр для всех платформ. Это означает, что индустрия видеоигр только начинала свое развитие.

**Выручка для 10 самых популярных платформ**

Теперь посмотрим, как менялись продажи по платформам. Для этого выберем платформы с наибольшими суммарными продажами и построим распределение по годам.

In [None]:
# находим 10 платформ с наибольшими суммарными продажами
platform_top10sales = df.groupby('platform')['total_sales'].agg('sum').sort_values(ascending=False).head(10)

In [None]:
platform_top10sales

In [None]:
# строим распределение
(
    df
    .query('platform in @platform_top10sales.index')
    .pivot_table(index='year_of_release', columns='platform', values='total_sales', aggfunc='sum')
    .plot(linewidth=3, alpha=0.75, style='o-', grid=True, figsize=(16,5), title='Суммарная выручка 10 самых продаваемых платформ')
)
plt.show()

По этому графику становится понятным рост индустрии после 1994 года. Именно в этом году появилась легендарная консоль 'Play Station' (на графике красная линия).

Также по этому графику хорошо отсматривается характерный срок "жизни" игровой платформы - в среднем 10 лет. К примеру:
   - 'Play Station' (красная линия) - с 1994 по 2003;
   - 'Play Station 2' (фиолетовая линия) - с 2000 по 2011;
   - 'Play Station 3' (коричневая линия) - с 2005 по 2016;
   - 'X-Box 360' (голубая линия) - с 2005 по 2016.

Вечен только персональный компьютер ('PC', зеленая линия), присутствует на всем периоде наблюдения, но характеризуется сравнительно невысокими продажами.
   

**Определение актуального периода**

Нашей задачей является построение прогноза по продажам на 2017 год. В датафрейме содержатся данные до 2016 года включительно (за 2016 - не в полном объеме).

Ранее определили, что характерный срок "жизни" игровой платформы в среднем составляет 10 лет. Также важно учесть тот факт, что для каждой платформы характерен период в 4-5 лет после ее выхода на рынок, в котором продажи (суммарная выручка) показывают восходящий тренд. После этого - в течение следующих 5 лет - продажи каждый год падают, почти до нулевых значений. Учитывая все названное, для дальнейших исследований будем использовать данные по играм, выпущенным в 2013 году и позже.

In [None]:
# Оставляем данные, входящие в актуальный период
df_act = df.query('year_of_release >= 2013').reset_index(drop=True)

Найдем для этого периода времени 10 платформ с наибольшими суммарными продажами ('top10_platform') и построим их распределение.

In [None]:
top10_platform = df_act.groupby('platform')['total_sales'].agg('sum').sort_values(ascending=False).head(10)
top10_platform

In [None]:
# строим распределение
(
    df_act
    .query('platform in @top10_platform.index')
    .pivot_table(index='year_of_release', columns='platform', values='total_sales', aggfunc='sum')
    .plot(
        kind='bar',
        grid=True, 
        figsize=(16,5), 
        title='Суммарная выручка 10 самых продаваемых платформ'
    )
)
plt.show()

По графику и данным из таблицы 'top10_platform' видим, что лидируют по продажам платформы 'X360', 'PS3', 'Wii' и 'DS', но все они "отслужили" характерный срок "жизни" игровой платформы (10 лет) и их продажи сошли на нет. По этой причине, потенциально прибыльными платформами, в игры для которых стоит вкладываться, являются: **'PS4', '3DS', 'PC' и 'XOne'**. Эти платформы, относительно остальных, недавно вышли, отличаются стабильными неубывающими продажами (2016 год не берем во внимание в силу неполноты данных).

Построим для выбранных потенциально прибыльных платформ диаграммы размаха. 

In [None]:
ax = ( 
    df_act
    .query("platform in ['PS4', '3DS', 'PC','XOne']")
    .boxplot(by='platform', column='total_sales', figsize=(16,10))
)
ax.set_xlabel('')
ax.set_ylabel('Суммарная выручка с одной игры, млн')
plt.suptitle('')
plt.ylim(0, 4)
plt.title('Суммарные выручки с игр для потенциальной прибыльных платформ')
plt.show()

Для всех платформ наблюдается примерно одинаковый результат: **небольшая медианная выручка с одной игры** (от 0.05 млн для 'PC' до 0.2 млн для 'PS4' и 'XOne') и **скошенность данных вправо**. Это означает, что среди игр этих платформ встречаются те, которые приносят выручки ощутимо больше медианной суммы. Возможно выручка от продажи игр зависит от их жанра или каких-то других параметров (оценки критиков и пользователей), которые определим далее.

**Исследование зависимостей выручки от рейтингов**

Посмотрим, как влияют на продажи внутри одной популярной платформы (например, 'PS4') отзывы пользователей и критиков. Построим диаграмму рассеяния и посчитаем корреляцию между отзывами и продажами.

In [None]:
(
    df_act
    .query('platform=="PS4"')
    .corr()
    .loc[['na_sales', 'eu_sales', 'jp_sales', 'other_sales', 'total_sales'], ['critic_score', 'user_score']]
)

Коэффициент корреляции между суммарной выручкой и оценками критиков 0.4 (средняя зависимость), а между выручкой и оценками пользователей близкий к нулевому (взаимосвязь отсутствует). Посмотрим зависимость на графиках.

In [None]:
# Зависимость суммарной выручки от оценок критиков
(
    df_act
    .query('platform=="PS4"')
    .plot(
        x='critic_score', 
        y='total_sales', 
        style='o', 
        alpha=0.5, 
        figsize=(16,5), 
        grid=True, 
        title='Зависимость суммарной выручки с игры для платформы "PS4" от оценки критиков'
    )
)
plt.legend(['Выручка, млн'])
plt.show()

In [None]:
# Зависимость суммарной выручки от оценок пользователей
(
    df_act
    .query('platform=="PS4"')
    .plot(
        x='user_score', 
        y='total_sales', 
        style='o', 
        alpha=0.5, 
        figsize=(16,5), 
        grid=True, 
        title='Зависимость суммарной выручки с игры для платформы "PS4" от оценки пользователей'
    )
)
plt.legend(['Выручка, млн'])
plt.show()

Представленные выше диаграммы рассеяния подтверждают авторитет мнения критиков. Действительно, **чем выше оценка критика, тем больший разброс наблюдается в значениях общей выручки и тем больше игр, приносящих бОльшую прибыль по сравнению со средними значениями**. При оценке критика больше 7, наблюдается большое количество игр, суммарная выручка с которых превышает 1 млн.

Что касается второго графика (зависимость от оценки пользователей), то здесь подтверждается найденный ранее близкий к нулевому коэффициент корреляции. Игры, приносящие большие суммарные выручки встречаются при различных оценках пользователей (от 3 до 9). Это объясняется субъективностью мнений обычных пользователей - разным людям нравятся разные игры, различных жанров, и, как правило, их мнение часто отличается от позиции авторитетных критиков. Тем не менее, все же можно сделать вывод: **чем больше оценка пользователя, тем большую выручку приносит игра**.

Сравним полученные зависимости для платформы 'PS4' с продажами игр на других платформах. Найдем коэффициенты корреляции и построим диаграммы рассеяния.

In [None]:
# находим корреляцию
(
    df_act
    .corr()
    .loc[['na_sales', 'eu_sales', 'jp_sales', 'other_sales', 'total_sales'], ['critic_score', 'user_score']]
)

Коэффициент корреляции между общей выручкой и оценкой критиков меньше, чем в предыдущем случае (0.31 против 0.4), а между общей выручкой и оценкой пользователей примерно на том же уровне.

In [None]:
# Зависимость суммарной выручки от оценок критиков
(
    df_act
    .plot(
        x='critic_score', 
        y='total_sales', 
        style='o', 
        alpha=0.5, 
        figsize=(16,5), 
        grid=True, 
        title='Зависимость суммарной выручки с игры для всех платформ от оценки критиков'
    )
)
plt.legend(['Выручка, млн'])
plt.show()

In [None]:
# Зависимость суммарной выручки от оценок пользователей
(
    df_act
    .plot(
        x='user_score', 
        y='total_sales', 
        style='o', 
        alpha=0.5, 
        figsize=(16,5), 
        grid=True, 
        title='Зависимость суммарной выручки с игры для всех платформ от оценки пользователей'
    )
)
plt.legend(['Выручка, млн'])
plt.show()

На графиках зависимости суммарной выручки с игры для всех платформ от оценки пользователей наблюдается схожая картина со случаем для платформы 'PS4'. 
1. Чем выше оценка критика, тем больше вероятность того, что игра принесет большую выручку. 
2. Чем выше оценка пользователя, тем большую выручку приносит игра, но не всегда. Довольно много случаев, когда игры прибыльны при низкой оценке пользователей.

**Исследование зависимостей выручки от жанров игр**

Интересно посмотреть зависимость продаж от жанра игры. Найдем суммарную выручку, количество выпущенных игр и среднюю выручку с одной игры для каждого жанра.

In [None]:
sales_by_genres = df_act.groupby('genre').agg({'total_sales':['sum','count']})
sales_by_genres.columns = ['total_sales', 'count_games']
sales_by_genres['mean_revenue'] = sales_by_genres['total_sales']/sales_by_genres['count_games']
sales_by_genres = sales_by_genres.sort_values(by='total_sales', ascending=False)
sales_by_genres

In [None]:
# найдем средние значения для каждого столбца
sales_by_genres.mean()

Построим график распределения общей выручки и количества выпущенных игр по жанрам.

In [None]:
(
    sales_by_genres
    .plot(
        y=['total_sales', 'count_games'], 
        kind='bar', 
        grid=True, 
        figsize=(16,5),
        title = 'Распределение общей выручки и количества выпущенных игр по жанрам'
    )       
)
plt.legend(['Общая выручка, млн', 'Количество выпущенных игр'])
plt.show()

Самыми прибыльными жанрами являются 'Action', 'Sports', 'Shooter', 'Misc' и 'Role-Playing'. Игр этих жанров больше всего по выпускаемым копиям. Среди них выделяется жанр 'Action' своим огромным количеством выпущенных игр (769), а также 'Shooter' - самой большой средней выручкой за игру (около 1.25 млн). 

Среди самых неприбыльных жанров выделяется 'Adventure'. Игр данного жанра было выпущено много, на уровне самых популярных жанров (245), но суммарная выручка одна из самых маленьких (около 24 млн.). Как следствие, у этого жанра наименьшая средняя выручка за игру - всего 96 тысяч.

**Вывод**

Провели исследовательский анализ данных: 
1. Построили графики и определили сколько игр выпускалось в разные годы. Выяснили, как менялись продажи по платформам от года к году. Построили график распределение для самых прибыльных платформ по годам и определили, что новые платформы появляются, а старые исчезают в среднем за 10 лет. На основании этого определили актуальный период (с 2005 по 2016 год).
2. Для актуального периода определили платформы, которые лидируют по продажам ('X360', 'PS3', 'Wii' и 'DS'). Проанализировав график, выяснили, что с каждым годом их продажи падают.
3. Выбрали несколько потенциально прибыльных платформ ('PS4', '3DS', 'PC' и 'XOne'). Построили для каждой из них диаграммы размаха по глобальным продажам игр. Оценили влияние отзывов пользователей и критиков на суммарные выручки игр. Пришли к выводу, что оценки критиков и пользователей оказывают влияние на итоговый успех той или иной игры, на ее продажи.
4. Исследовали общее распределение игр по жанрам. Выяснили, какие жанры являются самыми прибыльными ('Action', 'Sports', 'Shooter', 'Misc' и 'Role-Playing'), а какие нет ('Adventure', 'Puzzle' и 'Strategy'). Обнаружили жанры, сильно выделяющиеся от остальных ('Shooter' и 'Adventure').

## Анализ пользователей различных регионов

Исследуем популярность игр в зависимости от региона. Определим самые популярные платформы, самые популярные жанры, а также влияние рейтинга ESRB на выручку с продаж.

**Определение самых популярных платформ**

In [None]:
def create_pie_diagram(region, filt, title):
    (
        df_act
        .groupby(filt)[region]
        .agg('sum')
        .sort_values(ascending=False)
        .head()
        .plot(
            kind='pie',
            figsize=(7,7),
            title=title,
            startangle=90,
            autopct='%1.1f%%'
        )
    )
    plt.show()

In [None]:
create_pie_diagram('na_sales', 'platform', 'Продажи игр для 5 самых популярных платформ в Северной Америке')
create_pie_diagram('eu_sales', 'platform', 'Продажи игр для 5 самых популярных платформ в Европе')
create_pie_diagram('jp_sales', 'platform', 'Продажи игр для 5 самых популярных платформ в Японии')

Если сравнивать Североамериканский и Европейский регионы, то различия в долях продаж минимальны. Популярными являются одни и те же платформы ('PS4', 'XOne', 'X360', 'PS3' и '3DS'), разница в том, что в Европе более популярной является 'PS4' и занимает 40% рынка, а в Северной Америке - менее 30%.

А вот рынок Японии имеет свои особенности. Среди пяти самых популярных платформ, свыше 70% всех продаваемых игр приходится на портативные устройства - '3DS', 'PSV' и 'WiiU'. Это объясняется сложившейся культурой игровой индустрии в данном регионе.

**Определение самых популярных жанров**

In [None]:
create_pie_diagram('na_sales', 'genre', 'Продажи игр для 5 самых популярных жанров в Северной Америке')
create_pie_diagram('eu_sales', 'genre', 'Продажи игр для 5 самых популярных жанров в Европе')
create_pie_diagram('jp_sales', 'genre', 'Продажи игр для 5 самых популярных жанров в Японии')

Как и в случае с игровыми консолями, в Североамериканском и Европейском регионах различия в долях продаж в зависимости от жанра игры почти отсутствуют. Популярными являются жанры 'Action', 'Sports' и 'Shooter'. 

В Японии снова свои особенности. Почти 45% продаж приходится на жанр 'Role-Playing' (RPG). Популярность объясняется тем, что в "стране восходящего Солнца" есть своя разновидность игр этого жанра - Japanese Role-Playing Game (Японская ролевая игра). Большинство таких игр было разработано в Японии и в первую очередь для внутреннего японского рынка для игровых платформ. Имеют свои особенности, привлекательные именно для этого региона.

**Определение влияния рейтинга ESRB на продажи**

In [None]:
df_act.groupby('rating')[['na_sales', 'eu_sales', 'jp_sales']].agg('sum').sort_values(by='na_sales', ascending=False)

Видим, что в разных регионах популярны игры с разным рейтингом ESRB. В Северной Америке больше всего прибыли приносят игры с пометкой '17+', в Европе - ситуация аналогичная, а вот в Японии ситуация неоднозначная. Там самыми популярными являются игры без рейтинга. Для более глубокого исследования популярности игр в зависимости от выставленного рейтинга, необходимо выяснять причины столь большого количества игр без рейтинга в рассматриваемом датафрейме.

**Вывод**

Исследовали популярность игр в зависимости от региона. Определили самые популярные платформы, самые популярные жанры, а также влияние рейтинга ESRB на выручку с продаж. Выявили особенности игр, популярных в Японском регионе: среди платформ там популярны портативные игровые консоли, а среди жанров - RPG. Предположили возможные причины столь сильных различий с Североамериканским и Европейским регионами.

## Проверка гипотез

Необходимо проверить:
1. Средние пользовательские рейтинги платформ 'Xbox One' и 'PC' одинаковые;
2. Средние пользовательские рейтинги жанров 'Action' и 'Sports' разные.

**Проверка гипотезы 1**

Принято, что в нулевой гипотезе должен быть знак равенства (т.е. какие-либо величины равны между собой). Поэтому нулевая и альтернативная гипотезы выглядят так:

**Нулевая гипотеза H0**: "Средние пользовательские рейтинги платформ 'Xbox One' и 'PC' равны"

**Альтернативная гипотеза H1**: "Средние пользовательские рейтинги платформ 'Xbox One' и 'PC' не равны"

Проверять гипотезу будем с помощью критерия Стьюдента и основанного на нем t-теста.

In [None]:
samp1 = df_act.query('platform=="XOne" and not user_score.isna()')['user_score']  #выборка, содержащая пользовательские оценки 
                                                                                  #игр платформы 'Xbox One'
samp2 = df_act.query('platform=="PC" and not user_score.isna()')['user_score']    #выборка, содержащая пользовательские оценки
                                                                                  #игр платформы 'PC'
alpha = 0.05                                                                      #пороговое значение
results = st.ttest_ind(samp1, samp2, equal_var=False)
print(results.pvalue)
print()
if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')
    
print()
print('Средняя оценка пользователя игры для платформы "Xbox One":',samp1.mean())
print('Средняя оценка пользователя игры для платформы "PC":',samp2.mean())

Видим, что не получилось отвергнуть нулевую гипотезу, значит средние двух выборок не отличаются. Приведенные расчеты средней оценки пользователя для каждой платформы говорят о том, что пользователи оценивают игры для платформы 'PC' примерно также, как и для 'Xbox One'.

**Проверка гипотезы 2**

Причины, по которым нулевая и альтернативная гипотезы получили следующие формулировки такие же, как и в случае с гипотезой 1.

**Нулевая гипотеза H0**: "Средние пользовательские рейтинги жанров 'Action' и 'Sports' равны"

**Альтернативная гипотеза H1**: "Средние пользовательские рейтинги жанров 'Action' и 'Sports' отличаются"

Проверять гипотезу будем с помощью критерия Стьюдента и основанного на нем t-теста.

In [None]:
samp3 = df_act.query('genre=="Action" and not user_score.isna()')['user_score']  #выборка, содержащая пользовательские оценки 
                                                                                 #игр платформы 'Xbox One'
samp4 = df_act.query('genre=="Sports" and not user_score.isna()')['user_score']  #выборка, содержащая пользовательские оценки
                                                                                 #игр платформы 'PC'
alpha = 0.05                                                                     #пороговое значение
results = st.ttest_ind(samp3, samp4, equal_var=False)
print(results.pvalue)
print()
if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')
    
print()
print('Средняя оценка пользователя игры жанра "Action":',samp3.mean())
print('Средняя оценка пользователя игры жанра "Sports":',samp4.mean())

Видим, что нулевая гипотеза H0 отвергнута, значит средние двух выборок отличаются. Приведенные расчеты средней оценки пользователя для жанров 'Action' и 'Sports' говорят о том, что пользователи оценивают игры жанра 'Action' выше, чем игры жанра 'Sports'.

**Вывод**

Проверили гипотезы и подтвердили, что cредние пользовательские оценки платформ 'Xbox One' и 'PC' не равны, а средние пользовательские рейтинги жанров 'Action' и 'Sports' отличаются.

## Общий вывод

1. Считали таблицу из файла и изучили общую информацию. Оценили данные, обозначили явные проблемы, наметили план предобработки.
2. Нашли пропуски в таблице. Выдвинули предположения о причинах их возникновения. Заполнили пропущенные значения, где это было уместно.
3. Обнаружили дубликаты в таблице, произвели их обработку.
4. Изменили типы данных в некоторых столбцах на более подходящие.
5. Посчитали и добавили в таблицу новый параметр - суммарные продажи игр по всем регионам.
6. Провели исследовательский анализ данных, а именно:
    - построили графики и показали сколько игр выпускалось в разные годы; 
    - выяснили, что индустрия видеоигр начала активно развиваться **после 1994 года**; 
    - построили графики продаж по годам в зависимости от платформы;
    - нашли характерный срок, за которых появляются новые и исчезают старые платформы - **10 лет**; определили аrтуальный период для последующего рассмотрения данных (**с 2013 года по настоящее время**);
    - определили несколько потенциально прибыльных платформ: **'PS4', '3DS', 'PC' и 'XOne'**, построили для каждой из них диаграммы размаха по глобальным продажам игр;
    - оценили влияние отзывов пользователей и критиков на суммарные выручки игр. Пришли к выводу, что **оценки критиков и пользователей оказывают влияние на итоговый успех той или иной игры, на ее продажи**;
    - исследовали общее распределение игр по жанрам; выяснили, какие жанры являются **самыми прибыльными ('Action', 'Sports', 'Shooter', 'Misc' и 'Role-Playing'**), а **какие нет ('Adventure', 'Puzzle' и 'Strategy')**;
    - провели исследование популярность игр в зависимости от региона. Определим самые популярные платформы, самые популярные жанры, а также влияние рейтинга ESRB на выручку с продаж.
        - **в СевероамериканскомЕвропейском регионе пользуются популярностью игры на платформах: 'PS4', 'XOne' и 'X360', а среди жанров игр популярными являются: 'Action', 'Sports' и 'Shooter'**;
        - **в Европейском регионе пользуются популярностью игры на платформах: 'PS4', 'PS3' и 'XOne', а среди жанров игр популярными являются: 'Action', 'Sports' и 'Shooter'**;
        - **в Японии пользуются популярностью игры на платформах: '3DS', 'PS3' и 'PSV', а среди жанров игр популярными являются: 'Role-Playing' и 'Action'**;
    - выявили особенности игр, популярных в Японском регионе: среди платформ там популярны портативные игровые консоли, а среди жанров - RPG. Предположили возможные причины столь сильных различий с Североамериканским и Европейским регионами;
    - исследовав влияние рейтинга ESRB на продажи, пришли к выводу, что **рейтинги популярных игр в разных регионах отличаются**;
    - проверили гипотезы о равенстве средние пользовательский рейтингой для платформ 'Xbox One' и 'PC' и для жанров 'Action' и 'Sports'.
7. **РЕКОМЕНДАЦИИ:** поскольку перед нами стояла задача спланировать продажи на 2017 год в зависимости от популярности игр, то сформулируем следующие рекомендации:
    - необходимо сделать упор в большей степени на платформы 'PS4', '3DS', 'XOne', т.к. на текущий момент они самые популярные и их продажи в 2017 году будут еще на восходящем тренде;
    - самые прибыльные жанры: 'Action', 'Sports', 'Shooter'. Особое внимание стоит обратить на игры жанра 'Shooter', которые отличаются высокой средней выручкой (более 1.2 млн);
    - наибольшую прибыль в Северной Америке и Европе приносят игры, у которых рейтинг ESRB - 'M' (17+);
    - для Японии свои особенности: 
        - самыми прибыльнымы являются игры жанра 'Role-Playing';
        - 70% рынка занимают портативные консоли ('3DS', 'PSV', 'WiiU'), 30% - консоли 'Play Station' 3 и 4 версии.
    