# **Анализ закономерностей рынка видеоигр.**

## Описание проекта

Интернет- магазин «Стримчик», продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.

Перед нами данные до 2016 года. Сейчас декабрь 2016 г., и мы планируем кампанию на 2017-й. Нужно отработать принцип работы с данными. Не важно, прогнозируете ли вы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.

В наборе данных попадается аббревиатура ESRB (Entertainment Software Rating Board) — это ассоциация, определяющая возрастной рейтинг компьютерных игр. ESRB оценивает игровой контент и присваивает ему подходящую возрастную категорию, например, «Для взрослых», «Для детей младшего возраста» или «Для подростков».

Описание данных
- **Name** — название игры
- **Platform** — платформа
- **Year_of_Release** — год выпуска
- **Genre** — жанр игры
- **NA_sales** — продажи в Северной Америке (миллионы долларов)
- **EU_sales** — продажи в Европе (миллионы долларов)
- **JP_sales** — продажи в Японии (миллионы долларов)
- **Other_sales** — продажи в других странах (миллионы долларов)
- **Critic_Score** — оценка критиков (максимум 100)
- **User_Score** — оценка пользователей (максимум 10)
- **Rating** — рейтинг от организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.


Данные за 2016 год могут быть неполными.


# План работы

**План работы**

**Шаг 1.** Откроем файл с данными и изучим общую информацию


**Шаг 2.** Подготовим данные
 - Заменим названия столбцов (приведем к нижнему регистру);
 - Преобразуем данные в нужные типы. Опишем, в каких столбцах заменили тип данных и почему;
 - Обработаем пропуски при необходимости:
 - Объясним, почему заполнили пропуски определённым образом или почему не стали это делать;
 - Опишем причины, которые могли привести к пропускам;
 - Обратим внимание на аббревиатуру 'tbd' в столбцах с рейтингом. Отдельно разберем это значение и опишем, как его обработать;
 - Посчитаем суммарные продажи во всех регионах и запишем их в отдельный столбец.

**Шаг 3.** Проведем исследовательский анализ данных

 - Посмотрим, сколько игр выпускалось в разные годы. Важны ли данные за все периоды?
 - Посмотрим, как менялись продажи по платформам. Выберем платформы с наибольшими суммарными продажами и построим распределение по годам. За какой характерный срок появляются новые и исчезают старые платформы?
Возьмем данные за соответствующий актуальный период. Актуальный период определим самостоятельно в результате исследования предыдущих вопросов. Основной фактор — эти данные помогут построить прогноз на 2017 год. Не будем учитывать в работе данные за предыдущие годы.
Какие платформы лидируют по продажам, растут или падают? Выберем несколько потенциально прибыльных платформ.
 - Построим график «ящик с усами» по глобальным продажам игр в разбивке по платформам. Опишем результат.
 - Посмотрим, как влияют на продажи внутри одной популярной платформы отзывы пользователей и критиков.  - -   - Построем диаграмму рассеяния и посчитаем корреляцию между отзывами и продажами. Сформулируем выводы.
 - Соотнесем выводы с продажами игр на других платформах.
 - Посмотрим на общее распределение игр по жанрам. Что можно сказать о самых прибыльных жанрах? Выделяются ли жанры с высокими и низкими продажами?

**Шаг 4.** Составим портрет пользователя каждого региона

 - Определим для пользователя каждого региона (NA, EU, JP):
 - Самые популярные платформы (топ-5). Опишем различия в долях продаж.
 - Самые популярные жанры (топ-5). Поясним разницу.
 - Влияет ли рейтинг ESRB на продажи в отдельном регионе?

**Шаг 5.** Проверим гипотезы

 - Средние пользовательские рейтинги платформ Xbox One и PC одинаковые;
 - Средние пользовательские рейтинги жанров Action (англ. «действие», экшен-игры) и Sports (англ. «спортивные соревнования») разные.
 - Пороговое значение alpha зададим самостоятельно.
 - Поясним:
 - Как мы сформулировали нулевую и альтернативную гипотезы;
 - Какой критерий применили для проверки гипотез и почему.

**Шаг 6.** Напишем общий вывод



In [5]:
#импортируем библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as st
from functools import reduce
idx = pd.IndexSlice
from scipy import stats as st

ModuleNotFoundError: No module named 'matplotlib'

In [6]:
# format вывода значений в виде числа с 2-мя знаками после запятой
pd.options.display.float_format = '{:,.2f}'.format

## Ознакомление с данными

In [7]:
try:
    data = pd.read_csv('/datasets/games.csv', sep=',')
except:
    data = pd.read_csv('games.csv', sep=',')    
display(data.head(10).T)

FileNotFoundError: [Errno 2] No such file or directory: 'games.csv'

In [8]:
data.tail(10)

NameError: name 'data' is not defined

In [None]:
#посморим общую информацию о таблице
data.info()

Видим, что в таблице есть пропуски в столбцах Name, Year_of_Release , Genre, Critic_Score, User_Score, Rating. А также видим несоответствие типов данных в некоторых столбцах. Также названия столбцов нужно откорректировать.

## Предобработка данных.

In [None]:
#Приведем столбцы к нижнему регистру
data.columns=data.columns.str.lower()


In [None]:
# Посмотрим на пропуски поближе
round(data.isnull().sum() / data.shape[0] * 100,2)

In [None]:
#отобразим процент пропусков по столбцам графически
percent_of_nulls = (data.isnull().sum() / data.shape[0]) * 100
plt.figure(figsize=(10, 6))
plt.barh(percent_of_nulls.index,percent_of_nulls.values)
plt.xlabel('Процент пропусков')
plt.ylabel('Столбцы')
plt.title('Процент Nan в таблице')
plt.xlim(0, 55);

In [None]:
#В столбцах 'name' и 'genre' и процент пропусков одинаково маленький.Посмотрим подробнее.
data[['name','genre']].isna().sum()


In [None]:
data[data['name'].isnull()].head()

In [None]:
data[data['genre'].isnull()].head()

Здесь мы видим, что это всего 2 строки, в которых пропущены название и жанр игры. Заменить эти пропущенные значения не представляется возможным, поэтому мы их удалим. К тому же это совсем небольшой процент от всех данных и удаление никак не повлияет на результат исследования.

In [None]:
#удалим эти 2 строки с пропущенными значениями
data.dropna(subset=['name'],inplace=True)

In [None]:
#проверим
data[data['genre'].isnull()].head()

Самое большое количество пропусков в столбце **'critic_score'** - 51%, заполнить медианой или средним будет некорректно, так как мы будем исследовать влияние этого параметра в дальнейшем. И такой формальное заполнение пропусков исказит результаты анализа данных и повлияет на принятие последующих решений. Поэтому  эти пропуски мы заполним значением -1, чтобы привести тип данных столбца к int и не брать их в расчет при дальнейших действиях.

In [None]:
data['critic_score'] = data['critic_score'].fillna(-1)

In [None]:
data.tail(10)

In [None]:
#видим, что в столбце 'user_score' значения 'Nan' есть значение 'tbd'
data['user_score'].unique()

In [None]:
#посмотрим много ли таких значений
data[data['user_score'] == 'tbd']



В столбце **'user_score'** - 40% пропусков это тоже очень много. Также мы видим среди прочих значений абревиатуру 'tbd' - аббревиатура от английского To Be Determined (будет определено) или To Be Decided (будет решено). Используется, если какая-то информация еще не определена или решение по вопросу не принято.То есть по сути у этой игры пока нет рейтинга и это приравнивается к пропуску в столбце. Целесообразно заполнить значения 'tbd' -1, как и значения Nan в этом столбце, мы тоже заменим -1.Ведь даже если у игры будет рейтинг 0, мы не запутаемся в значниях. 



In [None]:
data['user_score'] = data['user_score'].replace('tbd', np.NaN).astype('float')

In [None]:
data['user_score'] = data['user_score'].fillna(-1)

Столбец **'rating'** - 40%, тоже значимый для нас параметр. Этот столбец имеет строковый тип и заполнен различными рейтингами. Принято решение заполнить значением "no_rating".

In [None]:
# заполним пропуски ещё одним рейтингом "нет рейтинга"
data['rating'] = data['rating'].fillna('no_rating')
data['rating'].isna().sum()

In [None]:
#посмотрим количество пропусков в столбце 'year_of_release'
data['year_of_release'].isna().sum()

In [None]:
# используем лямбда функцию для замены пропущенных значений по годам,
# группируя по названию платформ и подсчитывая медиану
#data['year_of_release'] = data.groupby(
 #   'platform')['year_of_release'].apply(lambda x: x.fillna(x.median()).astype(int)
 #   )

Пропуски в столбце 'year_of_release' не заполняем, так как данные этого столбца не повлияют на наши выводы.

In [None]:
data.info()

### Посчитаем суммарные продажи во всех регионах и запишем их в отдельный столбец.

In [None]:
#суммируем продажи повсем регионам и добавим результат в отдельный столбец
data['sales_total'] = data['na_sales'] + data['eu_sales'] + data['jp_sales'] + data['other_sales']
data.T

In [None]:
data.info()

In [None]:
# Посмотрим на пропуски поближе
round(data.isnull().sum() / data.shape[0] * 100,2)

In [None]:
#проверим на дубликаты
data.duplicated().sum()

Явных дубликатов нет.

Проверим данные на неявные дубликаты.

In [None]:
data[['name','platform','year_of_release']].duplicated().sum()

In [None]:
data[data[['name','platform', 'year_of_release']].duplicated() == True]

In [None]:
data = data.drop_duplicates(subset=(['name','platform', 'year_of_release']),keep='first')
data.reset_index(drop=True)


In [None]:
data[data[['name','platform', 'year_of_release']].duplicated() == True]

Избавились от неявных дубликатов.

**Вывод:**

В результате предобработки данных мы сделали следующее:

 - заменили названия столбцов (привели их к нижнему регистру), преобразовали данные в нужные типы. 
 - столбцах 'critic_score' и 'user_score' пропуски заполнили значением -1 для того, чтобы данные оставались достоверными и при этом была возможность привести тип данных к int для удобства дальнейших расчетов.
 - в столбце 'user score' абревиатуру tbd предварительно заменили на Nan, а затем на -1. 
 - пропуски вышеперечисленных столбцах могли возникнуть по причине того, что не все игроки оставляют свои оценки играм, а также абревиатура tbd означает, что оценка еще не определена.
 - удалили явные и неявные дубликаты.

## Исследовательскй анализ данных

 - Посмотрим, сколько игр выпускалось в разные годы. Важны ли данные за все периоды? 
 
 - Посмотрим, как менялись продажи по платформам. Выберем платформы с наибольшими суммарными продажами и построим распределение по годам. За какой характерный срок появляются новые и исчезают старые платформы?
 
 - Возьмем данные за соответствующий актуальный период. Актуальный период определим самостоятельно в результате исследования предыдущих вопросов. Основной фактор — эти данные помогут построить прогноз на 2017 год. Не будем учитывать в работе данные за предыдущие годы.
 
 - Какие платформы лидируют по продажам, растут или падают? Выберем несколько потенциально прибыльных платформ.
 
 - Построим график «ящик с усами» по глобальным продажам игр в разбивке по платформам. Опишем результат.
 - Посмотрим, как влияют на продажи внутри одной популярной платформы отзывы пользователей и критиков.  
 - Построим диаграмму рассеяния и посчитаем корреляцию между отзывами и продажами. Сформулируем выводы.
  
 - Соотнесем выводы с продажами игр на других платформах.
 
 - Посмотрим на общее распределение игр по жанрам. Что можно сказать о самых прибыльных жанрах? Выделяются ли жанры с высокими и низкими продажами?


### Количество игр в разные годы. 

Посмотрим, сколько игр выпускалось в разные годы. Важны ли данные за все периоды?

In [None]:
# создадим сводную таблицу и посчитаем суммарное кол-во игр по годам
count_games = data.pivot_table(index='year_of_release', 
                                        values='name', aggfunc='count')
count_games

In [None]:
# построим график
data.pivot_table(
    index='year_of_release', values='name', aggfunc='count').plot(y = 'name', kind = 'bar',\
figsize = (16,8), title='Количество новых игр в год', grid= True, color='blue', alpha=0.6, legend=False)\
.set(xlabel='Год выпуска', ylabel='Количество новых игр');

 По графику мы видим, что с 1980 по 1994 г. выпускалось мало игр. С 1994 по 2010г. количество игр на игровые приставки и компьютеры начинает расти с большой скоростью.
 
 Затем с 2011г. начинается резкий спад, возможно это связано с созданием большого количества мобильных приложений и мобильных игр. Игры все больше переходят в онлайн. Это всё привело к тому, что интерес к самим играм упал, соответственно, упало и их производство.
 
 Для анализа возьмем период с 1994 по 2011г.(судя по графику до 1994 данные не так интересны для анализа).

### Продажи игр по платформам.

Посмотрим, как менялись продажи по платформам.
Выберем платформы с наибольшими суммарными продажами и построим распределение по годам. За какой характерный срок появляются новые и исчезают старые платформы?
 
Возьмем данные за соответствующий актуальный период. Актуальный период определим самостоятельно в результате исследования предыдущих вопросов. Основной фактор — эти данные помогут построить прогноз на 2017 год. Не будем учитывать в работе данные за предыдущие годы.
 
Какие платформы лидируют по продажам, растут или падают? Выберем несколько потенциально прибыльных платформ.

In [None]:
# выведем топ платформ по суммарным продажам
data.groupby('platform')['sales_total'].sum().sort_values(ascending=False)

In [None]:
data.pivot_table(
    index='platform', values='sales_total', aggfunc='sum').sort_values(by='sales_total', ascending=False)\
.plot(y = 'sales_total', kind = 'bar',\
figsize = (16,8), title='Суммарный объем продаж по платформам за весь период', grid= True, color='red', alpha=0.6, legend=False)\
.set(xlabel='Название платформы', ylabel='Количество продаж в млн.$');

На графике явно видны лидеры "PS2", "X360", "PS3", "Wii", "DS","PS".

In [None]:
# сделаем срез данных по топ платформам, у которых более 500 млн
top_platforms = data.query('platform in("PS2", "X360", "PS3", "DS", "Wii", "PS")')
top_platforms.head(10)

In [None]:
#оставим в выгрузке только нужные года
data_years = top_platforms.query("year_of_release >= 1994")
#построим график распределения по годам
data_years.pivot_table(index='year_of_release', columns = 'platform', values='sales_total', aggfunc='sum').\
plot(grid=True, figsize=(19, 10), style='-o')
plt.title("Суммарный объем продаж по платформам за весь период")
plt.xlabel("Год выпуска")
plt.ylabel("Объём продаж в млн.$");

Какие платформы лидируют по продажам, растут или падают?
Характерное время жизни платформ, есть ли рост к 2016 году

 - PS 1994-2003, около 9 лет, роста нет.
 - PS2 2000-2011, около 11 лет, роста нет.
 - DS 2004-2013,  около 9 лет, роста нет.
 - PS3 2006-2016, 10 лет, роста нет, но возможно есть потенциал так как данные за 2016 год не полные.
 - WII 2006-2016, 10 лет, роста нет, но возможно есть потенциал так как данные за 2016 год не полные.
 - X360 2005-2016 11 лет, роста нет, но возможно есть потенциал так как данные за 2016 год не полные.
Из графика видно средний срок жизни платформ около 10 лет.

**Вывод о продажах по годам и платформам.**

Анализируя рынок игр и платформ делаю вывод, что рынок резко начал расти с выходом PS2 около 2001 года. Приобрёл максимальную конкуренцию начиная с 2006 года, когда на рынок вышли X360, Wii, DS. К 2012 году основные старые платформы закончили свою жизнь, после 2011 года года было резкое падение рынка, лучше этот год и ранее не брать. Т.к. средний период жизни платформы около 10 лет. За этот период игры продаются следующим образом: первые 5 лет рост продаж, затем пик и спад продаж.Это обусловлено тем, что выходит новая игра и игроки постепенно переходят на новую платформу.Такой переход длится 4-5лет, в этот период снижается выпуск игр для старых платформ, а для новых наращивает обороты.
Начиная с 2012 года и будет актуальная для нас выборка. Далее расмотрим, какие платформы имеют рост в этот период.

### Актуальные лидеры

Какие платформы лидируют по продажам, растут или падают? Выберем несколько потенциально прибыльных платформ

In [None]:
# делаем нужный нам срез
df_2012 = data.query('year_of_release >= 2012').reset_index()
df_2012.head()

Мы сделалали срез по актуальным данным с 2012 года.

In [None]:
# создадим сводную таблицу и посчитаем суммарное кол-во денег
data_leader_platform = df_2012.pivot_table(index=['year_of_release'], 
                                       columns='platform',
                                       values='sales_total',
                                       aggfunc='sum')
data_leader_platform.head(5)

In [None]:
# построим график для платформ
data_leader_platform.plot(y=['3DS', 'DS', 'PC', 'PS3', 'PS4', 'PSP', 'PSV', 'Wii', 'WiiU', 'X360', 'XOne'],
                               grid=True,
                               style='-o',
                               figsize=(12, 12))
plt.title('Сумма выручки игр по годам')
plt.ylabel('Выручка, млн')
plt.xlabel('Год');

В таблице нам даны неполные данные за 2016 год, поэтому будем смотреть по 2015 году.
Судя по графику  рост продаж на 2015 имеют PS4 - 119 млн. продаж и XOne - 60 млн.
следующим идет 3DS (28 млн.), на 4 месте - PC (здесь стагнация рынка).
На X360 и Wii не стоит делать ставку так как их продажи почти равны 0. Да и остальные платформы судя по графику продолжат падать.


In [None]:
#отфильтруем наш топ-5
top_5 = data_leader_platform.loc[:, ['PS4','XOne', 'PC', '3DS', 'PS3']]
top_5.head()

### Построим график «ящик с усами» по глобальным продажам игр в разбивке по платформам. 

 Построим график «ящик с усами» по глобальным продажам игр в разбивке по платформам. Опишем результат.
 Возьмем актуальный период с 2012 по 2016 год.

In [None]:
#нарисуем ящики с усами для топовых платформ 

plt.figure(figsize=(12,6))
sns.boxplot(data = top_5)
plt.title('График разброса выручки по лидирующим платформам', fontsize=15)

plt.xlabel('Платформа', fontsize=12)
plt.ylabel('Глобальные продажи',fontsize=12);

In [None]:
top_5.describe()

- Провели срез данных для того, чтобы отрисовать ящики с усами. 
- Исходя из графиков видно, что медиана протекает у всех по разному
- Больше всего в среднем продаж у PS4 (78.54 млн.), затем PS3(57.76). Затем почти на одном уровне - 3DS(38.92 млн.)и XOne(39.83 млн.), и на последнем месте PC - (12.53млн.). 

### Влияние отзывов критиков и пользователей внутри платформы внутри самой популярной

Посмотрим, как влияют на продажи внутри одной популярной платформы отзывы пользователей и критиков.
Построим диаграмму рассеяния и посчитаем корреляцию между отзывами и продажами. Сформулируем выводы.


In [None]:
# посмотрим топ платформ по кол-ву игр
df_2012.groupby('platform')['name'].count().sort_values(ascending=False)

In [None]:
#посмотрим топ по общим продажам
df_2012.pivot_table(index='platform', values='sales_total', aggfunc='sum').nlargest(10, 'sales_total')

Выделим список 5 лидеров по продажам и соответственно это будут самые популярные платформы c 2012г..

In [None]:
top_list_5=df_2012.pivot_table(index='platform', values='sales_total', aggfunc='sum').nlargest(5, 'sales_total')
top_list_5

Из них, за образец возьмем PS3 - она давно на рынке, по ней много данных, при этом даже на конец 2016 года она является одной из самых популярных игровых платформ.

In [None]:
#отсортруем данные таблицы и создадим таблицу по нашему лидеру c учетом предыдущей замены пропусков значением -1
data_ps3 = df_2012[(df_2012['platform'] == 'PS3') & (df_2012['critic_score'] > 0)]
data_ps3.head()

In [None]:
#посмотрим корреляцию данных
PS3_cor=data_ps3.corr()
PS3_cor

In [None]:
#нарисуем тепловую карту отражающую корреляцию по всем столбцам таблицы
plt.figure(figsize=(9,9))
sns.heatmap(PS3_cor, annot=True, cmap="ocean_r", fmt='.2f', annot_kws={'size':16});

In [None]:
# выделим только нужные нам значения
games_ps3_filtered = data_ps3[['sales_total' ,'critic_score', 'user_score']]
games_ps3_filtered.head() 

In [None]:
#нарисуем тепловую карту для нужных нам значений
plt.figure(figsize=(1,3))
sns.heatmap(games_ps3_filtered.corr()[['sales_total']]
            .sort_values(by='sales_total', ascending=False), cmap="ocean_r", 
            annot=True, annot_kws={'size':15});

Видим, что зависимость продаж от оценок критиков невелика - 0,33 но больше, чем с оценками пользователей (корреляция  - 0,12). т.е оценка критиков влияет на заинтересованность покупателей, но не определяет ее.
 Посмотрим эту зависимость на диаграмме рассеяния. Так как графически более наглядно можно увидеть нет ли каких либо других факторов влияющих на продажи и на оценки.

In [None]:
# нарисуем диаграмму рассеяния корреляции оценок критиков и продаж.
data_ps3.plot(kind='scatter', x='critic_score', y='sales_total', color='blue', figsize=(10,5), grid=True);
plt.title('Диаграмма рассеяния для PS3. Корреляция с оценками критиков');

С увеличением среднего рейтинга критиков, увеличивается и средний уровень выручки с продажи игр.
Это логично: чем качественнее игра, тем больше денег она приносит разработчику и издателю.

Теперь  посмотрим на корреляцию продаж с отзывами пользователей.

In [None]:
# нарисуем диаграмму рассеяния корреляции оценок пользователей и продаж.
data_ps3.plot(kind='scatter', x='user_score', y='sales_total', color='blue', figsize=(10,5), grid=True)
plt.title('Диаграмма рассеяния для PS3. Корреляция с оценками пользователей');

Практически та же картина.За исключением выбросов - когда рейтинг невелик, но игра все равно хорошо продается. Думаю это связано с обширной рекламной компанией, когда игра покупается пользователем, но разочаровавшись, поиграв в нее пользователь в итоге ставит среднюю оценку. 

### Соотнесем выводы с продажами игр на других платформах.

Сгруппируем данные за актуальный период  (с 2012 по 2016 г.) по платформам и посмотрим на связи рейтингов и продаж на других платформах.

In [None]:
other_platforms=df_2012.query('platform != "PS3" & critic_score > 0 & user_score >0')

In [None]:
other_platforms.groupby('platform')[['critic_score','user_score','sales_total']].corr()
other_platforms.head()

В общем и целом, обозначенные для PS3, тенденции подтверждаются, однако стоит отметить, что для консолей, направленных на японский рынок, таких как 3DS, WiiU зависимость продаж от рейтинга пользователей сопоставима с зависимостью от рейтинга критиков.

**Выводы:**
Оценивая корреляцию продаж игр других платформ с оценками критиков и оценками пользователей делаем вывод, что корреляция с оценками критиков слабая, но есть. С оценкам пользователей корреляции практически нет. По данным таблицы видим зависимость оценок пользователей от оценок критиков.То есть чем выше оценки китиков, тем выше оценки пользователей.

### Посмотрим на общее распределение игр по жанрам.

Посмотрим на общее распределение игр по жанрам. Что можно сказать о самых прибыльных жанрах? Выделяются ли жанры с высокими и низкими продажами?

In [None]:
genre_sales = df_2012.pivot_table(index='genre', values='sales_total',\
                               aggfunc='sum').sort_values('sales_total', ascending=False)
genre_sales

На первый взгляд в лидерах продаж жанры: Action, Shooter, Role-Playing.

На нижних строчках оказались:  Adventure, Strategy, Pazzle.

In [None]:
#Построим график отражающий суммарный объем продаж по каждому жанру за актуальный период.
df_2012.pivot_table(
    index='genre', values='sales_total', aggfunc='sum').sort_values(by='sales_total', ascending=False)\
.plot(y = 'sales_total', kind = 'bar',\
figsize = (16,8), title='Суммарный объем продаж по жанрам за актуальный период',\
      grid= True, color='green', alpha=0.6, legend=False)\
.set(xlabel='Название жанра', ylabel='Количество продаж в млн.$');

In [None]:
genre_sales = df_2012.pivot_table(index='genre', values='sales_total',\
                               aggfunc='median').sort_values('sales_total', ascending=False)
genre_sales

In [None]:
#построим график отражающий медианное значение по продажам каждого жанра за актуальный период.
df_2012.pivot_table(
    index='genre', values='sales_total', aggfunc='median').sort_values(by='sales_total', ascending=False)\
.plot(y = 'sales_total', kind = 'bar',\
figsize = (16,8), title='Медианный объем продаж по жанрам за весь период',\
      grid= True, color='blue', alpha=0.6, legend=False)\
.set(xlabel='Название жанра', ylabel='Количество продаж в млн.$');

По графику видно, что в лидерах неожиданно, оказались:Shooter,Sports,Platform, а жанр Role-Playing так и остался на 4 месте.

В 'хвосте' все те же: Adventure, Strategy, Pazzle.

Остальные жанры судя по медианному значению распределились примерно одинаково в том числе и лидирующий на первый взгляд жанр Action. 

Посмотрим на средние значения.

In [None]:
genre_sales = df_2012.pivot_table(index='genre', values='sales_total',\
                               aggfunc='mean').sort_values('sales_total', ascending=False)
genre_sales

In [None]:
#построим график отражающий среднее значение по продажам каждого жанра за актуальный период.
df_2012.pivot_table(
    index='genre', values='sales_total', aggfunc='mean').sort_values(by='sales_total', ascending=False)\
.plot(y = 'sales_total', kind = 'bar',\
figsize = (16,8), title='Средний объем продаж по жанрам за весь период',\
      grid= True, color='red', alpha=0.6, legend=False)\
.set(xlabel='Название жанра', ylabel='Количество продаж в млн.$');

Построив, график на основе средних значений, мы видим, что все осталось практически неизменным. Посмотрим диаграмму размаха, чтобы полнее увидеть картину.  

In [None]:
#построим диаграмму размаха для каждого жанра за актуальный период. 
sns.catplot(x='genre', y="sales_total", kind="box", data=df_2012, height=6, palette='twilight_shifted_r', aspect=2.7)
plt.ylim(0, 4)
plt.title('Распределение по игровым жанрам за весь период', fontsize=15)
plt.xlabel('Жанр', fontsize=12)
plt.ylabel('Глобальные продажи млн.$',fontsize=12);

In [None]:
#посмотрим поближе
sns.catplot(x='genre', y="sales_total", kind="box", data=df_2012, height=6, palette='twilight_shifted_r', aspect=2.7)
plt.ylim(0, 1)
plt.title('Распределение по игровым жанрам за весь период', fontsize=15)
plt.xlabel('Жанр', fontsize=12)
plt.ylabel('Глобальные продажи млн.$',fontsize=12);

Как мы видим, Shooter по средним продажам лидирует по сравнению с остальными жанрами игр, а Action, напротив, по этому критерию отстает, однако, является в целом популярным жанром из-за наибольшего объема продаж. Приключенческие игры и игры-головоломки (puzzle), как правило, не пользуются большой популярностью: их абсолютные и средние продажи одни из самых низких среди всех жанров.Очевидно, что при планировании продаж на 2017 год стоит делать ставку на самые продаваемые жанры среди игроков, а именно Shooter, Platform, Sports, Role-Playing. 

**Выводы:**
На данном этапе был проведен исследовательский анализ данных. Определно количество игр выпускаемых в различные периоды (половина представленных игр была выпущена с 2008 по 2016 годы).

Количество игр на игровые приставки и компьютеры начало расти с большой скоростью с 90х годов до 2008 года. С 2008 года, после того как массово начали создавать мобильные приложения и мобильные игры, произошел резкий спад разработок игр на игровые платформы.
Самые популярные игровые платформы за весь период : Sony PlayStation 2, Xbox 360, Sony Playstation 3, Nintendo WII, Nintendo DS, Sony Playstation.
Средняя жизнь игровой платформы составляет  около 10 лет. Пик продаж наступает примерно через 5 лет после выхода приставки.
Больше всего продаются игры на Sony Playstation и Xbox 360.
Nintendo WII как быстро появился также быстро и потух. Возможно потому, что появился прям перед выходом мобильных приложений и игр.
У всех платформ наблюдается взаимосвязь между продажами и оценками критиков и пользователей. Заметнее всего корреляция между оценками критиков и продажами. Это значит, для людей мнение критиков важнее мнения других пользователей.

Выявлены три наиболее актуальные платформы на данный момент и в разрезе перспективы на следующие несколько лет (PS4, XOne, 3DS). Определена корреляция между оценками критиков и оценками пользователей. В целом оценки критиков слабо коррелируются с продажами, а оценки пользователй и продажи имеют очень слабую корреляцию (практически нулевую).

Найдены наиболее популярные жанры игр за последние 5 лет (Shooter, Platform, Sports, Role-Playing). 

## Составим портрет пользователя каждого региона

  Определим для пользователя каждого региона (NA, EU, JP):
 - Самые популярные платформы (топ-5). Опишем различия в долях продаж.
 - Самые популярные жанры (топ-5). Поясним разницу.
 - Влияет ли рейтинг ESRB на продажи в отдельном регионе?
 
  Используем данные за актуальный период (2012-2016г.)

In [None]:
ig, axs = plt.subplots(1, 3, figsize=(15, 5))

regions = [('na_sales', 'Топ-5 платформ в Северной Америке'), 
           ('eu_sales', 'Топ-5 платформ в Европе'), 
           ('jp_sales', 'Топ-5 платформ в Японии')]

for i, (region, title) in enumerate(regions):
    top_platforms = df_2012.groupby('platform')[region].sum().sort_values(ascending=False)
    top_5_platforms = top_platforms.head(5)
   

    axs[i].pie(top_5_platforms, labels=top_5_platforms.index, autopct='%1.1f%%', wedgeprops={'edgecolor': 'white'})
    axs[i].set_title(title, fontsize=14)

plt.suptitle('Обзор рынка платформ', fontsize=16);

Из графиков видно, что:

в Северной Америке на первом месте по популярности X360, на 2-PS4 , на 3 - PS3.

в Европе, PS4, PS3 и X360 практически одинаково популярны. 

в Японии самыми популярными палтформами являются: 3DS, PS3, PSV.

In [None]:
ig, axs = plt.subplots(1, 3, figsize=(15, 5))

regions = [('na_sales', 'Топ-5 жанров в Северной Америке'), 
           ('eu_sales', 'Топ-5 жанров в Европе'), 
           ('jp_sales', 'Топ-5 жанров в Японии')]

for i, (region, title) in enumerate(regions):
    top_platforms = df_2012.groupby('genre')[region].sum().sort_values(ascending=False)
    top_5_platforms = top_platforms.head(5)
   
    axs[i].pie(top_5_platforms, labels=top_5_platforms.index, autopct='%1.1f%%', wedgeprops={'edgecolor': 'white'})
    axs[i].set_title(title, fontsize=14)

plt.suptitle('Обзор рынка жанров', fontsize=16);

Самыми популярными жанрами в Северной Америке и Европе - Action, Shooter, Sports. В Японии ситуация чуть другая: самый популярный жанр - Role-Playing, затем следуют Action и Misc.

### Влияние рейтинга ESRB на продажи в отдельном регионе.

**Entertainment Software Rating Board (ESRB)** — негосударственная организация, основное направление деятельности — принятие и определение рейтингов для компьютерных видеоигр и другого развлекательного программного обеспечения в США и Канаде.
Определим, влияет ли рейтинг ESRB на продажи в отдельном регионе.

In [None]:
# получаем необходимый срез данных
df_rating = df_2012[['rating', 'na_sales', 'eu_sales', 'jp_sales']] \
    .groupby('rating', as_index=False) \
    .agg({'na_sales': 'sum', 'eu_sales': 'sum', 'jp_sales': 'sum'}) \
    .melt(id_vars=['rating']) \
    .sort_values('value', ascending=False)

In [None]:
# размер фигуры
plt.figure(figsize=(12, 8))

# задание параметров построения графика
ax = sns.barplot(y=df_rating.rating,
                 x=df_rating.value,
                 orient='h',
                 color='#7028c5',
                 palette='magma_r',
                 hue=df_rating.variable,
                 hue_order=['eu_sales', 'na_sales', 'jp_sales']);

# подписи осей и названия
plt.xlabel('Продажи, млн.$')
plt.title('Распределение продаж игр по регионам в зависимости от присвоенного возрастного рейтинга начиная с 2012 года');

**«M» («Mature») — «Для взрослых»**: Материалы игры не подходят для лиц младше 17 лет. Проекты с данным рейтингом могут содержать жестокое насилие, большое количество крови с расчленением, непристойные сексуальные сцены или грубую ненормативную лексику.


**«E» («Everyone») — «Для всех»**: Содержание вполне подходит для всех возрастов (ранее с 6 лет). Такие игры могут понравиться и взрослым. Игры с этим рейтингом могут содержать минимальное насилие, в основном «мультяшного» характера. Первоначально "K-A" ("Kids to Adults")


**«E10+» («Everyone 10 and older») — «Для всех от 10 лет и старше»**: Проекты с данным рейтингом могут содержать больше мультипликационного или мягкого насилия, или несколько откровенные сцены, или минимальное количество крови.


**«T» («Teen») — «Подросткам»:** Игра подходит для лиц от 13 лет. Проекты из данной категории могут содержать насилие, непристойные сцены, грубый юмор, в меру откровенное сексуальное содержимое, кровь или нечастое использование ненормативной лексики.


Игры, получившие возрастной рейтинг M (контент пригодный для лиц старше 17 лет) в два раза популярнее остальных категорий рейтинга на рынках Европы и Северной Америки. Остальные категории игр распределены относительно равномерно на этих рынках. В Японии же наибольшей популярностью, также превышающей в два раза преследователей, обладают игры возрастной рейтинг которых нам неизвестен ('no_rating'). В первую очередь это может быть связано не столько с предпочтениями пользователей, а с тем, что организатор рейтинга (ESRB, Location: New York City, New York, U.S) не уделяет должного внимания играм выходящим локально на азиатском рынке.

**Выводы**

Вывод по составлению портрета пользователя каждого региона

Северной Америке:
Топ игровых платформ выглядит так: X360, PS4 , PS3.
Топ Жанров игр: Shooter, Action, Sports.
Топ Рейтингов игр: "От 17 и выше" 

В Европейском союзе:
Топ игровых платформ : PS4, PS3 и X360.
Топ жанров: Action, Shooter, Sports.
Топ рейтингов: "От 17 и выше", "для всех", "от 13 и выше"


В Японии:
Топ игровых платформ : 3DS, PS3, PSV.
Топ жанров: Role-Playing, Action, Misc.
Топ рейтингов: Без рейтинга.

После проведенного анализа можем заключить, что портрет пользователя регионов Северная Америка и Европа не сильно различается, в то время, как азиатские потребители выделяются по проанализированным параметрам (выбор платформы, любимый жанр, ситуация с рейтингом наиболее продаваемых игра). Японский рынок кардинально отличается от американского и европейского. Самым популярным жанром здесь являются ролевые игры, а жанр Shooter даже не попадет в топ5.  Следовательно, при планировании рекламной стратегии и в целом при ведении бизнеса, стоит учитывать историко-культурные различия регионов, отражающиеся непосредственно в предпочтениях пользоватлей.

## Результаты исследования

Итоговый вывод:
При предобработке данных была произведена следующая работа:
Заменены названия столбцов (приведите к нижнему регистру), преобразованы данные в нужные типы. В столбцах 'critic_score' и 'user_score'  пропуски заполнили значением -1 для того чтобы данные оставались достоверными и при этом была возможность привести тип данных к int для удобства дальнейших расчетов.В столбце 'user score' абревиатуру tbd предварительно заменили на Nan, а затем на -1. Пропуски  вышеперечисленных столбцах могли возникнуть по причине того что не все игроки оставляют свои оценки играм, а также абревиатура tbd означает, что оценка еще не определена.Удалены явные и неявные дубликаты.

На этапе исследовательского анализа выяснили:
Рынок резко начал расти с выходом PS2 около 2001 года. Приобрёл максимальную конкуренцию начиная с 2006 года, когда на рынок вышли X360, Wii, DS. К 2012 году основные старые платформы закончили свою жизнь, после 2011 года года было резкое падение рынка, лучше этот год и ранее не брать. Т.к. средний период жизни платформы около 10 лет. За этот период игры продаются следующим образом: первые 5 лет рост продаж, затем пик и спад продаж.Это обусловлено тем, что выходит новая игра и игроки постепенно переходят на новую платформу.Такой переход длиться 4-5лет, в этот период снижается выпуск игр для старых платформ, а для новых наращивает обороты.
Начиная с 2012 года актуальная выборка.
В таблице нам даны неполные данные за 2016 год, поэтому выбрали данные по 2015 году. Рост продаж на 2015 имеют PS4 - 119 млн. продаж и XOne - 60 млн. следующим идет 3DS (28 млн.), на 4 месте - PC (здесь стагнация рынка). На X360 и Wii не стоит делать ставку так как их продажи почти равны 0. Да и остальные платформы судя по графику продолжат падать.
Анализ влияния отзывов критиков и пользователей показал, что зависимость продаж от оценок критиков невелика - 0,33 но больше, чем с оценками пользователей (корреляция - 0,12). т.е оценка критиков влияет на заинтересованность покупателей, но не определяет ее. 
Среди жанров лидирует Action, за ним следуют жанры Shooter, Sports и Role-Playing. А вот жанры Stategy, Adventure и Puzzle не пользуюся большой популярностью среди пользователей. Очевидно, что при планировании продаж на 2017 год стоит делать ставку на самые продаваемые жанры среди игроков.Однако нужно учесть, что производство игр более популярных жанров также наиболее затратно и по времени и по финансовым вложениям. 

Был составлен портрет пользователя по регионам Северная Америка, Европа и Япония.

Северной Америке:
Топ игровых платформ выглядит так: X360, PS4 , PS3.
Топ Жанров игр: Shooter, Action, Sports.
Топ Рейтингов игр: "От 17 и выше" 

В Европейском союзе:
Топ игровых платформ : PS4, PS3 и X360.
Топ жанров: Action, Shooter, Sports.
Топ рейтингов: "От 17 и выше", "для всех", "от 13 и выше"


В Японии:
Топ игровых платформ : 3DS, PS3, PSV.
Топ жанров: Role-Playing, Action, Misc.
Топ рейтингов: Без рейтинга.

После проведенного анализа можем заключить, что портрет пользователя регионов Северная Америка и Европа не сильно различается, в то время, как азиатские потребители выделяются по проанализированным параметрам (выбор платформы, любимый жанр, ситуация с рейтингом наиболее продаваемых игра).Японский рынок кардинально отличается от американского и европейского. Самым популярным жанром здесь являются ролевые игры, а жанр Shooter даже не попадет в топ5.  Следовательно, при планировании рекламной стратегии и в целом при ведении бизнеса, стоит учитывать историко-культурные различия регионов, отражающиеся непосредственно в предпочтениях пользоватлей.

Общие рекомендации:

При планировании бизнес деятельности необходимо:
 - делать ставку на продажу игр для платформ XOne, PS4 , 3DS;
 - отдавать преимущество игровым жанрам Shooter, Platform, Sports, Role-Playing;
 - учитывать специфику азиатского рынка при запуска рекламных компаний.
