<h1>
    <a href='#0.'>Содержание</a>
</h1>

<ul>
    <li>    
        <a href='#1.'>1. Описание проекта</a>
    </li>
    <li>
        <a href='#2.'>2. Описание данных games.csv</a>
    </li>
    <li>
        <a href='#3.'>3. Изучение данных</a>
    </li>
    <li>
        <a href='#4.'>4. Подготовка данных</a>
    </li>
    <li>
        <a href='#5.'>5. Исследовательский анализ данных</a>
    </li>
    <li>
        <a href='#6.'>6. Составление портрета пользователя каждого региона</a>
    </li>
    <li>
        <a href='#7.'>7. Исследование статистических показателей</a>
    </li>
    <li>
        <a href='#8.'>8. Проверка гипотез</a>
    </li>
    <li>
        <a href='#9.'>9. Общий вывод</a>
    </li>
</ul>

<h2 id='Описание проекта'>Описание проекта</h2>
<a name='1.'></a>
<a class='anchor-link' href='#Описание проекта'></a>

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.

Перед вами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и вы планируете кампанию на 2017-й. Нужно отработать принцип работы с данными. Не важно, прогнозируете ли вы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.

<h2 id='Описание данных games.csv'>Описание данных games.csv</h2>
<a name='2.'></a>
<a class='anchor-link' href='#Описание данных games.csv'></a>

- Name — название игры
- Platform — платформа
- Year_of_Release — год выпуска
- Genre — жанр игры
- NA_sales — продажи в Северной Америке (миллионы долларов)
- EU_sales — продажи в Европе (миллионы долларов)
- JP_sales — продажи в Японии (миллионы долларов)
- Other_sales — продажи в других странах (миллионы долларов)
- Critic_Score — оценка критиков (от 0 до 100)
- User_Score — оценка пользователей (от 0 до 10)
- Rating — рейтинг от организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

Данные за 2016 год могут быть неполными.

<h2 id='Изучение данных'>Изучение данных</h2>
<a name='3.'></a>
<a class='anchor-link' href='#Изучение данных'></a>

In [None]:
!pip install plotly

In [None]:
# библиотеки для обработки данных
import pandas as pd
import numpy as np
from scipy import stats as st

# библиотеки для визуализации данных
from matplotlib import pyplot as plt
import seaborn as sns
from plotly.offline import init_notebook_mode, plot, iplot
import plotly
import plotly.graph_objs as go
import plotly.express as px

import warnings
warnings.filterwarnings("ignore")

init_notebook_mode(connected=True)
%matplotlib inline

In [None]:
# загружаем исходный набор данных - games.csv
df = pd.read_csv('/datasets/games.csv')

In [None]:
# открываем первые 5 объектов набора данных 
df.head()

In [None]:
df.info()

In [None]:
years         = []

rt_nulls      = []
cs_nulls      = []
us_nulls      = []

cnt_rt_nulls  = []
cnt_cs_nulls  = []
cnt_us_nulls  = []

cnt_all       = []
# запускаем цикл для расчета доли пропусков и общего количества данных в разрезе по годам
for year in range(int(df['Year_of_Release'].min()),int(df['Year_of_Release'].max()+1)):
    # выбираем каждый год по отдельности
    df_2             = df[df['Year_of_Release'] == year]
    # считаем количество пропусков в признаках - Rating, Critic_Score, User_Score
    rt_count_null    = df_2[df_2['Rating'].isnull()].shape[0]
    cs_count_null    = df_2[df_2['Critic_Score'].isnull()].shape[0]
    us_count_null    = df_2[df_2['User_Score'].isnull()].shape[0]
    # считаем количество пропусков в признаках - Rating, Critic_Score, User_Score
    count_all     = df_2.shape[0]
    # cчитаем процент пропущенных значений
    rt_perc_nulls    = (rt_count_null/count_all)*100
    cs_perc_nulls    = (cs_count_null/count_all)*100
    us_perc_nulls    = (us_count_null/count_all)*100
    # список годов с данными
    years.append(year)
    # список со значениями долей пропусков 
    # по годам у признаков - Rating, Critic_Score, User_Score
    rt_nulls.append(rt_perc_nulls)
    cs_nulls.append(cs_perc_nulls)
    us_nulls.append(us_perc_nulls)
    # список с суммарным количестовом пропусков 
    # по годам у признаков - Rating, Critic_Score, User_Score
    cnt_rt_nulls.append(rt_count_null)
    cnt_cs_nulls.append(cs_count_null)
    cnt_us_nulls.append(us_count_null)
    # списоок с общим количество данных по годам
    cnt_all.append(count_all)
    
# создаем датафрейм с полученными значениями
nuls_df = pd.DataFrame({'year':years,'rating_perc':rt_nulls,'critic_score_perc':cs_nulls,'user_score_perc':us_nulls,'rating_count':cnt_rt_nulls,'critic_score_count':cnt_cs_nulls,'user_score_count':cnt_us_nulls,'all_count':cnt_all})

In [None]:
type_nulls = ['rating_perc','critic_score_perc','user_score_perc']
ax = plt.gca()
# строим сравнительный график динамики изменений доли пропусков 
# по годам у признаков - Rating, Critic_Score, User_Score
for type_name in type_nulls:
    ax = nuls_df.plot(x='year', y=type_name, ax=ax, figsize=(14,6))
    ax.set_title('Доли пропусков по годам', fontsize= 16)
    ax.set_xlabel('Год', fontsize= 12)
    ax.set_ylabel('Доля пропусков', fontsize= 12)

In [None]:
cnt_nulls = ['rating_count','critic_score_count','user_score_count','all_count']
ax = plt.gca()
# строим сравнительный график динамики изменений общего количества данных по годам, 
# и количества пропусков у признаков - Rating, Critic_Score, User_Score
for cnt_name in cnt_nulls:
    ax = nuls_df.plot(x='year', y=cnt_name, ax=ax, figsize=(14,6))
    ax.set_title('Количество пропусков по годам', fontsize= 16)
    ax.set_xlabel('Год', fontsize= 12)
    ax.set_ylabel('Кол-во пропусков', fontsize= 12)

Процент пропусков в период с 1980 по 1997 годы, близок к 100%, это можно объяснить тем что Рейтинг развлекательного программного обеспечения - Entertainment Software Rating Board (ESRB) ведется с 1994 года. Данная гипотеза подтверждается в дальнейшем т.к. происходит резкое падение процента пропущенных значений в признаках с оценками. Но при этом нельзя не отметить что большая часть пропусков данных с оценками зафиксированы в период с 2005 по 2016 годы. Здесь также прослеживается прямая зависимость количества пропусков по годам от общего количества данных, т.е. чем больше данных, тем больше пропусков.

<h2 id='Подготовка данных'>Подготовка данных</h2>
<a name='4.'></a>
<a class='anchor-link' href='#Подготовка данных'></a>

In [None]:
# приводим к нижнему регистру названия столбцов
df.columns = df.columns.str.lower()

In [None]:
values = []
columns = []
sum_vals = 0

for col_name in df.columns:
    if col_name:
        value = ((df[df[col_name].isnull()].shape[0]/df.shape[0])*100)
        columns.append(col_name)
        values.append(value)
        sum_vals += value

per_0 = pd.DataFrame(index=columns, data=values, columns=['perc_zero'])
per_0 = per_0.sort_values(by='perc_zero',ascending=True)

In [None]:
per_0

In [None]:
ax = per_0.sort_values(by='perc_zero',ascending=True).plot(kind='barh', figsize=(12,8))
ax.set_title('Доли пропусков в признаках', fontsize= 16)
ax.set_xlabel('Доля пропусков', fontsize= 12)
ax.set_ylabel('Признак', fontsize= 12)
plt.axvline(x=sum_vals/len(values),linewidth=1, color='r', linestyle='--')

Тип столбца years_of_release пребразован в тип integer, т.к. значения годов являются целочисленными. Кроме того после преобразований с заменой пустых ячеек, а также строковых значений, значения в столбце user_score преобразованы в формат float, т.к. значения оценок в большинстве случаев указаны с точностью до сотых.

In [None]:
df['rating'].unique()

In [None]:
df['rating'].value_counts()

In [None]:
df = df[df['year_of_release'].notnull()]

In [None]:
# замена пустых полей категориальных признаков на значения большинства
df['name']              = df['name'].fillna(df['name'].describe()['top'])
df['genre']             = df['genre'].fillna(df['genre'].describe()['top'])
df['rating']            = df['rating'].fillna('Нет рейтинга')
# замена tdb в user_score на пустые значения
df['user_score']        = df['user_score'].replace({'tbd':np.NaN})
# замена пустых полей количественных признаков на медианные значения
#df['year_of_release']   = df['year_of_release'].fillna(df['year_of_release'].median())
#df['critic_score']      = df['critic_score'].fillna(-1)
#df['user_score']        = df['user_score'].fillna(-1)
# замена значений категориального признака rating
df['rating']            = df['rating'].replace({'E':'6+'})
df['rating']            = df['rating'].replace({'T':'13+'})
df['rating']            = df['rating'].replace({'M':'17+'})
df['rating']            = df['rating'].replace({'E10+':'10+'})
df['rating']            = df['rating'].replace({'EC':'3+'})
df['rating']            = df['rating'].replace({'RP':'Рейтинг ожидается'})
df['rating']            = df['rating'].replace({'K-A':'6+ старое'})
df['rating']            = df['rating'].replace({'AO':'18+'})
# приведение столбца с годами к типу integer
df['year_of_release']   = df['year_of_release'].astype('int64')
df['user_score']        = df['user_score'].astype('float')

Больше всего пропусков зафиксировано в столбце - critic_score - 51.32%, а также user_score, rating по 40,09% и 40.48% соответственно, а также critic_score - 51.32%. Кроме того, малое количество пропуском зафиксировано в столбце years_of_release - 1.61%, а также name с genre по 0.01%. 

Пропущенные значения в столбце critic_score были заменены на -1. Встолбце - user_score кроме количественных значений оценок и пропусков найдены записи со значением - tbd. В результате поиска информации о данных объектах - определено что tbd - это аббривиатура (To Be Determined - будет определено), которая используется если количества отзывов недостаточно для вывода окончательной оценки. В связи с чем было принято решение считать данные значения как пропуски и заменить также на -1. Ввиду небольшого количества пропусков, а также из-за того что признаки являются категориальными, пропуски в столбцах - genre и name были заменены на значение большинства ячеек в признаке.

Кроме того были изменены значения в признаке rating. После просмотра уникальных значений используемых в рамках данного признака, было установлено что данная градация установлена согласно Рейтинга развлекательного программного обеспечения - Entertainment Software Rating Board (ESRB). 

Далее приведены расшифровки названий групп:
- «EC» («Early childhood») — «Для детей младшего возраста»
- «E» («Everyone») — «Для всех» 	"K-A" ("Kids to Adults")
- «E10+» («Everyone 10 and older») — «Для всех от 10 лет и старше»
- «T» («Teen») — «Подросткам»
- «M» («Mature») — «Для взрослых»
- «AO» («Adults Only 18+») — «Только для взрослых»
- «RP» («Rating Pending») — «Рейтинг ожидается»

Для понятности в дальнейшем значения в признаке rating были заменены следующим образом:
- EC на 3+
- E на 6+
- E10+ на 10+
- Т на 13+
- М на 17+
- АО на 18+
- RP на Рейтинг ожидается
- Пустые значения на Нет рейтинга

In [None]:
# Суммарные продажи во всех регионах
df['all_regs_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales'] + df['other_sales']

In [None]:
# определяем списки категориальных и количественных признаков
cat_cols = ['name','platform','genre','rating']
num_cols = ['year_of_release','na_sales', 'eu_sales', 'jp_sales', 'other_sales','all_regs_sales',
       'critic_score','user_score']

In [None]:
df.info()

In [None]:
df[cat_cols].describe()

In [None]:
df[num_cols].describe()

<h2 id='Исследовательский анализ данных'>Исследовательский анализ данных</h2>
<a name='5.'></a>
<a class='anchor-link' href='#Исследовательский анализ данных'></a>

In [None]:
count_gemes_years = pd.DataFrame(columns=['years'], 
                               data=df['year_of_release'].values,
                               index=df['year_of_release'].index)

In [None]:
fig = px.histogram(count_gemes_years, x="years")
fig.update_layout(title='Распределение количества выпускаемых игр по годам')
fig.show()

На основе гистограммы с количеством игр выпускаемых в год за рассматриваемый период, можно сделать вывод что большая часть игр была выпущена в период с 1995 по 2016 годы. Но при этом видно что  после стабильного роста до 2009 года, последовал таке же стремительное падение до 2016 года. 

In [None]:
def plat_sales_top(query=None):
    if query == None:
        ax = df.groupby('platform')['all_regs_sales'].sum().sort_values(ascending=True).plot(kind='barh',figsize=(10,10))
        ax.set_title('Рейтинг продаж по платформам', fontsize= 16)
        ax.set_xlabel('Общий объем продаж', fontsize= 12)
        ax.set_ylabel('Платформа', fontsize= 12)
    else:
        ax = df.query(query).groupby('platform')['all_regs_sales'].sum().sort_values(ascending=True).plot(kind='barh',figsize=(12,8))
        ax.set_title('Рейтинг продаж по платформам', fontsize= 16)
        ax.set_xlabel('Общий объем продаж', fontsize= 12)
        ax.set_ylabel('Платформа', fontsize= 12)

In [None]:
plat_sales_top()

Выборка платформ с наибольшим суммарным объемом продаж

In [None]:
#df.pivot_table(index='platform', values='all_regs_sales', aggfunc='sum').sort_values(by='all_regs_sales', ascending=False).head(6)
# первые 6
top6_platform     = df.groupby('platform')['all_regs_sales'].sum().sort_values(ascending=False).head(6).index
# первые 10
top10_platform    = df.groupby('platform')['all_regs_sales'].sum().sort_values(ascending=False).head(10).index
# первые 20
top20_platform    = df.groupby('platform')['all_regs_sales'].sum().sort_values(ascending=False).head(20).index
# все платформы
all_platform      = df.groupby('platform')['all_regs_sales'].sum().sort_values(ascending=False).index

Функция для постония линейного графика динамики измения продаж платформ по годам

In [None]:
def plot_platforms(data, start=2006, end=2016):
    for i in range(0,len(data)):
        axes = df[df['platform'] == data[i]].groupby('year_of_release')['all_regs_sales'].sum().plot(
            y=data[i],
            style='o-',
            grid=True,
            figsize=(18,12),
            xlim=(start,end),
            legend=True
        )    
        axes.set_title('Объем продаж платформ по годам', fontsize= 16)
        axes.set_xlabel('Год', fontsize= 12)
        axes.set_ylabel('Объем продаж', fontsize= 12)
        axes.legend(data)

Динамика изменения продаж за весь период по всем платформам

In [None]:
plot_platforms(all_platform, 1980,2017)

In [None]:
top6_platform

In [None]:
start_year   = df.groupby('platform')['year_of_release'].min()
end_year     = df.groupby('platform')['year_of_release'].max()
period_year  = end_year - start_year
mean_year    = np.median(period_year)

print('Медиана продолжительности нахождения платформ на рынке - {:.0f} лет'.format(mean_year))

In [None]:
ax = period_year.sort_values(ascending=True).plot(kind='barh', figsize=(10,10))
plt.axvline(x=mean_year,linewidth=1, color='r', linestyle='--')
ax.set_title('Жизненный цикл платформы ', fontsize= 16)
ax.set_xlabel('Кол-во лет', fontsize= 12)
ax.set_ylabel('Платформа', fontsize= 12)

Как видно из динамики продаж платформ по годам, наибольший объем продаж у 6 платформ - PS2, X360, PS3, Wii, DS, PS. Однако у всех этих платформ наблюдается если не устойчивое падение объема продаж то полное его отсутствие на отчетный период 2016 года. 
Согласно полученому графику, видно что характерным периодом жизненного цикла платформы является - 6 лет. Кроме того, нельзя не отметить наличие выбросов в жизненных циклах платформ у PS и DS - 28 и 31 год соответственно, в связи с чем была расчитана медиана. Также у большинства платформ наблюдется динамика падения объемов продаж. При этом стоит отметить что активный рост рынка наблюдался с 1995 года вплоть до 2011 года после чего последовало устойчивое падение.

Динамика изменения продаж за период с 2010 по 2015 годы, по 6 платформам с наибольшим объемом продаж

In [None]:
plot_platforms(top6_platform, 2010, 2015)

Динамика изменения продаж за период с 2010 по 2015 годы, по 10 платформам с наибольшим объемом продаж

In [None]:
plot_platforms(top10_platform, 2010, 2015)

Динамика изменения продаж за период с 2010 по 2015 годы, по 20 платформам с наибольшим объемом продаж

In [None]:
#plot_platforms(top20_platform)
plot_platforms(top20_platform, 2010, 2015)

На основании рассмотренных диаграмм, для исключения значимых искажений распределения по платформам в 2016 году, стоит использовать период с 2010 по 2016 годы.

In [None]:
df = df[df['year_of_release'] > 2009]

Учитывая выявленный типичный период жизненного цикла платформы в 6 лет, сформируем выборку из названия платформы, года первых продаж, года последных продаж, а также значения суммарного количества лет платформы на рынке.

In [None]:
min_max_years           = pd.DataFrame(data=df.groupby('platform')['year_of_release'].agg(['min','max']).values, 
                             index=df.groupby('platform')['year_of_release'].agg(['min','max']).index, 
                             columns=['min','max'])
min_max_years['period'] = min_max_years['max'] - min_max_years['min']
new_platform            = min_max_years[min_max_years['min'] > 2011].index

Далее посмотрим на графике динамику количества игр на платформах по годам за период с 2012 по 2016 годы.

In [None]:
plot_platforms(new_platform, 2011, 2017)

На основании чего можно сделать предположение то платформы PS4, WiU и XOne обладают наибольшим потенциалом для роста среди всех рассматриваемых платформ.

In [None]:
#plat_sales_top('year_of_release > 2005')
plat_sales_top('year_of_release > 2009')

Лидерами продаж в рамках рассматриваемого периода с 2010 по 2016 годы, можно выделить платформы - PS3, X360. Далее с небольшим отрывом следуют - PS4, 3DS, Wii. Остальный находятся позади.

In [None]:
# сгруппируем данные поп платформам, и выведем по ним общий объем продаж
platforms_all_sales       = pd.DataFrame(columns=['all_regs_sales'],
                                   index=df.groupby('platform')['all_regs_sales'].sum().index, 
                                   data=df.groupby('platform')['all_regs_sales'].sum().values)
# сгруппируем данные поп играм, и выведем по ним общий объем продаж
names_all_sales           = pd.DataFrame(columns=['all_regs_sales'],
                               index=df.groupby('name')['all_regs_sales'].sum().index, 
                               data=df.groupby('name')['all_regs_sales'].sum().values)

Функция построения графика "ящик с усами" по продажам игр с разбивкой по платформам

In [None]:
def sales_boxplot(title=None, query_condition = None, ylims=None):
    if query_condition == None:
        ax = df.boxplot(column='all_regs_sales', fontsize=25, figsize=(25,10))
    else:
        df_query = df.query(query_condition)
        by_column = query_condition.split()[0]
        ax = df_query.boxplot(column='all_regs_sales', by=by_column, fontsize=25, figsize=(25,10))
        ax.set_xlabel('')
        ax.set_title('')
    if ylims != None:
        ax.set_ylim(ylims)
    if title != None:
        plt.suptitle(title, y=0.94, fontsize=25, fontweight='bold')

In [None]:
sales_boxplot('Сведения о продажах по топовым платформам', query_condition="platform in @top6_platform", ylims=[0,2])

Медианные значения у 5 платформ из топ-6, примерно схожи от 0.24 до 0.26. При этом выделяются верхние границы предела у платформ - X360 и PS3 в районе 1.7. В свою очередь стоит также отметить что у платформы DS показатели значительно меньше чем у остальных платформ.

Сведения об общем объеме продаж по всем платформам

In [None]:
platforms_all_sales.boxplot()

Сведения об общем обеме продаж по всем играм

In [None]:
ax = names_all_sales.boxplot()
ax.set_ylim([0,1.5])

In [None]:
#PS3
ps3_critic_sales = df[(df['platform'] == 'PS3') & (df['critic_score'] > 0)]
ps3_user_sales = df[(df['platform'] == 'PS3') & (df['user_score'] > 0)]
#X360
x360_critic_sales = df[(df['platform'] == 'X360') & (df['critic_score'] > 0)]
x360_user_sales = df[(df['platform'] == 'X360') & (df['user_score'] > 0)]
#PS4
ps4_critic_sales = df[(df['platform'] == 'PS4') & (df['critic_score'] > 0)]
ps4_user_sales = df[(df['platform'] == 'PS4') & (df['user_score'] > 0)]
#3DS
ds3_critic_sales = df[(df['platform'] == '3DS') & (df['critic_score'] > 0)]
ds3_user_sales = df[(df['platform'] == '3DS') & (df['user_score'] > 0)]

all_critic_sales = df[df['critic_score'] > 0]
all_user_sales = df[df['user_score'] > 0]

def scatter_plot(x,y,data,title=None):
    fig = px.scatter(data, 
                     x=x, 
                     y=y, 
                     title=title)
    fig.show() 

def corr_heatmap_plotly(data,title):
    fig = go.Figure(data=go.Heatmap(
                        z=data.corr(),
                        x=data.corr().columns,
                        y=data.corr().columns, 
                        title=title))
    fig.show()
    
def corr_heatmap_seaborn(data,title):    
    plt.figure(figsize=(15,8))
    ax = sns.heatmap(data.corr(), annot=True, cmap="Blues", fmt='.2f', annot_kws={'size':10})
    ax.set_title(title, fontsize= 16)

In [None]:
scatter_plot('critic_score','all_regs_sales',ps3_critic_sales,'График зависимости объема продаж от оценки критиков для PS3')

In [None]:
scatter_plot('user_score','all_regs_sales',ps3_user_sales,'График зависимости объема продаж от оценки пользователей для PS3')

In [None]:
scatter_plot('critic_score','all_regs_sales',x360_critic_sales,'График зависимости объема продаж от оценки критиков для X360')

In [None]:
scatter_plot('user_score','all_regs_sales',x360_user_sales,'График зависимости объема продаж от оценки пользователей для X360')

In [None]:
scatter_plot('critic_score','all_regs_sales',ps4_critic_sales,'График зависимости объема продаж от оценки критиков для PS4')

In [None]:
scatter_plot('user_score','all_regs_sales',ps4_user_sales,'График зависимости объема продаж от оценки пользователей для PS4')

In [None]:
scatter_plot('critic_score','all_regs_sales',ds3_critic_sales,'График зависимости объема продаж от оценки критиков для 3DS')

In [None]:
scatter_plot('user_score','all_regs_sales',ds3_user_sales,'График зависимости объема продаж от оценки пользователей для 3DS')

In [None]:
scatter_plot('critic_score','all_regs_sales',all_critic_sales[all_critic_sales['all_regs_sales'] < 15],'График зависимости объема продаж от оценки критиков для всех платформ')

In [None]:
scatter_plot('user_score','all_regs_sales',all_user_sales[all_user_sales['all_regs_sales'] < 15],'График зависимости объема продаж от оценки пользователей для всех платформ')

Как видно из диаграммы имеет место зависимость объема продаж от уровня оценки критиков, соответственно можно сказать что чем качественней игра тем выше вероятность успешности продаж.
Так же как и в случае с зависимостью продаж от оценок критиков, оценки пользователей имеют определенное влияние на успешность продаж игр. Но при этом стоит отмеить что возможны и выпадающие из общей картины выбросы с высоким уровнем продаж, вне зависимости от низких оценок пользователей.
При этом стоит обратить внимание что у всех 4 платформ лидеров прослеживается схожесть в соотношении оценок критиков к объему продаж, в то же время в случае с соотношением оценок пользователей к объемам продаж имеется небольшое отличие у платформы PS4. Что может говорить о том что пользователи больше подвержены памяти о прошлых успехах данной линейки плаформ в отлииче от критиков, нежели объективным характеристикам текущих игр.

In [None]:
corr_heatmap_seaborn(df,'Тепловая карта корреляции признаков')

Как видно из тепловой карты корреляции признаков, примерно схожее влияние у оценок критиков и оценок пользователей на объем продаж игр. При этом имеется достаточно много оценок выбросов, в случае с пользовательскими оценками, что в свою очередь можно увязать с тем что критики стараются учитывать при постановке оценки большее количество факторов.

In [None]:
# сгруппируем объем и количество продаж по жанрам игр 
df_genre_sales = df.groupby('genre').agg({'name':'count','all_regs_sales':'sum'}).sort_values(by='name', ascending=True)
def game_genre_sales(data,title):
    fig = go.Figure(data=[
    go.Bar(name='Количество', x=data.index, y=data['name']),
    go.Bar(name='Сумма', x=data.index, y=data['all_regs_sales'])
    ])
    fig.update_layout(barmode='group',title=title)
    fig.show()

In [None]:
game_genre_sales(df_genre_sales,'Объем и количество продаж по жанрам')

Согласно полученному графику можно сделать вывод что наиболее прибыльными жанрами являются - Action, Misc, Sports, Role-Playing, Adventure. При этом однозначно прямой зависимости между объемом продаж и количеством игр в жанре нет. К примеру в жанре наблюдается малое количество игр и значительный уровень объема продаж.

<h2 id='Составление портрета пользователя каждого региона'>Составление портрета пользователя каждого региона</h2>
<a name='6.'></a>
<a class='anchor-link' href='#Составление портрета пользователя каждого региона'></a>

- Самые популярные платформы (топ-5).

In [None]:
def top_regs_fields(df_group, reg_name, ax):
    data = df.groupby(df_group)[reg_name].sum().sort_values(ascending=True).tail()
    dict_regs = {'na_sales':'North America','eu_sales':'Europe','jp_sales':'Japan'}
    dict_cols = {'na_sales':'green','eu_sales':'blue','jp_sales':'red'}
    plt = data.plot(kind='barh', grid=True, title=dict_regs[reg_name], color=dict_cols[reg_name], ax=axes[ax])
    plt.legend(prop={'size':12})
    plt.set_xlabel('')
    plt.title.set_size(16)

In [None]:
fig, axes = plt.subplots(1,3,figsize=(24,8))
top_regs_fields('platform','na_sales',0),
top_regs_fields('platform','eu_sales',1),
top_regs_fields('platform','jp_sales',2)

Большая схожи ниболее популярные платформы у европейских и американских пользователей (X360, PS3, PS4, Wii), при этом в свою очередь они сильно отличаются от японских пользователей которые предпочитают - DS, 3D5.

- Самые популярные жанры (топ-5).

In [None]:
fig, axes = plt.subplots(1,3,figsize=(24,8))
top_regs_fields('genre','na_sales',0),
top_regs_fields('genre','eu_sales',1),
top_regs_fields('genre','jp_sales',2)

В случае с жанрами ситуация еще более ярко выраженна в плане различия между японскими и остальными пользователями. Европейские и американские пользователи предпочитают жанры - Action, Sports, Shooter, Misc. В свою очередь японские пользователи пердпочитают - Role-Playing, Platform. Но при этом нельзя упускать и общие интересы в Action, Misc, Sports.

In [None]:
fig, axes = plt.subplots(1,3,figsize=(24,8))
top_regs_fields('rating','na_sales',0),
top_regs_fields('rating','eu_sales',1),
top_regs_fields('rating','jp_sales',2)

На основании графика можно сказать, что рейтинг ESRB во всех рассматриваемых регионах примерно схожий. Основное отличие с японским регионом состоит в том что в данных по данному региону много данных без указания рейтинга. 

<h2 id='Исследование статистических показателей'>Исследование статистических показателей</h2>
<a name='7.'></a>
<a class='anchor-link' href='#Исследование статистических показателей'></a>

In [None]:
# функция для вычисления стандартного отклонения, дисперсии и среднего значения
def genre_score_indicators(score_name):    
    means  = []
    vars   = []
    stds   = []    
    for i in range(len(df['genre'].unique())):
        genre_name         = df['genre'].unique()[i]
        genre_group        = df[df['genre'] == genre_name]
        mean_genre_group   = np.mean(genre_group[score_name])
        var_genre_group    = np.var(genre_group[score_name])
        std_genre_group    = np.std(genre_group[score_name])  
        means.append(mean_genre_group)
        vars.append(var_genre_group)
        stds.append(std_genre_group)    
    genre_indicators = pd.DataFrame({'genre':df['genre'].unique(),'means':means,'vars':vars,'stds':stds})    
    genre_indicators.set_index('genre', inplace=True)
    return genre_indicators

# функция для построения гистограммы распределения оценок по жанрам
def hist_genre_scores(data, score):
    genre_list = data['genre'].unique()
    for i in range(len(genre_list)):
        plt.subplot(3,4,i+1)
        plt.hist(data[data['genre'] == genre_list[i]][score].values)
        plt.title(label=genre_list[i])

# функция для построения столбчатых диаграмм статистических показателей 
# распределения оценок по жанрам
def stat_values(data, reg_name, ax):
    dict_regs = {'means':'Среднее','vars':'Дисперсия','stds':'Стд.откл.'}
    dict_cols = {'means':'green','vars':'blue','stds':'red'}
    plt = data.plot(kind='barh', grid=True, title=dict_regs[reg_name], color=dict_cols[reg_name], ax=axes[ax])
    plt.set_xlabel('')
    plt.set_ylabel('')
    plt.title.set_size(16)

In [None]:
plt.figure(figsize=(15,10))
hist_genre_scores(df, 'critic_score')

In [None]:
fig, axes = plt.subplots(1,3,figsize=(24,8))
stat_values(genre_score_indicators('critic_score')['means'].sort_values(),'means',0),
stat_values(genre_score_indicators('critic_score')['vars'].sort_values(),'vars',1),
stat_values(genre_score_indicators('critic_score')['stds'].sort_values(),'stds',2)

Ярковыраженным лидером с самыми высокими средними оценками от критиков является жанр - Shooter. Далее следуют со схожими средними оценками следуют жанры - Platform, Fighting, Racing. 

In [None]:
plt.figure(figsize=(15,10))
hist_genre_scores(df, 'user_score')

In [None]:
fig, axes = plt.subplots(1,3,figsize=(24,8))
stat_values(genre_score_indicators('user_score')['means'].sort_values(),'means',0),
stat_values(genre_score_indicators('user_score')['vars'].sort_values(),'vars',1),
stat_values(genre_score_indicators('user_score')['stds'].sort_values(),'stds',2)

Примерно схожие результаты в случае со средними оценками пользователей. Также как и с оценками критиков, в лидерах находится - Shooter. Далее следуют - Platform, Fighting, Racing.

<h2 id='Проверка гипотез'>Проверка гипотез</h2>
<a name='8.'></a>
<a class='anchor-link' href='#Проверка гипотез'></a>

H0 (нулевая гипотеза) - средние пользовательские рейтинги платформ Xbox One и PC одинаковые

H1 (альтернативная гипотеза) - Средние пользовательские рейтинги платформ Xbox One и PC отличаются

In [None]:
xone_mean   = df[(df['platform'] == 'XOne') & (df['user_score'] > 0)]['user_score'].values.mean()
pc_mean     = df[(df['platform'] == 'PC') & (df['user_score'] > 0)]['user_score'].values.mean()
print('Среднее значение пользовательских рейтингов платформы Xbox One - {:.2f}'.format(xone_mean))
print('Среднее значение пользовательских рейтингов платформы PC - {:.2f}'.format(pc_mean))

In [None]:
xone_user_scores = df[(df['platform'] == 'XOne') & (df['user_score'] > 0)]['user_score'].values
pc_user_scores = df[(df['platform'] == 'PC') & (df['user_score'] > 0)]['user_score'].values
alpha = 0.05
result = st.ttest_ind(xone_user_scores, pc_user_scores)

In [None]:
print('stat:', result.statistic)
print('p-value:', result.pvalue)

In [None]:
if (result.pvalue < alpha):
    print('Отвергаем нулевую гипотезу')
else:
    print('Нулевая гипотеза не отвергнута')

Можно отклонить нулевую гипотезу. Соответственно верно утверждение - Средние пользовательские рейтинги платформ Xbox One и PC отличаются

H0 (нулевая гипотеза) - средние пользовательские рейтинги жанров Action и Sports (англ. «виды спорта») одинаковые

H1 (альтернативная гипотеза) - средние пользовательские рейтинги жанров Action и Sports (англ. «виды спорта») разные

In [None]:
action_mean = df[(df['genre'] == 'Action') & (df['user_score'] > 0)]['user_score'].values.mean()
sports_mean = df[(df['genre'] == 'Sports') & (df['user_score'] > 0)]['user_score'].values.mean()
print('Среднее значение пользовательских рейтингов жанра Action - {:.2f}'.format(action_mean))
print('Среднее значение пользовательских рейтингов жанра Sports - {:.2f}'.format(sports_mean))

In [None]:
action_user_scores = df[(df['genre'] == 'Action') & (df['user_score'] > 0)]['user_score'].values
sports_user_scores = df[(df['genre'] == 'Sports') & (df['user_score'] > 0)]['user_score'].values
alpha = 0.05
result = st.ttest_ind(action_user_scores, sports_user_scores)

In [None]:
print('stat:', result.statistic)
print('p-value:', result.pvalue)

In [None]:
if (result.pvalue < alpha):
    print('Отвергаем нулевую гипотезу')
else:
    print('Нулевая гипотеза не отвергнута')

Нулевая гипотеза не может быть отвергнута. Следовательно верно утверждение - средние пользовательские рейтинги жанров Action и Sports одинаковые.

<h2 id='Общий вывод'>Общий вывод</h2>
<a name='9.'></a>
<a class='anchor-link' href='#Общий вывод'></a>

По проведенному анализу можно сделать вывод что весомое значние в успешность игры вносит как оценки критиков так и пользователей. 

Кроме того следует в качестве рекомендации отметить что наиболее успешными жанрами среди большинства пользователей являются - Action, Sports, Shooter. 

А также иметь обраить внимание на перспективные платформы которые относительно недавно вышли на рынок и имеют потенциал для последующего роста - PS4, WiU и XOne.

В общем можно отметить отчетливую динамику снижения объема продаж игр, что говорит о необходимости более осмотрительно входить на рынок игровой индустрии учитывая имеющиеся закономерности.