In [None]:
import pandas as pd
import seaborn as sns
from scipy import stats as st
import scipy 
import matplotlib.pyplot as plt
import numpy as np
import math

Name — название игры

Platform — платформа

Year_of_Release — год выпуска

Genre — жанр игры

NA_sales — продажи в Северной Америке (миллионы проданных копий)

EU_sales — продажи в Европе (миллионы проданных копий)

JP_sales — продажи в Японии (миллионы проданных копий)

Other_sales — продажи в других странах (миллионы проданных копий)

Critic_Score — оценка критиков (максимум 100)

User_Score — оценка пользователей (максимум 10)

Rating — рейтинг от организации ESRB (англ. Entertainment Software Rating

Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает
им подходящую возрастную категорию.

# Шаг 1 - готовим данные

In [None]:
try:
    df = pd.read_csv('/Users/georgezagorsky/Desktop/SborniyProject/Games csv.csv')
except:
    df = pd.read_csv('/datasets/games.csv')
df.head()

In [None]:
def custom_hist(x : pd.Series):
    plt.figure()
    plt.hist(x, edgecolor = 'red', color = "skyblue", lw = 0) # plt.hist(data, color = "skyblue", lw=0)
    plt.grid()
    plt.xticks(rotation = 30) 
    
def describe_columns(df: pd.DataFrame, col: str):
    print(f'Пропуски: {sum(df[col].isna())}')
    print(f'Тип переменной: {df.dtypes[col]}')

In [None]:
df.info()

## Предобработка данных

In [None]:
# Name

In [None]:
df.columns

In [None]:
df.columns = df.columns.str.lower()

In [None]:
df.head()

In [None]:
describe_columns(df, 'name')

In [None]:
len(df)

In [None]:
df[df['name'].isnull()]
df = df[~df['name'].isnull()]

In [None]:
len(df)

In [None]:
df.groupby('name', as_index = False).agg({'genre' : 'count'}).sort_values('genre', ascending = False)

In [None]:
# platform

In [None]:
describe_columns(df, 'platform')

In [None]:
df['platform'].unique()

In [None]:
df.head()

In [None]:
# year_of_realease

In [None]:
describe_columns(df, 'year_of_release')

In [None]:
custom_hist(df['year_of_release']); # Видно что за 2016 год нехватка информации

In [None]:
df[df['year_of_release'].isnull()]['name'].head(30)

In [None]:
df.head()

In [None]:
df[df['year_of_release'].isnull()].head(40)

In [None]:
df.head()

In [None]:
df.isna().mean()

In [None]:
df = df[~df['year_of_release'].isnull()]
len(df)

In [None]:
df.isna().mean()

In [None]:
df['year_of_release'] = df['year_of_release'].astype('int64')

In [None]:
custom_hist(df['year_of_release'])

In [None]:
# genre

In [None]:
describe_columns(df, 'genre')

In [None]:
df['genre'].unique()

In [None]:
df['genre'] = df['genre'].str.lower()

In [None]:
# na_sales

In [None]:
df['na_sales'].describe()

In [None]:
custom_hist(df['na_sales'])

In [None]:
df.head()

In [None]:
sns.boxplot(data = df['na_sales'])

In [None]:
df[df['na_sales'] == 0]

In [None]:
df['na_sales'].describe()

In [None]:
print(np.quantile(df['na_sales'], 0.99))

In [None]:
df[df['na_sales'] == max(df['na_sales'])]

In [None]:
df[df['na_sales'] > 20]

In [None]:
# eu_sales

In [None]:
df['eu_sales'].describe()

In [None]:
print(np.quantile(df['eu_sales'], 0.99))

In [None]:
df[df['eu_sales'] > 1.9456999999999969]

In [None]:
df[df['eu_sales'] == max(df['eu_sales'])]

In [None]:
describe_columns(df, 'eu_sales')

In [None]:
# jp_sales

In [None]:
df['jp_sales'].describe()

In [None]:
# other_sales

In [None]:
df['other_sales'].describe()

In [None]:
df[df['other_sales'] > np.quantile(df['other_sales'], 0.99)]

In [None]:
# critic_score

In [None]:
df['critic_score'].describe()

In [None]:
df[df['critic_score'].isnull()].sample()

In [None]:
# Мы не будем обрабатывать данные пропуски потому что оценка критиков скорее всего оценка критиков не имеет сильного влияние на продажи

In [None]:
# user_score

In [None]:
df['user_score'].describe()

In [None]:
custom_hist(df['critic_score']);

In [None]:
df.dtypes

In [None]:
df['user_score'].unique()
df['user_score'].head(30)

In [None]:
df[df['user_score'] == 'tbd']

In [None]:
# tbd значит что еще нет не обсуждалось user_score - поэтому просто заменими на NaN

In [None]:
df.loc[df['user_score'] == 'tbd', 'user_score'] = np.nan

In [None]:
df[df['user_score'] == 'tbd']

In [None]:
# rating

In [None]:
describe_columns(df, 'rating')

In [None]:
df[df['rating'].isnull()].sample(5)

In [None]:
# видно что не стоит чистить эти значения, потому что rating никак не обозначается без учета critic_score and user_score

In [None]:
df['rating'].unique()

In [None]:
df[df['rating'] == 'E']

54 percent received an E (Everyone) rating


33 percent received a T (Teen) rating


12 percent received an M (Mature) rating


Less than 1 percent received an AO (Adults Only) rating [ref]

In [None]:
# Посчитайте суммарные продажи во всех регионах и запишите их в отдельный столбец.

In [None]:
df['region_sum'] = df['na_sales'] + df['eu_sales'] + df['jp_sales'] + df['other_sales']

In [None]:
df.head()

# Шаг 3. Проведите исследовательский анализ данных

In [None]:
# Посмотрите, сколько игр выпускалось в разные годы. Важны ли данные за все периоды?

In [None]:
df['year_of_release'].hist(bins = 20)

In [None]:
df.groupby(['year_of_release', 'name'], as_index = False).agg({'jp_sales' : 'count'}).sort_values('jp_sales', ascending = False).rename(columns = {'jp_sales' : 'count'}).head(10)

In [None]:
df.loc[df['year_of_release'] > 2010].groupby('year_of_release', as_index = False).agg({'jp_sales' : 'count'}).sort_values('jp_sales', ascending = False).rename(columns = {'jp_sales' : 'counter'})

In [None]:
df.groupby('year_of_release', as_index = False).agg({'jp_sales' : 'count'}).sort_values('jp_sales', ascending = False).rename(columns = {'jp_sales' : 'counter'}).head(20)

Чтобы сделать предикт на 2017 год нам не нужны данные за все года, думаю актуальные года будуте с 2013 - 2016 год. Потому что есть тенденция уменьшая количества игр с каждым годом.

In [None]:
data = df.groupby('year_of_release', as_index = False).agg({'jp_sales' : 'count'}).sort_values('jp_sales', ascending = False).rename(columns = {'jp_sales' : 'counter'}).head(20)

In [None]:
data

In [None]:
data.loc[(data['year_of_release'] > 2012) & (data['year_of_release'] <= 2016)].groupby('year_of_release', as_index = False).agg({'counter' : 'sum'}).sort_values('counter', ascending = False).rename(columns = {'counter' : 'count_from_2013_till_2016'})

### Посмотрите, как менялись продажи по платформам. Выберите платформы с наибольшими суммарными продажами и постройте распределение по годам. За какой характерный срок появляются новые и исчезают старые платформы?

In [None]:
df.head()

In [None]:
df.groupby('platform', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'reuslt_sum_platform'}).head(10)

In [None]:
# Возьмем первые 6 как лучшие продажи - и посмотрим на тенденцию

In [None]:
data = df.loc[(df['platform'] == 'PS2')].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_sum'})

In [None]:
data

In [None]:
plt.bar(data['year_of_release'], data['result_sum'])
plt.title('Смотрим на код и сумму продаж')
plt.xlabel('year')
plt.ylabel('Продажи')
plt.show()

In [None]:
# Примерно за 10 лет игровая приставка PS2 полностью перестала продаваться # X360

In [None]:
df.head()

In [None]:
data = df.loc[df['platform'] == 'X360'].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_sum'}).reset_index()

In [None]:
plt.bar(data['year_of_release'], data['result_sum'])
plt.title('Смотрим на код и сумму продаж')
plt.xlabel('year')
plt.ylabel('Продажи')
plt.show()

In [None]:
data

In [None]:
# Получается примерно тоже самое - продажи то возрастали, то убывали примерно граница 2010 год.
# Но так как на рынок ога вышлла в 2006 году, то 10 лет получатеся как и в прошлом анализе

## PS3

In [None]:
df.head()

In [None]:
data = df.loc[df['platform'] == 'PS3'].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_sum'})

In [None]:
data

In [None]:
plt.bar(data['year_of_release'], data['result_sum'])
plt.title('Смотрим на код и сумму продаж')
plt.xlabel('year')
plt.ylabel('Продажи')
plt.show()

In [None]:
# Видна примерно такая же тенденция - посмотрим еще 1 вариант чтобы удостовериться

## Wii

In [None]:
data = df.loc[df['platform'] == 'Wii'].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_sum'})

In [None]:
data

In [None]:
plt.bar(data['year_of_release'], data['result_sum'])
plt.title('Смотрим на код и сумму продаж')
plt.xlabel('year')
plt.ylabel('Продажи')
plt.show()

In [None]:
# Думаю достаточно, как актуальный период мы возьмем данные с 2010 года

## Возьмите данные за соответствующий актуальный период. Актуальный период определите самостоятельно в результате исследования предыдущих вопросов. Основной фактор — эти данные помогут построить прогноз на 2017 год.
Не учитывайте в работе данные за предыдущие годы.

Везде есть теденция 10 лет - исходя из наших баров мы увидели что в больнистве своем значения крутятся около 2010 года, поэтому с 2010-2016 года возьмем как актуальный период

In [None]:
df = df[df['year_of_release'] >= 2010]

In [None]:
len(df)

## Какие платформы лидируют по продажам, растут или падают? Выберите несколько потенциально прибыльных платформ.

In [None]:
df['platform'].unique()

In [None]:
df.head()

In [None]:
df.groupby('platform', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_platform_sum'})

In [None]:
data = df.loc[df['platform'] == 'PS3'].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'res_sum'})

In [None]:
data

In [None]:
plt.bar(data['year_of_release'], data['res_sum'])
plt.title('Смотрим на код и сумму продаж')
plt.xlabel('year')
plt.ylabel('Продажи')
plt.show()

Не смотря на то что ПС3 казалась самой прибильной - с ккаждым годом ее доход падает в арифметический прогрессии

In [None]:
# X360

In [None]:
data = df.loc[df['platform'] == 'X360'].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'res_sum'})

In [None]:
data

In [None]:
plt.bar(data['year_of_release'], data['res_sum'])
plt.title('Смотрим на код и сумму продаж')
plt.xlabel('year')
plt.ylabel('Продажи')
plt.show()

In [None]:
# Такая же ситуация и с X360

In [None]:
df.groupby('platform', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_platform_sum'})

In [None]:
stack_for_check = ['PS4', '3DS', 'Wii', 'XOne', 'DS', 'PC', 'WiiU', 'PSP', 'PSV', 'PS2']

for element in stack_for_check:
    
    data = df.loc[df['platform'] == element].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'res_sum'})
    plt.bar(data['year_of_release'], data['res_sum'])
    plt.title('Смотрим на код и сумму продаж')
    plt.xlabel('year')
    plt.ylabel(f'Продажи {element}')
    plt.show()

### Можно выделить 3 основных продукта которые могут быть теоретически прибыльными

    1) PS4
    2) XOne
    3) PSV

### Постройте график «ящик с усами» по глобальным продажам игр в разбивке по платформам. Опишите результат.

In [None]:
df.head()

In [None]:
data = df.groupby('platform', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'res_sum'})

In [None]:
data

In [None]:
plt.boxplot(data['res_sum'], vert = True, widths = 0.7)
plt.title('Ящик с усами по продажам')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

    Ящик с усами выглядит очень хорошо, есть только один выброс у PS3, мы это уже видели и точно понимаем что она из себя представляет

In [None]:
df.isna().mean()

### Посмотрите, как влияют на продажи внутри одной популярной платформы отзывы пользователей и критиков. Постройте диаграмму рассеяния и посчитайте корреляцию между отзывами и продажами. Сформулируйте выводы.

In [None]:
df.head()

In [None]:
# hw.plot(x='height', y='weight', kind='scatter') 

In [None]:
# Возьмем популярную плафторму PS4 - она мне кажется самой выгодной из из всех

In [None]:
plt.scatter(data = df.loc[df['platform'] == 'PS4'], x = 'region_sum', y = 'critic_score', marker = '1', alpha = 0.3)
plt.xlabel('sum_region')
plt.title('scatter plot sum and score')
plt.ylabel('critic_score')
plt.show()

In [None]:
plt.scatter(data = df.loc[df['platform'] == 'PS4'], x = 'region_sum', y = 'user_score', marker = '1', alpha = 0.3)
plt.xlabel('sum_region')
plt.title('scatter plot sum and score')
plt.ylabel('user_score')
plt.show()

    С одной стороны нет линейная зависимости между этими двумя велечинами,но опять же есть одно но
    Если точно смотреть на график то можно увидеть что по какой-то причине, если отзывы критиков выше 70, то игра продается гораздо лучше чем при меньшем количестве отзывов, но также стоит отметить что оценки пользователей не очень влияют на продажи,хотя мне казалось что должно быть наоборот

In [None]:
df.loc[df['platform'] == 'PS4']['critic_score'].corr(df.loc[df['platform'] == 'PS4']['region_sum'])

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.loc[df['user_score'] == 'tbd']

In [None]:
df['user_score'] = df['user_score'].astype('float64')

In [None]:
df.loc[df['platform'] == 'PS4']['user_score'].corr(df.loc[df['platform'] == 'PS4']['region_sum'])

    Вывод очень простой. Есть зависимость между мнением критиков и продажами, она не линейная конечно, но 0.4 кэф корреляции очень даже хорош. А вот зависимости между между мнением обычных людей и продажами - нет. Странно) Думал что будет наоборот. Идем дальше

### Соотнесите выводы с продажами игр на других платформах.

In [None]:
data = df.groupby('platform', as_index = False).agg({'user_score' : 'count'}).sort_values('user_score' , ascending = False).rename(columns = {'user_score' : 'counter'})

In [None]:
data

In [None]:
stack = list(data.loc[data['platform'] != 'PS4', 'platform'])

stack

In [None]:

for el in stack:
    
    plt.figure(figsize=(7, 3))
    plt.scatter(data = df.loc[df['platform'] == el], x = 'region_sum', y = 'user_score', marker = '1', alpha = 0.3)
    plt.xlabel(f'sum_region {el}')
    plt.title('scatter plot sum and score')
    plt.ylabel('user_score')
    plt.show()
    
    corr_pirson = df.loc[df['platform'] == el]['user_score'].corr(df.loc[df['platform'] == el]['region_sum'])
    print(f'Корелляция пирсона у {el} следующая : {corr_pirson}')
    length = len(df.loc[df['platform'] == el]['critic_score'])
    print(f'Длинна получившегося датасета : {length}')
    

In [None]:

for el in stack:
    
    plt.figure(figsize=(7, 3))
    plt.scatter(data = df.loc[df['platform'] == el], x = 'region_sum', y = 'critic_score', marker = '1', alpha = 0.3)
    plt.xlabel(f'sum_region {el}')
    plt.title('scatter plot sum and score')
    plt.ylabel('critic_score')
    plt.show()
    
    corr_pirson = df.loc[df['platform'] == el]['critic_score'].corr(df.loc[df['platform'] == el]['region_sum'])
    print(f'Корелляция пирсона у {el} следующая : {corr_pirson}')
    length = len(df.loc[df['platform'] == el]['critic_score'])
    print(f'Длинна получившегося датасета : {length}')
    

In [None]:
df['platform'].unique()

In [None]:
df.loc[df['platform'] == '3DS']

    Наши выводы частично подтвердились. На самом деле было заметно что даже user_score в других местах показывал себя очень неплохо с коэф корреляции порой доходящий до 24 процентов. Но опять же такое есть не для всего, а critic_score все было очень наглядно показано что везде коэф корреляции заведомо больше нуля и даже больше 0.2. Хотя само собой это не линейная зависимсть, но ее можно назвать хоть какой-то зависимостью.

### Посмотрите на общее распределение игр по жанрам. Что можно сказать о самых прибыльных жанрах? Выделяются ли жанры с высокими и низкими продажами?


In [None]:
df.head()

In [None]:
df.groupby('genre', as_index = False).agg({'critic_score' : 'count'}).sort_values('critic_score', ascending = False).rename(columns = {'critic_score' : 'counter'})
# Самые популярные жанры

In [None]:
df.groupby('genre', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_genre_sum'})

    Получается линейная зависимость между количетсвом игр в данном жанре и их сумарными продажами. Это и логично. Чем больше ты продаешь тем больше ты получишь при условии прмиерно одинаковых ценовых погрешностей.

In [None]:
df.loc[df['genre'] == 'action'].groupby('year_of_release').agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_reg_sum'})

    Не смотря на то жанр экшн самый популярный, его доля на рынке с каждым годом слишком сильно уменьшается, поэтому скорее всего к 2017 году его зароботок будет слишком мал.

In [None]:
df.loc[df['genre'] == 'puzzle'].groupby('year_of_release').agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_sum'})

In [None]:
# Ситуация с puzzle примерно похожая

In [None]:
df.loc[df['genre'] == 'shooter'].groupby('year_of_release', as_index = False).agg({'region_sum' : 'sum'}).sort_values('region_sum', ascending = False).rename(columns = {'region_sum' : 'result_sum'})

    С шутерами я так и думал что ситуация неоднозначная - я думал что их популярность наоборот с каждым годом должна возрастать. Но какой вывод мы можем сделать? Пазлы просто всегда были не популярны среди всех жанров, пик пазлов составил всего лишь 11 миллионнов что даже примерно не сравниться с первым местом, а вот экшн на своемв пик 2013 года показывал очень высокие суммы, но у обоих есть теденция к уменьшению продаж в каждом году.

# Шаг 4. Составьте портрет пользователя каждого региона

In [None]:
df.sample(5)

In [None]:
# Самые популярные платформы (топ-5). Опишите различия в долях продаж.
df.groupby('platform', as_index = False).agg({'na_sales' : 'sum'}).sort_values('na_sales', ascending = False).rename(columns = {'na_sales' : 'res_na_sales'}).head(5)

In [None]:
# Самые популярные платформы (топ-5). Опишите различия в долях продаж.
df.groupby('platform', as_index = False).agg({'jp_sales' : 'sum'}).sort_values('jp_sales', ascending = False).rename(columns = {'jp_sales' : 'res_jp_sales'}).head(5)

In [None]:
# Самые популярные платформы (топ-5). Опишите различия в долях продаж.
df.groupby('platform', as_index = False).agg({'eu_sales' : 'sum'}).sort_values('eu_sales', ascending = False).rename(columns = {'eu_sales' : 'res_eu_sales'}).head(5)

    Если сравнивать 2 региона na, eu их самые популярные платформу +- похожи, но есть явная разница в долях между этими двумя регионами. Продажи PS3 равны, но вот X360 оказался гораздо популярнее в na, чем в eu. С плейстешен 4 ситуация обратная. 
    А если смотреть на jp, там есть только одно совпадение по PS3, но разница в долях тут очевидна, в 3 и в 6 раз меньше чем у двух других регионов. И все остальные плафторму имеют маленькую выручку в соотвествии с любыми другими в na, eu

### Самые популярные жанры (топ-5). Поясните разницу.

In [None]:
df.head()

In [None]:
df.groupby('genre', as_index = False).agg({'na_sales' : 'sum'}).sort_values('na_sales', ascending = False).rename(columns = {'na_sales' : 'res_sum_per_genre'}).head(5)

In [None]:
df.groupby('genre', as_index = False).agg({'eu_sales' : 'sum'}).sort_values('eu_sales', ascending = False).rename(columns = {'eu_sales' : 'res_sum_per_genre'}).head(5)

In [None]:
df.groupby('genre', as_index = False).agg({'jp_sales' : 'sum'}).sort_values('jp_sales', ascending = False).rename(columns = {'jp_sales' : 'res_sum_per_genre'}).head(5)

    Опять же если сравнивать na, eu у них выручки с na гораздо более успешные чем у eu, горздо больше покупателей. Самыми популярным жанром оказался action, shooter, онт +- равны между собой. Но по всем параметрам na лучше чем eu. Но при сравнении с jp_sales имеем совсем другое, action выручка которая в двух прошлых была максимальной, здесь имеет оборот в 2 и 3 раза меньше чем в другионах, а самый же популярный жанр это role_playing, который по выручке обгоняет равзке что eu

### Влияет ли рейтинг ESRB на продажи в отдельном регионе?

In [None]:
df.head()

In [None]:
df['rating'].unique()

In [None]:
df.groupby('rating', as_index = False).agg({'na_sales' : 'sum'}).sort_values('na_sales', ascending = False).rename(columns = {'na_sales' : 'res_sum'})

In [None]:
df.groupby('rating', as_index = False).agg({'eu_sales' : 'sum'}).sort_values('eu_sales', ascending = False).rename(columns = {'eu_sales' : 'res_sum'})

In [None]:
df.groupby('rating', as_index = False).agg({'jp_sales' : 'sum'}).sort_values('jp_sales', ascending = False).rename(columns = {'jp_sales' : 'res_sum'})

    Во всех трех регионах ситуация +- похожая, но в eu and na, игры с рейтингом mature-злелый почему-то приносит наибольший доход. Странно, но тут уже зависит от того во сколько человек себя зрелым считает) Я думал что игры под Everyone должны приносить набиольшой доход потому что нет никаких ограничений. В то время как в jp, практически тоже самое, но продажи по рейтингу everyone являются самыми лучшими - но стоит учитывать что там и выборка по количетсву продаж будет завдеемо меньше.

# Шаг 5. Проверьте гипотезы

### Средние пользовательские рейтинги платформ Xbox One и PC одинаковые;

In [None]:
df.head()

In [None]:
df = df[~df['user_score'].isnull()]
df['user_score'].isna().mean()

In [None]:
xboxe_one_platform = df.loc[df['platform'] == 'XOne']
pc_platform = df.loc[df['platform'] == 'PC']

    Построим нулевую гипотезу:
    
    H0 -> Предположим что средние пользовательские рейтинги по этим плафтормам равны (mean_x_one == mean_PC)
    
    H1 -> Альтернативная гипотеза будет гласить что их средние рейтинги не равны.

In [None]:
alpha = .05 

In [None]:
xboxe_one_platform['user_score'].hist()
pc_platform['user_score'].hist(bins = 30)

In [None]:
len(xboxe_one_platform)

In [None]:
len(pc_platform)

In [None]:
np.var(xboxe_one_platform['user_score'], ddof = 1)

In [None]:
np.var(pc_platform['user_score'], ddof = 1)

In [None]:
# Дисперсии равны 

In [None]:
scipy.stats.levene(xboxe_one_platform['user_score'], pc_platform['user_score'])

In [None]:
alpha = .05

In [None]:
result_test = scipy.stats.ttest_ind(xboxe_one_platform['user_score'], pc_platform['user_score']) 

In [None]:
if result_test.pvalue < .05:
    
    print('Отвергаем нулевую гипотезу')

else:
    
    print('Нет оснований отвергать нулевую гипотезу')

### Средние пользовательские рейтинги жанров Action (англ. «действие», экшен-игры) и Sports (англ. «спортивные соревнования») разные.

H0 - предположим что среднии рейтинги этих жанров равны

H1 - средние рейтинги этих жанров не равны

alpha = 0.05

In [None]:
df.head()

In [None]:
df['user_score'].isna().mean()

In [None]:
action_df = df[df['genre'] == 'action']
sport_df = df[df['genre'] == 'sports']

In [None]:
len(action_df)

In [None]:
len(sport_df)

In [None]:
action_df['user_score'].hist()
sport_df['user_score'].hist(bins = 8)

In [None]:
np.var(action_df['user_score'], ddof = 1)

In [None]:
np.var(sport_df['user_score'], ddof = 1)

In [None]:
# Дисперсии +- равны

In [None]:
result_test = scipy.stats.ttest_ind(action_df['user_score'], sport_df['user_score']) 

In [None]:
result_test.pvalue

In [None]:
if result_test.pvalue < 0.05:
    
    print('Отвергаем нулевую гипотезу')

else:
    
    print('Нет причин отвергать нулевую гипотезу')

# Шаг 6. Напишите общий вывод

1) В самом начале мы открыли и изучили общую информацию о данных

2) На втором этапе мы создали 2 основные функции для предобработки данных и стали изучать данные по порядку

3) Практически все пропуски по нужным столбцам мы удаляли, кроме столбца user_score, мы держали там пропуски до конца чтобы вначале оценить все нужные метрики хоть по каким-то данным, а когда понадобилилось проводить статистические тесты мы там и почистили все пропуски

4) Также мы встретились с записью tbd, что значит что еще пользователи не успели оценить продукт, то есть можно считать это как обычный пропуск

5) После чего мы выделили актуальный период продаж и начали смотреть на то как каждый год синергирует с нужными нам вопросами - Например мы выяснили какие данные лидируют по прождажам. Выбрали несколько потенциально хороших продуктов которые могут еще принести доход. Также мы выяснили что у всех топовых платформ с каждым годом уменьшается дохож в геометрической прогресси - что конечно же странно. 

6) Мы оценили основные жанры игр по 3м регионам и выяснили что у eu and na, все показатели +- схожие, но у jp, они отличаются по всем параметрам.

7) После чего мы столкнулись с проверкой гипотез и получилось что у нас нет оснований отвергать ту гипотезу что средние пользовательские рейтинги PC and Xone равны

8) Но мы отвергнули вторую гипотезу, что средние рейтинги пользователей по жанрам action and sports равны. pvalue оказался настолько мал что у нас не было смысла рассматривать дальнейшее развитие данной гипотезы