# Проект. Интернет-магазин "Стримчик"
Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Мне, как аналитику, нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Перед вами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и я планирую кампанию на 2017-й. Нужно отработать принцип работы с данными. 
В наборе данных попадается аббревиатура ESRB (Entertainment Software Rating Board) — это ассоциация, определяющая возрастной рейтинг компьютерных игр. ESRB оценивает игровой контент и присваивает ему подходящую возрастную категорию, например, «Для взрослых», «Для детей младшего возраста» или «Для подростков».

**Заголовок:** Исследования продаж видеоигр

**Описание проекта:** Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Мне, как аналитику, нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. Перед вами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и я планирую кампанию на 2017-й. Нужно отработать принцип работы с данными. В наборе данных попадается аббревиатура ESRB (Entertainment Software Rating Board) — это ассоциация, определяющая возрастной рейтинг компьютерных игр. ESRB оценивает игровой контент и присваивает ему подходящую возрастную категорию, например, «Для взрослых», «Для детей младшего возраста» или «Для подростков».

**Цель исследования:** Определить зависимость продаж видеоигр на различных платформах и спланировать кампанию продаж на 2017 год

**Ход исследования:**
- Загрузка данных
- Предобработка данных
- Исследовательский анализ
- Проверка гипотез

**Общий вывод:** Резюмирование всей проделанной работы

##  Загрузка данных

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats as st
import seaborn as sns

In [2]:
df = pd.read_csv('/datasets/games.csv')
#Посмотрим, как выглядит сама таблица
display(df.head())
#Посмотрим информацию о таблице
df.info()

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/games.csv'

В исходной таблицы можно наблюдать следующие столбцы:
- `Name` — название игры
- `Platform` — платформа
- `Year_of_Release` — год выпуска
- `Genre` — жанр игры
- `NA_sales` — продажи в Северной Америке (миллионы проданных копий)
- `EU_sales` — продажи в Европе (миллионы проданных копий)
- `JP_sales` — продажи в Японии (миллионы проданных копий)
- `Other_sales` — продажи в других странах (миллионы проданных копий)
- `Critic_Score` — оценка критиков (максимум 100)
- `User_Score` — оценка пользователей (максимум 10)
- `Rating` — рейтинг от организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

**Вывод:** По первичному анализу видно, что объем данных относительно небольшой и можно предположить, что это лишь выборка из всей генеральной совокупности или же эти данные представляют собой совокупность данных из разных источников. Заметен большое количество пропусков в столбцах `rating`, `critic_score` и `user_score`. Уже сразу можно сказать, что год выпуска должен иметь тип данных int64, а в таблице он float. Будем с этим разбираться

<div class="alert alert-info" В исходной таблице можно заметить следующие столбцы: 
- `Name` — название игры
- `Platform` — платформа
- `Year_of_Release` — год выпуска
- `Genre` — жанр игры
- `NA_sales` — продажи в Северной Америке (миллионы проданных копий)
- `EU_sales` — продажи в Европе (миллионы проданных копий)
- `JP_sales` — продажи в Японии (миллионы проданных копий)
- `Other_sales` — продажи в других странах (миллионы проданных копий)
- `Critic_Score` — оценка критиков (максимум 100)
- `User_Score` — оценка пользователей (максимум 10)
- `Rating` — рейтинг от организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

## Предобработка дынных

Просмотрев общую информацию о таблице, да и вообще саму таблицу перед собой постаивл следующие задачи:
- 1. Привести название столбцов к нижнему регистру
- 2. Поменять тип данных в нескольких столбцах
- 3. Обработать дубликаты, явнеы и неявные
- 4. Обработать пропуски там, где это возможно

### Приведение столбцов к нижнему регистру

In [None]:
#Приведем названия столбцлв к нижнему регистру
df.columns = df.columns.str.lower()
df.head()

### Обработка дубликатов

In [None]:
#Проверим наличие дубликатов
df.duplicated().sum()

In [None]:
#Проверим невяные дубликаты в столбце platform
df['platform'].unique()

**Неявных дубликатов нет**

In [None]:
df['year_of_release'].sort_values().unique()

**Неявных дубликатов нет**

In [None]:
df[df['name'].duplicated()]

In [None]:
df[df['name'] == 'Call of Duty: Black Ops']

**Заметно, что дубликаты имеются, но это можно объяснить тем, что одна игра выходит на разные платформы. В этом, ничего страшного нет**

In [None]:
# Код ревьюера
df[df[['name', 'platform','year_of_release']].duplicated(keep=False)]

### Обработка пропусков

In [None]:
#Посмотрим на количесвто пропусков
df.isna().sum()

Смотря на пропуски, есть следующие идеи, как с ними можно справиться:
- `name` - пропуски в этом столбце заполнить из имеющихся данных нельзя
- `year_of_release` - пропуски здесь можно заполнить таким медианным значением, в зависимости от того, на какой платформе вышла игра. Думаю, это логично, ведь явно для ps4, которая вышла относительно недавно и для приставик 2600, которая вышла в 1977 игры выходили в разное время
- `genre` - так как в столбце 'genre' всего два пропуски, то можно найти эти игры и вручную заполнить эти пропуски
- `critic_score` - 
- `user_score` - смущает тот факт, что тип данных здесь object, а не числовой(int или float). Это весьма странно. Сначала разберемся, откуда там строки
- `rating` - этот столбец показывает оценку специальной организации. То есть, ни с какими данными рейтинг не имеет взаимосвязь, поэтому, пропуски здесь лучше просто оставить

#### Пропуски в `name`

In [None]:
#Посмотрим на строки, где пропуски есть в столбце 'genre'
df[df['genre'].isnull()]

Неприятно, что там, где есть пропуски в столбце genre пропуски и в столбце name, следовательно, заполнить пропуски, даже вручную невозможно

In [None]:
#Так как доля пропусков менее 5%, удалим эти две строки
df = df.dropna(subset=['name']).reset_index()

#### Пропуски в `year_of_release`

In [None]:
#Посмотрим в целом на строки, где есть пропуски в столбце 'year_of_release'
df['year_of_release'].isna().sum()

Доля пропусков в столбце `year_of_release` составляет около 2%. Можно удалить эти строки без потери статистических данных

In [None]:
df = df.dropna(subset=['year_of_release'])

In [None]:
#Так как изначально тип данных в этом столбце float64, поменяем его на int64
df['year_of_release'] = df['year_of_release'].astype('int')

#### Пропуски в `user_score`

Далее посмотрим, как распределены ползовательские оценки

In [None]:
#Посмотрим на распределение пользовательских оценок
df['user_score'].value_counts().sort_index(ascending=False).plot(kind='bar',
                                                                 figsize=(20, 5),
                                                                 grid=True,
                                                                title = 'Распределение пользовательских оценок',
                                                                xlabel = 'Пользовательская оценка',
                                                                 ylabel = 'Количество',
                                                                color='r');

Большинство оценок приходится на tbd. Вероятнее всего, такие оценки у игр, которые ожидают своего выхода

In [None]:
#Проверим гипотезу
df.query('user_score == "tbd"')['year_of_release'].value_counts().sort_index(ascending=False)\
.plot(kind='bar',
     grid=True,
     color='g');

Гипотеза не подтвердилась. Потому что, в случае, если бы значение tbd было бы у игр, у которые еще ожидают релиза, то мы бы наблюдали значение tbd только бы в последнем году(2016)

Предположить, что пользовательская оценка взаимосвязана с какими-то данными из таблицы вряд ли может. Из имеющихся данных нельзя сказать, что конкретно влияет на пользовательскюу оценку. Более того,  мы даже не знаем как она расчитана. Можно конечно думать, что пользовательская оценка расчитывается как среднее, но это предположение все равно нам ничего не дает, так как данных о том, какую оценку поставил каждый пользователь у нас нет. Поэтому, можно думать, что tbd означачет, что оценки просто-напросто нет. 

In [None]:
#Проверим, есть ли в user_score занчение 0
df[df['user_score'] == '0']

Всего одна такая игра. А это значит, что оценка "0" может быть. Поэтому, заполним все пропуски и значение tbd на значение 0

In [None]:
#Заменим значение tbd на 0
df.loc[df['user_score'] == 'tbd', 'user_score'] = 0
df['user_score'] = df['user_score'].fillna(0)
#Поменяем тип данных на float
df['user_score'] = df['user_score'].astype('float')

#### Пропуски в `critic_score`

Пропуски в этом столбце никак не могут быть взаимосвязаны с имеющимимися в таблице данными. Поэтому, просто заменим пропуски 0

In [None]:
df['critic_score'] = df['critic_score'].fillna(0)

#### Пропуски в `rating`

Как я уже сказал ранее, то здесь пропуски заполнить нельзя, но и просто оставить None как-то некрасиво. Зная, что существует специальная абреваитура tbd для тех оценок, которых пока нет, заменим пропуски занчение tbd

### Добавление нового столбца с суммарными продажами

In [None]:
df['revenue'] = df['na_sales'] + df['jp_sales'] + df['other_sales'] + df['eu_sales']

**Промежуточный вывод:** На этом этапе мною была проведена следующая работа:
- 1. Приведение название столбцов к нижнему регистру
- 2. Обработаны дубликаты в датафрейме в общем, а также по отдельным столбцам: `name`, `platform`, `year_of_release`
- 3. Обработаны пропуски. Пропуски в столбцах `name` и `genre` совпали. Пропуски были всего в двух строках, поэтому эти строки были удалены. В столбце `year_of_release` также содержалось пропусков менее 5%, поэтому эти строки были удалены, а тип данных был изменен на int. В столбце `user_score` значение 'tbd' было заменено на значение "0". Пропуски в этом столбце были оставлены и заменены на 0. В столбце `critic_score` аналогичная ситуация, пропуски были оставлены и заменены на значение "0". В столбце `rating` пропуски были заменены на значение 'tbd'.

## Исследовательский анализ данных

### Распределение игр по году выпуска

In [None]:
#Сделаем график распределения
df['year_of_release'].value_counts().sort_index().plot(kind='bar', 
                                                      figsize=(15, 5),
                                                      color='r');
plt.xlabel('Год', fontsize=18)
plt.ylabel('Количество', fontsize=18)
plt.title('Распределение игр по годам', fontsize=18)
#Добавим вспомогательную линию-медианное значение выхода игр
plt.axhline(y=df.groupby('year_of_release')['rating'].agg('count').median(), color='g', 
            alpha=0.5, linestyle='dashed')
#Добавим вспомогательную линию-среднее значение выхода игр
plt.axhline(y=df.groupby('year_of_release')['rating'].agg('count').mean(), color='b', 
            alpha=0.5, linestyle='dashed')
plt.legend()
plt.show()

По графику можно заметить, что большинство игр выходило уже 21 веке, а именно в период с 2007 по 2011 год. Также, можно заметить, что начиная.с 1999 года игр стало выпускать больше, чем среднее значение, а после 2001 уже и больше, чем медианное. Для дальнейшего прогноза, данные до 1997 года можно отбросить, так как они содержат мало информации, а более того, актуальной информации

### Самые популярные платформы

In [None]:
#Посмотрим сколько всего заработала каждаяя платформа
df.groupby('platform')['revenue'].sum().sort_values(ascending=False)

Среди всех платформ выберем самые популярные из них и посомтрим, как изменялся объем продаж. Выберем поряда 10 платформ

In [None]:
platform_popular = df.groupby('platform')['revenue'].sum().sort_values(ascending=False)[:13]
platform_popular

Визуализиурем каждую платформу на едином графике

In [None]:
color = ['black', 'b', 'g', 'r', 'gold', 'pink', 'brown', 'orchid', 
         'deepskyblue', 'gray', 'orange', 'palegreen', 'darkcyan']
for i in range(0, len(platform_popular)):
    diagramm = df.query('platform == @platform_popular.index[@i]').groupby('year_of_release')['revenue'].sum()
    diagramm.plot(x=diagramm.index, y=diagramm.values, color=color[i], grid=True, alpha=0.85,
             figsize=(15, 5), xlabel='Год', ylabel='Объем продаж', label=platform_popular.index[i])
plt.legend(loc='best')
plt.title('Распределение самых популярных платформ по продажам')
plt.show()

У платформы DS две точки до 2005 года: в 1985 и в 2004. Из интернета нашел информацию, что платформа DS появилаьс только в 2004 году. Посмотрим на значение платформы DS до 2004 года и удалим эти данные

In [None]:
df.query('platform == "DS" and year_of_release < 2004')

In [None]:
df = df.drop(15955).reset_index()

Можно заметить, что новые платформы появляются минимум раз в пять лет. После 2000 года инетрес людей к играм подрос и новые платформы стали выпускаться чаще. Около 2-3 в пять лет. Особенно выделяется промежуток от 2005 до 2010 года. За эти пять лет с рынка ушли две платформы(GB и PS) и появилось сразу 3 новые(PS2, XB, GBA)Также заметно, что все платформы имеют свой скачок по объему продаж, после которого виден спад. Заметно, что ни одна платформа не может долго поддерживать высокий уровень продаж. По графику видно, что сейчас, самой актуальной платформой является PS4. Средний жизненный цикл каждой платформы составляет примерно 10 лет. Это заметно на таких платформах как PS2, Wii, PSP, X360, PS, PS3 но есть и те, которых жизненный цикл больше, например, GB, или наоборот меньше чем 10 лет, как например у GBA.

### Выбор акутального периода

По нашему анализу, можно сказать, что за последние 5 лет на рынке представленно большинство различных платформ одновременно. Но стоит учитывать, что индустрия компьютерных игр быстро меняется, поэтому оптимально всего за начало актуального периода взять год, где в одно существует большинство платформ. **Итог: актуальный период считаем с 2012 года**

In [None]:
df_actual = df.query('year_of_release >= 2012')

### Лидеры по продажам

In [None]:
#Выведем суммарный объем продаж по платформам
df_actual.groupby('platform')['revenue'].sum().sort_values(ascending=False)

In [None]:
#Построим диаграмму
df_actual.groupby('platform')['revenue'].sum().sort_values().\
plot(x=df_actual.groupby('platform')['revenue'].sum().index,
                                                  y='revenue',
                                                   kind='bar',
                                                   figsize=(15, 5),
                                                   color='g',
                                                   grid=True)
plt.xlabel('Платформа', fontsize=18)
plt.ylabel('Объем продаж', fontsize=18)
plt.title('Общий объем продаж платформ', fontsize=18)
plt.show()

Заметно, что есть 5 явных лидера по общему объему продаж: PS2, DS, Wii, PS3, X360. Теперь посмотрим, как развивался объем продаж у этих платформ с 2012 года

In [None]:
df_actual_pivot = df_actual.pivot_table(index='year_of_release', columns='platform', values='revenue', aggfunc='sum')
df_actual_pivot

In [None]:
#Есть значения Nan, для удобства, заменим их на 0
df_actual_pivot = df_actual_pivot.fillna(0)
df_actual_pivot

In [None]:
color = ['black', 'b', 'g', 'r', 'gold', 'pink', 'brown', 'orchid', 
         'deepskyblue', 'gray', 'orange']
# Построим все столбцы на одном графике
df_actual_pivot.plot(figsize=(15, 6),
                    color=color)
plt.title('Продажи игр по годам', fontsize=18)
plt.xlabel('Год', fontsize=18)
plt.ylabel('Объем продаж', fontsize=18)
plt.legend(title='Платформа', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

**Вывод:** 
- Топ-3 лидера по продажам-PS4, X360, PS3. 
- Сейчас же наибольшую актуальность имеют платформы- PS4, XOne, 3DS. 
- Заметно, что в среднем, рост продаж одной платформы занимает 1.5-2 года. Дальше идет небольшой спад в объемах продаж

In [None]:
#Сделаем отедльную таблицу для самых актуальных на текущий день платформ
top_platform = df.query('platform == ["PS4", "XOne", "3DS"]')
top_platform.head()

### Глобальные продажи по играм в разбивке по платформам(возьмем 8 платформ, так как у остальных обхем продаж доваольно таки небольшой)

In [None]:
df_actual.groupby('platform')['revenue'].sum().sort_values(ascending=False).head(8)

In [None]:
plt.figure(figsize=(13, 8))
sns.boxplot(data=df_actual, y='revenue', x='platform')

plt.title('Продажи по перспективным платформам')
plt.xlabel('Платформы')
plt.ylabel('Общие продажи')
plt.ylim(0, 3)

plt.show()

Заметно, что у топовых платформ уровень продаж очень похож. У четырех платформ: X360, PS4, Wii и XOne близкие медианные значения-около 0.2. Минимальное же медианное значение у платформы PSP. В остальных уже ближе к значению 0.1. Самыми не попродаваемыми платформами можно назвать PSP, PSV, DS и PC. А наоборот самыми продаваемыми можно назвать X360, PS4, SOne, Wii и PS3

In [None]:
# Код ревьюера


import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(13, 8))
sns.boxplot(data=df_actual, y='revenue', x='platform')

plt.title('Продажи по перспективным платформам')
plt.xlabel('Платформы')
plt.ylabel('Общие продажи')
plt.ylim(0, 3)

plt.show()

### Влияние отзывов на продажи

По графикам и таблицам мы успели заметить, что самой популярной и акутальной платформой сейчас является X360, следовательно и на ее примере логичнее всего арссматривать влияние оценок

#### Влияние оценок критиков на платформу X360

In [None]:
#Для удобства сделаем отдельную таблицу
x360_score = df_actual.query('platform == "X360" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']]
x360_score.head(3)

In [None]:
x360_score.corr()

In [None]:
print('Коэффициент корелляции равен', x360_score.corr().loc['revenue', 'critic_score'])
x360_score.plot(kind='scatter',
               x='critic_score',
               y='revenue',
               figsize=(16, 5));
plt.title('Влияние оценок критиков на продажи',fontsize=13)
plt.xlabel('Оценка критиков', fontsize=13)
plt.ylabel('Продажи', fontsize=13)
plt.show()

#### Влияние пользовательских оценок на продажи

In [None]:
print('Коэффициент корелляции равен', x360_score.corr().loc['revenue', 'user_score'])
x360_score.plot(kind='scatter',
               x='user_score',
               y='revenue',
               figsize=(16, 5));
plt.title('Влияние пользовательских оценок на продажи', fontsize=13)
plt.xlabel('Оценка пользователей', fontsize=13)
plt.ylabel('Продажи', fontsize=13)
plt.show()

По этим двум графикам видно, что оценка критиков оказывает больше влияние на продажи, нежели пользовательские оценки. Хоть, оценки критиков не оцень сильно влияют,  я бы сказал средне. Зависимость между продажи и оценками пользователями почти отсутсвует. 

### Влияние оценок на другие платформы

Если опираться на предыдущие исследования и брать анализ влияние оценок на продажи X360 за основу, то можно сказать, что корелляция будет не сильно отличаться на других платформах. Предполагаю, что будет похожая зависимость(относительная малая), но с тем, что оценки критиков все же оказывают немного большее влияние, нежели оценки пользователей

In [None]:
df_actual['platform'].unique()

In [None]:
ax1 = df_actual.query('platform == "Wii" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='user_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='b',
                                                alpha=0.7,
                                                label='Wii')
ax2 = df_actual.query('platform == "PS3" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='user_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='g',
                                                ax=ax1,
                                                alpha=0.7,
                                                label='PS3')
ax3 = df_actual.query('platform == "PS4" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='user_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                ax=ax2,
                                                color='r',
                                                alpha=0.7,
                                                label='PS4')
ax4 = df_actual.query('platform == "3DS" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='user_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='black',
                                                ax=ax3,
                                                alpha=0.7,
                                                label='3DS')
ax5 = df_actual.query('platform == "XOne" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='user_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='orange',
                                                ax=ax4,
                                                alpha=0.7,
                                                label='XOne')
df_actual.query('platform == "PC" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='user_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='pink',
                                                ax=ax5,
                                                alpha=0.7,
                                                label='PC');
plt.title('Влияние пользовательских оценок на продажи 6 платформ', fontsize=13)
plt.xlabel('Пользовательская оценка', fontsize=13)
plt.ylabel('Объем продаж', fontsize=13)
plt.show()
for i in ['Wii', 'PS3', 'PS4', '3DS', 'XOne', 'PC']:
    print(f'Коэффициент корелляции платформы {i} равен', df_actual.
                query('platform == @i and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].corr().loc['revenue', 'user_score'])

In [None]:
ax1 = df_actual.query('platform == "Wii" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='critic_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='b',
                                                alpha=0.7,
                                                label='Wii')
ax2 = df_actual.query('platform == "PS3" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='critic_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='g',
                                                ax=ax1,
                                                alpha=0.7,
                                                label='PS3')
ax3 = df_actual.query('platform == "PS4" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='critic_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                ax=ax2,
                                                color='r',
                                                alpha=0.7,
                                                label='PS4')
ax4 = df_actual.query('platform == "3DS" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='critic_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='black',
                                                ax=ax3,
                                                alpha=0.7,
                                                label='3DS')
ax5 = df_actual.query('platform == "XOne" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='critic_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='orange',
                                                ax=ax4,
                                                alpha=0.7,
                                                label='XOne')
df_actual.query('platform == "PC" and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].plot(kind='scatter',
                                                x='critic_score',
                                                y='revenue',
                                                figsize=(16, 5),
                                                color='pink',
                                                ax=ax5,
                                                alpha=0.7,
                                                label='PC');
plt.title('Влияние пользовательских оценок на продажи 6 платформ', fontsize=13)
plt.xlabel('Пользовательская оценка', fontsize=13)
plt.ylabel('Объем продаж', fontsize=13)
plt.show()
for i in ['Wii', 'PS3', 'PS4', '3DS', 'XOne', 'PC']:
    print(f'Коэффициент корелляции платформы {i} равен', df_actual.
                query('platform == @i and critic_score != 0 and user_score != 0')\
[['revenue', 'critic_score', 'user_score']].corr().loc['revenue', 'critic_score'])

**Вывод:** Общая закономерность понятно. Оценки не очень сильно влияют на продажи, но все же оценки критиков оказывают немного большее влияние, нежели оценки пользователей. Исключения тоже бывают. Из рассматренных мною 6 платформа Wii, которая имеют отрицательную зависимость оценок пользователей от объема продаж. 

### Распределение игр по жанрам

In [None]:
df_actual.value_counts('genre')

In [None]:
ax = df_actual.groupby('genre')['revenue'].median().plot(kind='bar',
                                                         color='orange',
                                                         figsize=(16, 6),
                                                         label='Медианные продажи')
ax1 = df_actual.groupby('genre')['revenue'].median().plot(color='b',
                                                          figsize=(16, 6),
                                                          ax=ax,
                                                          alpha=0.4,
                                                          label='Медианные продажи')
ax2 = df_actual.groupby('genre')['revenue'].mean().plot(kind='bar',
                                                        color='pink',
                                                        figsize=(16, 6),
                                                        ax=ax1, 
                                                        alpha=0.5,
                                                       label='Средние продажи')
df_actual.groupby('genre')['revenue'].mean().plot(color='r',
                                                  figsize=(16, 6),
                                                  ax=ax2,
                                                  alpha=0.4,
                                                  label='Средние продажи')
plt.title('Распределение игр по жанрам', fontsize=13)
plt.xlabel('Жанр', fontsize=13)
plt.ylabel('Объем', fontsize=13)
plt.legend()
plt.show()

**Вывод:** Анализируя график можно понять, что лидером по продажам являются игры жанра шутера. На втором месте идут платформенные игры, а на третьем спортивные игры. Самые низкопродаваемыми играми являются приключения, пазды и стратегии

## Портрет пользователя каждого региона

### Самые популярные платформы в регионах

In [None]:
#Создадим три таблицы, для каждого региона
na_platform = pd.DataFrame({'na_sales' : df_actual.groupby('platform')['na_sales'].sum().sort_values\
                            (ascending=False)})
eu_platform = pd.DataFrame({'eu_sales' : df_actual.groupby('platform')['eu_sales'].sum().sort_values\
                            (ascending=False)})
jp_platform = pd.DataFrame({'jp_sales' : df_actual.groupby('platform')['jp_sales'].sum().sort_values\
                            (ascending=False)})

display(na_platform.head())
display(eu_platform.head())
display(jp_platform.head())

In [None]:
plt.figure(figsize=(17, 5))
plt.subplot(131)
#Веберем 5 платформ по продажам и построим три круговые диаграммы для каждого региона
#Диаграмма для Северной Америки
na_platform['na_sales'].head(5).plot(kind='pie',
                         legend=False,
                         autopct='%1.1f%%',
                         explode=[0.12, 0.1, 0.1, 0.05, 0],
                        shadow=True)
plt.title('Доля платформ в Северной Америке')

#Диаграмма для Европы
plt.subplot(132)
eu_platform['eu_sales'].head(5).plot(kind='pie',
                         legend=False,
                         autopct='%1.1f%%',
                         explode=[0.12, 0.1, 0.1, 0.05, 0],
                        shadow=True)
plt.title('Доля платформ в Европе')

#Диаграмма для Японии
plt.subplot(133)
jp_platform['jp_sales'].head(5).plot(kind='pie',
                         legend=False,
                         autopct='%1.1f%%',
                         explode=[0.12, 0.1, 0.1, 0.05, 0],
                        shadow=True)
plt.title('Доля платформ в Японии')
plt.show()

По графикам заметно, что в Америке самая популярная платформа-X360, в Европе-PS4, в Японии-3DS. Можно заметить, что игроки в Америке и в Европе больше всего отдают предпочтение 4 платформам-X360, PS3, PS4 и XOne. В Японии же другая ситуация. Лидирующие платформы-3DS, PS3, PSV. Также, PS3-платформа, которая пользуются большой популярностью во всех трех регионах

### Самые популярные жанры в регионах

In [None]:
#Создадим три таблицы, для каждого региона
na_genre = pd.DataFrame({'na_sales' : df_actual.groupby('genre')['na_sales'].sum().sort_values\
                            (ascending=False)})
eu_genre = pd.DataFrame({'eu_sales' : df_actual.groupby('genre')['eu_sales'].sum().sort_values\
                            (ascending=False)})
jp_genre = pd.DataFrame({'jp_sales' : df_actual.groupby('genre')['jp_sales'].sum().sort_values\
                            (ascending=False)})

na_genre.head(), eu_genre.head(), jp_genre.head()

In [None]:
plt.figure(figsize=(17, 5))
plt.subplot(131)
#Веберем 5 платформ по продажам и построим три круговые диаграммы для каждого региона
#Диаграмма для Северной Америки
na_genre['na_sales'].head(5).plot(kind='pie',
                         legend=False,
                         autopct='%1.1f%%',
                         explode=[0.12, 0.1, 0.1, 0.05, 0],
                         shadow=True)
plt.title('Доля жанров в Северной Америке')

#Диаграмма для Европы
plt.subplot(132)
eu_genre['eu_sales'].head(5).plot(kind='pie',
                         legend=False,
                         autopct='%1.1f%%',
                         explode=[0.12, 0.1, 0.1, 0.05, 0],
                         shadow=True)
plt.title('Доля жанров в Европе')

#Диаграмма для Японии
plt.subplot(133)
jp_genre['jp_sales'].head(5).plot(kind='pie',
                         legend=False,
                         autopct='%1.1f%%',
                         explode=[0.12, 0.1, 0.1, 0.05, 0],
                         shadow=True)
plt.title('Доля жанров в Японии')
plt.show()

По графикам видно, что боевики-самые популярные жанры в Европе и Америке. В Японии же лидируют ролевые игры. В Америке и Европе и вовсе видно, что пользователи предпочитают одни и те же жанры игр, отличие есть только в том, что в Европе немного больше предпочитают гонки. В Японии же в большинстве своем выделяются ролевые игры. 

### Влияние рейтинга ESRB на продажи в регионах

In [None]:
#Выведем таблицу рейтинга и объема продаж в каждом регионе
display(df_actual.groupby('rating')[['na_sales', 'jp_sales', 'eu_sales']].sum()\
        .sort_values(by='na_sales', ascending=False))
#Посмотрим отдельно на таблицу, где неопределенного рейтинга нет
display(df_actual.query('rating != "tbd"').groupby('rating')[['na_sales', 'jp_sales', 'eu_sales']].sum()\
        .sort_values(by='na_sales', ascending=False))

Можно выделить 4 самых популярных рейтинга для всех регионов: E, M, T, E10+. Влияние рейтинга во всех регионах примерна одинакова. Заметно только то, что в Японии игр с рейтингом T и E больше, чем с рейтингом M, в отличие от других регионов. А так, влияние примерно одинаковое.

Также можно заметить, что большой объем продаж у игр без рейтинга. Можно предположить, что достаточно много игр, у которых маленький объем продаж и которые не получили рейтинга от ESRB. И таким образом образуется большой объем продаж таких игр из-за их большого количества

## Проверка гипотез

### Гипотеза первая : "Средние пользовательские рейтинги платформ Xbox One и PC одинаковые" 

In [None]:
#Создадим отдельную табличку для удобства
xbox_pc_user_score = df_actual.query('(platform == "XOne") or (platform == "PC")')
xbox_pc_user_score.head()

- **Нулевая гипотеза:** Средняя пользовательская оценка игр на платформе Xbox One равна средней пользовательской оценке игр на платформе PC
- **Алтернативная гипотеза:** Средняя пользовательская оценка игр на платформе Xbox One не равна средней пользовательской оценке игр на платформе PC

In [None]:
#Выведем средние оценки для двух платформ
print('Срднее значение выборки:', xbox_pc_user_score.query('platform == "XOne" and user_score != 0')\
      ['user_score'].mean())
print('Срднее значение выборки:', xbox_pc_user_score.query('platform == "PC" and user_score != 0')\
      ['user_score'].mean())
results = st.ttest_ind(xbox_pc_user_score.query('platform == "XOne" and user_score != 0')['user_score'],
                      xbox_pc_user_score.query('platform == "PC" and user_score != 0')['user_score'])
#Зададим уровень статистической значиомсти
alpha = 0.05
print('p-value', results.pvalue)
if results.pvalue < alpha:
    print('Отвергаем гипотезу')
else:
    print('Не отвергаем гипотезу')

По такоум анализу, можно понять, что в действительности, средняя пользвоательская оценка игра на Xbox One  равна средней пользовательской оценке игр на PC. Более того, посчитав среднее знаечние видно, что средние оценки почти не отличаются. Есть основания не отвергать нулевую гипотезу

### Вторая гипотеза: Средние пользовательские рейтинги жанров Action и Sports  разные.

- **Нулевая гипотеза:** Средняя пользовательская оценка игр с жанром "спорт"  равна средней пользвоательской оценке игр с жанром "боевик"
- **Альтернативная гипотеза:** Средняя пользовательская оценка игр с жанром "спорт" не равна средней пользвоательской оценке игр с жанром "боевик"

In [None]:
#Для удобства сделаем отдельную табличку
genre_user_score = df_actual.query('(genre == "Sports") or (genre == "Action")')
genre_user_score.head()

In [None]:
#Выведем средние оценки для двух жанров
print('Срднее значение выборки:', genre_user_score.query('genre == "Sports" and user_score != 0')\
      ['user_score'].mean())
print('Срднее значение выборки:', genre_user_score.query('genre == "Action" and user_score != 0')\
      ['user_score'].mean())
results = st.ttest_ind(genre_user_score.query('genre == "Sports" and user_score != 0')['user_score'],
                      genre_user_score.query('genre == "Action" and user_score != 0')['user_score'])
#Зададим уровень статистической значиомсти
alpha = 0.05
print('p-value', results.pvalue)
if results.pvalue < alpha:
    print('Отвергаем гипотезу')
else:
    print('Не отвергаем гипотезу')

По такому анализу можно понять, что среднияя пользовательская оценка спортивных игр  отличается от боевиков. А это значит, что есть основания отвергнуть гипотезу о равенстве средних оценок и склоняться к равенству этих оценок

## Общий вывод

Сделанный мною проект можно разделить на 5 этапов:
1. **Загрузка данных**
- На этом этапе мною были загружены данные, сделан первичный осмотр данных и описание данных в таблице. Сразу же были обнаружены проблемы с названиями столбцов и пропусками в данных.

2. **Предобработка данных**
- На этом этапы мною была сделана следующая работа:
  - 1) Приведены название столбцов к нижнему регистру
  - 2) Проверены дубликаты. Далее проверил дубликаты опираясь на конкретные столбцы. А именно, `name`, `year_of_release` и `genre`. Были обнаружены дубликаты по названию игру, но тому нашлось объяснение: одна игра может выпускаться сразу для нескольких платформ
  - 3) Обработаны пропуски в столбцах `year_of_release`, `user_score`, `name`, `critic_score` и `rating`. В столбце `year_of_release` доля пропусков составляла около 3%, поэтому эти данные были удалены. В столбце `name` пропуски были всего лишь в 2 строках, поэтому удалил их без влияния на дальнейший анализ. В столбце `user_score` заменил значение 'tbd' на значение 0, а также заменил пропуски значением 0. Аналогично сделал и в столбце `critic_score`. В столбце `rating` заполнил пропуски значением 'tbd'.
  - 4) Добавлен в таблицу нвоый столбец `revenue` с суммарной прибылью игру со всех регионов

3. **Исследовательский анализ**
- На этом этапе я исследовал распределение игр по году выпуска, самые популярные платформы, анализировал лидеров по продажам, а также глобальные продажи по играм в разбивке по платформам. Также исследовал влиятие оценок пользователей и критиков на продажи и исследовал распределение игр по жанрам 
  - 1) Распределение игр по году выпуска. Болльшинство игр вышло в период с 2002 по 2012 год. Пик выхода игр наблюдался в 2008 году, после же есть спад до 2014 года
  - 2) Распределение самых популярных платформ. За все время самыми популярными платформами являлись PS2, X360 и PS3. Средний жизненный цикл каждой платформы составляет примерно 10 лет. Примерно в 5 лет появялется около 2-3 платформ. Уходят же платформы с рынка реже
  - 3) Выбор актуального периода. За последние 5 лет на рынке представленно большинство различных платформ одновременно. Но стоит учитывать, что индустрия компьютерных игр быстро меняется, поэтому оптимально всего за начало актуального периода взял год, где в одно существует большинство платформ-с 2012 года
  - 4) Лидеры по продажам. С 2012 года лидером по продажам являлась платформа PS4, с объеммо продаж больше 300 миллионов. Дальше же шли PS3 и X360, с объемомо продаж около 250 миллионов. Пик продаж заметен в период с 2013 по 2015 год
  - 5) Глобальные продажи по играм в разбивке по платформам. У топовых платформ уровень продаж очень похож. У четырех платформ: X360, PS3, WiiU и PS2 близкие медианные значения-около 0.2. Минимальное же медианное значение у платформы PC. В остальных уже ближе к значению 0.1. У PSP, 3DS и PC большинство продаж находятся до значения в 1 млн. А у  PS2, PS4, PS3, WiiU и X360 мало значений до 1млн, следовательно, он гораздо выше.
  - 6) Влияние отзывов на продажи. Взяв за ориентир платформу X360 выяснилось, что оценки критиков и пользователей не сильно влияют на объемы продаж. Но все же, большее влияние оказывают именно оценки критиков, с корелляцией около 0.3. Анализируя другие 6 платформ зависимость сохранилась. Исключением стала платформа Wii, которая имеет отрицательную зависимость оценок пользователей от объема продаж. 
  - 7) Распределение игр по жанрам. Лидером по продажам являются игры жанра шутера, с медианным значением продаж в 0.5 миллионов и среднем в 1.2млн. На втором месте идут платформенные игры, а на третьем спортивные игры. Самые низкопродаваемыми играми являются приключения, пазлы и стратегии, с медианными значениеями продаж меньше 0.1 млн и средним значением продаж чуть больше 0.1млн.

4. **Составление портета пользователя**
- На этом этапе я разбил таблицу по регионам(Северная Америка, Япония и Европа) и исследовал самые популярные платформы, жанры и влияние рейтинга ESRB на продажи в каждом регионе.
  - Самыми популярными платформами в Америке, Европе и Японии являются X360(35%), PS4(34%) и 3DS(51%), соответсвенно. Платформа PS3 пользуется большой популярностью во всех трех регионах, около 22% пользователей во всех регионах предпочитают именно эту платформу
  - Самыми популярными жанрами в Америке и Европе являются боевики(36%), в Японии предпочитают ролевые игры(43%). В целом, в Америке и Европе пользователи предпочитают одни и те же жанры: боевики, шутеры, спортивные и ролевые игры. В Японии предпочтения уходят ролевым играм, симуляторам и дракам
  - Влияние рейтинга ESRB на продажи по регионам. Можно выделить 4 самых популярных рейтинга для всех регионов: E, M, T, E10+. Влияние рейтинга во всех регионах примерна одинакова. Заметно только то, что в Японии игр с рейтингом T и E больше, чем с рейтингом M, в отличие от других регионов. А так, влияние примерно одинаковое. Также большой объем продаж у игр без рейтинга. Можно предположить, что достаточно много игр, у которых маленький объем продаж и которые не получили рейтинга от ESRB. И таким образом образуется большой объем продаж таких игр из-за их большого количества

5. **Проверка гипотез**
- Перед собой я поставил две гипотезы: 1) Средние пользовательские рейтинги платформ Xbox One и PC одинаковые, 2) Средние пользовательские рейтинги жанров Action и Sports разные. Первая гипотеза не была отвергнута. Анализ показал, что средние оценки равны. выведя значения на экран я убедился, что у платформы Xbox One средняя оценка составляет 6.52, а у PC 6.42, что почти одинаково. Вторая гипотеза тоже не была отвергнута. Средняя пользовательская оценка боевиком примерно равна 5.45, в то время как у спортивных игр средняя пользовательская оценка примерно равна 6.82. Разница больше 1 балла. Это дает нам оснвоание полагать, что оценки разные.

<b>Комментарий студента</b> 
    
Спасибо за работу, за то, что подправлял мои ошибки. По первому спринту мне в принципе все понятно, но парочка вопросов у меня есть.

1. Где можно почитать про циклы для датафреймов. В большинстве проектов, когда пытался что-то циклом сделать выдавало ошибку 'The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().'. Вот хотел бы узнать именно про циклы в таблицах

</div>