# Сборный проект 1

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры.

Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation).

🎯 Вам нужно _выявить определяющие успешность игры закономерности_. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. Перед вами данные до 2016 года.

Представим, что сейчас декабрь 2016 г., и вы планируете кампанию на 2017-й. Нужно отработать принцип работы с данными. Не важно, прогнозируете ли вы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.

## 1. Общая информация о датасете

In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats as st

In [20]:
df = pd.read_csv('games.csv')

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


16 715 записей

## Шаг 2. Подготовьте данные

- Замените названия столбцов (приведите к нижнему регистру);

In [22]:
df.columns = [col.lower() for col in df.columns]

- Преобразуйте данные в нужные типы. Опишите, в каких столбцах заменили тип данных и почему
- Обработайте пропуски при необходимости:
  - Объясните, почему заполнили пропуски определённым образом или почему не стали это делать;
  - Опишите причины, которые могли привести к пропускам;
  - Обратите внимание на аббревиатуру 'tbd' в столбцах с рейтингом. Отдельно разберите это значение и опишите, как его обработать;
----------------

- есть две записи с незаполенным названием и жанром, выкинем их
- заполним пропуски в объёмах продаж на 0
- заполним год выпуска и оценку критиков средним значением,
также можно заполнить средним по платформе

In [44]:
df.drop(df[df.name.isna()], inplace=True)

df[df.year_of_release.isna()].year_of_release = df.year_of_release.mean()
df.na_sales.fillna(0, inplace=True)
df.eu_sales.fillna(0, inplace=True)
df.jp_sales.fillna(0, inplace=True)
df.other_sales.fillna(0, inplace=True)

df.critic_score.fillna(df.critic_score.mean(), inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


- будем считать tbd как пропуск, заполним все пропуске в рейтинге пользователей средним

In [24]:
df[df.user_score == 'tbd'] = None
df.user_score = df.user_score.astype('float')
df.user_score = df.user_score.fillna(df.user_score.mean())

- пропуски в rating заполнять не будем, непонятно как он формируется
- заменили типы в user_score со строки на float

In [29]:
df.head(30)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,sales
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E,82.54
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,7.125046,,40.24
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E,35.52
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E,32.77
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,7.125046,,31.38
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,7.125046,,30.26
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E,29.8
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E,28.91
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E,28.32
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,7.125046,,28.31


- Посчитайте суммарные продажи во всех регионах и запишите их в отдельный столбец

In [45]:
df['sales'] = df.na_sales + df.jp_sales + df.eu_sales + df.other_sales

## Шаг 3. Проведите исследовательский анализ данных

- Посмотрите, сколько игр выпускалось в разные годы. Важны ли данные за все периоды?

In [None]:
by_years = df.groupby(;)

https://github.com/druzyk/DS_projects/blob/master/4_video_games_analysis.ipynb
https://github.com/akrisanov/data-science-cource/blob/master/sprint5/notebook.ipynb
https://github.com/Higem11/Yandex-Data-Analysis/blob/master/5%20%D0%A1%D0%B1%D0%BE%D1%80%D0%BD%D1%8B%D0%B9%20%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%201%20-%20%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%20%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%20%D0%B8%D0%B3%D1%80%D0%BE%D0%B2%D0%BE%D0%B9%20%D0%B8%D0%BD%D0%B4%D1%83%D1%81%D1%82%D1%80%D0%B8%D0%B8.ipynb
