## 

# <center>Steam games<center>

Перед Вами представлен датасет с данными по играм на площадке `Steam`. Ниже присутствует описание данных. Вашей задачей будет провести исследовательский анализ данных и выполнить определенные задачи:
* Провести предобработку данных (пропуски, дубликаты и т.д.) 
* Рассчитайте среднюю стоимость игр в `Steam`
* Постройте диаграмму, которая иллюстрирует какое количество игр поддерживает английский язык, а какое — нет
* Постройте диаграмму, которая иллюстрирует какое количество игр является бесплатными, а какое требуется покупать
* Постройте сводную таблицу с количеством выпущенных игр за каждый год (постройте для неё гистограмму)
* Найдите и постройте диаграмму для топ 10 разработчиков видеоигр и отдельно для топ 10 издателей видеоигр, начиная с 2017 года (включительно)
* Необходимо вывести топ 6 игр по количеству пользователей (`owners`)

---
**ЗАДАНИЯ ПРО:**
* Необходимо вывести топ 10 жанров, начиная с 2015 года включительно (отдельно для платных игр и бесплатных). Постройте диаграмму
* Необходимо вывести игры, процент положительных отзывов у которых `>=99%` (не учитывать игры, у которых нет отрицательных отзывов). Постройте диаграмму
* Постройте диаграмму, иллюстрирующую распределение игр по платформам. То есть сколько игр поддерживает каждая из них
* Выведите на экран строки, которые удовлятворяют следующему условию: возраст `+18`, год выпуска `2019`, жанр `симулятор`

**После выполнения каждого условия необходимо писать выводы. Также необходим общий вывод в конце о всей проделанной работе с краткими выводами из данных пунктов.**




## Описание данных

* `appid` — Уникальный идентификатор игры
* `name` — Название игры
* `release_date` — Год релиза игры
* `english` — Поддержка английского языка
* `developer` — Имя разработчика игры
* `publisher` — Имя издателя игры
* `platforms` — Названия поддерживаемых платформ
* `required_age` - Рекомендуемый возраст
* `genres` — Жанр игры
* `positive_ratings` — Количество позитивных отзывов
* `negative_ratings` — Количество отрицательных отзывов
* `average_playtime` — Среднее время игры
* `median_playtime` — Медианное время игры
* `owners` — Количество владельцев игры, то есть людей, купивших игру
* `price` — Стоимость игры


## Предобработка данных

In [1]:
#Импорт библитек 
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd
import numpy as np
#для vsc
import matplotlib.pyplot as plt
from matplotlib import colors
import plotly.io as pio
pio.renderers.default = "vscode"

In [2]:
#Импорт данных их файла в датасет и создание копии для дальнейшей работы с данными
data = pd.read_csv('Steam.csv', sep = ',')
copy = data.copy(deep = True)

In [4]:
#Просмотр датасета
display(copy)

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
0,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Action,0,124534,3339,17612,317,10000000-20000000,7.19
1,20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Action,0,3318,633,277,62,5000000-10000000,3.99
2,30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Action,0,3416,398,187,34,5000000-10000000,3.99
3,40,Deathmatch Classic,2001-06-01,1,Valve,Valve,windows;mac;linux,0,Action,0,1273,267,258,184,5000000-10000000,3.99
4,50,Half-Life: Opposing Force,1999-11-01,1,Gearbox Software,Valve,windows;mac;linux,0,Action,0,5250,288,624,415,5000000-10000000,3.99
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27070,1065230,Room of Pandora,2019-04-24,1,SHEN JIAWEI,SHEN JIAWEI,windows,0,Adventure;Casual;Indie,7,3,0,0,0,0-20000,2.09
27071,1065570,Cyber Gun,2019-04-23,1,Semyon Maximov,BekkerDev Studio,windows,0,Action;Adventure;Indie,0,8,1,0,0,0-20000,1.69
27072,1065650,Super Star Blast,2019-04-24,1,EntwicklerX,EntwicklerX,windows,0,Action;Casual;Indie,24,0,1,0,0,0-20000,3.99
27073,1066700,New Yankee 7: Deer Hunters,2019-04-17,1,Yustas Game Studio,Alawar Entertainment,windows;mac,0,Adventure;Casual;Indie,0,2,0,0,0,0-20000,5.19


Датасет содежит 27075 строк и 16 столбцов

In [6]:
#Проверка датасета на наличие дубликатов строк
print(f'В датасете {len(copy) - len(copy.drop_duplicates())} дубликатов строк')

В датасете 0 дубликатов строк


In [7]:
#Просмотр типов данных в датасете
copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27075 entries, 0 to 27074
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   appid             27075 non-null  int64  
 1   name              27075 non-null  object 
 2   release_date      27075 non-null  object 
 3   english           27075 non-null  int64  
 4   developer         27074 non-null  object 
 5   publisher         27061 non-null  object 
 6   platforms         27075 non-null  object 
 7   required_age      27075 non-null  int64  
 8   genres            27075 non-null  object 
 9   achievements      27075 non-null  int64  
 10  positive_ratings  27075 non-null  int64  
 11  negative_ratings  27075 non-null  int64  
 12  average_playtime  27075 non-null  int64  
 13  median_playtime   27075 non-null  int64  
 14  owners            27075 non-null  object 
 15  price             27075 non-null  float64
dtypes: float64(1), int64(8), object(7)
memor

Из вывода информации о типах данных в датасете следует что:
- столбец **release_date** имеет тип **object**;
- столбец **owners** имеет тип **object**

Для удобства анализа датасета необходимо изметить типы данных в этих столбцах

In [5]:
#Меняем тип данных в release_date'
copy['release_date'] = copy['release_date'].astype("datetime64[ns]")

Для удобства анализа создадим столбец **yaer** который заполним годом выпуска игры

In [6]:
copy['year'] = copy['release_date'].dt.year

Столбец **owners** содержит данные о количестве пользователей в формате "от - до".
для возможности анализа данных по количеству пользователей я создам в датасете два столбца (owners_min и owners_max) с типом данных  int64
(*можно преобразовать данные в столбце **owners** в списки с целыми числами*) 

In [7]:
#Вставляем два столбца
copy.insert(15, 'owners_min', 0 , allow_duplicates = False)
copy.insert(16, 'owners_max', 0 , allow_duplicates = False)

In [8]:
#Заполняем столбцы минимальным и максимальным значением числа пользователей

for i in range(copy.shape[0]):
    list_ = copy['owners'][i].split("-")
    copy.loc[i,'owners_min'] = int(list_[0])
    copy.loc[i, 'owners_max'] = int(list_[1])

In [12]:
#Просмотр датасета
display(copy)

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,owners_min,owners_max,price,year
0,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Action,0,124534,3339,17612,317,10000000-20000000,10000000,20000000,7.19,2000
1,20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Action,0,3318,633,277,62,5000000-10000000,5000000,10000000,3.99,1999
2,30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Action,0,3416,398,187,34,5000000-10000000,5000000,10000000,3.99,2003
3,40,Deathmatch Classic,2001-06-01,1,Valve,Valve,windows;mac;linux,0,Action,0,1273,267,258,184,5000000-10000000,5000000,10000000,3.99,2001
4,50,Half-Life: Opposing Force,1999-11-01,1,Gearbox Software,Valve,windows;mac;linux,0,Action,0,5250,288,624,415,5000000-10000000,5000000,10000000,3.99,1999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27070,1065230,Room of Pandora,2019-04-24,1,SHEN JIAWEI,SHEN JIAWEI,windows,0,Adventure;Casual;Indie,7,3,0,0,0,0-20000,0,20000,2.09,2019
27071,1065570,Cyber Gun,2019-04-23,1,Semyon Maximov,BekkerDev Studio,windows,0,Action;Adventure;Indie,0,8,1,0,0,0-20000,0,20000,1.69,2019
27072,1065650,Super Star Blast,2019-04-24,1,EntwicklerX,EntwicklerX,windows,0,Action;Casual;Indie,24,0,1,0,0,0-20000,0,20000,3.99,2019
27073,1066700,New Yankee 7: Deer Hunters,2019-04-17,1,Yustas Game Studio,Alawar Entertainment,windows;mac,0,Adventure;Casual;Indie,0,2,0,0,0,0-20000,0,20000,5.19,2019


In [13]:
#Проверим тип данных в столбцах датасета
copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27075 entries, 0 to 27074
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   appid             27075 non-null  int64         
 1   name              27075 non-null  object        
 2   release_date      27075 non-null  datetime64[ns]
 3   english           27075 non-null  int64         
 4   developer         27074 non-null  object        
 5   publisher         27061 non-null  object        
 6   platforms         27075 non-null  object        
 7   required_age      27075 non-null  int64         
 8   genres            27075 non-null  object        
 9   achievements      27075 non-null  int64         
 10  positive_ratings  27075 non-null  int64         
 11  negative_ratings  27075 non-null  int64         
 12  average_playtime  27075 non-null  int64         
 13  median_playtime   27075 non-null  int64         
 14  owners            2707

Из вывода **copy.info()** видно что столбцы **publisher** и **developer** содержат пропуски. Отобразим их количество и выведем на экран

In [14]:
copy.isnull().sum()

appid                0
name                 0
release_date         0
english              0
developer            1
publisher           14
platforms            0
required_age         0
genres               0
achievements         0
positive_ratings     0
negative_ratings     0
average_playtime     0
median_playtime      0
owners               0
owners_min           0
owners_max           0
price                0
year                 0
dtype: int64

In [8]:
#Выведем строки с пропусками
copy[copy.isnull().any(axis = 1)].style.highlight_null(color = 'LightSalmon')

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,owners_min,owners_max,price,year
3420,307170,Borealis,2014-09-02 00:00:00,1,Conrad Nelson,,windows,0,Action;Casual;Indie,17,301,192,132,146,50000-100000,50000,100000,3.99,2014
4511,341120,Glorkian Warrior: The Trials Of Glork,2015-03-24 00:00:00,1,Pixeljam,,windows;mac,0,Indie,18,234,26,274,274,20000-50000,20000,50000,2.79,2015
5229,359370,Pirate's Life,2015-04-17 00:00:00,1,Team Eyepatch,,windows,0,Simulation;Strategy,0,25,41,0,0,0-20000,0,20000,3.99,2015
7464,422940,Divergence: Online,2016-01-06 00:00:00,1,Stained Glass Llama,,windows,0,Action;Indie;Massively Multiplayer;RPG;Early Access,0,72,51,0,0,0-20000,0,20000,14.99,2016
7911,436240,Melancholy Republic,2018-04-12 00:00:00,1,Cloud Runner Studios,,windows,0,Adventure;Casual;Indie,0,14,6,0,0,0-20000,0,20000,6.99,2018
9894,498710,After Dreams,2018-05-06 00:00:00,1,Matt Boyer,,windows,0,Violent;Adventure;Casual;Free to Play;Indie;Simulation,0,126,47,1,1,20000-50000,20000,50000,0.0,2018
10011,502150,Interstellar Logistics Inc,2016-08-15 00:00:00,1,Exalted Guy Interactive,,windows,0,Casual,9,25,4,281,281,0-20000,0,20000,2.09,2016
10564,516430,Ruin of the Reckless,2017-04-26 00:00:00,1,Faux-Operative Games,,windows,0,Action;Adventure;Indie;RPG,0,63,11,0,0,0-20000,0,20000,6.99,2017
11123,531240,Max Stern,2016-10-21 00:00:00,1,Lupan Artiom Oleg,,windows;mac;linux,0,Action;Adventure;Indie,10,17,13,266,266,0-20000,0,20000,3.99,2016
13901,610740,SuperCluster: Void,2017-05-15 00:00:00,1,Logan McClure,,windows,0,Adventure;Indie;RPG,0,16,4,0,0,0-20000,0,20000,3.99,2017


In [4]:
#Заменим пропущенные значения на 'Unknown'.
copy.developer.fillna('Unknown', inplace = True)
copy.publisher.fillna('Unknown', inplace = True)

## Исследовательский анализ данных (EDA)

Изучим сводную статистическую информацию о датасете

In [10]:
copy.describe(include = "all").T

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
appid,27075.0,,,,596203.508661,10.0,401230.0,599070.0,798760.0,1069460.0,250894.167246
name,27075.0,27033.0,Dark Matter,3.0,,,,,,,
release_date,27075.0,,,,2016-12-31 14:21:17.252077568,1997-06-30 00:00:00,2016-04-04 00:00:00,2017-08-08 00:00:00,2018-06-06 12:00:00,2019-05-01 00:00:00,
english,27075.0,,,,0.981127,0.0,1.0,1.0,1.0,1.0,0.136081
developer,27075.0,17113.0,Choice of Games,94.0,,,,,,,
publisher,27075.0,14354.0,Big Fish Games,212.0,,,,,,,
platforms,27075.0,7.0,windows,18398.0,,,,,,,
required_age,27075.0,,,,0.354903,0.0,0.0,0.0,0.0,18.0,2.406044
genres,27075.0,1552.0,Action;Indie,1852.0,,,,,,,
achievements,27075.0,,,,45.248864,0.0,0.0,7.0,23.0,9821.0,352.670281


На основании полученой информации можно сделать некоторые предварительные выводы:
- в датасете представлены данные за период с 1997-06-30 по 2019-05-01;
- больше всего игр разработали Choice of Games (94);
- больше всего игр издали Big Fish Games(212);
- самая популярная платформа windows;
- самый популярный жанр игр Action - Indie;
- минимальная цена игры - 0, максимальная - 421.99, средняя 6.078193


Рассчитаем среднюю стоимость игр в Steam

In [11]:
mean_price = copy.price.agg("mean").round(2)
print(f'Средняя стоимость игр в Steam: {mean_price}')

Средняя стоимость игр в Steam: 6.08


Построим диаграмму, которая иллюстрирует какое количество игр поддерживает английский язык, а какое — нет

In [12]:
value = copy.english.value_counts()
labels = ['Английский язык поддерживается', 'Английский язык не поддерживается']
fig = go.Figure(data = [go.Pie(labels = labels, values = value, pull = [0, 0.2])])
fig.update_traces(textposition = 'outside', textinfo = 'percent+label+value')
fig.update_layout(title = 'Соотношение количества игр поддерживающих и неподдерживающих английский язык ')
fig.show()

Как видно из диаграммы, подавляющее большинство игр поддерживают английский язык (98.1%)

Построим диаграмму, которая иллюстрирует какое количество игр является бесплатными, а какое требуется покупать

In [13]:
value = [len(copy[copy['price'] > 0]), len(copy[copy['price'] == 0])]
labels = ['Платные игры', 'Бесплатные игры']

fig = go.Figure(data=[go.Pie(labels = labels, values = value, pull = [0, 0.2])])
fig.update_traces(textposition = 'outside', textinfo = 'percent+label+value')
fig.update_layout(title = 'Соотношение количества бесплатных и платных игр')
fig.show()

Как видно из диаграммы, подавляющее большинство игр являются платными (90,5%)

Построим сводную таблицу с количеством выпущенных игр за каждый год (постройте для неё гистограмму)

In [14]:
pivot_table_ = copy.groupby(
    by = 'year', as_index = False)[['year']].agg("value_counts").sort_values(by = 'year', ascending = False)

pivot_table_.reset_index(drop = True , inplace = True )
pivot_table_

Unnamed: 0,year,count
0,2019,2213
1,2018,8160
2,2017,6357
3,2016,4361
4,2015,2597
5,2014,1555
6,2013,418
7,2012,320
8,2011,239
9,2010,238


In [15]:
fig = go.Figure(data = [go.Histogram(x = pivot_table_['count'], nbinsx = 100)])

fig.update_layout(
    title = "Гистограмма количества игр за год",
    title_x = 0.5,
    xaxis_title = "Количество игр за год",
    yaxis_title = "Плотность вероятности",
    legend = dict(x =.5, xanchor = "center", orientation = "h"),
    margin = dict(l = 0, r = 0, t = 30, b  =0)
)

fig.show()

Я не понимаю в чем ценность гистограммы в данном случае

Проведу анализ на столбчатой диаграмме

In [16]:
value = list(pivot_table_['count'])
labels = list(pivot_table_['year'])
data = [go.Bar(
   x = labels,
   y = value,
   text = value 
    
)]
fig = go.Figure(data = data)
fig.update_layout(
    title_text = "Количество выпущенных игр по годам",
    title_font_size = 20,
    xaxis_title = "Год",
    yaxis_title = "Количество игр"
)
fig.update_traces(textfont_size = 12, textangle = 0, textposition = "outside", cliponaxis = False)
fig.show()

Из диаграммы я сделаю вывод, что первый всплеск количества выпускаемых игр был связан с ростом доступности Интернета, второй всплеск связан с развитием технологий мобильных устройств (за 2019 год данные по май)

Найдем и построим диаграммы для топ 10 разработчиков видеоигр и отдельно для топ 10 издателей видеоигр, начиная с 2017 года (включительно)

In [17]:
developer_ = copy[copy.release_date.dt.year > 2016]
dev = developer_.groupby(
    by = 'developer', as_index = False)[['developer']].agg("value_counts").sort_values(by = 'count', ascending = False)[:10]

value = list(dev['count'])
labels = list(dev['developer'])
data = [go.Bar(
    x = labels,
    y = value,
    text = value 
)]
fig = go.Figure(data = data)
fig.update_layout(
    title = 'Топ 10 разработчиков видеоигр',
    title_font_size = 20,
    xaxis_title = "Разрботчик игр",
    yaxis_title = "Количество игр"
    )
fig.update_traces(textfont_size = 12, textangle = 0, textposition = "outside", cliponaxis = False)
fig.show()

In [23]:
publisher_ = copy[copy.release_date.dt.year > 2016]
pub = publisher_.groupby(
    by = 'publisher', as_index = False)[['publisher']].agg("value_counts").sort_values(by = 'count', ascending = False)[:10]

value = list(pub['count'])
labels = list(pub['publisher'])
data = [go.Bar(
    x = labels,
    y = value,
    text = value
)]
fig = go.Figure(data=data)
fig.update_layout(
    title = 'Топ 10 издателей видеоигр',
    title_font_size=20,
    xaxis_title = "Издатель игр",
    yaxis_title = "Количество игр"
    )
fig.update_traces(textfont_size = 12, textangle = 0, textposition = "outside", cliponaxis = False)
fig.show()

Больше всего игр начиная с 2017 года разработали Ripknot Systems, издали Big Fish Games. Big Fish Games более чем в два раза обходит идущую на втором месте компанию

Выведем топ 6 игр по количеству пользователей (owners)

In [9]:
print('Топ 6 игр по количеству пользователей :')
top = copy.nlargest(6, 'owners_max')[['name', 'owners_max']]
top.index = np.arange(1, len(top) + 1)
top.style.background_gradient(cmap = "Reds")

Топ 6 игр по количеству пользователей :


Unnamed: 0,name,owners_max
1,Dota 2,200000000
2,Counter-Strike: Global Offensive,100000000
3,PLAYERUNKNOWN'S BATTLEGROUNDS,100000000
4,Team Fortress 2,50000000
5,Warframe,50000000
6,Unturned,50000000


Самая популярная игра Dota 2 в двое обходит по количеству пользователей Counter-Strike: Global Offensive, идущую на втором месте

Выведем топ 10 жанров, начиная с 2015 года включительно (отдельно для платных игр и бесплатных). Постройте диаграмму

In [11]:
#Создадим множество жанров
genre_ = set()
for i in range(copy.shape[0]):
    list_ = copy['genres'][i].split(";")
    set_ = {list_[n] for n in range(len(list_))}
    genre_.update(set_)  
    
#Функция создания датасета содержащего количество игр для каждого жанра
def genre_def (df):
    global top10
    df_genre = pd.DataFrame({
    'genre':[],
    'number_of_games':[],
    })
    for i in genre_:
        dict_genre_free = {}
        dict_genre_free['genre'] = i
        dict_genre_free['number_of_games'] = len(df[df.genres.str.contains(i)])
        df_genre.loc[len(df_genre)] = dict_genre_free
    top10 = df_genre.nlargest(10, 'number_of_games')[['genre', 'number_of_games']]
    top10.index = np.arange(1, len(top10) + 1)
    return    
#Выбираем платные игры выпущенные с 2015 года включительно
pay_ = copy[(copy.price > 0)  & (copy.release_date.dt.year > 2014)]
#Выбираем бесплатные игры выпущенные с 2015 года включительно
free_ = copy[(copy.price == 0)  & (copy.release_date.dt.year > 2014)] 

In [12]:
#Выводим топ платных игр
genre_def(pay_)
print ('Топ 10 жанров платных игр')
top10.style.background_gradient(cmap = "Reds") 

Топ 10 жанров платных игр


Unnamed: 0,genre,number_of_games
1,Indie,16407
2,Action,9590
3,Casual,8604
4,Adventure,8311
5,Simulation,4270
6,Strategy,3987
7,RPG,3348
8,Early Access,2547
9,Sports,1114
10,Racing,823


In [28]:
#Строим диаграмму платных игр
labels = top10.genre
values = top10.number_of_games

fig = go.Figure(data = [go.Bar(x = labels, y = values, text = values)])
fig.update_layout(
    title = 'Топ 10 жанров платных видеоигр',
    title_font_size = 20,
    xaxis_title = "Жанры игр",
    yaxis_title = "Количество игр"
    )
fig.update_traces(textfont_size = 12, textangle = 0, textposition = "outside", cliponaxis = False)
fig.show()

In [13]:
#Выводим топ бесплатных игр
genre_def(free_)
print ('Топ 10 жанров бесплатных игр')
top10.style.background_gradient(cmap = "Reds") 

Топ 10 жанров бесплатных игр


Unnamed: 0,genre,number_of_games
1,Free to Play,1555
2,Indie,1458
3,Casual,859
4,Action,856
5,Adventure,685
6,Simulation,469
7,Strategy,468
8,RPG,412
9,Early Access,343
10,Massively Multiplayer,325


In [30]:
#Строим диаграмму платных игр
labels = top10.genre
values = top10.number_of_games

fig = go.Figure(data=[go.Bar(x = labels, y = values, text = values)])
fig.update_layout(
    title = 'Топ 10 жанров бесплатных видеоигр',
    title_font_size = 20,
    xaxis_title = "Жанры игр",
    yaxis_title = "Количество игр"
                 )
fig.update_traces(textfont_size = 12, textangle = 0, textposition = "outside", cliponaxis = False)
fig.show()

Наиболее популярные жанры для платных Indie, Action, Casual, Adventure
Наиболее популярные жанры для бесплатных Free to Play, Indie, Сasual, Action, Adventure

Необходимо вывести игры, процент положительных отзывов у которых >=99% (не учитывать игры, у которых нет отрицательных отзывов). Постройте диаграмму

In [31]:
ratings99 = copy[(copy.positive_ratings / (copy.positive_ratings + copy.negative_ratings) >= 0.99) & 
            (copy.negative_ratings > 0)]
ratings99

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,owners_min,owners_max,price,year
3379,305760,Redirection,2016-10-24,1,Daniel Ratcliffe,Daniel Ratcliffe,windows;mac;linux,0,Casual;Indie,21,118,1,0,0,0-20000,0,20000,2.89,2016
8021,439490,BLUE REVOLVER,2016-10-11,1,Stellar Circle,Stellar Circle,windows;mac;linux,0,Action;Indie,40,233,2,0,0,0-20000,0,20000,10.99,2016
10569,516480,Pinkman,2017-01-16,1,Green Dinosaur Games,Green Dinosaur Games,windows,0,Action;Adventure;Casual;Indie,20,245,2,0,0,0-20000,0,20000,0.79,2017
13937,611760,Don't Escape: 4 Days in a Wasteland,2019-03-11,1,scriptwelder,Armor Games Studios,windows;mac,0,Adventure;Indie,25,192,1,0,0,0-20000,0,20000,10.99,2019
17012,704470,VR Furballs - Demolition,2018-11-09,1,Gamily Studios,Gamily Studios,windows,0,Casual;Indie,480,108,1,0,0,0-20000,0,20000,11.49,2018
20135,793690,Final Assault,2019-03-21,1,Phaser Lock Interactive,Phaser Lock Interactive,windows,0,Strategy;Early Access,87,125,1,60,60,0-20000,0,20000,23.79,2019
21136,822760,Fureraba ~Friend to Lover~,2018-05-04,1,Smee,NekoNyan Ltd.,windows,0,Adventure;Casual;Simulation,0,120,1,393,393,0-20000,0,20000,23.79,2018
22281,858940,Flowers -Le volume sur ete-,2018-07-26,1,Innocent Grey,JAST USA\t,windows,0,Casual,0,182,1,0,0,0-20000,0,20000,15.49,2018
22429,862570,Ding Dong XL,2018-06-15,1,Nickervision Studios,Nickervision Studios,windows;mac;linux,0,Action;Casual;Indie,32,226,2,0,0,0-20000,0,20000,0.79,2018
23080,882110,Google Spotlight Stories: Age of Sail,2018-11-13,1,Google Inc.,Google Inc.,windows,0,Adventure;Free to Play,0,148,1,0,0,20000-50000,20000,50000,0.0,2018


In [32]:
#Строим диаграмму
labels = ratings99.name
values = round((ratings99.positive_ratings / (ratings99.positive_ratings + ratings99.negative_ratings) * 100), 2).tolist()

fig = go.Figure(data = [go.Bar(x = labels, y = values, text = values)])
# Добавление подписей для графика
fig.update_layout(
    title_text = "Игры, процент положительных отзывов у которых >=99%",
    title_font_size = 20,
    xaxis_title = "Название игры",
    yaxis_title = "Процент положительных отзывов")
fig.update_yaxes(
    range = [95, 100],  # ограничение графика
   )
fig.show()

Игры, имеющие процент положительных отзывов >=99% получили такой высокий процент вследствии малого общего количества отзывов
По высокому проценту положителных отзывов нельзя судить о игре (товаре) без учета общего количества отзывов.
В нашем случае скорее всего это посредственные игры т.к. у них низкое количество пользователей и отзывов.
Для примера выведу процент положителных отзывов для топ-10 игр по количеству пользователей

In [33]:
top = copy.nlargest(10, 'owners_max')
values = round((top.positive_ratings / (top.positive_ratings + top.negative_ratings) * 100), 2).tolist()
labels = top.name

fig = go.Figure(data=[go.Bar(x = labels, y = values, text = values)])
# Добавление подписей для графика
fig.update_layout(
    title_text = "Процент положительных отзывов у топ-10 игр по количеству пользователей",
    title_font_size = 20,
    xaxis_title = "Название игры",
    yaxis_title = "Процент положительных отзывов"
    )

fig.show()

Постройте диаграмму, иллюстрирующую распределение игр по платформам. То есть сколько игр поддерживает каждая из них

In [34]:
value = [len(copy[copy.platforms.str.contains('windows')]), 
         len(copy[copy.platforms.str.contains('linux')]), 
         len(copy[copy.platforms.str.contains('mac')])
        ]          
labels = ['windows', 'linux', 'mac']
data = [go.Bar(
    x = labels,
    y = value,
    text = value
)]

fig = go.Figure(data = data)
fig.update_layout(
    title_text = "Распределение количества игр по платформам",
    title_font_size = 20,
    xaxis_title = "Платформа",
    yaxis_title = "Количество игры"
    )
fig.show()

Как видно из диаграммы почти все игры имеют версию для Windows (27070 из 27075). Mac версии имеет 30% игр, а версии для Linux имеют всего 20% игр

Выведем на экран строки, которые удовлятворяют следующему условию: возраст +18, год выпуска 2019, жанр симулятор

In [35]:
copy[(copy.genres.str.contains('Simulation') == True) & (copy.required_age == 18)  & (copy.release_date.dt.year == 2019)]

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,genres,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,owners_min,owners_max,price,year
22231,857480,Seirei,2019-03-20,1,zoocros,zoocros,windows,18,Indie;Simulation,20,13,3,0,0,0-20000,0,20000,1.69,2019
23344,890500,Love ritual,2019-04-09,1,Xand arts,Xand arts,windows,18,Casual;Indie;Simulation,8,23,12,0,0,0-20000,0,20000,9.29,2019
25465,973090,Toilet Simulator,2019-01-18,1,Kavkaz Sila Games,Kavkaz Sila Games,windows,18,Simulation,0,24,47,0,0,20000-50000,20000,50000,0.79,2019
25503,974920,New Adult Reality,2019-01-01,1,New Adult Reality,New Adult Reality,windows,18,Action;Adventure;Casual;Simulation,0,1,1,0,0,0-20000,0,20000,7.19,2019
26372,1014730,Cyndy,2019-01-31,1,DreamBig Games,DreamBig Games,windows,18,Simulation;Early Access,21,16,6,0,0,0-20000,0,20000,2.99,2019
26695,1031920,Симулятор Сидения у Подъезда,2019-04-25,0,Kavkaz Sila Games,Kavkaz Sila Games,windows,18,Simulation,1,9,2,0,0,0-20000,0,20000,0.79,2019


Из полученных данных можно сделать вывод, что симуляторы 18+ не пользуются попупулярностью, как у разработчиков, так и у пользователей

## Вывод

Был проанализирован датасет с 27075 играми с площадке Steam за период с 1997-06-30 по 2019-05-01
Исследование датасета показало:
- больше всего игр разработали Choice of Games (94);
- больше всего игр издали Big Fish Games(212);
- самая популярная платформа windows;
- самый популярный жанр игр Action - Indie;
- минимальная цена игры - 0, максимальная - 421.99, средняя 6.078193
- подавляющее большинство игр поддерживают английский язык (98.1%)
- подавляющее большинство игр являются платными (90,5%)
- самая популярная игра Dota 2 (200 млн пользователей)
- наиболее популярные жанры для платных Indie, Action, Casual, Adventure. 
- наиболее популярные жанры для бесплатных Free to Play, Indie, Сasual, Action, Adventure
- больше всего игр с 2017 года по май 2019 года разработали Ripknot Systems, издали Big Fish Games. Big Fish Games более чем в два раза обходит идущую на втором месте компанию
- почти все игры имеют версию для Windows (27070 из 27075). Mac версии имеет 30% игр, а версии для Linux имеют всего 20% игр
- симуляторы 18+ не пользуются попупулярностью, как у разработчиков, так и у пользователей
- высокий ретинг по отзывам пользователей могут иметь посредственные игры
- игровая индустрия получила два толчка к развитию, первый всплеск количества выпускаемых игр был связан с ростом доступности Интернета, второй всплеск связан с развитием технологий мобильных устройств

Общие выводы:
**Для разработчиков** - Если вы хотите зарабатывать деньги на играх разрабатывайте в жанрах Indie, Action, Casual, Adventure под платформу windows с поддержкой английского языка.
**Для ползователей** - Не ведитесь на высокий рейтинг по отзывам










Игры, имеющие процент положительных отзывов >=99% получили такой высокий процент вследствии малого общего количества отзывов По высокому проценту положителных отзывов нельзя судить о игре (товаре) без учета общего количества отзывов. В нашем случае скорее всего это посредственные игры т.к. у них низкое количество пользователей и отзывов. Для примера выведу процент положителных отзывов для топ-10 игр по количеству пользователей



