<span style="color:blue"><font size="6">**Анализ рынка компьютерных игр**</span>
    
## Описание проекта
    
Интернет-магазин «Стримчик» продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные до 2016 года о продажах игр, оценки пользователей и экспертов, жанры и платформы.
    
<span style="color:red">**Цель исследования:**</span> 
    
Провести анализ и выявить параметры определяющие успешность игры.
    

    
<span style="color:red">**Задачи:**</span> 
1. Провести исследовательский анализ, на основании которого сделать выводы о:
    - количестве выпускаемых игр ежегодно,
    - распределении игр по жанрам,
    - продажах на разных платформах,
    - влиянии факторов на продажи.
    
    
2. Определить типичные портреты пользователей каждого региона.
    
    
3. Проверить гипотезы:
    - средние пользовательские рейтинги платформ Xbox One и PC одинаковые,
    - средние пользовательские рейтинги жанров Action и Sports разные.
    
    
4. Сформулировать основные выводы и обозначить потенциально популярный продукт.

**Описание данных:**
- Name — название игры
- Platform — платформа
- Year_of_Release — год выпуска
- Genre — жанр игры
- NA_sales — продажи в Северной Америке (миллионы проданных копий)
- EU_sales — продажи в Европе (миллионы проданных копий)
- JP_sales — продажи в Японии (миллионы проданных копий)
- Other_sales — продажи в других странах (миллионы проданных копий)
- Critic_Score — оценка критиков (максимум 100)
- User_Score — оценка пользователей (максимум 10)
- Rating — рейтинг от организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

Данные за 2016 год могут быть неполными. 

В наборе данных попадается аббревиатура ESRB (Entertainment Software Rating Board) — это ассоциация, определяющая возрастной рейтинг компьютерных игр. ESRB оценивает игровой контент и присваивает ему подходящую возрастную категорию, например, «Для взрослых», «Для детей младшего возраста» или «Для подростков».

##  Загрузка данных

In [1]:
# импортируем необходимые бибилиотеки
import pandas as pd     
import numpy as np                            
import seaborn as sns                          
import matplotlib.pyplot as plt
import plotly.express as px
import scipy.stats as st

In [2]:
# создадим функцию для отображения общей информации о таблице, пропусках и явных дубликатах
def df_info(df):
    pd.set_option("max_colwidth", 100)
    display(df.head())
    print(' ')
    df.info()
    print(' ')
    print('\033[1m' + 'Пропуски в таблице:' + '\033[0m')
    display(df.isna().sum())
    print('\033[1m' + 'Количество дубликатов в таблице:' + '\033[0m', df.duplicated().sum())

In [3]:
games = pd.read_csv('/datasets/games.csv')
df_info(games)

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16713 non-null  object 
 1   Platform         16715 non-null  object 
 2   Year_of_Release  16446 non-null  float64
 3   Genre            16713 non-null  object 
 4   NA_sales         16715 non-null  float64
 5   EU_sales         16715 non-null  float64
 6   JP_sales         16715 non-null  float64
 7   Other_sales      16715 non-null  float64
 8   Critic_Score     8137 non-null   float64
 9   User_Score       10014 non-null  object 
 10  Rating           9949 non-null   object 
dtypes: float64(6), object(5)
memory usage: 1.4+ MB
 
[1mПропуски в таблице:[0m


Name                  2
Platform              0
Year_of_Release     269
Genre                 2
NA_sales              0
EU_sales              0
JP_sales              0
Other_sales           0
Critic_Score       8578
User_Score         6701
Rating             6766
dtype: int64

[1mКоличество дубликатов в таблице:[0m 0


**В таблице представлены 16715 записей. Столбец 'Year_of_Release' необходимо привести к целочисленному типу данных, столбец  'User_Score' - к вещественному типу данных. Наименования столбцов необходимо привести к нижнему регистру. Пропущенные значения наблюдаются в 6 столбцах. Дубликаты не найдены.**

##  Предобработка данных