# Этап 1. Получение данных

Изучим данные, предоставленные для проекта.

In [435]:
# импорт библиотеки pandas
import pandas as pd

Прочитаем файл games.csv и сохраним его в переменной df. 

In [436]:
# чтение файла с данными с сохранением в df
df = pd.read_csv('/datasets/games.csv')

Получение первых 10 строк таблицы.

In [437]:
# получение первых 10 строк таблицы.
df.head(10)

Unnamed: 0,Name,Platform,Year_of_Release,Genre,NA_sales,EU_sales,JP_sales,Other_sales,Critic_Score,User_Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


Общая информация о данных таблицы df.

In [438]:
# получение общей информации о данных в таблице df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16715 entries, 0 to 16714
Data columns (total 11 columns):
Name               16713 non-null object
Platform           16715 non-null object
Year_of_Release    16446 non-null float64
Genre              16713 non-null object
NA_sales           16715 non-null float64
EU_sales           16715 non-null float64
JP_sales           16715 non-null float64
Other_sales        16715 non-null float64
Critic_Score       8137 non-null float64
User_Score         10014 non-null object
Rating             9949 non-null object
dtypes: float64(6), object(5)
memory usage: 1.4+ MB


Рассмотрим полученную информацию подробнее.

Всего в таблице 11 столбцов. Присутствуют два типа данных: non-null object (5 столбцов) и non-null float64 (6 столбцов).

Подробно разберём, какие в df столбцы и какую информацию они содержат:
* Name — название игры
* Platform — платформа
* Year_of_Release — год выпуска
* Genre — жанр игры
* NA_sales — продажи в Северной Америке (миллионы долларов)
* EU_sales — продажи в Европе (миллионы долларов)
* JP_sales — продажи в Японии (миллионы долларов)
* Other_sales — продажи в других странах (миллионы долларов)
* Critic_Score — оценка критиков (от 0 до 100)
* User_Score — оценка пользователей (от 0 до 10)
* Rating — рейтинг от организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


**Выводы**

Каждая строка таблицы содержит исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation), год выпуска и присвоенный возрастной рейтинг.

Две проблемы, которые нужно решать на следующем этапе: пропуски и некачественные названия столбцов. 

Для проверки рабочих гипотез особенно ценны столбцы Genre, Platform, Year_of_Release и разбивка продаж по регионам. По ним мы сможем отследить, как менялись предпочтения пользователей со времением, составить портрет пользователя каждого региона. Столбцы Critic_Score, User_Score, Rating помогут проверить гипотезы о влиянии рейтинга игр на продажи в зависимости от жанра и платформы выхода игр.

# Этап 2. Предобработка данных

Заменим названия столбцов, преобразуем данные в нужные типы, обработаем пропуски (с заполнением, где возможно), проверим данные на наличие дубликатов, а также посчитаем суммарные продажи во всех регионах и запишем их в отдельный столбец.

Получаем перечень названий столбцов.

In [439]:
# перечень названий столбцов таблицы df
df.columns

Index(['Name', 'Platform', 'Year_of_Release', 'Genre', 'NA_sales', 'EU_sales',
       'JP_sales', 'Other_sales', 'Critic_Score', 'User_Score', 'Rating'],
      dtype='object')

Названия столбцов с заглавной буквы, что не совсем удобно для доступа к данным. Переименуем столбцы для удобства дальнейшей работы. Проверим результат.

In [440]:
# переименование столбцов
df = df.rename(columns=lambda x: x.lower())

In [441]:
# проверка результатов - перечень названий столбцов
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [442]:
# получение суммарного количества дубликатов в таблице df
df.duplicated().sum()

0

Дубликатов не обнаружено. Займемся пропущенными значениями.

Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [443]:
# суммарное количество пропусков в таблице df
df.isnull().sum()

name                  2
platform              0
year_of_release     269
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8578
user_score         6701
rating             6766
dtype: int64

Сперва посмотрим на строки с пропусками данных в столбце name.

In [444]:
# отбираем строки с пропусками данных в столбце name
df[df['name'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
659,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14244,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


Таких строк всего две. Более того данные строки содержат пропуски в других столбцах (genre, critic_score, user_score, rating) и относятся к играм 1993 года выпуска на платформе GEN. Таким образом, эти строки будем считать не релевантными и не способными существенно повлиять на результаты проводимого анализа, поэтому удалим данные строки.

In [445]:
# удаляем строки с пропусками данных в столбце name 
# делаем сброс индексов
df = df.dropna(subset=['name']).reset_index(drop=True)

In [446]:
# проверяем суммарное количество пропусков в таблице df
df.isnull().sum()

name                  0
platform              0
year_of_release     269
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8576
user_score         6699
rating             6764
dtype: int64

Пропуски данных в столбце name теперь отсутствуют

Посмотрим на пропуски данных в столбце year_of_release 	

In [447]:
# отбираем строки с пропусками данных в столбце year_of_release 
df[df['year_of_release'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
183,Madden NFL 2004,PS2,,Sports,4.26,0.26,0.01,0.71,94.0,8.5,E
377,FIFA Soccer 2004,PS2,,Sports,0.59,2.36,0.04,0.51,84.0,6.4,E
456,LEGO Batman: The Videogame,Wii,,Action,1.80,0.97,0.00,0.29,74.0,7.9,E10+
475,wwe Smackdown vs. Raw 2006,PS2,,Fighting,1.57,1.02,0.00,0.41,,,
609,Space Invaders,2600,,Shooter,2.36,0.14,0.00,0.03,,,
...,...,...,...,...,...,...,...,...,...,...,...
16371,PDC World Championship Darts 2008,PSP,,Sports,0.01,0.00,0.00,0.00,43.0,tbd,E10+
16403,Freaky Flyers,GC,,Racing,0.01,0.00,0.00,0.00,69.0,6.5,T
16446,Inversion,PC,,Shooter,0.01,0.00,0.00,0.00,59.0,6.7,M
16456,Hakuouki: Shinsengumi Kitan,PS3,,Adventure,0.01,0.00,0.00,0.00,,,


У нас нет данных о годе выпуска 269 игр.   
Заметим, что у части строк в названии игры присутствует год выпуска. Его можно использовать в качестве замены пропущенных данных для столбца year_of_release 

Произведем поиск таких строк и создадим словарь, где в качестве ключа будет индекс строки в которой год выпуска присутствует в самом названии игры, а в качестве значения будет сам год выпуска.

In [448]:
idx_year = {}  # создаем пустой словарь

# итерируемся по строкам с отсутствием информации о годе
for row in df[df['year_of_release'].isna()].itertuples():
    for item in row.name.split(' '):  # разделяем название игры на отдельные слова
        if item == row.name.split(' ')[-1]:  # берем последнее слово из списка
            try:  # если последнее слово является числом то
                if len(item) == 2 or len(item) == 4: # проверяем его "длину"
                    item = int(item)  # преобразовываем тип данных
                    if item < 21:  # приводим года этого века к полной дате
                        item += 2000
                    elif item > 80 and item < 100: # приводим года прошлого века к полной дате
                        item += 1900
                    if item >= 1980:  # 1980 -- минимальное значение года в наших данных
                        idx_year[row.Index] = item
            except:  # если последнее слово не является числом то продолжаем итерировать по строкам
                continue
            
            
# проверяем выводом на экран получившийся словарь
for key, value in idx_year.items():
    print(f'index: {key: <5} | year:{value: >5}')

index: 183   | year: 2004
index: 377   | year: 2004
index: 475   | year: 2006
index: 1300  | year: 1999
index: 1649  | year: 2003
index: 2478  | year: 2007
index: 2848  | year: 2011
index: 3412  | year: 2006
index: 3485  | year: 2002
index: 4204  | year: 2007
index: 4774  | year: 2003
index: 5155  | year: 2003
index: 5654  | year: 2005
index: 5888  | year: 2003
index: 8917  | year: 2005
index: 13194 | year: 2011
index: 13928 | year: 2006
index: 15951 | year: 2008
index: 16077 | year: 2007
index: 16371 | year: 2008


Производим замену отсутствующих значений на полученные из названий игр года.

In [449]:
# итерирумся по словарю и производим замену
for key, v in idx_year.items():
    df.loc[key, 'year_of_release'] = v

Проверим данные на замены, выполненные на предыдущем шаге.

In [450]:
# отбираем строки с пропусками данных в столбце year_of_release 
df[df['year_of_release'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
456,LEGO Batman: The Videogame,Wii,,Action,1.80,0.97,0.00,0.29,74.0,7.9,E10+
609,Space Invaders,2600,,Shooter,2.36,0.14,0.00,0.03,,,
627,Rock Band,X360,,Misc,1.93,0.33,0.00,0.21,92.0,8.2,T
657,Frogger's Adventures: Temple of the Frog,GBA,,Adventure,2.15,0.18,0.00,0.07,73.0,tbd,E
677,LEGO Indiana Jones: The Original Adventures,Wii,,Action,1.51,0.61,0.00,0.21,78.0,6.6,E10+
...,...,...,...,...,...,...,...,...,...,...,...
16346,Agarest Senki: Re-appearance,PS3,,Role-Playing,0.00,0.00,0.01,0.00,,,
16403,Freaky Flyers,GC,,Racing,0.01,0.00,0.00,0.00,69.0,6.5,T
16446,Inversion,PC,,Shooter,0.01,0.00,0.00,0.00,59.0,6.7,M
16456,Hakuouki: Shinsengumi Kitan,PS3,,Adventure,0.01,0.00,0.00,0.00,,,


Теперь у нас нет данных о годе выпуска 249 игр. Это меньше, чем после предудущей проверки, значит замены были выполнены успешно.  
Найти года релиза игр для оставшихся 249 строк, возможно, получится с помощью парсинга страниц в интернете, но а данном этапе посчитаем возможным просто избавиться от этих строк и продолжить работу с имеющимся датасетом. т.к. 249 строк составляет всего порядка 1.49% от общего количества данных, что не должно в значительной степени сказаться на результатах исследования. Если же на каком-то этапе мы поймем, что данных нам будет не хватать, то мы вернемся к вопросу парсинга страниц в интернете для поиска недостающей информации.

In [451]:
# удаляем строки с пропусками данных в столбце year_of_release 
# делаем сброс индексов
df = df.dropna(subset=['year_of_release']).reset_index(drop=True)

In [452]:
# проверяем суммарное количество пропусков в таблице df
df.isnull().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8466
user_score         6610
rating             6682
dtype: int64

Пропуски данных в столбце year_of_release теперь отсутствуют

Посмотрим на пропуски данных в столбце critic_score

In [454]:
# отбираем строки с пропусками данных в столбце critic_score
df[df['critic_score'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.00,,,
5,Tetris,GB,1989.0,Puzzle,23.20,2.26,4.22,0.58,,,
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,
10,Nintendogs,DS,2005.0,Simulation,9.05,10.95,1.93,2.74,,,
...,...,...,...,...,...,...,...,...,...,...,...
16459,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.00,0.00,0.01,0.00,,,
16460,LMA Manager 2007,X360,2006.0,Sports,0.00,0.01,0.00,0.00,,,
16461,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.00,0.00,0.01,0.00,,,
16462,Spirits & Spells,GBA,2003.0,Platform,0.01,0.00,0.00,0.00,,,
