In [1]:
import pandas as pd

# Знакомство с данными

Для анализа будем использовать следующий набор данных: [Google Play Store Apps](https://www.kaggle.com/datasets/lava18/google-play-store-apps). Этот датасет содержит информацию о различных приложениях из магазина Google Play.

![Google Play Store Apps](dataset-cover.jpg)

Загрузим `DataFrame` в переменную `df` и выведем на экран первые пять строк.

In [2]:
df = pd.read_csv('./googleplaystore.csv')

# Для лучшей читаемости названия столбцов приведем к нижнему регистру и вместо пробелов сделаем нижние подчеркивания
df.columns = [wrd.lower().replace(' ', '_') for wrd in list(df.columns)]

df.head()

Unnamed: 0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


Отобразим количество строк и столбцов в `DataFrame`.

In [3]:
df.shape

(10841, 13)

# Обработка пропусков

Выведем основную информацию о `DataFrame` методом `info()` и проанализируем, есть ли пропуски в столбцах.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   app             10841 non-null  object 
 1   category        10841 non-null  object 
 2   rating          9367 non-null   float64
 3   reviews         10841 non-null  object 
 4   size            10841 non-null  object 
 5   installs        10841 non-null  object 
 6   type            10840 non-null  object 
 7   price           10841 non-null  object 
 8   content_rating  10840 non-null  object 
 9   genres          10841 non-null  object 
 10  last_updated    10841 non-null  object 
 11  current_ver     10833 non-null  object 
 12  android_ver     10838 non-null  object 
dtypes: float64(1), object(12)
memory usage: 1.1+ MB


Пропуски содержатся в столбцах: `rating`, `type`, `content_rating`, `current_ver`, `android_ver`.

Заменим пропуски в столбце `rating` с помощью метода `fillna()`. Удаление всех строк с пропусками нецелесообразно, так как в столбце `rating` их слишком много, и это приведет к значительной потере данных. Поэтому заменим все значения `NaN` в столбце `rating` на медианные значения. Все остальные строки с пропусками можно удалить, поскольку их количество незначительно по сравнению с общим числом строк.

In [5]:
df.fillna({'rating': df.rating.median()}, inplace=True)

df.dropna(inplace=True)

# Восстановим правильную индексацию после удаления некоторых строк из датафрейма
df.reset_index(drop=True, inplace=True)

Проверим, нет ли пропусков после произведенной обработки.

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10829 entries, 0 to 10828
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   app             10829 non-null  object 
 1   category        10829 non-null  object 
 2   rating          10829 non-null  float64
 3   reviews         10829 non-null  object 
 4   size            10829 non-null  object 
 5   installs        10829 non-null  object 
 6   type            10829 non-null  object 
 7   price           10829 non-null  object 
 8   content_rating  10829 non-null  object 
 9   genres          10829 non-null  object 
 10  last_updated    10829 non-null  object 
 11  current_ver     10829 non-null  object 
 12  android_ver     10829 non-null  object 
dtypes: float64(1), object(12)
memory usage: 1.1+ MB


После произведенной обработки пропуски отсутствуют.

# Анализ данных

Выведем основные статистики по категориальным столбцам и напишем некоторые выводы.

In [7]:
df.describe(include=object)

Unnamed: 0,app,category,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver
count,10829,10829,10829,10829,10829,10829,10829,10829,10829,10829,10829,10829
unique,9648,33,5999,457,20,2,92,6,119,1376,2831,33
top,ROBLOX,FAMILY,0,Varies with device,"1,000,000+",Free,0,Everyone,Tools,"August 3, 2018",Varies with device,4.1 and up
freq,9,1968,594,1694,1578,10032,10032,8704,840,326,1458,2451


По данной статистике можно сделать следующие выводы: 

1) Чаще всего в столбце `app` встречается игровая онлайн-платформа `ROBLOX`.
2) В столбце `category` в основном встречается категория для всей семьи.
3) Что странно, в столбце `reviews` часто встречаются 0 отзывов. Тут два варианта: либо 0 означает отсутствие информации, либо приложения малоизвестные.
4) Размер многих приложений зависит от конкретного устройства.
5) Большинство приложений имеют более 1.000.000 установок.
6) Приложения в основном бесплатные.
7) Возрастная группа чаще всего `everyone`, то есть для всех.
8) В датафрейме часто встречаются инструменты.
9) Большинство приложений были последний раз обновлены в 2018 году.
10) У многих приложений текущая версия зависит от конкретного устройства.
11) Минимальные системные требования для большинства приложений от 4.1 версии андроид и выше.

Заметим, что в столбце `price` содержатся строки, а не числовые значения. Преобразуем тип `object` в тип `float` и уберем символ доллара ($) в начале.

In [8]:
df.price.unique()

array(['0', '$4.99', '$3.99', '$6.99', '$1.49', '$2.99', '$7.99', '$5.99',
       '$3.49', '$1.99', '$9.99', '$7.49', '$0.99', '$9.00', '$5.49',
       '$10.00', '$24.99', '$11.99', '$79.99', '$16.99', '$14.99',
       '$1.00', '$29.99', '$12.99', '$2.49', '$10.99', '$1.50', '$19.99',
       '$15.99', '$33.99', '$74.99', '$39.99', '$3.95', '$4.49', '$1.70',
       '$8.99', '$2.00', '$3.88', '$25.99', '$399.99', '$17.99',
       '$400.00', '$3.02', '$1.76', '$4.84', '$4.77', '$1.61', '$2.50',
       '$1.59', '$6.49', '$1.29', '$5.00', '$13.99', '$299.99', '$379.99',
       '$37.99', '$18.99', '$389.99', '$19.90', '$8.49', '$1.75',
       '$14.00', '$4.85', '$46.99', '$109.99', '$154.99', '$3.08',
       '$2.59', '$4.80', '$1.96', '$19.40', '$3.90', '$4.59', '$15.46',
       '$3.04', '$4.29', '$2.60', '$3.28', '$4.60', '$28.99', '$2.95',
       '$2.90', '$1.97', '$200.00', '$89.99', '$2.56', '$30.99', '$3.61',
       '$394.99', '$1.26', '$1.20', '$1.04'], dtype=object)

In [9]:
df['price'] = df['price'].str.replace('$', '').astype(float)

Выведем на экран минимум и максимум из столбца `price`.

In [10]:
print(f'Минимальный элемент в столбце price равен {df.price.min()}')
print(f'Максимальный элемент в столбце price равен {df.price.max()}')

Минимальный элемент в столбце price равен 0.0
Максимальный элемент в столбце price равен 400.0


Выведем на экран медиану и среднее арифметическое столбцов `rating` и `reviews`. Важно отметить, что столбец `reviews` тоже содержит строковые значения, а не числовые. Чтобы вычислить среднее арифметическое, необходимо преобразовать тип `object` в `int`.

In [11]:
df.reviews = df.reviews.astype(int)

print(f'Медиана и среднее арифметическое столбца rating равны {df.rating.median(), df.rating.mean().round(2)}')
print(f'Медиана и среднее арифметическое столбца reviews равны {df.reviews.median(), df.reviews.mean().round(2)}')

Медиана и среднее арифметическое столбца rating равны (4.3, 4.21)
Медиана и среднее арифметическое столбца reviews равны (2100.0, 444601.77)


Такое большое различие между `median` и `mean` в столбце `reviews` связано, скорее всего, с выбросами (то есть значениями, сильно отличающимися от остальных).

Выведем на экран все уникальные значения категориального столбца `genres`.

In [12]:
df.genres.unique()

array(['Art & Design', 'Art & Design;Pretend Play',
       'Art & Design;Creativity', 'Art & Design;Action & Adventure',
       'Auto & Vehicles', 'Beauty', 'Books & Reference', 'Business',
       'Comics', 'Comics;Creativity', 'Communication', 'Dating',
       'Education;Education', 'Education', 'Education;Creativity',
       'Education;Music & Video', 'Education;Action & Adventure',
       'Education;Pretend Play', 'Education;Brain Games', 'Entertainment',
       'Entertainment;Music & Video', 'Entertainment;Brain Games',
       'Entertainment;Creativity', 'Events', 'Finance', 'Food & Drink',
       'Health & Fitness', 'House & Home', 'Libraries & Demo',
       'Lifestyle', 'Lifestyle;Pretend Play',
       'Adventure;Action & Adventure', 'Arcade', 'Casual', 'Card',
       'Casual;Pretend Play', 'Action', 'Strategy', 'Puzzle', 'Sports',
       'Music', 'Word', 'Racing', 'Casual;Creativity',
       'Casual;Action & Adventure', 'Simulation', 'Adventure', 'Board',
       'Trivia', 'Role 

Сгруппируем данные по столбцу `genres` и посчитаем для каждого жанра средний и медианный рейтинг. Представим результат в виде нового `DataFrame`, который будет сохранен в переменную `grouped_df`, где одна колонка будет содержать названия жанров, а две другие будут содержать в себе средний и медианный рейтинги.

In [13]:
grouped_df = df.groupby(by='genres', as_index=False).agg(mean_rating=('rating', 'mean'),
                                                         median_rating=('rating', 'median'))

grouped_df

Unnamed: 0,genres,mean_rating,median_rating
0,Action,4.285753,4.3
1,Action;Action & Adventure,4.311765,4.3
2,Adventure,4.184000,4.3
3,Adventure;Action & Adventure,4.423077,4.5
4,Adventure;Brain Games,4.600000,4.6
...,...,...,...
114,Video Players & Editors,4.084393,4.3
115,Video Players & Editors;Creativity,4.100000,4.1
116,Video Players & Editors;Music & Video,4.000000,4.0
117,Weather,4.248780,4.3


Из получившегося датафрейма выведем на экран только те жанры, чей медианный рейтинг больше 4.5.

In [14]:
mask = grouped_df.median_rating > 4.5

grouped_df[mask]

Unnamed: 0,genres,mean_rating,median_rating
4,Adventure;Brain Games,4.6,4.6
11,Art & Design;Creativity,4.4,4.7
18,Board;Pretend Play,4.8,4.8
35,Comics;Creativity,4.8,4.8
55,Entertainment;Creativity,4.533333,4.6
64,Health & Fitness;Education,4.7,4.7
74,Music;Music & Video,4.533333,4.6
87,Puzzle;Education,4.6,4.6
105,Strategy;Action & Adventure,4.6,4.6


Из этого можно заключить, что пользователи предпочитают настольные игры, комиксы, а также приложения для спорта, обучения и творчества.

Выведем количество дубликатов в основном `DataFrame` и удалим их.

In [15]:
print(f'Количество дубликатов: {df.duplicated().sum()}')

df.drop_duplicates(inplace=True)

Количество дубликатов: 483


Посчитаем, какое количество игр содержится в каждом жанре. Выведем на экран топ-10 игр по количеству в жанре.

In [16]:
df.loc[df['category'] == 'GAME', 'genres'].value_counts().head(10)

genres
Action       356
Arcade       218
Racing        98
Adventure     75
Card          48
Board         44
Casual        43
Casino        39
Puzzle        38
Trivia        38
Name: count, dtype: int64

В Google Play наибольшее количество игр создано в таких жанрах как: экшен, аркада, гонки, адвенчуры, карточные игры.

Выведем на экран часть датафрейма, который соответствует условию: `приложение из категории искусства и дизайна` и `с рейтингом больше 4.5`.

In [17]:
mask = (df.category == 'ART_AND_DESIGN') & (df.rating > 4.5)

df[mask].head()

Unnamed: 0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0.0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
9,Kids Paint Free - Drawing Fun,ART_AND_DESIGN,4.7,121,3.1M,"10,000+",Free,0.0,Everyone,Art & Design;Creativity,"July 3, 2018",2.8,4.0.3 and up
13,Mandala Coloring Book,ART_AND_DESIGN,4.6,4326,21M,"100,000+",Free,0.0,Everyone,Art & Design,"June 26, 2018",1.0.4,4.4 and up
15,Photo Designer - Write your name with shapes,ART_AND_DESIGN,4.7,3632,5.5M,"500,000+",Free,0.0,Everyone,Art & Design,"July 31, 2018",3.1,4.1 and up
18,ibis Paint X,ART_AND_DESIGN,4.6,224399,31M,"10,000,000+",Free,0.0,Everyone,Art & Design,"July 30, 2018",5.5.4,4.1 and up


Посчитаем, какое количество приложений содержится в рейтинге, используя параметр разбиения (`bins`), равный 100. Выведем на экран топ-10 игр по количеству в рейтинге.

In [18]:
df.loc[df['category'] == 'GAME'].rating.value_counts(bins=100).head(10)

(4.28, 4.32]    195
(4.48, 4.52]    169
(4.36, 4.4]     162
(4.16, 4.2]     115
(4.56, 4.6]     113
(4.08, 4.12]     72
(4.68, 4.72]     65
(3.96, 4.0]      55
(3.76, 3.8]      41
(3.88, 3.92]     35
Name: count, dtype: int64

Большинство игр имеют рейтинг от 4.28 до 4.32.

Создадим функцию, которая будет применена к столбцу рейтинг методом `apply()`.

Функция должна принимать строку с рейтингом и возвращать:
1) `High rating`, если рейтинг больше или равен 4.5.
2) `Middle rating`, если рейтинг между 3.8 и 4.5.
3) `Low rating`, если рейтинг меньше 3.8.

Результат работы функции запишем в новый столбец с названием `categorical_rating`.

In [19]:
def define_categorical_rating(row):
    if row >= 4.5:
        return 'High rating'
    elif row >= 3.8 and row < 4.5:
        return 'Middle rating'
    else:
        return 'Low rating'
    
    
df['categorical_rating'] = df['rating'].apply(define_categorical_rating)

df.sample(5)

Unnamed: 0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver,categorical_rating
1575,Family Locator - GPS Tracker,LIFESTYLE,4.4,726074,45M,"10,000,000+",Free,0.0,Everyone,Lifestyle,"August 2, 2018",16.7.1,4.4 and up,Middle rating
6494,Radio BN,FAMILY,4.3,53,4.2M,"5,000+",Free,0.0,Everyone,Entertainment,"January 12, 2018",1.0.3,4.4 and up,Middle rating
9631,Chess Free,GAME,4.5,1375988,15M,"50,000,000+",Free,0.0,Everyone,Board,"June 7, 2018",2.72,4.1 and up,High rating
4972,"WeatherClear - Ad-free Weather, Minute forecast",WEATHER,4.5,3252,3.8M,"50,000+",Free,0.0,Everyone,Weather,"June 25, 2017",1.2.6,4.1 and up,High rating
8582,DN Blog,SOCIAL,5.0,20,4.2M,10+,Free,0.0,Teen,Social,"July 23, 2018",1.0,4.0 and up,High rating


Решим прошлую задачу, но вместо функции `def` используем лямбда-функцию внутри `apply()`.

In [20]:
# Удалим старый столбец categorical_rating
df.drop('categorical_rating', axis=1, inplace=True)

# Решим прошлую задачу, используя лямбда-функцию
df['categorical_rating'] = df['rating'].apply(lambda row: 'High rating' if row >= 4.5 else ('Middle rating' if row >= 3.8 and row < 4.5 else 'Low rating'))

df.sample(5)

Unnamed: 0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver,categorical_rating
6454,BatControl Pro,TOOLS,4.9,83,3.1M,500+,Paid,3.99,Everyone,Tools,"June 1, 2018",2.0.0,5.0 and up,High rating
6839,Kick the Buddy,GAME,4.3,1004709,Varies with device,"50,000,000+",Free,0.0,Teen,Action,"July 5, 2018",Varies with device,4.4 and up,Middle rating
1121,MileIQ - Free Mileage Tracker for Business,FINANCE,4.5,46106,22M,"1,000,000+",Free,0.0,Everyone,Finance,"July 31, 2018",1.28.0.5402,4.4 and up,High rating
5757,AirWatch Agent,BUSINESS,3.1,20973,31M,"5,000,000+",Free,0.0,Everyone,Business,"August 1, 2018",8.2.0.84,4.0 and up,Low rating
5454,AP Planner,FAMILY,2.9,45,1.3M,"5,000+",Free,0.0,Everyone,Education,"August 3, 2015",1.1,2.1 and up,Low rating


Выведем количество уникальных значений в столбцах, отсортированных по убыванию на экран.

In [21]:
df.nunique().sort_values(ascending=False)

app                   9648
reviews               5999
current_ver           2831
last_updated          1376
size                   457
genres                 119
price                   92
rating                  39
category                33
android_ver             33
installs                20
content_rating           6
categorical_rating       3
type                     2
dtype: int64

Используем метод `transform()`, который предназначен для выполнения групповых операций на уровне столбцов и возвращает результат преобразования с той же размерностью, что и исходный DataFrame. Применим метод к DataFrame, предварительно сгруппированному по столбцу `category`, чтобы найти средний `rating` для каждой категории и записать результат в столбец с названием `mean_cat_rating`.

In [22]:
df['mean_cat_rating'] = df.groupby('category')['rating'].transform('mean').round(2)

df.sample(5)

Unnamed: 0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver,categorical_rating,mean_cat_rating
1661,Helix Jump,GAME,4.2,1497361,33M,"100,000,000+",Free,0.0,Everyone,Action,"April 9, 2018",1.0.6,4.1 and up,Middle rating,4.28
3844,Sentin Information Map,MAPS_AND_NAVIGATION,4.1,2909,5.2M,"100,000+",Free,0.0,Everyone,Maps & Navigation,"June 26, 2018",1.39,4.1 and up,Middle rating,4.08
7322,"Ultimate Public Campgrounds (Over 37,100 in US...",TRAVEL_AND_LOCAL,4.7,213,6.1M,"5,000+",Paid,3.99,Everyone,Travel & Local,"August 5, 2018",1.8.8.0,4.4 and up,High rating,4.12
9667,Masha and The Bear Jam Day Match 3 games for kids,FAMILY,4.6,50060,98M,"1,000,000+",Free,0.0,Everyone,Puzzle;Brain Games,"August 7, 2018",1.4.83,4.1 and up,High rating,4.2
8456,3D DJ – Music Mixer with Virtual DJ,FAMILY,4.3,796,28M,"100,000+",Free,0.0,Everyone,Entertainment,"July 3, 2018",6.6.8,5.0 and up,Middle rating,4.2


Создадим функцию, которая будет применена к столбцу `last_updated` и возвращать из него число месяца. Если число месяца вернуть из строки невозможно, то вернем вместо этого строку с названием `miss_date`. Запишем полученный столбец в датафрейм, название столбцу дадим `day_of_update`.

In [23]:
def define_day_of_update(date):
    day = '' # Создаем пустую строку, в которой будет храниться в дальнейшем число месяца
    try:
        for s in date.split(',')[0]: # В цикле проходим по строке date, ограниченной запятой справа (так как справа пишется год, он нам не нужен)
            day += (s if s.isdigit() else '') # Если в строке содержится цифра, добавляем ее в строку day, иначе пустую строку
        return int(day) # Возвращаем число месяца
    except:
        return 'miss_date' # Если в ходе извлечения числа месяца из строки date возникает ошибка, то возвращаем строку miss_date
        

df['day_of_update'] = df['last_updated'].apply(define_day_of_update)

df.sample(5)

Unnamed: 0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver,categorical_rating,mean_cat_rating,day_of_update
9509,Meslek Lisesi YGS Ek Puan,FAMILY,4.3,11,1.5M,"1,000+",Free,0.0,Everyone,Education,"January 8, 2017",1.0,4.0 and up,Middle rating,4.2,8
1601,Vaniday - Beauty Booking App,LIFESTYLE,3.6,1067,Varies with device,"100,000+",Free,0.0,Everyone,Lifestyle,"March 20, 2018",3.8.15,4.1 and up,Low rating,4.13,20
10758,Modern Counter Terrorist FPS Shoot,GAME,4.0,795,41M,"100,000+",Free,0.0,Teen,Action,"August 29, 2017",1.2,2.3 and up,Middle rating,4.28,29
1561,metroZONE,LIFESTYLE,4.1,47497,34M,"10,000,000+",Free,0.0,Everyone,Lifestyle,"June 8, 2018",5.3.0.54.7,5.0 and up,Middle rating,4.13,8
4703,v-view,FAMILY,3.6,309,19M,"10,000+",Free,0.0,Everyone,Entertainment,"June 22, 2017",1.1.0.0402,4.2 and up,Low rating,4.2,22
