# Прибыльные профили приложений для App Store и Google Play Markets

## Описание проблемы

Компания занимающаяся разработкой условно-бесплатных мобильных приложений для IOS и Android, получающих доход за счет рекламы (Adware), имеет цель достичь большего количества использования этих приложений среди пользователей.

Чтобы добиться этого, необходимо сделать предварительный анализ рынка приложений на предмет популярности  различных приложений среди разных групп пользователей. Ориентировавшись на полученные данные, компания сможет вырабатать успешную стратегию, акцентируя усилия на более перспективных приложениях.
Сделать такой анализ можно воспользовавшись находящимися в открытом доступе данными с площадок App Store и Google Markets.

## Цель проекта

Помочь разработчикам определить, какой тип мобилных приложений будет наиболее востребованным среди пользователей

## Открытие файла и первоначальное ознакомление с данными 

По состоянию на первый квартал 2020 года площадки Apple App Store и Google Play Market [являются наиболее популярными среди пользователей](https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-stores/).
![](apps_chart.png)
Исходя из этого, для анализа были выбраны соответствующие наборы данных:
* [Google Play Store Apps](https://www.kaggle.com/lava18/google-play-store-apps) содержит около 10 тысяч приложений, может быть скачан [здесь](https://dq-content.s3.amazonaws.com/350/googleplaystore.csv)
* [Mobile App Store](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/metadata) содержит около 7 тысяч приложений, может быть скачан [здесь](https://dq-content.s3.amazonaws.com/350/AppleStore.csv)

Для начала работы с наборами данных необходимо конвертировать CSV файлы с данными в списки.
Создадим для этого функцию `csv_to_list()`, принимающую имя файла в качестве значения аргумента. Присвоим полученные списки переменным `apple_store_data` и `google_play_data`.

In [1]:
def csv_to_list(csv_file_name):
    from csv import reader
    opened_file = open(csv_file_name)
    read_file = reader(opened_file)
    apps_data = list(read_file)
    opened_file.close
    return apps_data

### Apple Store Data Set ###
apple_store_data = csv_to_list('AppleStore.csv')

### Google Play Data Set ###
google_play_data = csv_to_list('googleplaystore.csv')

Для облегчения ознакомления с наборами данных создадим функцию `explore_data()`, которая будет выводить в читабельном виде срез значений из указанного списка в заданном диапазоне и количество рядов и колонок в указанном списке.

In [2]:
def explore_data(dataset, start, end, rows_and_columns = False):
    dataset_slice = dataset[start:end]
    for row in dataset_slice:
        print(row)
        print('\n')
    if rows_and_columns:
        print('Number of rows: ', len(dataset) - 1)
        print('Number of columns: ', len(dataset[0]))

In [53]:
# Выводим первые 3 ряда из датасета Google Play
explore_data(google_play_data, 0, 23, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Eve

Набор данных Google Play Market содержит 10841 ряд и 13 колонок. Для целей нашего исследования будут полезны
следующие колонки: 'App', 'Category', 'Rating', 'Reviews', 'Installs', 'Type', 'Price', 'Genres' ('App', 'Category', 'Reviews', 'Installs', 'Type', 'Price', and 'Genres').

In [4]:
# Выводим первые 3 ряда из датасета Apple Store
explore_data(apple_store_data, 0, 3, True)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


Number of rows:  7197
Number of columns:  16


Набор данных Apple App Store содержит 7197 рядов и 16 колонок. Для нашего исследования могут быть полезны следующие колонки: 'track_name', 'price', 'rating_count_tot', 'user_rating', prime_genre ('track_name', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', and 'prime_genre'). Не все названия колонок являются понятными, поэтому для выяснения их значений можно обратиться к [документации](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps) этого набора данных.

## Очистка данных

Выше мы поверхностно проанализировали данные с которыми предстоит работа. Для выполнения полноценного анализа мы должны убедиться в том, что имеющиеся наборы данных будут содержать только корректную информацию, анализ которой не вызовет ошибок в наших расчетах.

Очистка данных будет включать в себя следующие операции:
* исправление записей содержащих некорректную информацию или удаление их
* удаление дублирующихся записей
* удаление всех записей о неанглоязычных приложениях (текущая задача подразумивает анализ только англоязычной аудитории)
* удаление всех платных приложений (наша задача подразумевает анализ только беспатных приложений)

### Исправление записей содержащих некорректную информацию или удаление их

Создадим функцию `clean_another_length_rows()` которая будет получать список, содержащий заголовки в первой строке 
и возвращающую новый список, где будут удалены все строки, колличество элементов в которых будет отличаться от колличества элементов в строке заголовков

In [5]:
def clean_another_length_rows(datalist, info = False):
    headers_length = len(datalist[0])
    origin_length = len(datalist)
    for index, row in enumerate(datalist):
        if len(row) != headers_length:
            if info:
                print('row number: ', index)
                print(row, '\n')
            del datalist[index]        
    if info:
        print('origin length: ', origin_length)
        print('cleaned length: ', len(datalist))        
    return datalist

С помощью функции `clean_another_length_rows()` очистим список с данными Google Play Market `google_play_data`:

In [6]:
google_play_data = clean_another_length_rows(google_play_data, info = True)

row number:  10473
['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up'] 

origin length:  10842
cleaned length:  10841


В результате очистки мы удалили одну строку 10473, содержащую некорректные данные

С помощью функции `clean_another_length_rows()` очистим список с данными Apple Store `apple_store_data`:

In [7]:
apple_store_data = clean_another_length_rows(apple_store_data, info = True)

origin length:  7198
cleaned length:  7198


В результате очистки `apple_store_data` функцией `clean_another_length_rows()` некорректных данный обнаружено
не было, поэтому список `apple_store_data`остается неизменным.

### Поиск дублирующихся записей

Создадим функцию `has_duplicates()`, определяющую по заданной колонке `index_column_name` есть ли дублирующиеся записи в списке.

In [8]:
def has_duplicates(data_list, index_column_name, info = False):
    for index, header in enumerate(data_list[0]):
        if header == index_column_name:
            column_index = index
    unique_list = []
    duplicates_list = []
    for row in data_list:
        if row[column_index] in unique_list:
            duplicates_list.append(row[column_index])
        else:
            unique_list.append(row[column_index])      
    if len(duplicates_list) > 0:
        if info:
            print('Duplicates count: ', len(duplicates_list))
            print('All duplicates:')
            for name in sorted(duplicates_list):
                print(name)
        return set(duplicates_list)
    else:
        if info:
            print('There is no duplicates in the list.')
        return False
        

Поверим список `google_play_data` на наличие дублирующихся записей.

In [9]:
has_duplicates(google_play_data, 'App', info = True)

Duplicates count:  1181
All duplicates:
10 Best Foods for You
1800 Contacts - Lens Store
2017 EMRA Antibiotic Guide
21-Day Meditation Experience
365Scores - Live Scores
420 BZ Budeze Delivery
8 Ball Pool
8 Ball Pool
8 Ball Pool
8 Ball Pool
8 Ball Pool
8 Ball Pool
8fit Workouts & Meal Planner
95Live -SG#1 Live Streaming App
A Manual of Acupuncture
A&E - Watch Full Episodes of TV Shows
A&E - Watch Full Episodes of TV Shows
A&E - Watch Full Episodes of TV Shows
AAFP
ABC News - US & World News
AC - Tips & News for Android™
AP Mobile - Breaking News
ASCCP Mobile
ASOS
Accounting App - Zoho Books
AccuWeather: Daily Forecast & Live Weather Reports
Acorns - Invest Spare Change
AdWords Express
Ada - Your Health Guide
Adobe Acrobat Reader
Adobe Acrobat Reader
Adobe Photoshop Express:Photo Editor Collage Maker
Adult Dirty Emojis
Adult Dirty Emojis
Advanced Comprehension Therapy
Agar.io
Airbnb
Airway Ex - Intubate. Anesthetize. Train.
AliExpress - Smarter Shopping, Better Living
AliExpress - Smarte

{'10 Best Foods for You',
 '1800 Contacts - Lens Store',
 '2017 EMRA Antibiotic Guide',
 '21-Day Meditation Experience',
 '365Scores - Live Scores',
 '420 BZ Budeze Delivery',
 '8 Ball Pool',
 '8fit Workouts & Meal Planner',
 '95Live -SG#1 Live Streaming App',
 'A Manual of Acupuncture',
 'A&E - Watch Full Episodes of TV Shows',
 'AAFP',
 'ABC News - US & World News',
 'AC - Tips & News for Android™',
 'AP Mobile - Breaking News',
 'ASCCP Mobile',
 'ASOS',
 'Accounting App - Zoho Books',
 'AccuWeather: Daily Forecast & Live Weather Reports',
 'Acorns - Invest Spare Change',
 'AdWords Express',
 'Ada - Your Health Guide',
 'Adobe Acrobat Reader',
 'Adobe Photoshop Express:Photo Editor Collage Maker',
 'Adult Dirty Emojis',
 'Advanced Comprehension Therapy',
 'Agar.io',
 'Airbnb',
 'Airway Ex - Intubate. Anesthetize. Train.',
 'AliExpress - Smarter Shopping, Better Living',
 'All Football - Latest News & Videos',
 'All Mental disorders',
 'All Social Networks',
 "Alto's Adventure",
 'Ama

Мы обнаружили 1181 повторяющуюся запись в списке `google_play_data`

Поверим список `apple_store_data` на наличие дублирующихся записей.

In [10]:
has_duplicates(apple_store_data, 'track_name', info = True)

Duplicates count:  2
All duplicates:
Mannequin Challenge
VR Roller Coaster


{'Mannequin Challenge', 'VR Roller Coaster'}

Мы обнаружили 2 повторяющbхся записи в списке `apple_store_data`

Таким образом в каждом из рассматриваемых наборов данных обнаружены повторяющиеся записи, которые относятся к одними тем же приложениям. Чтобы определить оптимальный способ того, как с ними поступить, рассмотрим подробнее некоторые повторяющиеся записи каждого из списков. Создадим для этого функцию `show_some_duplicates()`.

In [11]:
def show_some_duplicates(data_list, entry):
    print(data_list[0])
    for row in data_list:
        if entry in row:
            print('\n', row)

Используем функцию show_some_duplicates() для вывода и анализа нескольких дублирующихся записей из списка `google_play_data`.

In [12]:
show_some_duplicates(google_play_data, 'Angry Birds Classic')

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']

 ['Angry Birds Classic', 'GAME', '4.4', '5566669', '97M', '100,000,000+', 'Free', '0', 'Everyone', 'Arcade', 'May 24, 2018', '7.9.3', '4.1 and up']

 ['Angry Birds Classic', 'GAME', '4.4', '5566805', '97M', '100,000,000+', 'Free', '0', 'Everyone', 'Arcade', 'May 24, 2018', '7.9.3', '4.1 and up']

 ['Angry Birds Classic', 'GAME', '4.4', '5566889', '97M', '100,000,000+', 'Free', '0', 'Everyone', 'Arcade', 'May 24, 2018', '7.9.3', '4.1 and up']

 ['Angry Birds Classic', 'GAME', '4.4', '5566908', '97M', '100,000,000+', 'Free', '0', 'Everyone', 'Arcade', 'May 24, 2018', '7.9.3', '4.1 and up']

 ['Angry Birds Classic', 'GAME', '4.4', '5565856', '97M', '100,000,000+', 'Free', '0', 'Everyone', 'Arcade', 'May 24, 2018', '7.9.3', '4.1 and up']


In [13]:
show_some_duplicates(google_play_data, 'Badoo - Free Chat & Dating App')

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']

 ['Badoo - Free Chat & Dating App', 'SOCIAL', '4.3', '3781770', 'Varies with device', '100,000,000+', 'Free', '0', 'Mature 17+', 'Social', 'August 2, 2018', 'Varies with device', 'Varies with device']

 ['Badoo - Free Chat & Dating App', 'SOCIAL', '4.3', '3781770', 'Varies with device', '100,000,000+', 'Free', '0', 'Mature 17+', 'Social', 'August 2, 2018', 'Varies with device', 'Varies with device']

 ['Badoo - Free Chat & Dating App', 'SOCIAL', '4.3', '3781770', 'Varies with device', '100,000,000+', 'Free', '0', 'Mature 17+', 'Social', 'August 2, 2018', 'Varies with device', 'Varies with device']

 ['Badoo - Free Chat & Dating App', 'SOCIAL', '4.3', '3781467', 'Varies with device', '100,000,000+', 'Free', '0', 'Mature 17+', 'Social', 'August 2, 2018', 'Varies with device', 'Varies with device']


В дублирующихся записях `google_play_data` отличается только значение колличества отзывов `Reviews`. Из этого можно предположить что дублирующиеся записы были получены в разное время и оптимальным способом избавиться от них будет удалить все ранние записи оставив наиболее актуальную запись с максимальным значением `Reviews` из всех имеющихся.

Используем функцию show_some_duplicates() для вывода и анализа нескольких дублирующихся записей из списка
`apple_store_data`.

In [14]:
show_some_duplicates(apple_store_data, 'Mannequin Challenge')

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']

 ['1173990889', 'Mannequin Challenge', '109705216', 'USD', '0.0', '668', '87', '3.0', '3.0', '1.4', '9+', 'Games', '37', '4', '1', '1']

 ['1178454060', 'Mannequin Challenge', '59572224', 'USD', '0.0', '105', '58', '4.0', '4.5', '1.0.1', '4+', 'Games', '38', '5', '1', '1']


In [15]:
show_some_duplicates(apple_store_data, 'VR Roller Coaster')

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']

 ['952877179', 'VR Roller Coaster', '169523200', 'USD', '0.0', '107', '102', '3.5', '3.5', '2.0.0', '4+', 'Games', '37', '5', '1', '1']

 ['1089824278', 'VR Roller Coaster', '240964608', 'USD', '0.0', '67', '44', '3.5', '4.0', '0.81', '4+', 'Games', '38', '0', '1', '1']


В дублирующихся записях `apple_store_data` отличается множество значений колонок среди них отличается так же и значение версии приложения `ver`. Из этого также можно предположить что дублирующиеся записы были получены в разное время, а оптимальным способом избавиться от них будет удалить все ранние записи оставив наиболее актуальную запись с последней версией `ver` из всех имеющихся.

### Удаление дублирующихся записей

Из списка `google_play_data` cоздадим словарь где ключами будут названия приложений а значениями наибольшее колличество скачиваний для приложения с указанным ключом.

In [16]:
reviews_max = {}
for row in google_play_data[1:]:
    app_name = row[0]
    current_rating = int(row[3])
    if app_name not in reviews_max or current_rating > reviews_max[app_name]:
        
        if app_name == 'Angry Birds Classic':
            print('current_rating: ', current_rating)

        reviews_max[app_name] = current_rating
print(reviews_max['Angry Birds Classic'])   
print('google_play_data length: ', len(google_play_data))
print('reviews_max length: ', len(reviews_max))      

current_rating:  5566669
current_rating:  5566805
current_rating:  5566889
current_rating:  5566908
5566908
google_play_data length:  10841
reviews_max length:  9659


Мы получили словарь с максимальными значениями количества оценок для каждого приложения Google Play Market и сохранили его в переменную `reviews_max`

Теперь очистим набор данных Google Play Market от дубликатов и сохраним результат в переменную `google_play_data_clean`

In [17]:
google_play_data_clean = google_play_data[0:1]
already_added = []
for index, row in enumerate(google_play_data[1:]):
    name = row[0]
    reviews = int(row[3])
    if reviews == reviews_max[name] and name not in already_added:
        google_play_data_clean.append(row)
        already_added.append(name)
        
print('google_play_data length: ', len(google_play_data))
print('google_play_data_clean length: ', len(google_play_data_clean))


google_play_data length:  10841
google_play_data_clean length:  9660


Выполним аналогичные действия для набора данных Apple App Store. Из списка `apple_store_data` создадим словарь где ключами будут являться названия приложений а значениями последняя версия из возможных.

In [23]:
version_max = {}
for row in apple_store_data[1:]:
    name = row[1]
    version_cleaned = row[9].replace('.','')
    
    if name not in version_max or version_cleaned > version_max[name]:
        version_max[name] = version_cleaned
        
print(version_max['Mannequin Challenge'])
print(len(apple_store_data[1:])) 
print(len(version_max))

200
7197
7195


Мы получили словарь с максимальными значениями версий для каждого приложения Apple App Store сохранили его в переменную `version_max`

Теперь очистим набор данных Apple App Store от дубликатов и сохраним результат в переменную `apple_store_data_clean`.

In [25]:
apple_store_data_clean = apple_store_data[0:1]
already_added = []
for index, row in enumerate(apple_store_data[1:]):
    name = row[1]
    version = row[9]
    version_cleaned = row[9].replace('.','')
    if version_cleaned == version_max[name] and name not in already_added:
        apple_store_data_clean.append(row)
        already_added.append(name)
        
print('apple_store_data length: ', len(apple_store_data))
print('apple_store_data_clean length: ', len(apple_store_data_clean))

apple_store_data length:  7198
apple_store_data_clean length:  7196


### Удаление неанглоязычных приложений

Компания для которой осуществляется этот анализ данных ориентируется только на англоязычных пользователей, поэтому  потребуется оставить данные только по англоязычным приложениям для дальнейшего анализа.
Допустим что мы можем определить является ли приложение ангоязычным если в его названии содержаться только латинские буквы и спецсимволы, то есть символы ASCII (коды 0-127).
Создадим фенкцию `is_ascii()` которая будет опрелелять содержит ли строка символы за пределами ASCII.

In [37]:
def is_ascii(string):
    for letter in string:
        #print(ord(letter))
        if ord(letter) > 127:
            return False
    return True        
print(is_ascii('Instagram'))
print(is_ascii('爱奇艺PPS -《欢乐颂2》电视剧热播'))  
print(is_ascii('Docs To Go™ Free Office Suite'))  
print(is_ascii('Instachat 😜'))  

True
False
False
False


Рассмотрев результаты работы функции is_ascii(string) можно заметить что англоязычные приложения содержашие символы за пределами ASCII не определяются функцией как корректные. Чтобы исправить это на основе функции `is_ascii()` создадим функцию `is_ascii_3()` которая будет определять также строки содержащие не более трёх символов за пределами ASCII как корректные.

In [41]:
def is_ascii_3(string):
    counter = 0
    for letter in string:
        #print(ord(letter))
        if ord(letter) > 127:
            counter += 1
            if counter > 3:
                return False
    return True        
print(is_ascii('Instagram'))
print(is_ascii('爱奇艺PPS -《欢乐颂2》电视剧热播'))  
print(is_ascii('Docs To Go™ Free Office Suite'))  
print(is_ascii('Instachat 😜')) 

True
False
True
True


Используя функцию is_ascii() для проверки очистим наборы данных `apple_store_data_clean` и `google_play_data_clean` от неанглоязычных приложений.

In [44]:
google_play_data_clean_en = []
for row in google_play_data_clean:
    name = row[0]
    if is_ascii_3(name):
        google_play_data_clean_en.append(row)
print('google_play_data_clean length: ', len(google_play_data_clean))
print('google_play_data_clean_en length: ', len(google_play_data_clean_en))        

google_play_data_clean length:  9660
google_play_data_clean_en length:  9615


In [45]:
apple_store_data_clean_en = []
for row in apple_store_data_clean:
    name = row[1]
    if is_ascii_3(name):
        apple_store_data_clean_en.append(row)
print('apple_store_data_clean length: ', len(apple_store_data_clean))
print('apple_store_data_clean_en length: ', len(apple_store_data_clean_en))  

apple_store_data_clean length:  7196
apple_store_data_clean_en length:  6182


### Удаление платных приложений

Поскольку нас не интересуют только платные приложения, создадим навые наборы данных `prepared_google_data` и `prepared_apple_data`, которые будут содержать только бесплатные приложения.

In [56]:
prepared_google_data = google_play_data_clean_en[0:1]
for row in google_play_data_clean_en[1:]:
    if row[6] == 'Free':
        free = True
    else:
        free = False
    if free:
        prepared_google_data.append(row)
print('google_play_data_clean_en: ', len(google_play_data_clean_en))
print('prepared_google_data: ', len(prepared_google_data))


google_play_data_clean_en:  9615
prepared_google_data:  8864


In [57]:
prepared_apple_data = apple_store_data_clean_en[0:1]
for row in apple_store_data_clean_en[1:]:
    if row[4] == '0.0':
        free = True
    else:
        free = False
    if free:
        prepared_apple_data.append(row)
print('apple_store_data_clean_en: ', len(apple_store_data_clean_en))
print('prepared_apple_data: ', len(prepared_apple_data))

apple_store_data_clean_en:  6182
prepared_apple_data:  3221


## Выводы