# Profitable App Profiles for the Apple App Store and Google Play Markets

Proyek ini bertujuan untuk mencari profil aplikasi mobile dengan tingkat _engagement user_ tinggi di platform App Store dan Google Play. Hasil akhir dari analisa berbasiskan data ini diharapkan dapat membantu _developer_ dalam memilih jenis aplikasi yang akan dibangun dan memiliki potensi profit yang baik.

Kategori aplikasi yang dianalisa adalah berjenis gratis. Potensi _income_ yang didapat hanya bersumber dari iklan yang ditampilan dalam aplikasi. Oleh karena itu, jumlah user yang mengunduh serta engagement terhadap iklan merupakan hal krusial.

### Data Collection

Tercatat pada bulan September 2018, terdapat setidaknya __2 juta aplikasi iOS__ tersedia di App Store dan __2,1 juta aplikasi Android__ di Google Play.

Proses analisa terhadap jumlah data dengan skala besar seperti itu pasti membutuhkan resource yang tidak kecil. Oleh karena itu, proyek ini akan memanfaatkan sebuah sampel sebagai berikut:

* [Dataset sampel](https://www.kaggle.com/lava18/google-play-store-apps) sebanyak __tujuh ribuan__ aplikasi iOS di Apple App Store.
* [Dataset sampel](https://www.kaggle.com/lava18/google-play-store-apps) sebanyak __sepuluh ribuan__ aplikasi Android di Google Play Store.

Langkah awal yakni membuka file data set dan mengubahnya ke dalam bentuk list dengan fungsi `import_data` berikut:

In [1]:
from csv import reader

# fungsi untuk import data set #
def import_data(path_file):
    # cetak nama path file #
    print("Nama file:", path_file)
    open_file = open(path_file, encoding='utf8')
    read_file = reader(open_file)
    list_data = list(read_file)
    return list_data[0], list_data[1:]

Setelah fungsi untuk mendapatkan list tersedia maka langkah selanjutnya adalah ekplorasi data melalui fungsi `explore_data` berikut ini.

In [2]:
def explore_data(app_list, start, end):
    print("Jumlah kolom:", len(app_list[0]))
    print("Total baris:", len(app_list))
    # cetak #
    for s in app_list[start:end]:
        print(s,"\n")

Parameter pada fungsi di atas antara lain `app_list`, `start` dan `end` untuk index data yang ingin dilihat.

Jika dijalankan maka akan mencetak keterangan sebagai berikut:
 * jumlah kolom
 * jumlah baris
 * baris data sampel

### App Store Data Exploration
Setelah membuat fungsi import file dan eksploras, maka saatnya memulai ekplorasi. 

In [3]:
apple_store_header, apple_store_data = import_data('AppleStore.csv')
print("\nHeader:")
print(apple_store_header, "\n")
explore_data(apple_store_data, 0, 3)

Nama file: AppleStore.csv

Header:
['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic'] 

Jumlah kolom: 16
Total baris: 7197
['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1'] 

['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1'] 

['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1'] 



### Google Play Store Data Exploration
Hal yang sama kita terapkan untuk dataset Google Play Store:

In [4]:
google_play_store_header, google_play_store_data = import_data('GooglePlayStore.csv')
print("\nHeader:")
print(google_play_store_header, "\n")
explore_data(google_play_store_data, 0, 3)

Nama file: GooglePlayStore.csv

Header:
['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver'] 

Jumlah kolom: 13
Total baris: 10841
['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up'] 

['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up'] 

['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up'] 



## Exploration Overview

Dari eksplorasi singkat di atas, didapatkan informasi sebagai berikut

App Store:
* Dimensi kolom x baris = 7197 x 16
* Fokus analisis pada kolom `id`, `track_name`, `currency`, `price`, `rating_count_tot`, `rating_count_ver`, `prime_genre`

Play Store:
* Dimensi kolom x baris = 10841 x 13
* Fokus analisis pada kolom `App`, `Category`, `Rating`, `Reviews`, `Installs`, `Price`, `Genres`

## Data Cleaning
Setelah melihat data secara garis besar, tahapan selanjutnya sebelum memulai analisa adalah membersihkan data. Proses _data cleaning_ diperlukan untuk menghasilkan analisis yang akurat yaitu dengan cara membuang data yang tidak sesuai, data duplikasi hingga memodifikasi data sedemikian rupa untuk menunjang analisa (misalnya null parameter).

### Penghapusan Anomali

Dari sumber dataset Google Play store terdapat [diskusi mengenai anomali](https://www.kaggle.com/lava18/google-play-store-apps/discussion/66015) pada baris 10472. Berikut detail lengkap jika dibandingkan dengan data normal.

In [5]:
print(google_play_store_data[10472],"\n")
print(google_play_store_header,"\n")
print(google_play_store_data[0],"\n")

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up'] 

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver'] 

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up'] 



In [6]:
print("Google Play Store missing value:")
for i, app in enumerate(google_play_store_data):
    if len(app) != 13:
        print(i, "| n kolom:", len(app))

Google Play Store missing value:
10472 | n kolom: 12


__Terdapat missing value di kolom 'Category' yang menyebabkan data bergeser. Solusi saat ini yaitu penghapusan data.__

In [7]:
del(google_play_store_data[10472])
print(len(google_play_store_data))

10840


__Pengecekan yang sama kita lakukan terhadap dataset App Store dan tidak ditemukan anomali.__

In [8]:
print("App Store missing value:")
for i, app in enumerate(apple_store_data):
    if len(app) != 16:
        print(i, "| kolom:", len(app))

App Store missing value:


## Data Cleaning - Bagian 1

Pada dokumentasi dataset yang telah disertakan, terdapat beberapa diskusi yang menyatakan adanya duplikasi data. Untuk menunjang keakuratan hasil analisa nantinya diperlukan penghapusan data-data tidak akurat dengan langkah sebagai berikut:

1. memisahkan antara data unik dan duplikasi
2. memeriksa perbedaan nilai/atribut antar data duplikasi
3. menentukan kriteria duplikasi yang akan dihapus

Pemisahan nilai akan terfokus pada atribut nama aplikasi. Untuk mengetahui jumlah duplikasi di kedua dataset, kita gunakan fungsi sebagai berikut untuk tujuan efisiensi.

In [9]:
def selecting_duplicates(list_of_data, index_name):
    app_unique = []
    app_duplicate = []
    
    for app in list_of_data:
        app_name = app[index_name]
        
        if app_name not in app_unique:
            app_unique.append(app_name)
        else:
            app_duplicate.append(app_name)
    
    return app_unique, app_duplicate

In [10]:
app_store_unique, app_store_duplicate = selecting_duplicates(apple_store_data, 1)
google_play_unique, google_play_duplicate = selecting_duplicates(google_play_store_data, 0)

print("App Store unique: ", len(app_store_unique))
print("App Store duplicate: ", len(app_store_duplicate))
print("------------------------------------")
print("Google Play Store unique: ", len(google_play_unique))
print("Google Play duplicate: ", len(google_play_duplicate))

App Store unique:  7195
App Store duplicate:  2
------------------------------------
Google Play Store unique:  9659
Google Play duplicate:  1181


Secara garis besar telah kita ketahui jumlah duplikasinya. Hasil analisa hanya akan akurat jika dilakukan menggunakan data yang akurat pula. Hal ini berpegang pada prinsip GIGO/_Garbage In Garbage Out_. Seleksi terhadap data duplikasi untuk mendapat data yang diinginkan tentu tidak boleh dilakukan secara acak. 

Selanjutnya dari hasil fungsi `selecting_duplicates` yang didapat. Kita akan mengamati kemungkinan perbedaan di dalamnya dengan contoh sebagai sebagai berikut.

### App Store Data
Karena jumlah duplikasi hanya dua, maka kita amati keduanya.

In [11]:
print("App Store Data")

for app_name in app_store_duplicate:
    for app in apple_store_data:
        if app_name == app[1]:
            print(app,"\n")

App Store Data
['1173990889', 'Mannequin Challenge', '109705216', 'USD', '0.0', '668', '87', '3.0', '3.0', '1.4', '9+', 'Games', '37', '4', '1', '1'] 

['1178454060', 'Mannequin Challenge', '59572224', 'USD', '0.0', '105', '58', '4.0', '4.5', '1.0.1', '4+', 'Games', '38', '5', '1', '1'] 

['952877179', 'VR Roller Coaster', '169523200', 'USD', '0.0', '107', '102', '3.5', '3.5', '2.0.0', '4+', 'Games', '37', '5', '1', '1'] 

['1089824278', 'VR Roller Coaster', '240964608', 'USD', '0.0', '67', '44', '3.5', '4.0', '0.81', '4+', 'Games', '38', '0', '1', '1'] 



Kesimpulan:
* Terdapat 4 buah data duplikasi yang sebenarnya bukan duplikasi karena setiap aplikasi tersebut memiliki `id` yang berbeda


In [12]:
# list dataset app store baru
app_store_clean = apple_store_data

### Google Play Store Data
Jumlah duplikasi data Google Play Store sangat besar. Proses seleksi dilakukan lebih spesifik dengan melihat perbedaan nilai pada atribut selain nama. Sebagai contoh adalah aplikasi dengan nama Instagram dan Video Editor sebagai berikut. 

In [13]:
print("Google Play Store Data")

for app in sorted(google_play_store_data):
    if app[0] == 'Instagram' or app[0] == 'Video Editor':
        print(app,"\n")

Google Play Store Data
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

['Video Editor', 'FAMILY', '4.1', '159619', '23M', '5,000,000+', 'Free', '0', 'Everyone', 'Video Players & Editors;Creativity', 'July 17, 2018', '6.14.091', '4.3 and up'] 

['Video Editor', 'VIDEO_PLAYERS', '3.8', '1156', '23M', '100,000+', 'Free', '0', 'Everyone', 'Vi

Kesimpulan:
* Aplikasi __Instagram__ memiliki perbedaan pada atribut `reviews`
* Aplikasi __Video Editor__ memiliki perbedaan pada atribut `category`, `reviews` dan `Last Updated`
* Perbedaan pada `category` akan diabaikan karena aplikasi di Google Play Store dapat memiliki kategori lebih dari satu dan ini memungkinkan duplikasi. 
* Atribut `Last Updated` dianggap cukup memberikan arti bahwa aplikasi yang memiliki nama sama namun tanggal update yang berbeda bukan merupakan aplikasi yang sama. 
* Selanjutnya, jika terdapat aplikasi dengan __nama__ dan __tanggal update__ yang sama, maka akan dipilih salah satu yang memiliki jumlah __review__ terbesar.


In [14]:
# list dataset google play store baru
google_store_clean = []

# dictionary duplikasi
google_store_duplication_cleaned = {}
for app in google_play_store_data:
    name = app[0]
    reviews = float(app[3])
    last_update = app[10]

    # jika nama tidak termasuk duplikasi maka otomatis masuk ke list bersih
    if name not in google_play_duplicate:
        google_store_clean.append(app)
    else:
        name_with_last_update = name+"-"+last_update
        # jika kombinasi nama dan tanggal update tidak ada di list duplikasi
        if name_with_last_update not in google_store_duplication_cleaned:
            google_store_duplication_cleaned[name_with_last_update] = app
        else:
            # komparasi nilai review
            if float(google_store_duplication_cleaned[name_with_last_update][3]) < reviews:
                google_store_duplication_cleaned[name_with_last_update] = app
                
print("Clean: ", len(google_store_clean))
print("Duplicate cleaned:", len(google_store_duplication_cleaned))

Clean:  8861
Duplicate cleaned: 842


List data bersih sebanyak 8861 ini lebih kecil dari nilai `Google Play Store unique:  9659` sebelumnya dikarenakan data di dalamnya belum termasuk nama aplikasi duplikasi. Aplikasi Instagram dan Video Editor pada `google_store_duplication_cleaned` telah menjadi sebagai berikut.

In [15]:
for key,value in sorted(google_store_duplication_cleaned.items()):
    if key.split("-")[0] == 'Instagram' or key.split("-")[0] == 'Video Editor':
        print(key, "<->", value, "\n")

Instagram-July 31, 2018 <-> ['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

Video Editor-July 17, 2018 <-> ['Video Editor', 'VIDEO_PLAYERS', '4.1', '159622', '23M', '5,000,000+', 'Free', '0', 'Everyone', 'Video Players & Editors;Creativity', 'July 17, 2018', '6.14.091', '4.3 and up'] 

Video Editor-October 20, 2015 <-> ['Video Editor', 'VIDEO_PLAYERS', '3.8', '1156', '23M', '100,000+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'October 20, 2015', '1.3.9b', '4.3 and up'] 



* Aplikasi Instagram tersisa satu dengan jumlah review 66577446
* Video Editor menjadi 2 data yaitu dengan tanggal update July 17, 2018 dan October 20, 2015
* Aplikasi Video Editor tanggal update July 17, 2018 memiliki jumlah review 159622 (diambil nilai terbesar)

Maka dari sampel data duplikasi bersih yang terbentuk, kita dapat menggabungkannya ke list google_store_clean dengan cara berikut.

In [16]:
google_store_clean = google_store_clean + list(google_store_duplication_cleaned.values())

## Data Cleaning - Bagian 2
Hingga tahapan _data cleaning_ pertama, data yang berhasil dihimpun pada masing-masing dataset adalah sebagai berikut.

In [17]:
print("App Store:", len(app_store_clean))
print("Google Play:", len(google_store_clean))

App Store: 7197
Google Play: 9703


Proses _data cleaning_ selanjutnya dilakukan terhadap aplikasi non-english. Hal ini dilakukan untuk memperluas _scope_ analisa nantinya dan tidak terfokus pada bahasa regional. 

Jika kita amati dataset saat ini secara lebih jauh, terdapat beberapa aplikasi berbahasa asing dengan contoh sebagai berikut.

In [18]:
print(app_store_clean[813][1])
print(app_store_clean[4486][1])

爱奇艺PPS -《欢乐颂2》电视剧热播
AlloCiné : Cinéma et Séries


In [19]:
print(google_store_clean[4528][0])
print(google_store_clean[4600][0])

뽕티비 - 개인방송, 인터넷방송, BJ방송
BL 女性向け恋愛ゲーム◆俺プリクロス


Mekanisme penghapusan data dapat dilakukan dengan basis karakter selain alfanumerik serta beberapa tanda baca seperti `,` `!` `?` dan simbol `+` `*` `/`.

Relasi karakter dan representasi angkanya yang sering digunakan pada text berbahasa Inggris yakni memiliki rentang dari 0 hinga 127 menurut sistem [ASCII](https://en.wikipedia.org/wiki/ASCII) (American Standard Code for Information Interchange).

Kita dapat memanfaatkan Python built-in function `ord()` untuk mendapatkan nilai berupa angka dari setiap karakter.

In [20]:
print(ord('!'))
print(ord('e'))
print(ord('é'))
print(ord('爱'))

33
101
233
29233


Proses seleksi karakter 'non-English' akan menggunakan fungsi sebagai berikut yang akan menghasilkan list baru dan didalamnya terdapat __paling sedikit satu karakter__ dengan nilai ASCII lebih dari __127__

In [21]:
def find_non_english(list_of_data, index_name):
    non_english = []
    for i, app in enumerate(list_of_data):
        name = app[index_name]
        for c in name:
            if ord(c) > 127:
                non_english.append(name)
                break;
    return non_english

app_store_non_english = find_non_english(app_store_clean, 1)
google_store_non_english = find_non_english(google_store_clean, 0)

print("App Store non-English:", len(app_store_non_english))
print(app_store_non_english[:5])
print("\nGoogle Play non-English:", len(google_store_non_english))
print(google_store_non_english[:5])

App Store non-English: 1490
['Google – Search made just for mobile', 'The Sims™ FreePlay', '8 Ball Pool™', 'Lose It! – Weight Loss Program and Calorie Counter', '▻Sudoku']

Google Play non-English: 545
['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'CarMax – Cars for Sale: Search Used Car Inventory', 'AutoScout24 Switzerland – Find your new car', 'Zona Azul Digital Fácil SP CET - OFFICIAL São Paulo', 'ReadEra – free ebook reader']


Pada summary di atas kita dapatkan list dengan jumlah lebih dari 2000 aplikasi 'non-English'. Namun jika diamati, terdapat aplikasi yang menggunakan `™` dan tanda baca `-` meskipun keduanya telah menggunakan Bahasa Inggris.

In [22]:
print(ord('™'))
print(ord('–'))

8482
8211


Mekanisme seleksi ini perlu diperbaiki untuk mencegah kesalahan penghapusan dan kehilangan banyak data. Oleh karena itu, perlu adanya perbaikan pada fungsi sebelumnya. Kita tambahkan preferensi __tidak lebih dari tiga karakter__ di luar range ASCII 0 - 127

In [23]:
def find_non_english(list_of_data, index_name):
    non_english = []
    for i, app in enumerate(list_of_data):
        name = app[index_name]
        n_chars = 0
        for c in name:
            if ord(c) > 127:
                n_chars += 1
                
        if n_chars > 3:
            non_english.append(name)
    return non_english

app_store_non_english = find_non_english(app_store_clean, 1)
google_store_non_english = find_non_english(google_store_clean, 0)

print("App Store non-English:", len(app_store_non_english))
print(app_store_non_english[:5])
print("\nGoogle Play non-English:", len(google_store_non_english))
print(google_store_non_english[:5])

App Store non-English: 1014
['爱奇艺PPS -《欢乐颂2》电视剧热播', '聚力视频HD-人民的名义,跨界歌王全网热播', '优酷视频', '网易新闻 - 精选好内容，算出你的兴趣', '淘宝 - 随时随地，想淘就淘']

Google Play non-English: 45
['Flame - درب عقلك يوميا', 'သိင်္ Astrology - Min Thein Kha BayDin', 'РИА Новости', 'صور حرف H', 'L.POINT - 엘포인트 [ 포인트, 멤버십, 적립, 사용, 모바일 카드, 쿠폰, 롯데]']


Fungsi memang tidak sempurna dan masih ada kemungkinan aplikasi non-English lolos dalam seleksi. Namun jika dibandingkan dengan metode sebelumnya, sudah terlihat perbedaan yang signifikan.

Pada fungsi di bawah ini kita akan menerapkan filter non-English untuk kedua dataset.

In [24]:
app_store_english = []
for app in app_store_clean:
    app_name = app[1]
    if app_name not in app_store_non_english:
        app_store_english.append(app)
        
google_store_english = []
for app in google_store_clean:
    app_name = app[0]
    if app_name not in google_store_non_english:
        google_store_english.append(app)

## Data Cleaning - Bagian 3
Hingga tahapan _data cleaning_ kedua, data yang berhasil dihimpun pada masing-masing dataset adalah sebagai berikut.

In [25]:
print("App Store:", len(app_store_english))
print("Google Play:", len(google_store_english))

App Store: 6183
Google Play: 9658


Sesuai dengan pembahasan pembuka, kriteria aplikasi yang dibutuhkan untuk analisa ini adalah yang bertipe gratis. Filter aplikasi gratis ini akan menjadi tahapan _data cleaning_ terakhir. 

In [36]:
app_store_price = []

for app in app_store_english:
    app_price = app[4]
    if app_price not in app_store_price:
        app_store_price.append(app_price)
        
print(sorted(app_store_price))

['0.0', '0.99', '1.99', '11.99', '12.99', '13.99', '14.99', '15.99', '16.99', '17.99', '18.99', '19.99', '2.99', '20.99', '21.99', '22.99', '24.99', '249.99', '27.99', '29.99', '299.99', '3.99', '34.99', '39.99', '4.99', '49.99', '5.99', '59.99', '6.99', '7.99', '74.99', '8.99', '9.99', '99.99']


In [38]:
google_store_price = []

for app in google_store_english:
    app_price = app[7]
    if app_price not in google_store_price:
        google_store_price.append(app_price)
        
print(sorted(google_store_price))

['$0.99', '$1.00', '$1.04', '$1.20', '$1.26', '$1.29', '$1.49', '$1.50', '$1.59', '$1.61', '$1.70', '$1.75', '$1.76', '$1.96', '$1.97', '$1.99', '$10.00', '$10.99', '$109.99', '$11.99', '$12.99', '$13.99', '$14.00', '$14.99', '$15.46', '$15.99', '$154.99', '$16.99', '$17.99', '$18.99', '$19.40', '$19.90', '$19.99', '$2.00', '$2.49', '$2.50', '$2.56', '$2.59', '$2.60', '$2.90', '$2.95', '$2.99', '$200.00', '$24.99', '$25.99', '$28.99', '$29.99', '$299.99', '$3.02', '$3.04', '$3.08', '$3.28', '$3.49', '$3.61', '$3.88', '$3.90', '$3.95', '$3.99', '$30.99', '$33.99', '$37.99', '$379.99', '$389.99', '$39.99', '$394.99', '$399.99', '$4.29', '$4.49', '$4.59', '$4.60', '$4.77', '$4.80', '$4.84', '$4.85', '$4.99', '$400.00', '$46.99', '$5.00', '$5.49', '$5.99', '$6.49', '$6.99', '$7.49', '$7.99', '$74.99', '$79.99', '$8.49', '$8.99', '$89.99', '$9.00', '$9.99', '0']


Melalui seleksi dan sorting harga aplikasi di atas, dapat kita ketahui bahwa:
* Aplikasi gratis di App Store memiliki harga `'0.0'`
* Aplikasi gratis di Google Play Store memiliki harga `'0'`

Dengan informasi ini, kita akan membuat dataset aplikasi gratis sebagai berikut.

In [39]:
app_store_free = []

for app in app_store_english:
    if app[4] == '0.0':
        app_store_free.append(app)
        
google_store_free = []

for app in google_store_english:
    if app[7] == '0':
        google_store_free.append(app)
        
print("App Store Free:", len(app_store_free))
print("Google Play Free:", len(google_store_free))

App Store Free: 3222
Google Play Free: 8906


Hingga tahapan _data cleaning_ terakhir, tersisa __3222__ aplikasi iOS dan __8906__ aplikasi Android.