# Profitable App Profiles for the Apple App Store and Google Play Markets

Proyek ini bertujuan untuk mencari profil aplikasi mobile dengan tingkat _engagement user_ tinggi di platform App Store dan Google Play. Hasil akhir dari analisa berbasiskan data ini diharapkan dapat membantu _developer_ dalam memilih jenis aplikasi yang akan dibangun dan memiliki potensi profit yang baik.

Kategori aplikasi yang dianalisa adalah berjenis gratis. Potensi _income_ yang didapat hanya bersumber dari iklan yang ditampilan dalam aplikasi. Oleh karena itu, jumlah user yang mengunduh serta engagement terhadap iklan merupakan hal krusial.

### Data Collection

Tercatat pada bulan September 2018, terdapat setidaknya __2 juta aplikasi iOS__ tersedia di App Store dan __2,1 juta aplikasi Android__ di Google Play.

Proses analisa terhadap jumlah data dengan skala besar seperti itu pasti membutuhkan resource yang tidak kecil. Oleh karena itu, proyek ini akan memanfaatkan sebuah sampel sebagai berikut:

* [Dataset sampel](https://www.kaggle.com/lava18/google-play-store-apps) sebanyak __tujuh ribuan__ aplikasi iOS di Apple App Store.
* [Dataset sampel](https://www.kaggle.com/lava18/google-play-store-apps) sebanyak __sepuluh ribuan__ aplikasi Android di Google Play Store.

Langkah awal yakni membuka file data set dan mengubahnya ke dalam bentuk list dengan fungsi `import_data` berikut:

In [1]:
from csv import reader

# fungsi untuk import data set #
def import_data(path_file):
    # cetak nama path file #
    print("Nama file:", path_file)
    open_file = open(path_file, encoding='utf8')
    read_file = reader(open_file)
    list_data = list(read_file)
    return list_data[0], list_data[1:]

Setelah fungsi untuk mendapatkan list tersedia maka langkah selanjutnya adalah ekplorasi data melalui fungsi `explore_data` berikut ini.

In [2]:
def explore_data(app_list, start, end):
    print("Jumlah kolom:", len(app_list[0]))
    print("Total baris:", len(app_list))
    # cetak #
    for s in app_list[start:end]:
        print(s,"\n")

Parameter pada fungsi di atas antara lain `app_list`, `start` dan `end` untuk index data yang ingin dilihat.

Jika dijalankan maka akan mencetak keterangan sebagai berikut:
 * jumlah kolom
 * jumlah baris
 * baris data sampel

### App Store Data Exploration
Setelah membuat fungsi import file dan eksploras, maka saatnya memulai ekplorasi. 

In [3]:
apple_store_header, apple_store_data = import_data('AppleStore.csv')
print("\nHeader:")
print(apple_store_header, "\n")
explore_data(apple_store_data, 0, 3)

Nama file: AppleStore.csv

Header:
['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic'] 

Jumlah kolom: 16
Total baris: 7197
['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1'] 

['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1'] 

['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1'] 



### Google Play Store Data Exploration
Hal yang sama kita terapkan untuk dataset Google Play Store:

In [4]:
google_play_store_header, google_play_store_data = import_data('GooglePlayStore.csv')
print("\nHeader:")
print(google_play_store_header, "\n")
explore_data(google_play_store_data, 0, 3)

Nama file: GooglePlayStore.csv

Header:
['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver'] 

Jumlah kolom: 13
Total baris: 10841
['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up'] 

['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up'] 

['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up'] 



## Exploration Overview

Dari eksplorasi singkat di atas, didapatkan informasi sebagai berikut

App Store:
* Dimensi kolom x baris = 7197 x 16
* Fokus analisis pada kolom `id`, `track_name`, `currency`, `price`, `rating_count_tot`, `rating_count_ver`, `prime_genre`

Play Store:
* Dimensi kolom x baris = 10841 x 13
* Fokus analisis pada kolom `App`, `Category`, `Rating`, `Reviews`, `Installs`, `Price`, `Genres`

## Data Cleaning
Setelah melihat data secara garis besar, tahapan selanjutnya sebelum memulai analisa adalah membersihkan data. Proses _data cleaning_ diperlukan untuk menghasilkan analisis yang akurat yaitu dengan cara membuang data yang tidak sesuai, data duplikasi hingga memodifikasi data sedemikian rupa untuk menunjang analisa (misalnya null parameter).

### Penghapusan Anomali

Dari sumber dataset Google Play store terdapat [diskusi mengenai anomali](https://www.kaggle.com/lava18/google-play-store-apps/discussion/66015) pada baris 10472. Berikut detail lengkap jika dibandingkan dengan data normal.

In [5]:
print(google_play_store_data[10472],"\n")
print(google_play_store_header,"\n")
print(google_play_store_data[0],"\n")

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up'] 

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver'] 

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up'] 



In [6]:
print("Google Play Store missing value:")
for i, app in enumerate(google_play_store_data):
    if len(app) != 13:
        print(i, "| n kolom:", len(app))

Google Play Store missing value:
10472 | n kolom: 12


__Terdapat missing value di kolom 'Category' yang menyebabkan data bergeser. Solusi saat ini yaitu penghapusan data.__

In [7]:
del(google_play_store_data[10472])
print(len(google_play_store_data))

10840


__Pengecekan yang sama kita lakukan terhadap dataset App Store dan tidak ditemukan anomali.__

In [8]:
print("App Store missing value:")
for i, app in enumerate(apple_store_data):
    if len(app) != 16:
        print(i, "| kolom:", len(app))

App Store missing value:


## Penghapusan Duplikasi

Pada dokumentasi dataset yang telah disertakan, terdapat beberapa diskusi yang menyatakan adanya duplikasi data. Untuk menunjang keakuratan hasil analisa diperlukan penghapusan data-data tidak akurat dengan langkah sebagai berikut:

1. memisahkan antara data unik dan duplikat
2. memeriksa perbedaan nilai/atribut antar data duplikat
3. menentukan kriteria data yang akan dihapus

### Bagian 1 - Pemisahan unik dan duplikasi
Pemisahan nilai akan terfokus pada atribut nama aplikasi. Untuk mengetahui jumlah duplikasi di kedua dataset, kita gunakan fungsi sebagai berikut untuk tujuan efisiensi.

In [9]:
def selecting_duplicates(list_of_data, index_name):
    app_unique = []
    app_duplicate = []
    
    for app in list_of_data:
        app_name = app[index_name]
        
        if app_name not in app_unique:
            app_unique.append(app_name)
        else:
            app_duplicate.append(app_name)
    
    return app_unique, app_duplicate

In [10]:
app_store_unique, app_store_duplicate = selecting_duplicates(apple_store_data, 1)
google_play_unique, google_play_duplicate = selecting_duplicates(google_play_store_data, 0)

print("App Store unique: ", len(app_store_unique))
print("App Store duplicate: ", len(app_store_duplicate))
print("------------------------------------")
print("Google Play Store unique: ", len(google_play_unique))
print("Google Play duplicate: ", len(google_play_duplicate))

App Store unique:  7195
App Store duplicate:  2
------------------------------------
Google Play Store unique:  9659
Google Play duplicate:  1181


Secara garis besar telah kita ketahui jumlah duplikasinya. Pengamatan selanjutnya dilakukan dengan mengambil contoh dari dokumentasi dataset Google Play Store. Disebutkan ada 4 duplikasi aplikasi bernama Instagram dengan detail sebagai berikut.

In [11]:
for app in google_play_store_data:
    if app[0] == 'Instagram':
        print(app,"\n")

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device'] 

