# App store data market analysis

Abbiamo sti due csv, uno da Apple store e uno da Play store, vediamo cosa c'è dentro.

Apriamo e salviamo i csv in due liste

In [1]:
from csv import reader

ios_apps_data = list(reader(open('./AppleStore.csv')))
android_apps_data = list(reader(open('./googleplaystore.csv')))


Passiamo ora alla pulitura dei dati

### Eliminazione dati incompleti

In [2]:
android_header = android_apps_data[0];
ios_header = ios_apps_data[0];

length_android_header = len(android_header)
length_ios_header = len(ios_header)

android_apps_data = android_apps_data[1:]
ios_apps_data = ios_apps_data[1:]

index = 0
for row in android_apps_data:
    if len(row) < length_android_header:
        del android_apps_data[index]
    else:
        index += 1
        
print(len(android_apps_data))
        
index = 0
for row in ios_apps_data:
    if len(row) < length_ios_header:
        del ios_apps_data[index]
    else:
        index += 1


10840


#### Tables Header

| Index | Android        | iOS              |
|:-----:|:--------------:|:-----------------:
|0      | App            | id               |
|1      | Category       | track_name       |
|2      | Rating         | size_bytes       |
|3      | Reviews        | currency         |
|4      | Size           | price            |
|5      | Installs       | rating_count_tot |
|6      | Type           | rating_count_ver |
|7      | Price          | user_rating      |
|8      | Content Rating | user_rating_ver  |
|9      | Genres         | ver              |
|10     | Last Updated   | cont_rating      |
|11     | Current Ver    | prime_genre      |
|12     | Android Ver    | sup_devices.num  |
|13     | -              | ipadSc_urls.num  |
|14     | -              | lang.num         |
|15     | -              | vpp_lic          |

### Recupero dati duplicati

Questa funzione salva in un dictionary le frequenze assolute di ogni applicazione duplicata.
In ingresso prende il data set e l'indice della colonna usata per determinare i duplicati

In [3]:
def get_app_freq(apps_data, key_index = 0):
    duplicates_dict = {}
    unique_dict = {}

    for row in apps_data[1:]:
        dict_key = row[key_index]
        if (dict_key not in duplicates_dict):
            duplicates_dict[dict_key] = []
        duplicates_dict[dict_key].append(row)
    return duplicates_dict

Questa invece salva le frequenze solo se effettivamente duplicate, quindi se una certa app viene vista 2 o più volte

In [4]:
def get_duplicates(apps_data, key_index = 0):
    duplicates_dict = {}
    unique_dict = {}

    for row in apps_data[1:]:
        dict_key = row[key_index]
        if (dict_key in unique_dict):
            if (dict_key not in duplicates_dict):
                duplicates_dict[dict_key] = [unique_dict[dict_key]]
            duplicates_dict[dict_key].append(row)
        else:
            unique_dict[dict_key] = row
    return duplicates_dict

salvo le frequenze recuperate

In [5]:
duplicates_freq_ios = get_app_freq(ios_apps_data, 1)
duplicates_freq_android = get_app_freq(android_apps_data)

Questa invece permette di stampare le frequenze recuperate con la funzione precedente

In [6]:
def show_duplicates(duplicates_dict, info_key = 3, info_string = 'Info'):
    for key in duplicates_dict:
        duplicate = duplicates_dict[key]
        n_apps = len(duplicate)
        info_str = ''
        for app in duplicate:
            info_str += '\t' + app[info_key]

        print(key + '\n' + info_string + info_str + '\n')
        

### Eliminazione duplicati

Per la rimozione dei duplicati si utilizzerà la strategia di confrontare il numero di review, chi ne ha di più rimane. La seguente funzione prende in ingresso i dati da ripulire e la colonna da utilizzare per confrontare i duplicati

In [7]:
def remove_duplicates(apps_freq, column = 3):
    data_clean = []
    for key in apps_freq:
        duplicate_freq = apps_freq[key]
        # se duplicati confrontare la colonna in column
        if len(duplicate_freq) > 1:
            duplicate_freq.sort(key = lambda duplicate_freq: duplicate_freq[column], reverse = True)
        data_clean.append(duplicate_freq[0])
            
    return data_clean
            
android_clean = remove_duplicates(duplicates_freq_android)
ios_clean = remove_duplicates(duplicates_freq_ios, 5)


### Eliminazione data set in cui il nome app contiene caratteri non latini

La strategia è quella di elminare le app nel cui nome appaiono più di 3 volte caratteri considerati non latini (quindi no kanji, emoji, rune naniche...). Da perfezionare ovviamente

In [8]:
def remove_strange_name(apps_data, character_range, column = 0):
    
    cleaned = []
    
    for row in apps_data:
        
        name = row[column]
        
        char_count = 0
        is_addable = True
        
        for char in name:
            if (ord(char) not in character_range):
                char_count += 1
                if char_count > 3:
                    is_addable = False
                    
        if (is_addable):
            cleaned.append(row)
            
    return cleaned

android_no_strange_name = remove_strange_name(android_clean, range(0,127))
ios_no_strange_name = remove_strange_name(ios_clean, range(0,127), 1)



### Isolamento app free

In [9]:
def get_free_app(apps_data, column = 7):
    free_apps = []
    index = 0
    for row in apps_data:
        price = 0
        index += 1
        if ('$' in row[column]):
            price = float(row[column][1:])
        else:
            price = float(row[column])
            
        if price == 0:
            free_apps.append(row)
    return free_apps

android_free = get_free_app(android_no_strange_name)
ios_free = get_free_app(ios_no_strange_name, 4)


#### Validation strategy
To minimize risks and overhead, our validation strategy for an app idea is comprised of three steps:

Build a minimal Android version of the app, and add it to Google Play.
If the app has a good response from users, we develop it further.
If the app is profitable after six months, we build an iOS version of the app and add it to the App Store.
Because our end goal is to add the app on both Google Play and the App Store, we need to find app profiles that are successful on both markets. For instance, a profile that works well for both markets might be a productivity app that makes use of gamification.

Let's begin the analysis by getting a sense of what are the most common genres for each market. For this, we'll need to build frequency tables for a few columns in our data sets.

In [154]:
import math

def freq_table(dataset, column):
    freq_dict = {}
    for row in dataset:
        label = row[column]
        if label in freq_dict:
            freq_dict[label] += 1
        else:
            freq_dict[label] = 1
    return freq_dict

def set_tab(collection, tab_n, index):
    
    max_str_length_arr = [];
    max_tab_arr = []
    
    # con ua lambda si determina se è un dizionario, in quel caso si usa quella in posizione 0
    get_item = (lambda key: [key] + collection[key], lambda item: item);
    getter = get_item[0] if (isinstance(collection, dict)) else get_item[1]
    
    # trovo la lunghezza massima tra le stringhe nella collezione di dati passata
    for item in collection:
        item = getter(item)
        print(item)
        i = 0
        for entry in item:
            current_len = len(str(entry))
            if (i > (len(max_str_length_arr)-1)):
                max_str_length_arr.append(0)
            if (current_len > max_str_length_arr[i]):
                max_str_length_arr[i] = current_len
            i += 1
    
    # numero di tab mecessari a comprendere le stringhe massima trovate nel ciclo prima
    for length in max_str_length_arr:
        max_tab_arr.append(math.ceil(length/tab_n))
        
    # si copletano la stringhe con il numero giusto di tab
    string_arr_augmented = []
    
    for item in collection:
        item = getter(item)
        tabbed_arr = [item]
        i = 0
        for entry in item:
            
            # numero di tab mecessari per singola parola
            curr_tab = math.floor(len(str(entry))/tab_n)
            print(entry, len(str(entry)), max_tab_arr[i], curr_tab)
            # calcolo differenza con la parola maggiore per aggiungere i tab che restano
            tabbed_arr.append(str(entry) + '\t'*(max_tab_arr[i]-curr_tab))
            
            i += 1
        string_arr_augmented.append(tabbed_arr)
        print('#############')
        
    return string_arr_augmented
            
    

def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        tuple_from_table = (key, table[key])
        table_display.append(tuple_from_table)
        
    table_display.sort(key = lambda table_display: table_display[1], reverse = True)
    tabbed_table = set_tab(table_display, 8, 0);
    
    for entry in tabbed_table:
        print(entry[1], entry[2])
        
def display_dict(dictonary, header = [], index = -1):
    
    tabbed_table = set_tab(dictonary, 8, 0);
    
    for entry in tabbed_table:
        print(entry[1], entry[2], entry[3])
    
        
# display_table(android_clean, 1)
# display_table(ios_clean, 11)

In [161]:
freq_prime_genres = freq_table(ios_clean, 11)

freq_genres_installation = {}

for row in ios_clean:
    genre = row[11]
    rating_count_tot = int(row[5])
    if genre in freq_genres_installation:
        freq_genres_installation[genre][0] += rating_count_tot
    else:
        freq_genres_installation[genre] = [rating_count_tot, freq_prime_genres[genre]]
        
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.random(200).reshape(2, 100))
df


[[1, 2, 3], [1, 2, 3], [1, 2, 3]]