# **Tipos de *apps* com maiores probabilidades de lucro na Google Play e na App Store**

A CVTech é uma *startup* fícticia de desenvolvimento de aplicativos *mobile*. Para maior embasamento na escolha do aplicativo inaugural da CVTech, os gestores desejam que seja feita uma pesquisa das aplicações mais lucrativas na Google Play e App Store, plataformas que desejam utilizar para disponibilização de seu produto, que segundo informado, será gratuito e em inglês, sendo a fonte de lucros os anúncios dentro do próprio aplicativo. 

Este projeto foi feito para nortear a escolha do tipo de aplicativo a ser desenvolvido de forma a maximizar a segurança do investimento. 

Pelo produto ser gratuito, a variável determinante para a lucratividade do aplicativo é o número de usuários do mesmo, pois quanto mais pessoas usando-o, mais atraente o aplicativo é para anunciantes. Desta forma, o objetivo específico deste projeto é responder à pergunta: qual tipo de aplicativo *mobile* é mais provável que atraia usuários?



## **Encontrando, abrindo e explorando os *data sets***

Coletar dados de milhões de aplicativos requer muito tempo e dinheiro, e para evitar esse investimento, procuramos dados relevantes sem custos. Felizmente, foram encontrados dois *data sets* que são adequados para este projeto.

- O [primeiro *data set*](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps "App Store Apps") possui dados de mais de 7200 aplicativos da App Store;
- O [segundo *data set*](https://www.kaggle.com/lava18/google-play-store-apps "Google Play Apps") possui dados de mais de 10.000 aplicativos da Google Play.

Começamos com a definição da função `explore_data`, criada para facilitar a visualização de *data sets*, e em seguida, abrimos, lemos e exploramos os *data sets*, para maior familiarização.



In [42]:
# Definição da função explore_data

def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n')

    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

In [43]:
# Abrindo e lendo os data sets

from csv import reader

# Abrindo, lendo e preparando o dataset de apps da App Store
opened_file = open('AppleStore.csv', encoding="utf8")
read_file = reader(opened_file)
ios_total = list(read_file)
ios_header = ios_total[0]
ios = ios_total[1:]

# Abrindo, lendo e preparando o dataset de apps da Google Play
opened_file = open('googleplaystore.csv', encoding="utf8")
read_file = reader(opened_file)
android_total = list(read_file)
android_header = android_total[0]
android = android_total[1:]


In [44]:
# Explorando inicialmente os data sets

print ('\n Primeiras 5 linhas da App Store \n')
explore_data(ios, 0, 5, rows_and_columns=True)
print ('\n Primeiras 5 linhas da Google Play \n')
explore_data(android, 0, 5, rows_and_columns=True)


 Primeiras 5 linhas da App Store 

['1', '281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['2', '281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['3', '281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188583', '2822', '3.5', '4.5', '5.0.0', '4+', 'Weather', '37', '5', '3', '1']


['4', '282614216', 'eBay: Best App to Buy, Sell, Save! Online Shopping', '128512000', 'USD', '0', '262241', '649', '4', '4.5', '5.10.0', '12+', 'Shopping', '37', '5', '9', '1']


['5', '282935706', 'Bible', '92774400', 'USD', '0', '985920', '5320', '4.5', '5', '7.5.1', '4+', 'Reference', '37', '5', '45', '1']


Number of rows: 7197
Number of columns: 17

 Primeiras 5 linhas da Google Play 

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000

In [45]:
# Imprimindo os cabeçalhos dos data sets

print('\n Cabeçalho da App Store \n')
print(ios_header)
print('\n Cabeçalho da Google Play \n')
print(android_header)


 Cabeçalho da App Store 

['', 'id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']

 Cabeçalho da Google Play 

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


## Limpeza de Dados (Data Cleaning)

Antes de começar a trabalhar diretamente com a interpretação dos dados, é necessário preparar os nossos *data sets* para isso.

### Retirada de linha preenchida incorretamente

Primeiramente, foi feita uma pesquisa acerca do que outros usuários do Kaggle discutiram sobre os dois *data sets* adquiridos. Notou-se que a entrada número 10472 do data set do Google Play está errada, havendo um deslocamento de coluna. Abaixo, confirma-se o erro.

In [46]:
# Checando o erro.
print(android[10471])
print(android[10472])
print(android_total[10473])


['Xposed Wi-Fi-Pwd', 'PERSONALIZATION', '3.5', '1042', '404k', '100,000+', 'Free', '0', 'Everyone', 'Personalization', 'August 5, 2014', '3.0.0', '4.0.3 and up']
['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']
['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


Podemos notar que a linha referente ao aplicativo 'Life Made WI-Fi Touchscreen Photo Frame' não está preenchida corretamente, havendo um deslocamento de coluna devido ao não preenchimento da aba Category. Desta forma, essas linhas foram deletadas dos *data sets* correspondentes.

In [47]:
del android[10472]
del android_total[10473]

### Remoção de redundâncias

Retirada a linha não preenchida corretamente, devemos fazer outro tratamento básico nos *data sets*, que é a remoção de redundâncias. Levando em consideração que cada linha dos *data sets* equivale a um aplicativo, se houver quaisquer repetições, devemos eliminá-las, para não comprometer as posteriores conclusões. Para tal, primeiramente devemos identificar essas repetições.

In [48]:
android_apps = []
android_repeated_rows = []
android_repeated_apps = []
row_android = 0

for app in android:
    name = app[0]
    if name in android_apps:
        android_repeated_rows.append(row_android)
        android_repeated_apps.append(name)
    else:
        android_apps.append(name)
    row_android += 1
        
print('Número de apps totais avaliados na Google Play:', len(android_apps))
print('Número de linhas repetidas no data set da Google Play, ou seja, número de repetições:', len(android_repeated_rows))

ios_apps = []
ios_repeated_rows = []
ios_repeated_apps = []
row_ios = 0

for app in ios:
    name = app[2]
    if name in ios_apps:
        ios_repeated_rows.append(row_ios)
        ios_repeated_apps.append(name)
    else:
        ios_apps.append(name)
    row_ios += 1
        
print('Número de apps totais avaliados na App Store:', len(ios_apps))
print('Número de linhas repetidas no data set da App Store, ou seja, número de repetições:', len(ios_repeated_rows))
    

Número de apps totais avaliados na Google Play: 9659
Número de linhas repetidas no data set da Google Play, ou seja, número de repetições: 1181
Número de apps totais avaliados na App Store: 7195
Número de linhas repetidas no data set da App Store, ou seja, número de repetições: 2


Para a retirada de linhas de aplicativos repetidos, é válida a pergunta: qual linha retirar?
Ao analisar as linhas repetidas, nota-se que outras colunas diferentes do nome mudam, significando dados diferentes para um mesmo aplicativo. Com isso, é mais razoável manter as linhas com os dados mais atuais do aplicativo em questão. Podemos saber qual é esta analisando a coluna de total de *downloads*, o que significa uma coleta de dados mais próxima do atual.

Desta forma, o próximo pedaço de código avalia qual é a linha com dados mais atuais dentre as repetidas e exclui as outras.

In [49]:
reviews_max_android = {}
reviews_max_ios = {}

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    if (name in reviews_max_android and reviews_max_android[name] < n_reviews) or (name not in reviews_max_android):
        reviews_max_android[name] = n_reviews
        
for app in ios:
    name = app[2]
    n_reviews = float(app[6])
    if (name in reviews_max_ios and reviews_max_ios[name] < n_reviews) or (name not in reviews_max_ios):
        reviews_max_ios[name] = n_reviews
    
    


Desta forma, criamos um dicionário com as *keys* sendo os nomes dos *apps* que compõem o *data set* e 
os *values* sendo o número máximo de avaliações no *data set* original.

Agora devemos eliminar do *data set* original as linhas que possuem *apps* repetidos e que não sejam a linha
com maior número de *reviews*.



In [50]:
android_clean = []
android_names = []
for app in android:
    name = app[0]
    n_reviews = float(app[3])
    if (n_reviews == reviews_max_android[name]) and (name not in android_names):
        android_clean.append(app)
        android_names.append(name)
        

ios_clean = []
ios_names = []
for app in ios:
    name = app[2]
    n_reviews = float(app[6])
    if (n_reviews == reviews_max_ios[name]) and (name not in ios_names):
        ios_clean.append(app)
        ios_names.append(name)
        
print(len(android_clean))
print(len(android_names))
print(len(ios_clean))
print(len(ios_names))

9659
9659
7195
7195


### Retirando *apps* que não sejam em inglês

A CVTech é uma *startup* voltada para o público falante de inglês e, com isso, é necessário retirar os *apps* que não sejam em inglês de nossos *data sets*. Uma maneira eficaz, porém não perfeita, para tal é eliminar de nossas listas todos os aplicativos que possuem caracteres não usuais na língua inglesa.

Para isso, definimos a função `is_english`, que dada uma *string*, retorna se a mesma é em inglês ou não a partir de análise de seus caracteres. Se a *string* possuir mais de 3 caracteres não usuais da língua inglesa, retorna-se falso. Caso contrário, retorna-se verdadeiro.

O motivo para a adoção do número 3 de caracteres é para evitar a exclusão de *apps* em inglês, mas que possuam caracteres considerados não usuais no inglês, como ™ e ®.

In [51]:
def is_english(string, num_of_char):
    non_ascii = 0
    for char in string:
        char_code = ord(char)
        if char_code > 127:
            non_ascii += 1
    if non_ascii > num_of_char:
        return False
    else:
        return True
    
    
android_english = []
ios_english = []

for app in android_clean:
    name = app[0]
    if is_english(name, 3):
        android_english.append(app)
        
for app in ios_clean:
    name = app[2]
    if is_english(name, 3):
        ios_english.append(app)
        
explore_data(android_english, 0, 3, True)
print('\n')
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9614
Number of columns: 13


['1', '281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['2', '281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['3', '281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188

Desta forma, temos dois arquivos limpos, chamados de `android_english` e `ios_english`, com dados de *apps*
apenas em inglês e sem redundâncias.

Agora, iremos criar os *data sets* definitivos para a análise extraindo apenas os *apps* gratuitos, visto que nossa *startup*
tem o foco neste tipo de aplicativo.

Para tal, seguimos o procedimento de adicionar às novas listas `android_final` e `ios_final` apenas as linhas de aplicativos gratuitos.

In [52]:
android_final = []
ios_final = []

for app in android_english:
    # preço na coluna 7
    if app[7] == '0':
        android_final.append(app)
        
    
for app in ios_english:
    # preço na coluna 5
    if app[5] == '0':
        ios_final.append(app)

print(len(android_final), len(ios_final))

8864 3220


## Análise dos Dados

Feita a limpeza dos *data sets*, nosso próximo objetivo é analisar os dados, determinando os tipos de aplicativos mais rentáveis para ambas App Store e Google Play. Para isto, é necessário que os gêneros sejam rentáveis em ambas as plataformas.

A estratégia de validação a ser utilizada pela CVTech consiste em desenvolver uma versão mínima do app apenas para Google Play inicialmente. Tendo este *app* uma boa resposta dos usuários, serão implementadas melhorias para este, tornando-o um produto mais completo e, sendo o aplicativo rentável após seis meses, desenvolver-se-á a versão iOS deste *app*, subindo-o para a App Store.

### Gêneros com mais *apps*

Para auxiliar nesta análise, criou-se a função `freq_table`, que tem como parâmetros *data set*, *index* e *percentage*, este com argumento padrão o valor lógico **True**. A função retorna um dicionário de frequências de determinada coluna (*index*) do *data set*, sendo o dicionário retornado em porcentagem se mantido o argumento padrão, e em números absolutos se mudado o valor lógico para **False**.

Já a função `display_dict_decrescent` recebe um argumento do tipo dicionário e imprime a mesma em ordem decrescente.

In [53]:
def freq_table(dataset, index, percentage=True):
    total = 0
    table_absolutes = {}
    for row in dataset:
        total += 1
        data = row[index]
        if data in table_absolutes:
            table_absolutes[data] += 1
        else:
            table_absolutes[data] = 1       
    table_percentages = {}
    for key in table_absolutes:
        percentage = table_absolutes[key] / total * 100
        table_percentages[key] = percentage
    if percentage:
        return table_percentages
    else:
        return table_absolutes

def display_dict_decrescent(a_dict):
    table_display = []
    for key in a_dict:
        key_val_as_tuple = (a_dict[key], key)
        table_display.append(key_val_as_tuple)
    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

Ao analisar os cabeçalhos dos *data sets*, identificamos que as colunas a serem utilizadas para identificar os gêneros dos *apps* são:
- App Store: 12 - prime_genre
- Google Play: 1 - category e 9 - genres

Aplicando as funções nessas colunas, temos:

In [54]:
ios_freq = freq_table(ios_final, 12)
display_dict_decrescent(ios_freq)
print('\n\n')

android_freq1 = freq_table(android_final, 1)
display_dict_decrescent(android_freq1)
print('\n\n')

android_freq2 = freq_table(android_final, 9)
display_dict_decrescent(android_freq2)
print('\n\n')

Games : 58.13664596273293
Entertainment : 7.888198757763975
Photo & Video : 4.968944099378882
Education : 3.6645962732919255
Social Networking : 3.291925465838509
Shopping : 2.608695652173913
Utilities : 2.515527950310559
Sports : 2.142857142857143
Music : 2.049689440993789
Health & Fitness : 2.018633540372671
Productivity : 1.7391304347826086
Lifestyle : 1.5838509316770186
News : 1.3354037267080745
Travel : 1.2422360248447204
Finance : 1.1180124223602486
Weather : 0.8695652173913043
Food & Drink : 0.8074534161490683
Reference : 0.5590062111801243
Business : 0.5279503105590062
Book : 0.43478260869565216
Navigation : 0.18633540372670807
Medical : 0.18633540372670807
Catalogs : 0.12422360248447205



FAMILY : 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084

Vê-se que, na App Store, os aplicativos de Jogos dominam amplamente o mercado, com mais de 58% dos aplicativos 
grátis e em inglês. Também nota-se que aplicativos relacionados a utilidades, como as categorias *Utilities* e *Productivity*,
são bem menos frequentes que aplicativos relacionados a lazer e entretenimento, como *Entertainment*, *Photo & Video* e *Social
Networking*.

Já na coluna *Category* dos *apps* grátis e em inglês da Google Play, mais de 18% dos aplicativos são
categorizados como *Family*, o que, após breve pesquisa, concluiu-se abranger em sua maioria jogos para crianças.
Junto aos mais de 9% da segunda categoria mais frequente *Games*, vemos que o padrão da mais alta popularidade de jogos
visto na App Store se repete na Google Play, porém de maneira bem mais equilibrada. Nesta plataforma, em contrário àquela,
os aplicativos de produtividade são bem frequentes, representando mais de 8% na categoria *Tools* (terceira mais frequente), mais de 4% em *Business* e quase 4% em *Lifestyle*, por exemplo.

Analizando a coluna *Genres* dos *apps* grátis e em inglês da Google Play, nota-se que o primeiro colocado é a categoria
*Tools*, com quase 8,5%. Percebe-se que essa porcentagem é bem menos que a líder na categoria *Category*. Após maior análise,
nota-se que a coluna *Genres* tem bem mais categorias que a coluna *Category*, sub-dividindo as categorias em vários gêneros.

Analisando os dados adquiridos, tem-se como ideia inicial a elaboração de um jogo, dada sua grande popularidade na App Store
e que se repete, em menor escala, na Google Play.

### Gêneros mais populares

Uma outra informação que nos é útil é saber que gêneros são os mais populares dentre os observados. Para avaliar isto, devemos olhar a quantidade média de *downloads* por gênero, diferentemente do analisado anteriormente, que leva em consideração a quantidade de *apps* de determinado gênero face o total de cada plataforma.

No *data set* da Google Play, podemos observar a presença da coluna relativa a instalações, chamada de *Installs* (número 5). Já no *data set* da App Store, não existe coluna relativa a instalações, então utilizamos a coluna *rating_count_tot* (número 6), que mostra o total de avaliações de usuários do aplicativo.

Vale relembrar que estamos utilizando as colunas *prime_genre* (coluna 12) do *data set* da App Store e *Category* (coluna 1) do *data set* da Google Play.

Para desenvolver tal estudo, criaremos a função `category_sum`, que tem os parâmetros *dataset*, *index* e *variable*. Esta função, ao receber uma determinado *data set* no parâmetro quase homônimo, cria uma dicionário que tem como *key* as strings da coluna *index* do *data set* e, como *values*, a soma de seus valores na coluna *variable* convertidos para números *float*.

Outra função criada é a `category_avg`, que tem o funcionamento semelhante à supracitada, mas retorna em seus *values* a média dos valores.

In [55]:
def category_sum(dataset, index, variable):
    a_dict = {}
    for row in dataset:
        key = row[index]
        value = row[variable]
        value = value.replace('+','')
        value = float(value.replace(',',''))
        if key in a_dict:
            a_dict[key] += value
        else:
            a_dict[key] = value
    return a_dict
        
def category_avg(dataset, index, variable):
    a_dict = {}
    count_dict = {}
    for row in dataset:
        key = row[index]
        value = row[variable]
        value = value.replace('+','')
        value = float(value.replace(',',''))
        if key in a_dict:                    # tem que estar em count_dict também, mas como é impossível não estar dada
            count_dict[key] += 1             # a programação, não foi incluída esta condição.
            a_dict[key] = a_dict[key] + value
        else:
            count_dict[key] = 1
            a_dict[key] = value
    for key in a_dict:
        a_dict[key] /= count_dict[key]
    return a_dict
        

Notam-se nas funções a substituição dos caracteres '+' e ',' por uma string vazia ''. Isto é foi efetuado devido ao *data set* da Google Play ter um problema a ser resulvido. Visualizando a tabela de frequências da coluna *Installs* do *data set*, vemos que os termos possuem caracteres não numéricos, mais especificamente '+' e ','. Deste modo, a conversão para float para os cálculos nas funções `category_sum` e `category_avg` seriam impossibilitados sem este cuidado. Este fato é confirmado a seguir, utilizando a nova função `display_table`.

In [56]:
def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])
        
display_table(android_final, 5)

1,000,000+ : 15.726534296028879
100,000+ : 11.552346570397113
10,000,000+ : 10.548285198555957
10,000+ : 10.198555956678701
1,000+ : 8.393501805054152
100+ : 6.915613718411552
5,000,000+ : 6.825361010830325
500,000+ : 5.561823104693141
50,000+ : 4.7721119133574
5,000+ : 4.512635379061372
10+ : 3.5424187725631766
500+ : 3.2490974729241873
50,000,000+ : 2.3014440433213
100,000,000+ : 2.1322202166064983
50+ : 1.917870036101083
5+ : 0.78971119133574
1+ : 0.5076714801444043
500,000,000+ : 0.2707581227436823
1,000,000,000+ : 0.22563176895306858
0+ : 0.04512635379061372
0 : 0.01128158844765343


Vemos também que os dados não são exatos como na categoria *rating_count_tot* do *data set* da App Store, mas sim estimados. Como nosso propósito nesta análise não é saber exatamente o número de usuários de cada gênero de *app*, mas sim quais deles são os mais utilizados, podemos considerar, por exemplo, que 1,000,000+ de instalações é apenas 1.000.000 de instalações, e assim por diante. É notado que esta prática pode nos levar a conclusões falsas do que queremos, visto que um *app* com 100.000.000 seria contabilizado da mesma maneira que um de 499.000.000. Porém, como o limite superior do nosso espectro de análise, que é 1.000.000.000 de instalações, possui apenas aproximadamente 0,2% dos aplicativos, o nível dessa imprecisão é diminuido.

Ratificada a abordagem a ser efetuada, ela foi posta em prática. Utilizando a função `str.replace(old, new)`, podemos substituir uma string de caracteres por uma outra. Desta maneira, foi feita a substituição da string '+' e da string ',' por '', que é uma string vazia. Este procedimento é feito a seguir, criando uma função : 

Aplicando ambas as funções nos  *data sets* da App Store e da Google Play e imprimindo o resultado em ordem decrescente utilizando a função `display_dict_decrescent`, temos:


In [57]:
ios_category_sum = category_sum(ios_final, 12, 6)
print('Soma de quantidade de avaliações de usuários por gênero na App Store:')
display_dict_decrescent(ios_category_sum)
print('\n\n')

android_category_sum = category_sum(android_final, 1, 5)
print('Instalações por gênero na Google Play:')
display_dict_decrescent(android_category_sum)
print('\n\n')

ios_category_avg = category_avg(ios_final, 12, 6)
print('Média de quantidade de avaliações de usuários por aplicativo do gênero na App Store:')
display_dict_decrescent(ios_category_avg)
print('\n\n')

android_category_avg = category_avg(android_final, 1, 5)
print('Média de instalações por aplicativo do gênero na Google Play:')
display_dict_decrescent(android_category_avg)
print('\n\n')


Soma de quantidade de avaliações de usuários por gênero na App Store:
Games : 42705795.0
Social Networking : 7584125.0
Photo & Video : 4550647.0
Music : 3783551.0
Entertainment : 3563577.0
Shopping : 2261254.0
Sports : 1587614.0
Health & Fitness : 1514371.0
Utilities : 1513441.0
Weather : 1463837.0
Reference : 1348958.0
Productivity : 1177591.0
Finance : 1132846.0
Travel : 1129752.0
News : 913665.0
Food & Drink : 866682.0
Lifestyle : 840774.0
Education : 826470.0
Book : 556619.0
Navigation : 516542.0
Business : 127349.0
Catalogs : 16016.0
Medical : 3672.0



Instalações por gênero na Google Play:
GAME : 13436869450.0
COMMUNICATION : 11036906201.0
TOOLS : 8101043474.0
FAMILY : 6193895690.0
PRODUCTIVITY : 5791629314.0
SOCIAL : 5487861902.0
PHOTOGRAPHY : 4656268815.0
VIDEO_PLAYERS : 3931731720.0
TRAVEL_AND_LOCAL : 2894704086.0
NEWS_AND_MAGAZINES : 2368196260.0
BOOKS_AND_REFERENCE : 1665884260.0
PERSONALIZATION : 1529235888.0
SHOPPING : 1400338585.0
HEALTH_AND_FITNESS : 1143548402.0
SPORTS

### Ajustes na Análise

Ao observamos os resultados relativos às respectivas médias calculadas da App Store e da Google Play, notamos fatos interessantes.

Os cinco gêneros de *apps* com maiores médias de quantidade de avaliações de usuários por aplicativo na App Store são *Navigation*, *Reference*, *Social Networking*, *Music* e *Weather*.

Destes, podemos ver que o gênero com maior número de aplicativos relativos ao total da plataforma é a *Social Networking*, com um pouco mais de 3%. O gênero *Navigation*, líder neste quesito de média, tem menos de 0,2% de aplicativos em relação ao total. Diante disto, veio o questionamento acerca do porquê destas categorias, que teoricamente são usados por muitos, não serem um nicho tão atrativo para outros desenvolvedores.

Pensou-se na hipótese de que alguns indicativos poderiam estar sendo muito influenciados por aplicativos que monopolizam tal categoria. Para evitar dados deturpados por essa possibilidade, resolveu-se repetir a análise excluindo aplicativos com mais de 100.000.000 instalações na Google Play, o que representam *apps* muito difíceis de se competir contra, principalmente levando-se em consideração o fato de esta pesquisa ser para o primeiro aplicativo da CVTech.

Baseado neste pensamento, criamos um novo *data set* para cada plataforma, contendo apenas os aplicativos com um máximo de 10.000.000 de instalações na Google Play e de 50.000 avaliações na App Store, visto que estes números cumpririam muito bem as expectativas da *startup* para seu primeiro aplicativo.

In [58]:
study_ratings = {}
for app in ios_final:
    name = app[2]
    rating_count = float(app[6])
    study_ratings[name] = rating_count
    
display_dict_decrescent(study_ratings)

Facebook : 2974676.0
Instagram : 2161558.0
Clash of Clans : 2130805.0
Temple Run : 1724546.0
Pandora - Music & Radio : 1126879.0
Pinterest : 1061624.0
Bible : 985920.0
Candy Crush Saga : 961794.0
Spotify Music : 878563.0
Angry Birds : 824451.0
Subway Surfers : 706110.0
Solitaire : 679055.0
CSR Racing : 677247.0
Crossy Road - Endless Arcade Hopper : 669079.0
Injustice: Gods Among Us : 612532.0
Hay Day : 567344.0
PAC-MAN : 508808.0
Calorie Counter & Diet Tracker by MyFitnessPal : 507706.0
DragonVale : 503230.0
The Weather Channel: Forecast, Radar & Alerts : 495626.0
Head Soccer : 481564.0
Google – Search made just for mobile : 479440.0
Despicable Me: Minion Rush : 464312.0
The Sims™ FreePlay : 446880.0
Google Earth : 446185.0
Sonic Dash : 418033.0
Groupon - Deals, Coupons & Discount Shopping App : 417779.0
8 Ball Pool™ : 416736.0
Tiny Tower - Free City Building : 414803.0
Jetpack Joyride : 405647.0
Bike Race - Top Motorcycle Racing Games : 405007.0
Shazam - Discover music, artists, video

Mahjong Journey® : 47949.0
HOOKED - Chat Stories : 47829.0
Calculator Pro for iPad Free - Smart Calculator : 47803.0
DIRECTV App for iPad : 47506.0
Alice in the Mirrors of Albion: Hidden object game : 47382.0
NBC Sports : 47172.0
Lyft : 46922.0
Super Stickman Golf 2 : 46859.0
Gangstar Vegas : 46705.0
Seekers Notes: Hidden Mystery : 46384.0
Fit Brains Trainer : 46363.0
NOAA Weather Radar - Weather Forecast & HD Radar : 45696.0
Tricky Test 2™: Genius Brain? : 45578.0
Color Pop Effects - Photo Editor & Picture Editing : 45320.0
Modern Combat 5 : The Multiplayer eSports Shooter : 45270.0
Gardenscapes - New Acres : 45227.0
Ibotta: Cash Back App, Grocery Coupons & Shopping : 44313.0
Wooden Block Puzzle - Wood jigsaw fit 1010 matrix : 44237.0
Find My Family, Friends & iPhone - Life360 Locator : 43877.0
CSR Classics : 43770.0
NBA : 43682.0
Amazon Prime Video : 43667.0
Soccer Stars™ : 43216.0
Wells Fargo Mobile : 43064.0
Flippy Bottle Extreme! - Marker Flip Tricky 2K16 : 42435.0
Hangman. : 4231

Repost for Instagram : 15185.0
Prisma: Photo Editor, Art Filters Pic Effects : 15060.0
Spinrilla - Mixtapes For Free : 15053.0
Flappy Golf : 14995.0
Calculator HD Free : 14986.0
Filterra – Photo Editor, Effects for Pictures : 14744.0
Live.me – Live Video Chat & Make Friends Nearby : 14724.0
Cartwheel by Target : 14682.0
Arrow : 14673.0
Zombie Highway 2 : 14593.0
Traffic Rider : 14592.0
Six! : 14505.0
Fruit Nibblers : 14505.0
Deer Hunter 2017 : 14461.0
Nextdoor : 14402.0
Napster - Top Music & Radio : 14268.0
Bottle Flip 2k16 : 14263.0
XFINITY Stream : 14198.0
YouCam Makeup: Magic Makeup Selfie Cam : 14188.0
Hovercraft - Build Fly Retry : 14123.0
Top Eleven 2017 - Be a Soccer Manager : 14104.0
Followers Analytics for Instagram - InstaReport : 13914.0
FOX Sports GO : 13898.0
Snakeio : 13870.0
WWE SuperCard : 13842.0
94% : 13805.0
VPN Proxy Master - Unlimited WiFi security VPN : 13674.0
Transformers: Earth Wars : 13664.0
Slots - Huuuge Casino: Slot Machines : 13637.0
edjing Mix:DJ turntabl

Sonic Dash 2: Sonic Boom : 5697.0
Sling TV: A La Carte TV. Watch Live Shows & Sports : 5693.0
Tile - Find & track your lost phone, wallet, keys : 5684.0
Youku HD : 5683.0
Video & TV Cast for Chromecast: Best Browser to cast and stream webvideos and local videos on TV & Displays : 5676.0
Chick-fil-A : 5665.0
Green the Planet : 5660.0
Nom Cat - Endless feeding frenzy arcade game : 5655.0
Does not Commute : 5645.0
Pixel Starships™ : 8Bit MMORPG : 5565.0
Gods Of Rome : 5526.0
Everpix HD Wallpapers - Cool Backgrounds & Themes : 5521.0
E! Now : 5506.0
PKTBALL - Endless Arcade Smash Sport : 5492.0
Brain Dots - Draw and solve! Brain Training Game : 5469.0
Nike+ : 5464.0
Khan Academy: you can learn anything : 5459.0
Sam’s Club Scan & Go : 5448.0
Force Saber of Light : 5424.0
DRAGON BALL Z DOKKAN BATTLE : 5362.0
Ticketmaster - Tickets for Concerts, Sports, Shows : 5356.0
Face Swap Booth – photo faceswap & face changer : 5300.0
Adobe Photoshop Mix - Cut out, combine, create : 5253.0
Clockmaker – 

Moji Weather - Free Weather Forecast : 2333.0
Shopping Mall Girl - Dress Up & Style Game : 2332.0
Tiny Miners : 2317.0
Donut Dazzle : 2317.0
Epic Jackpot Slots: Slot Machines & Bonus Games : 2291.0
VIZIO SmartCast™ - Cast & Control Movies & TV Show : 2288.0
Pinchworm : 2288.0
Donald's Empire : 2288.0
Infinite Campus Mobile Portal : 2286.0
Craft Royale: Clash of Pixels : 2285.0
B612 - Trendy Filters, Selfiegenic Camera : 2275.0
My Little Pony: Harmony Quest : 2265.0
Basket Fall - Basketball Dunking Sim : 2251.0
Skylanders Battlecast : 2250.0
Fuel Rewards® program : 2249.0
Polarr Photo Editor - Photo Editing Tools for All : 2246.0
Higher Higher! : 2241.0
My Sprint Mobile : 2238.0
Retouch Vogue - Facetune Wrinkles & Pimples Makeup : 2235.0
The Quest Keeper : 2232.0
SafeTrek - Personal Safety : 2227.0
Fast Motorcycle Driver : 2224.0
ZEDGE™ Wallpapers : 2215.0
Musicloud - MP3 and FLAC Music Player for Cloud Platforms. : 2211.0
Wells Fargo for iPad : 2207.0
Icon Pop Song : 2199.0
Simulator H

Bestie-Beauty Camera 360 & Portrait Selfie Editor : 1035.0
Inkly: Greeting Cards, Postcards, Flowers & Gifts : 1034.0
Google Duo - simple video calling : 1033.0
WoW Legion Companion : 1019.0
Starfall FREE : 1019.0
Capital One CreditWise - Credit score and report : 1019.0
Buddy Toss : 1018.0
Candy Party: Coin Carnival Dozer : 1017.0
Really Bad Chess : 1015.0
Reflex Student : 1010.0
Facetune 2 : 1009.0
Pocket Troops : 1005.0
Lost in Harmony : 1002.0
PAC-MAN Pop : 1000.0
GoldieBlox and the Movie Machine : 1000.0
Tap Tap Builder : 999.0
Emoji Blitz : 999.0
Monster Tail : 998.0
ROCKY™ : 989.0
Mr. Crab 2 : 989.0
Tropical Twist : 982.0
Pearson eText : 981.0
Anki OVERDRIVE : 981.0
Musictrax - Unlimited Music : 979.0
Cartoon Wars 3 : 979.0
codeSpark Academy with The Foos - coding for kids : 977.0
Pitu : 968.0
Flick Field Goal 17 : 968.0
BET NOW - Watch Shows : 967.0
Fancy Cats : 966.0
Motor World: Bike Factory : 960.0
Butt Sworkit - Free Workout Trainer to tone & lift : 960.0
Night Terrors: The

Just Dance Controller : 440.0
Super Duper Punch : 439.0
Moji™ : 439.0
Lords & Castles - Medieval War Strategy MMO Games : 439.0
Offroad 4x4 Truck Trials Parking Simulator a Real Car Stunt Driving Racing Sim : 438.0
360云盘 : 437.0
LINE Bubble 2 : 436.0
Princess Fairy Rush - Pony Rainbow Adventure : 435.0
VyStar Mobile Banking for iPhone : 434.0
Dream Defense : 432.0
Face Swap and Copy Free – Switch & Fusion Faces in a Photo : 431.0
OK K.O.! Lakewood Plaza Turbo : 430.0
Javelin Masters 3 : 430.0
Stickman Football : 429.0
NBC Sports Scores : 428.0
Zenly - Locate your friends in realtime : 427.0
Beyond 14 : 426.0
Fancy Makeup Shop - Brush & Blush : 425.0
LEGO® City My City 2 : 424.0
Photo Editing Effects & Collage Maker - Effectshop : 422.0
Flying Police Car Driving Simulator Free: Criminal Craft Chase : 422.0
FURBY CONNECT World : 422.0
Beat Racer : 422.0
Water Bottle Flip Challenge : Endless Diving 2K16 : 421.0
Plane Flying Parking Sim a Real Airplane Driving Test Run Simulator Racing Gam

Go Surf - The Endless Wave Runner : 68.0
Eurovision Song Contest - The Official App : 68.0
Stickninja Smash : 67.0
Lane Racer : 67.0
Ball Tower : 67.0
WEAR - Fashion Lookbook : 66.0
FilmStory - For All Your Video Editing Needs : 66.0
Chocolate Candy Party - Fudge Madness : 66.0
Infinite Painter : 65.0
GIFYme - Create video loops and gifs with amazing filters for Whatsapp and Instagram : 65.0
radio.de - Der Radioplayer : 64.0
Wappoi Room Escape : 64.0
Moonvale 2: Puzzle Adventure : 64.0
Mebo : 64.0
Hood Jump – The Best Platform Game in the Streets : 64.0
Splash Pop : 63.0
My Rockstar Girls - Party Rock Band : 63.0
Cool Jigsaw Puzzles : 63.0
Spiral Splatter : 62.0
Push the Arrow : 62.0
Muslim Emoji : 62.0
Exodus : 62.0
6play, TV en direct et en replay : 62.0
Puzzlepops! Trick or Treat : 61.0
Nope Quiz : 61.0
White Tiles 2 : Piano Master ( Don't Hit The White Tiles 4 ) - Free Music Game : 60.0
Shoutrageous! - The Addictive Game of Lists : 60.0
Monkey Swingers : 60.0
Haunted Rooms: Escape 

In [59]:
android_realistic = []
ios_realistic = []

for app in android_final:
    # instalações na coluna 5
    installs = app[5]
    installs = installs.replace('+','')
    installs = float(installs.replace(',',''))
    if installs <= 10000000:
        android_realistic.append(app)
        
    
for app in ios_final:
    # rating count na coluna 6
    rating_count = float(app[6])
    if rating_count <= 100000:
        ios_realistic.append(app)

print(len(android_realistic), len(ios_realistic))

8427 3021


In [60]:
ios_category_avgR = category_avg(ios_realistic, 12, 6)
print('Média de quantidade de avaliações de usuários por aplicativo do gênero na App Store, para \naplicativos com menos de 100.000 avaliações:\n')
display_dict_decrescent(ios_category_avgR)
print('\n\n')

android_category_avgR = category_avg(android_realistic, 1, 5)
print('Média de instalações por aplicativo do gênero na Google Play, para aplicativos com menos de \n10.000.000 de instalações:\n')
display_dict_decrescent(android_category_avgR)
print('\n\n')

Média de quantidade de avaliações de usuários por aplicativo do gênero na App Store, para 
aplicativos com menos de 100.000 avaliações:

Book : 16605.75
Social Networking : 13900.021052631579
Shopping : 12601.987012987012
Productivity : 12377.692307692309
Finance : 10506.354838709678
Sports : 10314.09375
Reference : 10186.9375
Photo & Video : 9317.454545454546
Utilities : 8676.57142857143
Travel : 8490.081081081082
Music : 8395.543859649122
Entertainment : 8260.150406504064
News : 7850.45
Business : 7491.117647058823
Weather : 7454.772727272727
Games : 6862.17356778219
Health & Fitness : 6417.3442622950815
Lifestyle : 5297.666666666667
Education : 4660.163793103448
Navigation : 4146.25
Catalogs : 4004.0
Food & Drink : 3678.0454545454545
Medical : 612.0



Média de instalações por aplicativo do gênero na Google Play, para aplicativos com menos de 
10.000.000 de instalações:

ENTERTAINMENT : 3808684.210526316
PHOTOGRAPHY : 3437585.522727273
GAME : 3244832.8229027963
SHOPPING : 2942987.08

### Conclusões 

Vemos que o gênero Books na App Store tem a maior média de quantidade de avaliações nas limitações impostas pela análise e não é um gênero tão saturado como o de Games. Na Google Play, a categoria Books também tem boa média de instalações por aplicativo, porém posta para baixo devido à sua menor abrangência de aplicativos, visto que outras categorias existentes na Google Play e não na App Store, como Comics e Libraries and Demos, repartem esses dados. Desta forma, recomenda-se a criação de um aplicativo relacionado a livros para a entrada do mercado da empresa CVTech. 