# Análise dos apps mais atrativos aos usuários Android e iOS

## Descrição do problema

Uma companhia que constrói aplicativos mobile para Android e iOS que são gratuitos tanto para download como para instalar. Sua principal fonte de receita consiste em anúncios no aplicativo. Isso significa que a receita para qualquer aplicativo é principalmente influenciada pelo número de usuários que usam o aplicativo - quanto mais usuários virem e se envolverem com os anúncios, melhor. 

## Objetivo

Nesse projeto será realizada uma análise explorátoria das informações coletadas sobre os aplicativos disponivéis no Google Play e na App Store.
Dessa forma,  o objetivo para este projeto é analisar dados para ajudar os desenvolvedores a entender quais tipos de aplicativos podem atrair mais usuários Android e iOS.

## Dados

Os dados utilizados nesse projeto foram obtidos a partir do [Kaggle](https://www.kaggle.com/) e é composto por dois conjuntos de dados:
* Um dataset contendo aproximadamente 10000 dados de aplicativos android do Google Play com última atualização em fevereiro de 2019 - disponívelpara download neste [link](https://www.kaggle.com/lava18/google-play-store-apps)
* Um dataset contendo aproximadamente 7200 dados de aplicativos iOS do App Store com última atualização em jjunho de 2018 - disponível para download neste [link](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps)

## Primeiro contato com os dados

Nesse primeiro momento baixamos os dois datasets e verificamos os dados presentes em cada um deles:

In [1]:
from csv import reader

### The Google Play data set ###
opened_file = open('googleplaystore.csv', encoding="utf8")
read_file = reader(opened_file)
android = list(read_file)
android_header = android[0]
android = android[1:]

### The App Store data set ###
opened_file = open('AppleStore.csv', encoding="utf8")
read_file = reader(opened_file)
ios = list(read_file)
ios_header = ios[0]
ios = ios[1:]

In [2]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') # adds a new (empty) line between rows
        
    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

In [3]:
print(android_header)
print('\n')
explore_data(android, 0, 3, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


Number of rows: 10841
Number of columns: 13


In [4]:
print(ios_header)
print('\n')
explore_data(ios, 0, 3, True)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


Number of rows: 7197
Number of columns: 16


## Dicionário de Variáveis


O arquivo **"googleplaystore.csv"** importado possui 10841 linhas e 13 colunas correspondentes as variáveis listadas a seguir:

**Listagem e descrição das variáveis:**
* App - Nome do aplicativo
* Category - Categoria em que se encontra o aplicativo
* Rating - Nota 
* Reviews - Número de reviews recebidos
* Size - Tamanho do app
* Installs - Número de instalações
* Type - Se é free ou não
* Price - Preço do app
* Content Rating - Faixa etária indicada (classificação indicativa)
* Genres - Gênero do app
* Last Updated - Data da última atualização
* Current Ver - Versão atual do aplicativo
* Android Ver - Disponível para quais versões de Android

O arquivo **"AppleStore.csv"** importado possui 7197 linhas e 17 colunas correspondentes as variáveis listadas a seguir:

**Listagem e descrição das variáveis:**
* id - App ID
* track_name - Nome do App 
* size_bytes - Tamanho do app (Bytes)
* currency - Tipo de moeda
* price - Preço do App
* ratingcounttot - Número de notas recebidas (de todas as versões)
* ratingcountver - Número de notas recebidas (da versão atual)
* user_rating - Média das notas recebidas (de todas as versões) 
* userratingver -  Média das notas recebidas (da versão atual)
* ver -  Versão atual do aplicativo
* cont_rating - Faixa etária indicada (classificação indicativa)
* prime_genre -  Gênero primário do app
* sup_devices.num - Número de dispositivos suportados
* ipadSc_urls.num - Número de capturas de tela mostradas para exibição
* lang.num - Número de línguas suportadas 
* vpp_lic - Licenciamento baseado em dispositivo Vpp ativado

Dentre as váriaveis descritas acima podemos definir como variáveis de interesse para nossa análise as seguintes: 

* **"googleplaystore.csv":** 'App', 'Category', 'Reviews', 'Installs', 'Type', 'Price' e 'Genres';
* **"AppleStore.csv":** 'track_name', 'currency', 'price', 'rating_count_tot', 'rating_count_ver' e 'prime_genre'.

In [5]:
print(android[10472])  # incorrect row
print('\n')
print(android_header)  # header
print('\n')
print(android[0])      # correct row

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


A linha 10472 corresponde ao app *Life Made WI-Fi Touchscreen Photo Frame*, e podemos ver que o valor de ratind é 19. O que claramente não está correto poois a notaa maxima para um app no Google Play é 5, esse problema é causado pois está faltando um valor na columa "Category". Diante disso, essa linha será deletada:

In [6]:
print(len(android))
del android[10472]  # don't run this more than once
print(len(android))

10841
10840


A pontuação dos app no Google Play vai de 0 a 5 e nessa entrada podemos verificar que o "Rating" é de 19, indicando que há um erro nas informações dessa entrada. Possivelmente ocorreu um deslocamento dos resultados das outras colunas devido a estar faltando a informação de "Rating" por esse motivo essa entrada será removida:

### Removendo entradas duplicadas

Analisando o dataset com cuidado é possivel verificar que alguns dos apps possuem mais de uma entrada. Como exemplo podemos pegar a aplicação Instagram que possui 4 entradas:



In [7]:
for app in android:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


No total, tem 1181 casos onde apps aparecem mais de uma vez no dataset:

In [8]:
duplicate_apps = []
unique_apps = []

for app in android:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)
    
print('Number of duplicate apps:', len(duplicate_apps))
print('\n')
print('Examples of duplicate apps:', duplicate_apps[:15])

Number of duplicate apps: 1181


Examples of duplicate apps: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


Não seria interessante para a análise dos dados possuir dados repetidos, dessa forma os dados duplicados devem ser excluídos. 

No entanto, olhando para as entradas referente ao app Instagram podemos verificar que há diferenças na quarta posição de cada linha que corresponde ao número de reviews. Essa diferença significa que os dados foram coletados em tempos diferentes. Por isso esses dados duplicados não podem ser excluidos aleatóriamente.

Dessa forma, para remover os dados duplicados iremos:
* Criar um dicionário, onde cada chave do dicionário será um nome de app único e o valor correspondente do dicionário é o maior numero de reviews do app.
* Usando a informação armazenada no dicionário será criado um novo dataset, tendo apenas uma entrada por app (e para cada app será selecionado o com o maior número de reviews).

In [9]:
reviews_max = {}
for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
        
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

Para checar se tudo correu bem ao montar o dicionário vamos verificar que a quantidade de entradas bate com o esperado:

In [10]:
print("Número de entradas esperadas: ", len(android)-len(duplicate_apps))
print("Número de entradas em reviews_max: ", len(reviews_max))

Número de entradas esperadas:  9659
Número de entradas em reviews_max:  9659


Agora será utillizado o dicionario reviews_max para remover as entradas duplicadas. Dentre os duplicados só serão mantidas as entradas com maior número de reviews.

**Como será feito:**
* Serão criadas duas listas vazias: *android_clean* e *already_added*
* Será feito um loop no dataset android onde a cada iteração:
 * Checamos o nome do app e o número de reviews
 * Se o número de reviews do app for igual ao descrito no *reviews_max* e o nome do app não estiver listado em *already_add* a entrada é adicionada ao *android_clean* e o nome do app (*name*) é adicionado a lista *already_added*.

In [11]:
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    if  (reviews_max[name] == n_reviews) and (name not in already_added):
        android_clean.append(app)
        already_added.append(name)

In [12]:
# Confirmando se android_clean está tudo okay

explore_data(android_clean, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9659
Number of columns: 13


**Obs.** No caso do dataset *ios* com os dados da App Store não há necessidade de realizar esse procedimento pois não há entradas duplicadas.


### Removendo apps que não estão em inglês:

Como a empresa trabalha apenas com o desenvolvimento de apps em inglês, é de nosso interesse analisar apenas os apps que estão diretamente relacioandos a uma audiência que fala a língua inglesa.

No entanto, olhando com cuidado os datasets podemos verificar que existem apps com nomes que sugerem que os mesmos não são voltaqdos para uma audiência que fala a língua inglesa:

In [13]:
print(ios[813][1])
print(ios[6731][1])

print(android_clean[4412][0])
print(android_clean[7940][0])

爱奇艺PPS -《欢乐颂2》电视剧热播
【脱出ゲーム】絶対に最後までプレイしないで 〜謎解き＆ブロックパズル〜
中国語 AQリスニング
لعبة تقدر تربح DZ


Não temos interesse em manter esses apps, então serão removidos. Uma forma de fazer isso é removendo cada app que no nome contenha um simbolo que não seja usualmente utilizado na escrita do inglês.

**Como iremos fazer isso:**

*Nos bastidores, cada caractere que usamos em uma string tem um número correspondente associado a ele. Por exemplo, o número correspondente para o caractere 'a' é 97, o caractere 'A' é 65 e o caractere '爱' é 29.233. Podemos obter o número correspondente de cada caractere usando a função interna ord ().*

Os números correspondentes aos caracteres que comumente usamos em um texto em inglês estão todos na faixa de 0 a 127, de acordo com o sistema ASCII (American Standard Code for Information Interchange). Com base neste intervalo de números, podemos construir uma função que detecta se um caractere pertence ao conjunto de caracteres comuns em inglês ou não. Se o número for igual ou inferior a 127, o caractere pertence ao conjunto de caracteres comuns em inglês.

Abaixo temos uma função que determina se os caracteres de uma string estão na faixa de 0-127:

In [14]:
def is_english(string):
    for character in string:
        if ord(character) > 127:
            return False
    return True
            
print(is_english('Instagram'))
print(is_english('爱奇艺PPS -《欢乐颂2》电视剧热播'))
print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

True
False
False
False


No entanto, é possível perceber que em algumas situações pode ocorrer errosna classificação, como o casos:
* Instachat 😜
* Docs To Go™ Free Office Suite

Isso ocorre pois os emojis e caracteres como ™ estão fora do ASCII.

Se utilizarmos essa função dessa forma serão perdidos dados utéis a análise já que muitos apps em inglês serão taxados como "não-inglês". Para minimizar o impacto da perda desses dados, só serão removidos os apps onde o nome tiver mais de 3 caracteres fora do ASCII.


In [15]:
def is_english(string):
    non_ASCII = 0
    
    for character in string:
        
        if ord(character) > 127:
            non_ASCII += 1
            
    if non_ASCII > 3:
        return False
    else:
        return True

In [16]:
print(is_english('Instagram'))
print(is_english('爱奇艺PPS -《欢乐颂2》电视剧热播'))
print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

True
False
True
True


Como podemos ver, dessa forma a função funcionou muito melhor, agora iremos aplicar essa função para os datasets e criando um novo dataset apenas com os apps em inglês:

In [17]:
android_english = []
ios_english = []

for app in android_clean:
    name = app[0]
    if is_english(name):
        android_english.append(app)
        
for app in ios:
    name = app[1]
    if is_english(name):
        ios_english.append(app)
        
explore_data(android_english, 0, 3, True)
print('\n')
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9614
Number of columns: 13


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 

In [18]:
print( "Antes Android: ", len(android_clean), 
      "\nDepois Android: ", len(android_english),
     "\nNúmero de apps retirados: ", len(android_clean)-len(android_english))

print( "\nAntes iOS: ", len(ios), 
      "\nDepois iOS: ", len(ios_english),
     "\nNúmero de apps retirados: ", len(ios)-len(ios_english))

Antes Android:  9659 
Depois Android:  9614 
Número de apps retirados:  45

Antes iOS:  7197 
Depois iOS:  6183 
Número de apps retirados:  1014


Como podemos ver retiramos 45 apps do dataset Android e 1014 apps do dataset iOS que não estão na lingua inglesa.

### Removendo os apps que não são gratuitos

Como a empresa só trabalha com apps gratuitos e no momento nossos datasets contem apps pagos e gratuitos, será necessário isolar apenas os apps gratuítos para a análise:

In [19]:
android_final = []
ios_final = []

for app in android_english:
    free = app[7]
    if free == "0":
        android_final.append(app)
        
for app in ios_english:
    free = float(app[4])
    if free == 0.0:
        ios_final.append(app)
        

In [20]:
print( "Antes Android: ", len(android_english), 
      "\nDepois Android: ", len(android_final),
     "\nNúmero de apps retirados: ", len(android_english)-len(android_final))

print( "\nAntes iOS: ", len(ios_english), 
      "\nDepois iOS: ", len(ios_final),
     "\nNúmero de apps retirados: ", len(ios_english)-len(ios_final))

Antes Android:  9614 
Depois Android:  8864 
Número de apps retirados:  750

Antes iOS:  6183 
Depois iOS:  3222 
Número de apps retirados:  2961


## Estratégia para validação do app

Nosso objetivo é determinar os tipos de aplicativos que têm probabilidade de atrair mais usuários porque nossa receita é altamente influenciada pelo número de pessoas que usam nossos aplicativos. 

Para minimizar os riscos gerais, a estratégia de validação para uma ideia de aplicativo é composta de três etapas:

* Crie uma versão Android mínima do aplicativo e adicione-a ao Google Play.
* Se o aplicativo tiver uma boa resposta dos usuários, nós o desenvolveremos ainda mais.
* Se o aplicativo for lucrativo após seis meses, construímos uma versão iOS do aplicativo e a adicionamos à App Store.

Como o objetivo final é adicionar o aplicativo no Google Play e na App Store, precisamos encontrar perfis de aplicativos que tenham sucesso em ambos as plataformas.


### Apps mais comuns por Gênero

Dessa forma iremos iniciar a analise tendo uma ideia deq uais são os gêneros mais comuns em cada uma das plataformas. Para isso precisaremos de tabelas de frequência de algumas colunas da plataforma como por exemplo, gênero, nota e número de avaliações do app.

Ou seja, inicialmente no caso do dataset *android_final* iremos montar uma tabela de frequencia para avaliar as colunas de *Genres* e *Category* do Google Store e no caso do dataset *ios_final* iremos montar uma tabela de frequencia para avaliar a coluna *prime_genre* da App Store:

In [21]:
# Função para montar tabela de frequencia
def freq_table(dataset,index):
    table = {}
    total = 0
    
    for row in dataset:
        total += 1
        value = row[index]
        if value in table:
            table[value] += 1
        else:
            table[value] = 1
    
    table_percentages = {}
    for key in table:
        percentage = (table[key] / total) * 100
        table_percentages[key] = percentage 
    
    return table_percentages

In [22]:
# Função para mostrar a tabela de frequencia ordenada
def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

In [23]:
# Tabela de frequencia prime_genre da App Store
display_table(ios_final,11)

Games : 58.16263190564867
Entertainment : 7.883302296710118
Photo & Video : 4.9658597144630665
Education : 3.662321539416512
Social Networking : 3.2898820608317814
Shopping : 2.60707635009311
Utilities : 2.5139664804469275
Sports : 2.1415270018621975
Music : 2.0484171322160147
Health & Fitness : 2.0173805090006205
Productivity : 1.7380509000620732
Lifestyle : 1.5828677839851024
News : 1.3345747982619491
Travel : 1.2414649286157666
Finance : 1.1173184357541899
Weather : 0.8690254500310366
Food & Drink : 0.8069522036002483
Reference : 0.5586592178770949
Business : 0.5276225946617008
Book : 0.4345127250155183
Navigation : 0.186219739292365
Medical : 0.186219739292365
Catalogs : 0.12414649286157665


Podemos verificar que entre os aplicativos gratuitos em inglês da **App Store**, mais da metade **(58,16%) são jogos**. Os aplicativos de entretenimento estão perto de 8%, seguidos pelos aplicativos de foto e vídeo, que estão perto de 5%. Apenas 3,66% dos aplicativos são projetados para educação, seguidos por aplicativos de redes sociais que somam 3,29% dos aplicativos em nosso conjunto de dados.

A impressão geral é que a App Store (pelo menos a parte que contém aplicativos em inglês gratuitos) é dominada por aplicativos que são projetados para se divertir (jogos, entretenimento, foto e vídeo, redes sociais, esportes, música, etc.), enquanto aplicativos com propósitos mais préticos (educação, compras, serviços públicos, produtividade, estilo de vida, etc.) são mais raros. **No entanto, o fato de os aplicativos divertidos serem os mais numerosos também não significa que eles também tenham o maior número de usuários - a demanda pode não ser a mesma que a oferta.**

Vamos continuar examinando as colunas Gêneros e Categoria do conjunto de dados do Google Play (duas colunas que parecem estar relacionadas).

In [24]:
# Tabela de frequencia Category da Google Play
display_table(android_final,1)

FAMILY : 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084
COMMUNICATION : 3.2378158844765346
HEALTH_AND_FITNESS : 3.0798736462093865
PHOTOGRAPHY : 2.944494584837545
NEWS_AND_MAGAZINES : 2.7978339350180503
SOCIAL : 2.6624548736462095
TRAVEL_AND_LOCAL : 2.33528880866426
SHOPPING : 2.2450361010830324
BOOKS_AND_REFERENCE : 2.1435018050541514
DATING : 1.861462093862816
VIDEO_PLAYERS : 1.7937725631768955
MAPS_AND_NAVIGATION : 1.3989169675090252
FOOD_AND_DRINK : 1.2409747292418771
EDUCATION : 1.1620036101083033
ENTERTAINMENT : 0.9589350180505415
LIBRARIES_AND_DEMO : 0.9363718411552346
AUTO_AND_VEHICLES : 0.9250902527075812
HOUSE_AND_HOME : 0.8235559566787004
WEATHER : 0.8009927797833934
EVENTS : 0.7107400722021661
PARENTING : 0.6543321299638989
ART_AND_DESIGN : 

Já no caso dos apps da **Google play**, quando olhamos para a coluna *Category* o cenário parece significativamente diferente: não existem muitos aplicativos projetados para se divertir e parece que um bom número de aplicativos são projetados para fins práticos (família, ferramentas, negócios, estilo de vida, produtividade, etc.). **No entanto, se investigarmos isso mais a fundo, podemos ver que a categoria família (que responde por quase 19% dos aplicativos) significa principalmente jogos para crianças.**

In [25]:
# Tabela de frequencia Genre da Google Play
display_table(android_final,9)

Tools : 8.449909747292418
Entertainment : 6.069494584837545
Education : 5.347472924187725
Business : 4.591606498194946
Productivity : 3.892148014440433
Lifestyle : 3.892148014440433
Finance : 3.7003610108303246
Medical : 3.531137184115524
Sports : 3.463447653429603
Personalization : 3.3167870036101084
Communication : 3.2378158844765346
Action : 3.1024368231046933
Health & Fitness : 3.0798736462093865
Photography : 2.944494584837545
News & Magazines : 2.7978339350180503
Social : 2.6624548736462095
Travel & Local : 2.3240072202166067
Shopping : 2.2450361010830324
Books & Reference : 2.1435018050541514
Simulation : 2.0419675090252705
Dating : 1.861462093862816
Arcade : 1.8501805054151623
Video Players & Editors : 1.7712093862815883
Casual : 1.7599277978339352
Maps & Navigation : 1.3989169675090252
Food & Drink : 1.2409747292418771
Puzzle : 1.128158844765343
Racing : 0.9927797833935018
Role Playing : 0.9363718411552346
Libraries & Demo : 0.9363718411552346
Auto & Vehicles : 0.9250902527075

Agora olhando para a coluna *Genre* do **Google Play**, a primeira coisa que percebemos é que a diferença entre as colunas Gêneros e Categoria não é muito clara, mas uma coisa que podemos notar é que a coluna Gêneros é muito mais granular (tem mais categorias). **No momento, estamos apenas procurando o panorama geral, portanto, trabalharemos apenas com a coluna Categoria daqui para frente.**

Até este ponto, descobrimos que **a App Store é dominada por aplicativos projetados para diversão**, enquanto o **Google Play mostra um panorama mais equilibrado de aplicativos práticos e divertidos**. Agora, gostaríamos de ter uma ideia sobre o tipo de aplicativo que tem a maioria dos usuários.

### Gêneros de apps mais populares

Agora, gostaríamos de ter uma ideia sobre o tipo de aplicativo com mais usuários.

Uma maneira de descobrir quais gêneros são os mais populares (têm mais usuários) é calcular o **número médio de instalações para cada gênero de aplicativo**.

Para o conjunto de dados do **Google Play**, podemos encontrar essas informações na coluna *Installs*, mas essas informações estão ausentes para o conjunto de dados da **App Store**. Como alternativa, tomaremos o número total de classificações de usuários, que podemos encontrar no aplicativo *rating_count_column*.

**Como isso será feito:**

Vamos começar calculando o número médio de avaliações de usuários por gênero de aplicativo na App Store. Para fazer isso, precisaremos:

* Isole os aplicativos de cada gênero.
* Somar as avaliações dos usuários para os aplicativos desse gênero.
* Divida a soma pelo número de aplicativos pertencentes a esse gênero (não pelo número total de aplicativos).

Para calcular o número médio de avaliações do usuário para cada gênero, usaremos um loop for dentro de outro loop for. 

In [26]:
prime_genre = freq_table(ios_final,11)

for genre in prime_genre:
    total = 0
    len_genre = 0
    for app in ios_final:
        genre_app = app[11]
        if genre_app == genre:       
            n_ratings = float(app[5])
            total += n_ratings
            len_genre += 1
    avg_n_ratings = total / len_genre
    print(genre, ':', avg_n_ratings)


Social Networking : 71548.34905660378
Photo & Video : 28441.54375
Games : 22788.6696905016
Music : 57326.530303030304
Reference : 74942.11111111111
Health & Fitness : 23298.015384615384
Weather : 52279.892857142855
Utilities : 18684.456790123455
Travel : 28243.8
Shopping : 26919.690476190477
News : 21248.023255813954
Navigation : 86090.33333333333
Lifestyle : 16485.764705882353
Entertainment : 14029.830708661417
Food & Drink : 33333.92307692308
Sports : 23008.898550724636
Book : 39758.5
Finance : 31467.944444444445
Education : 7003.983050847458
Productivity : 21028.410714285714
Business : 7491.117647058823
Catalogs : 4004.0
Medical : 612.0


Analisando  essa lista podemos ver que os app mais populares da App Store são os das seguintes categorias: 
* Navigation 
* Social Networking
* Reference
* Music
* Weather
* Books
* Food&Drink
* Finance.

No entanto, vamos olhar cuidadosamente para as categorias "Navigation", "Social Networking", "Music" e "Book":

In [27]:
for app in ios_final:
    if app[-5] == 'Navigation':
        print(app[1], ':', app[5]) # print name and number of ratings

Waze - GPS Navigation, Maps & Real-time Traffic : 345046
Google Maps - Navigation & Transit : 154911
Geocaching® : 12811
CoPilot GPS – Car Navigation & Offline Maps : 3582
ImmobilienScout24: Real Estate Search in Germany : 187
Railway Route Search : 5


In [28]:
for app in ios_final:
    if app[-5] == 'Social Networking':
        print(app[1], ':', app[5]) # print name and number of ratings

Facebook : 2974676
Pinterest : 1061624
Skype for iPhone : 373519
Messenger : 351466
Tumblr : 334293
WhatsApp Messenger : 287589
Kik : 260965
ooVoo – Free Video Call, Text and Voice : 177501
TextNow - Unlimited Text + Calls : 164963
Viber Messenger – Text & Call : 164249
Followers - Social Analytics For Instagram : 112778
MeetMe - Chat and Meet New People : 97072
We Heart It - Fashion, wallpapers, quotes, tattoos : 90414
InsTrack for Instagram - Analytics Plus More : 85535
Tango - Free Video Call, Voice and Chat : 75412
LinkedIn : 71856
Match™ - #1 Dating App. : 60659
Skype for iPad : 60163
POF - Best Dating App for Conversations : 52642
Timehop : 49510
Find My Family, Friends & iPhone - Life360 Locator : 43877
Whisper - Share, Express, Meet : 39819
Hangouts : 36404
LINE PLAY - Your Avatar World : 34677
WeChat : 34584
Badoo - Meet New People, Chat, Socialize. : 34428
Followers + for Instagram - Follower Analytics : 28633
GroupMe : 28260
Marco Polo Video Walkie Talkie : 27662
Miitomo : 2

In [29]:
for app in ios_final:
    if app[-5] == 'Music':
        print(app[1], ':', app[5]) # print name and number of ratings

Pandora - Music & Radio : 1126879
Spotify Music : 878563
Shazam - Discover music, artists, videos & lyrics : 402925
iHeartRadio – Free Music & Radio Stations : 293228
SoundCloud - Music & Audio : 135744
Magic Piano by Smule : 131695
Smule Sing! : 119316
TuneIn Radio - MLB NBA Audiobooks Podcasts Music : 110420
Amazon Music : 106235
SoundHound Song Search & Music Player : 82602
Sonos Controller : 48905
Bandsintown Concerts : 30845
Karaoke - Sing Karaoke, Unlimited Songs! : 28606
My Mixtapez Music : 26286
Sing Karaoke Songs Unlimited with StarMaker : 26227
Ringtones for iPhone & Ringtone Maker : 25403
Musi - Unlimited Music For YouTube : 25193
AutoRap by Smule : 18202
Spinrilla - Mixtapes For Free : 15053
Napster - Top Music & Radio : 14268
edjing Mix:DJ turntable to remix and scratch music : 13580
Free Music - MP3 Streamer & Playlist Manager Pro : 13443
Free Piano app by Yokee : 13016
Google Play Music : 10118
Certified Mixtapes - Hip Hop Albums & Mixtapes : 9975
TIDAL : 7398
YouTube Mu

In [30]:
for app in ios_final:
    if app[-5] == 'Book':
        print(app[1], ':', app[5]) # print name and number of ratings

Kindle – Read eBooks, Magazines & Textbooks : 252076
Audible – audio books, original series & podcasts : 105274
Color Therapy Adult Coloring Book for Adults : 84062
OverDrive – Library eBooks and Audiobooks : 65450
HOOKED - Chat Stories : 47829
BookShout: Read eBooks & Track Your Reading Goals : 879
Dr. Seuss Treasury — 50 best kids books : 451
Green Riding Hood : 392
Weirdwood Manor : 197
MangaZERO - comic reader : 9
ikouhoushi : 0
MangaTiara - love comic reader : 0
謎解き : 0
謎解き2016 : 0


In [31]:
for app in ios_final:
    if app[-5] == 'Reference':
        print(app[1], ':', app[5]) # print name and number of ratings

Bible : 985920
Dictionary.com Dictionary & Thesaurus : 200047
Dictionary.com Dictionary & Thesaurus for iPad : 54175
Google Translate : 26786
Muslim Pro: Ramadan 2017 Prayer Times, Azan, Quran : 18418
New Furniture Mods - Pocket Wiki & Game Tools for Minecraft PC Edition : 17588
Merriam-Webster Dictionary : 16849
Night Sky : 12122
City Maps for Minecraft PE - The Best Maps for Minecraft Pocket Edition (MCPE) : 8535
LUCKY BLOCK MOD ™ for Minecraft PC Edition - The Best Pocket Wiki & Mods Installer Tools : 4693
GUNS MODS for Minecraft PC Edition - Mods Tools : 1497
Guides for Pokémon GO - Pokemon GO News and Cheats : 826
WWDC : 762
Horror Maps for Minecraft PE - Download The Scariest Maps for Minecraft Pocket Edition (MCPE) Free : 718
VPN Express : 14
Real Bike Traffic Rider Virtual Reality Glasses : 8
教えて!goo : 0
Jishokun-Japanese English Dictionary & Translator : 0


In [32]:
for app in ios_final:
    if app[-5] == 'Weather':
        print(app[1], ':', app[5]) # print name and number of ratings

The Weather Channel: Forecast, Radar & Alerts : 495626
The Weather Channel App for iPad – best local forecast, radar map, and storm tracking : 208648
WeatherBug - Local Weather, Radar, Maps, Alerts : 188583
MyRadar NOAA Weather Radar Forecast : 150158
AccuWeather - Weather for Life : 144214
Yahoo Weather : 112603
Weather Underground: Custom Forecast & Local Radar : 49192
NOAA Weather Radar - Weather Forecast & HD Radar : 45696
Weather Live Free - Weather Forecast & Alerts : 35702
Storm Radar : 22792
QuakeFeed Earthquake Map, Alerts, and News : 6081
Moji Weather - Free Weather Forecast : 2333
Hurricane by American Red Cross : 1158
Forecast Bar : 375
Hurricane Tracker WESH 2 Orlando, Central Florida : 203
FEMA : 128
iWeather - World weather forecast : 80
Weather - Radar - Storm with Morecast App : 78
Yurekuru Call : 53
Weather & Radar : 37
WRAL Weather Alert : 25
Météo-France : 24
JaxReady : 22
Freddy the Frogcaster's Weather Station : 14
Almanac Long-Range Weather Forecast : 12
TodayAir

In [33]:
for app in ios_final:
    if app[-5] == 'Food & Drink':
        print(app[1], ':', app[5]) # print name and number of ratings

Starbucks : 303856
Domino's Pizza USA : 258624
OpenTable - Restaurant Reservations : 113936
Allrecipes Dinner Spinner : 109349
DoorDash - Food Delivery : 25947
UberEATS: Uber for Food Delivery : 17865
Postmates - Food Delivery, Faster : 9519
Dunkin' Donuts - Get Offers, Coupons & Rewards : 9068
Chick-fil-A : 5665
McDonald's : 4050
Deliveroo: Restaurant Delivery - Order Food Nearby : 1702
SONIC Drive-In : 1645
Nowait Guest : 1625
7-Eleven, Inc. : 1356
Outback : 805
Bon Appetit : 750
Starbucks Keyboard : 457
Whataburger : 197
Delish Eatmoji Keyboard : 154
Lieferheld - Delicious food delivery service : 29
Lieferando.de : 29
McDo France : 22
Chefkoch - Rezepte, Kochen, Backen & Kochbuch : 20
Youmiam : 9
Marmiton Twist : 2
Open Food Facts : 1


In [34]:
for app in ios_final:
    if app[-5] == 'Finance':
        print(app[1], ':', app[5]) # print name and number of ratings

Chase Mobile℠ : 233270
Mint: Personal Finance, Budget, Bills & Money : 232940
Bank of America - Mobile Banking : 119773
PayPal - Send and request money safely : 119487
Credit Karma: Free Credit Scores, Reports & Alerts : 101679
Capital One Mobile : 56110
Citi Mobile® : 48822
Wells Fargo Mobile : 43064
Chase Mobile : 34322
Square Cash - Send Money for Free : 23775
Capital One for iPad : 21858
Venmo : 21090
USAA Mobile : 19946
TaxCaster – Free tax refund calculator : 17516
Amex Mobile : 11421
TurboTax Tax Return App - File 2016 income taxes : 9635
Bank of America - Mobile Banking for iPad : 7569
Wells Fargo for iPad : 2207
Stash Invest: Investing & Financial Education : 1655
Digit: Save Money Without Thinking About It : 1506
IRS2Go : 1329
Capital One CreditWise - Credit score and report : 1019
U by BB&T : 790
Paribus - Rebates When Prices Drop : 768
KeyBank Mobile : 623
VyStar Mobile Banking for iPhone : 434
Sparkasse - Your mobile branch : 77
VyStar Mobile Banking for iPad : 57
Zaim : 4

Podemos verificar que algumas dessas categorias aparesentam um mesmo padrão. Por exemplo, no caso dos aplicativos de rede social, o número médio é fortemente influenciado por alguns gigantes como Facebook, Pinterest, Skype, etc. O mesmo se aplica a aplicativos de música, onde alguns grandes jogadores como Pandora, Spotify e Shazam influenciam fortemente o número médio.

Nosso objetivo é encontrar gêneros populares, mas aplicativos de navegação, redes sociais ou música podem parecer mais populares do que realmente são. O número médio de classificações parece ser distorcido por muito poucos aplicativos que têm centenas de milhares de classificações de usuários, enquanto os outros aplicativos podem lutar para passar do limite de 10.000.

Na catergoria **"References"** temos um número muito grande de classificações para o app "Biblia". No entanto, esse nicho parece apresentar algum potencial. Uma coisa que poderíamos fazer é pegar outro livro popular e transformá-lo em um aplicativo onde poderíamos adicionar diferentes recursos além da versão bruta do livro. Isso pode incluir citações diárias do livro, uma versão em áudio do livro, questionários sobre o livro, etc. Além disso, também podemos incorporar um dicionário dentro do aplicativo, para que os usuários não precisem sair de nosso aplicativo para olhar palavras em um aplicativo externo.

Essa ideia parece se encaixar bem com o fato de que a App Store é dominada por aplicativos para diversão. Isso sugere que o mercado pode estar um pouco saturado com aplicativos para diversão, o que significa que um aplicativo prático pode ter mais chances de se destacar entre o grande número de aplicativos na App Store.

Outros gêneros que parecem populares incluem clima, livro, comida e bebida ou finanças. O gênero do Book parece se sobrepor um pouco à ideia do aplicativo que descrevemos acima, mas os outros gêneros não parecem muito interessantes para nós:

**Aplicativos de clima (Weather)** - as pessoas geralmente não passam muito tempo no aplicativo e as chances de lucrar com adições no aplicativo são baixas. Além disso, obter dados meteorológicos confiáveis ao vivo pode exigir que conectemos nossos aplicativos a APIs não gratuitas.

**Comida e bebida (Food & Drink)** - os exemplos aqui incluem Starbucks, Dunkin 'Donuts, McDonald's, etc. Portanto, fazer um aplicativo popular de comida e bebida requer uma cozinha real e um serviço de entrega, que está fora do escopo da empresa.

**Aplicativos de finanças (Finance)** - esses aplicativos envolvem serviços bancários, pagamento de contas, transferência de dinheiro, etc. Criar um aplicativo de finanças requer conhecimento de domínio e não queremos contratar um especialista em finanças apenas para construir um aplicativo.



**Agora vamos analisar um pouco o mercado do Google Play.**

No caso do Google Play, nos temos dados sobre o número de instalações dos apps, então devemos ser capazes de ter uma ideia mais clara sobre a popularidade do gênero. No entanto, os números de instalação não parecem precisos o suficiente - podemos ver que a maioria dos valores é aberta (100+, 1.000+, 5.000+, etc.).

Dessa forma, não tem como saber se um app com +100.000 instalações possui 100.000, 200.000 ou 300.000 instalações. Mas, não precisamos de valores tão preciso para nossa análise, já que o que queremos saber é apenas quais gêneros de app atraem mais os usuários.

Por isso iremos deixar os números nessa formatação e considerar que um app com +100.000 instalações possuir 100.000 instalações e um app com +1.000.000 instalações possui 1.000.000 instalações e assim em diante.

**Como será feito:**
* Remover as vírgulas e os caracteres de mais (+) utilizando o método *.replace(old, new)*
* Será feita a conversão cada um dos números de instalação de *string* para *float*



In [35]:
category_android = freq_table(android_final,1)

for category in category_android:
    total = 0
    len_category = 0
    for app in android_final:
        category_app = app[1]
        if category_app == category:       
            n_installs = app[5]
            n_installs = n_installs.replace(",", "")
            n_installs = n_installs.replace("+", "")
            total += float(n_installs)
            len_category += 1
    avg_n_installs = total / len_category
    print(category, ':', avg_n_installs)


ART_AND_DESIGN : 1986335.0877192982
AUTO_AND_VEHICLES : 647317.8170731707
BEAUTY : 513151.88679245283
BOOKS_AND_REFERENCE : 8767811.894736841
BUSINESS : 1712290.1474201474
COMICS : 817657.2727272727
COMMUNICATION : 38456119.167247385
DATING : 854028.8303030303
EDUCATION : 1833495.145631068
ENTERTAINMENT : 11640705.88235294
EVENTS : 253542.22222222222
FINANCE : 1387692.475609756
FOOD_AND_DRINK : 1924897.7363636363
HEALTH_AND_FITNESS : 4188821.9853479853
HOUSE_AND_HOME : 1331540.5616438356
LIBRARIES_AND_DEMO : 638503.734939759
LIFESTYLE : 1437816.2687861272
GAME : 15588015.603248259
FAMILY : 3695641.8198090694
MEDICAL : 120550.61980830671
SOCIAL : 23253652.127118643
SHOPPING : 7036877.311557789
PHOTOGRAPHY : 17840110.40229885
SPORTS : 3638640.1428571427
TRAVEL_AND_LOCAL : 13984077.710144928
TOOLS : 10801391.298666667
PERSONALIZATION : 5201482.6122448975
PRODUCTIVITY : 16787331.344927534
PARENTING : 542603.6206896552
WEATHER : 5074486.197183099
VIDEO_PLAYERS : 24727872.452830188
NEWS_AND_

Dentre as categorias de apps do Google Play, as que se destacam com maior número de instalações são:

* COMMUNICATION : 38456119
* VIDEO_PLAYERS : 24727872
* SOCIAL : 23253652
* PHOTOGRAPHY : 17840110
* PRODUCTIVITY : 16787331
* GAME : 15588015
* ENTERTAINMENT : 11640705
* BOOKS_AND_REFERENCE : 8767811

Considerando que o tipo de app deve ter potencial para ambas as plataformas, iOS e Android, iremos olhar atentamente para as categorias em comum:  


In [36]:
for app in android_final:
    if app[1] == 'COMMUNICATION':
        print(app[0], ':', app[5])

WhatsApp Messenger : 1,000,000,000+
Messenger for SMS : 10,000,000+
My Tele2 : 5,000,000+
imo beta free calls and text : 100,000,000+
Contacts : 50,000,000+
Call Free – Free Call : 5,000,000+
Web Browser & Explorer : 5,000,000+
Browser 4G : 10,000,000+
MegaFon Dashboard : 10,000,000+
ZenUI Dialer & Contacts : 10,000,000+
Cricket Visual Voicemail : 10,000,000+
TracFone My Account : 1,000,000+
Xperia Link™ : 10,000,000+
TouchPal Keyboard - Fun Emoji & Android Keyboard : 10,000,000+
Skype Lite - Free Video Call & Chat : 5,000,000+
My magenta : 1,000,000+
Android Messages : 100,000,000+
Google Duo - High Quality Video Calls : 500,000,000+
Seznam.cz : 1,000,000+
Antillean Gold Telegram (original version) : 100,000+
AT&T Visual Voicemail : 10,000,000+
GMX Mail : 10,000,000+
Omlet Chat : 10,000,000+
My Vodacom SA : 5,000,000+
Microsoft Edge : 5,000,000+
Messenger – Text and Video Chat for Free : 1,000,000,000+
imo free video calls and chat : 500,000,000+
Calls & Text by Mo+ : 5,000,000+
free 

In [37]:
for app in android_final:
    if app[1] == 'VIDEO_PLAYERS':
        print(app[0], ':', app[5])

YouTube : 1,000,000,000+
All Video Downloader 2018 : 1,000,000+
Video Downloader : 10,000,000+
HD Video Player : 1,000,000+
Iqiyi (for tablet) : 1,000,000+
Video Player All Format : 10,000,000+
Motorola Gallery : 100,000,000+
Free TV series : 100,000+
Video Player All Format for Android : 500,000+
VLC for Android : 100,000,000+
Code : 10,000,000+
Vote for : 50,000,000+
XX HD Video downloader-Free Video Downloader : 1,000,000+
OBJECTIVE : 1,000,000+
Music - Mp3 Player : 10,000,000+
HD Movie Video Player : 1,000,000+
YouCut - Video Editor & Video Maker, No Watermark : 5,000,000+
Video Editor,Crop Video,Movie Video,Music,Effects : 1,000,000+
YouTube Studio : 10,000,000+
video player for android : 10,000,000+
Vigo Video : 50,000,000+
Google Play Movies & TV : 1,000,000,000+
HTC Service － DLNA : 10,000,000+
VPlayer : 1,000,000+
MiniMovie - Free Video and Slideshow Editor : 50,000,000+
Samsung Video Library : 50,000,000+
OnePlus Gallery : 1,000,000+
LIKE – Magic Video Maker & Community : 50,

In [38]:
for app in android_final:
    if app[1] == 'SOCIAL':
        print(app[0], ':', app[5])

Facebook : 1,000,000,000+
Facebook Lite : 500,000,000+
Tumblr : 100,000,000+
Social network all in one 2018 : 100,000+
Pinterest : 100,000,000+
TextNow - free text + calls : 10,000,000+
Google+ : 1,000,000,000+
The Messenger App : 1,000,000+
Messenger Pro : 1,000,000+
Free Messages, Video, Chat,Text for Messenger Plus : 1,000,000+
Telegram X : 5,000,000+
The Video Messenger App : 100,000+
Jodel - The Hyperlocal App : 1,000,000+
Hide Something - Photo, Video : 5,000,000+
Love Sticker : 1,000,000+
Web Browser & Fast Explorer : 5,000,000+
LiveMe - Video chat, new friends, and make money : 10,000,000+
VidStatus app - Status Videos & Status Downloader : 5,000,000+
Love Images : 1,000,000+
Web Browser ( Fast & Secure Web Explorer) : 500,000+
SPARK - Live random video chat & meet new people : 5,000,000+
Golden telegram : 50,000+
Facebook Local : 1,000,000+
Meet – Talk to Strangers Using Random Video Chat : 5,000,000+
MobilePatrol Public Safety App : 1,000,000+
💘 WhatsLov: Smileys of love, sti

O que podemos perceber é que similarmente ao visto no caso do iOS, algumas categorias possuem um número médio de instalações alto devido a alguns apps específicos como é o caso da categoria "COMMUNICATION" com o app Whatsapp e Mensseger, a categoria "VIDEO_PLAYERS""com o app Youtube e a categoria "SOCIAL" com os apps Facebook e Instagram.

Olhando atentamente para a categoria "BOOKS_AND_REFERENCE" o qual anteriormente consideramos ser uma boa opção para o iOS podemos ver que essa categoria inclue uma variedade de aplicativos: software para processamento e leitura de e-books, várias coleções de bibliotecas, dicionários, tutoriais sobre programação ou linguagens, etc. Parece que ainda há um pequeno número de aplicativos extremamente populares que distorcem a média:



In [40]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE':
        print(app[0], ':', app[5])

E-Book Read - Read Book for free : 50,000+
Download free book with green book : 100,000+
Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Free Panda Radio Music : 100,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
English Grammar Complete Handbook : 500,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
Google Play Books : 1,000,000,000+
AlReader -any text book reader : 5,000,000+
Offline English Dictionary : 100,000+
Offline: English to Tagalog Dictionary : 500,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
Recipes of Prophetic Medicine for free : 500,000+
ReadEra – free ebook reader : 1,000,000+
Anonymous caller detection : 10,000+
Ebook Reader : 5,000,000+
Litnet - E-books : 100,000+
Read books online : 5,000,000+
English to Urdu Dictionary : 500,000+
eBoox: book reader fb2 epub zip : 1,000,000+
English Persian Dictionary : 500,000+
Flybook : 500,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
E

No entanto, parece que existem apenas alguns aplicativos muito populares, então este mercado ainda mostra potencial. Vamos tentar obter algumas ideias de aplicativos com base no tipo de aplicativo que está em algum lugar no meio em termos de popularidade (entre 1.000.000 e 100.000.000 de downloads):


In [41]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '1,000,000+'
                                            or app[5] == '5,000,000+'
                                            or app[5] == '10,000,000+'
                                            or app[5] == '50,000,000+'):
        print(app[0], ':', app[5])

Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
AlReader -any text book reader : 5,000,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
ReadEra – free ebook reader : 1,000,000+
Ebook Reader : 5,000,000+
Read books online : 5,000,000+
eBoox: book reader fb2 epub zip : 1,000,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
Moon+ Reader : 10,000,000+
English-Myanmar Dictionary : 1,000,000+
Golden Dictionary (EN-AR) : 1,000,000+
All Language Translator Free : 1,000,000+
Aldiko Book Reader : 10,000,000+
Dictionary - WordWeb : 5,000,000+
50000 Free eBooks & Free AudioBooks : 5,000,000+
Al-Quran (Free) : 10,000,000+
Al Quran Indonesia : 10,000,000+
Al'Quran Bahasa Indonesia : 10,000,000+
Al Quran Al karim : 1,000,000+
Al Quran : EAlim - Translations & MP3 Offline : 5,000,000+
Koran Read &MP3 30 Juz Offline : 1,000,000+
H

Este nicho parece ser dominado por software para processamento e leitura de e-books, bem como várias coleções de bibliotecas e dicionários, então provavelmente não é uma boa ideia construir aplicativos semelhantes, pois haverá uma competição significativa.

Também notamos que existem alguns aplicativos desenvolvidos em torno do livro Al-Quran, o que sugere que construir um aplicativo em torno de um livro popular pode ser lucrativo. Parece que pegar um livro popular (talvez um livro mais recente) e transformá-lo em um aplicativo pode ser lucrativo para os mercados do Google Play e da App Store.

No entanto, parece que o mercado já está cheio de bibliotecas, por isso seria interessante adicionar alguns recursos especiais além da versão bruta do livro. Isso pode incluir citações diárias do livro, uma versão em áudio do livro, questionários sobre o livro, um fórum onde as pessoas podem discutir o livro, etc.

# Conclusão

Neste projeto foram analisados dois datasets com dados dos aplicativos disponíveis na Google Play e na App Store. Está analise teve como objetivo recomendar um perfil de app atrativo ao público de ambas as plataformas a uma empresa que desenvolve app gratuitos e em inglês.

Com a análise realizada conclui-se que uma boa escolha de app seria no nicho de Livros e Referências onde seria possível selecionar um livro popular e recente e transforma-lo em um app. Mas como o mercado está saturado de bibliotecas seria importante adicionar mais algumas features ao app como, por exemplo, citações diárias do livro, uma versão em áudio do livro, questionários sobre o livro, um fórum onde as pessoas podem discutir o livro, etc.