### Tipos de aplicativos mais lucrativos para AppleStore e para o Google Play Store

Objetivo deste projeto é encontrar perfis de aplicativos mobile que sejam lucrativos para App Store e o Google Play.
Esta analise sera feita para o desenvolvedor que cria apps free e a principal fonte de receita é composta por anúncios no app.
Isso significa que a receita esta ligada diretamente na quantidade de usúarios que usam os aplicativos.
Objetivo então neste projeto é analisar os dados para entender quais os tipos de app que podem atrair mais usuários.


### Abrindo e explorando os dados
O primeiro [Dataset](https://www.kaggle.com/lava18/google-play-store-apps/home) é com aproximadamente dez mil aplicativos Android da Google Play<br>
O segundo [Dataset](https://www.kaggle.com/lava18/google-play-store-apps/home) é com aproximadamente sete mil aplicativos iOS da App Store<br>
Vamos começar abrindo os dois conjuntos de dados e continuar explorando os dados.

In [2]:
from csv import reader

# Data set da GooglePlay 
opened_file = open('googleplaystore.csv',encoding ="utf8")
read_file = reader(opened_file)
android = list(read_file)
android_header = android[0]
android = android[1:]

# Data set da AppleStore 
opened_file = open('AppleStore.csv',encoding ="utf8")
read_file = reader(opened_file)
ios = list(read_file)
ios_header = ios[0]
ios = ios[1:]

Para facilitar a exploração das duas dataset, foi criada uma função chamada explore_data() que podemos usar repetidamente para explorar linhas de uma maneira mais legível. e temos uma opção para nossa função mostrar o número de linhas e colunas.

- dataset - aceita como argumento um objeto do tipo lista(Dataset)
- starte e end - representam os índices inicial  e final de um slice em um Dataset e aceitam como argumento numeros inteiros
- rows_and_columns - que deve ser um booleano e tem False como argumento padrão. para imprimir ou não a quantidade de linhas e colunas

In [3]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') #Após cada linha impressa adciona uma linha em branco
        
    if rows_and_columns:
        print('Quantidade de linhas:', len(dataset))
        print('Quantidade de colunas:', len(dataset[0]))

print(android_header)
print('\n')
explore_data(android, 0, 3, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


Quantidade de linhas: 10841
Quantidade de colunas: 13


No dataset da Google Play temos 10841 linhas e 13 colunas. As colunas que podem ser úteis para o propósito desta análise são 'App', 'Categoria', 'Comentários', 'Instalações', 'Tipo', 'Preço' e 'Gêneros'.

Na proxima célula vamos explorar a dataset da App Store.

In [4]:
print(ios_header)
print('\n')
explore_data(ios, 0, 3, True)

['', 'id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['1', '281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['2', '281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['3', '281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188583', '2822', '3.5', '4.5', '5.0.0', '4+', 'Weather', '37', '5', '3', '1']


Quantidade de linhas: 7197
Quantidade de colunas: 17


No dataset da Apple temos 7197 e as colunas mais interessantes são: 'track_name', 'currency', 'price', 'rating_count_tot', 'rating_count_ver' e 'prime_genre'. Nem todos os nomes de coluna são autoexplicativos nesse caso, mais detalhes sobre cada coluna podem ser encontrados na [documentação](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/home) do Dataset.

O Dataset da Google Play tem um [Forum de discussão](https://www.kaggle.com/lava18/google-play-store-apps/discussion), e podemos ver que ha um [Post](https://www.kaggle.com/lava18/google-play-store-apps/discussion/66015) sobre um erro na linha 10472. Vamos imprimir essa linha e compará-la com o cabeçalho e com uma outra linha.

In [5]:
print(android[10472])  # Linha com erro
print('\n')
print(android_header)  # header(Cabeçalho)
print('\n')
print(android[0])      # linha sem erros

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


A linha 10472 corresponde ao aplicativo Life Made WI-Fi Touchscreen Photo Frame, como podemos ver na coluna Ratings(classificação) esta com valor 19. mas a classificação máxima na GooglePlay é de 5. neste caso sera deletada a linha

In [6]:
print(len(android))
del android[10472]  # Utilizar apenas uma vez
print(len(android))

10841
10840


# Removendo dados duplicados
Ao explorar o dataset pode ser constatado que a alguns dados duplicados. como por exemplo, o app do instagram tem 4 entradas.

In [7]:
for app in android:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


O total de duplicidades de dadados no dataset são de 1.181 casos em que um  aplicativo aparece mais de uma vez

In [8]:
duplicate_apps = []
unique_apps = []

for app in android:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)
    
print('Quantidade de apps duplicados:', len(duplicate_apps))
print('\n')
print('Alguns App duplicados:', duplicate_apps[:15])

Quantidade de apps duplicados: 1181


Alguns App duplicados: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


Não podemos ter duplicidades de dados no dataset quando formos analisar os dados, Temos que ter apenas uma entrada de dados por app. Então vamos remover as linhas duplicadas.
Na celula acima podemos notar que há uma diferença na quarta coluna, que corresponde com o números avaliações do app.
Usaremos a quarta coluna como criitério para manter as linhas. Manteremos as linhas com maior número avaliações mais confiável é a média de avaliações.

In [9]:
reviews_max = {}

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
        
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

Como sabemos que há 1.181 casos de dados duplicados. A quantidade de app no dicionario de app sem as duplicidades deve ser igual à  diferença entre a quantidade de dados do dataset

In [10]:
print('Expected length:', len(android) - 1181)
print('Actual length:', len(reviews_max))

Expected length: 9659
Actual length: 9659


Vamos utilizar um dicionário para remover a duplicidade dos dados. No caso de duplicidade manteremos a linha com a coluna com mais reviews.
- Inicializa duas listas vazias, android_clean e already_added.
-   E para cada iteração do loop no dataset do Android:
  - Isolamos o nome do aplicativo e o número de reviews.
  - Adicionamos row(app) na lista android_clean, e add a coluna com o nome do app na lista already_cleaned se:
     - O número de reviews do app corresponde conforme o reviews dentro do dicionario reviews_max; e
     - Que o nome do app não esteja na lista already_added colocamos essa condição para considerar os casos em que o maior número de reviews de um aplicativo duplicado é o mesmo para mais de uma entrada (por exemplo, o aplicativo The Box tem três entradas e o número de reviews é o mesmo). Se verificarmos apenasa lista reviews_max [name] == n_reviews, ainda assim teremos dados duplicados para alguns apps.

In [11]:
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if (reviews_max[name] == n_reviews) and (name not in already_added):
        android_clean.append(app)
        already_added.append(name) # para saber se esta dentro da condição do if

vamos explorar o novo dataset e confirmar se o número de linhas é 9.659.

In [12]:
explore_data(android_clean, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Quantidade de linhas: 9659
Quantidade de colunas: 13


# Removendo aplicativos que não estão na lingua inglesa 
Ao explorar o dataset, percebemos que alguns aplicativos estão em outro idioma.
A língua inglesa é imprescindível nos dias atuais, pois a globalização faz com que se torne algo fundamental. O inglês é a língua internacional, a língua dos estudos, das viagens, dos negócios, a língua da comunicação com todo o mundo.

In [13]:
print(ios[813][1])
print(ios[6731][1])

print(android_clean[4412][0])
print(android_clean[7940][0])

436672029
1144164707
中国語 AQリスニング
لعبة تقدر تربح DZ


Vamos remover cada aplicativo cujo nome contenha um símbolo que não é usado em texto em inglês. O alfabeto inglês geralmente inclui letras, números compostos de dígitos de 0 a 9, sinais de pontuação (.,! ,?,;, etc.) e outros símbolos (+, *, /, etc.).
Todos esses caracteres que são codificados usando o padrão ASCII. Cada caractere ASCII tem um número correspondente entre 0 e 127 associado a ele, e podemos aproveitar isso para construir uma função que verifica o nome de um aplicativo e informa se ele contém caracteres não-ASCII.
Abaixos vamos utilizar uma função built-in  a função ord() ela retorna o número da codificação de um caracter 

In [14]:
def is_english(string):
    
    for character in string:
        if ord(character) > 127:
            return False
    
    return True

print(is_english('Instagram'))
print(is_english('爱奇艺PPS -《欢乐颂2》电视剧热播'))

True
False


A função funciona, mas em alguns aplicativos o nome contém simbolos (™, - (com hifen), etc.) que não são do padão ASCII.
se utilizamos a função como esta ela removera dados úteis.

In [15]:
print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

print(ord('™'))
print(ord('😜'))

False
False
8482
128540


Atulizaremos o codigo para que ele remova apenas os apps que tenham mais de três caracters fora do padrão ASCII


In [16]:
def is_english(string):
    non_ascii = 0
    
    for character in string:
        if ord(character) > 127:
            non_ascii += 1
    
    if non_ascii > 3:
        return False
    else:
        return True

print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

True
True


A função ainda não é perfeita, e poucos aplicativos que tem outros padrões de caracteres podem passar pelo nosso filtro, mas isso parece bom o suficiente neste momento em nossa análise - não devemos gastar muito tempo com otimização neste momento.

Abaixo, usamos a função is_english() para filtrar os aplicativos que o nome não tem caracteres no padrão ASCII para os dois dataset:

In [17]:
android_english = []
ios_english = []

for app in android_clean:
    name = app[0]
    if is_english(name):
        android_english.append(app)
        
for app in ios:
    name = app[2]
    if is_english(name):
        ios_english.append(app)
        
explore_data(android_english, 0, 3, True)
print('\n')
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Quantidade de linhas: 9614
Quantidade de colunas: 13


['1', '281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['2', '281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['3', '281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD',

Agora temos  9614 app Android e 6183 app iOS.

## Isolando os aplicativos free
Como mencionamos na introdução, iremos analisar apenas app free.
Nossos Dataset contêm app free e pagos, e precisamos isolar apenas os aplicativos gratuitos para nossa análise. Abaixo, isolamos os aplicativos gratuitos.

In [18]:
android_final = []
ios_final = []

for app in android_english:
    price = app[7]
    if price == '0':
        android_final.append(app)
        
for app in ios_english:
    price = app[5]
    if price == '0':
        ios_final.append(app)
        
print(len(android_final))
print(len(ios_final))

8864
3222


Agora temos 8864 de app Android e 3222 de app IOS

# Os gêneros mais comuns de aplicativos
Como mencionamos na introdução, nosso objetivo é determinar os tipos de aplicativos que provavelmente atrairão mais usuários.

Para minimizar os riscos e a sobrecarga, nossa estratégia de validação para uma ideia de aplicativo é composta de três etapas:

1. Crie uma versão demo do aplicativo para Android e adicione-a ao Google Play.
2. Se o aplicativo tiver boas avaliações dos usuários, continuaremos a desenvolver o app.
3. Se o aplicativo for lucrativo após seis meses, também criaremos uma versão para iOS do aplicativo e a adicionaremos à App Store.<br>

Como nosso objetivo final é adicionar o aplicativo na App Store e no Google Play, precisamos encontrar gêneros de aplicativos bem-sucedidos em ambos os mercados. Por exemplo, um perfil que pode funcionar bem em ambos os mercados pode ser um aplicativo de produtividade que faz uso de gamification(técnicas de design de jogos que utilizam mecânicas de jogos e pensamentos orientados a jogos para enriquecer contextos diversos normalmente não relacionados a jogos.).

Vamos começar a análise obtendo uma noção dos gêneros mais comuns para cada mercado. Para isso, criaremos uma tabela de frequência para a coluna prime_genre do dataset da App Store e as colunas Genres e Category do dataset do Google Play.

Criaremos duas funções que podemos usar para analisar as tabelas de frequência:

Uma função para gerar tabelas de frequência que mostram porcentagens
Outra função para exibir as porcentagens em ordem decrescente.

In [19]:
def freq_table(dataset, index):
    table = {}
    total = 0
    
    for row in dataset:
        total += 1
        value = row[index]
        if value in table:
            table[value] += 1
        else:
            table[value] = 1
    
    table_percentages = {}
    for key in table:
        percentage = (table[key] / total) * 100
        table_percentages[key] = percentage 
    
    return table_percentages


def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)
        
    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

Começamos examinando a tabela de frequência da coluna prime_genre do dataset da App Store.

In [20]:
display_table(ios_final, -5)

Games : 58.16263190564867
Entertainment : 7.883302296710118
Photo & Video : 4.9658597144630665
Education : 3.662321539416512
Social Networking : 3.2898820608317814
Shopping : 2.60707635009311
Utilities : 2.5139664804469275
Sports : 2.1415270018621975
Music : 2.0484171322160147
Health & Fitness : 2.0173805090006205
Productivity : 1.7380509000620732
Lifestyle : 1.5828677839851024
News : 1.3345747982619491
Travel : 1.2414649286157666
Finance : 1.1173184357541899
Weather : 0.8690254500310366
Food & Drink : 0.8069522036002483
Reference : 0.5586592178770949
Business : 0.5276225946617008
Book : 0.4345127250155183
Navigation : 0.186219739292365
Medical : 0.186219739292365
Catalogs : 0.12414649286157665



Podemos ver que entre os aplicativos gratuitos, mais da metade (58,16%) são jogos. Aplicativos de entretenimento estão perto de 8%, seguidos por aplicativos de foto e vídeo, que estão próximos a 5%. Apenas 3,66% dos aplicativos são projetados para educação, seguidos por aplicativos de rede social, que representam 3,29% dos aplicativos em nosso Dataset.

Em geral é que a App Store (pelo menos a parte que contém aplicativos gratuitos) é dominada por aplicativos para diversão (jogos, entretenimento, foto e vídeo, redes sociais, esportes, música etc.), enquanto aplicativos com propósitos para (educação, compras, serviços públicos, produtividade, estilo de vida, etc.) são raros. No entanto, o fato de aplicativos divertidos serem os mais numerosos também não implica que eles também tenham o maior número de usuários - a demanda pode não ser a mesma que a oferta.

Vamos continuar examinando as colunas Gêneros e Categoria do Dataset do Google Play (duas colunas que parecem estar relacionadas).

In [21]:
display_table(android_final, 1)

FAMILY : 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084
COMMUNICATION : 3.2378158844765346
HEALTH_AND_FITNESS : 3.0798736462093865
PHOTOGRAPHY : 2.944494584837545
NEWS_AND_MAGAZINES : 2.7978339350180503
SOCIAL : 2.6624548736462095
TRAVEL_AND_LOCAL : 2.33528880866426
SHOPPING : 2.2450361010830324
BOOKS_AND_REFERENCE : 2.1435018050541514
DATING : 1.861462093862816
VIDEO_PLAYERS : 1.7937725631768955
MAPS_AND_NAVIGATION : 1.3989169675090252
FOOD_AND_DRINK : 1.2409747292418771
EDUCATION : 1.1620036101083033
ENTERTAINMENT : 0.9589350180505415
LIBRARIES_AND_DEMO : 0.9363718411552346
AUTO_AND_VEHICLES : 0.9250902527075812
HOUSE_AND_HOME : 0.8235559566787004
WEATHER : 0.8009927797833934
EVENTS : 0.7107400722021661
PARENTING : 0.6543321299638989
ART_AND_DESIGN : 

Os números parece ser significativamente diferente no Google Play: não há muitos aplicativos projetados para diversão e parece que um bom número de aplicativos foi projetado para fins práticos (família, ferramentas, negócios, estilo de vida, produtividade, etc.).
Mesmo assim, os aplicativos práticos parecem ter uma melhor representação no Google Play em comparação com a App Store. Estes numeros também é confirmado pela tabela de frequências que vemos para a coluna Gêneros:

In [22]:
display_table(android_final, -4)


Tools : 8.449909747292418
Entertainment : 6.069494584837545
Education : 5.347472924187725
Business : 4.591606498194946
Productivity : 3.892148014440433
Lifestyle : 3.892148014440433
Finance : 3.7003610108303246
Medical : 3.531137184115524
Sports : 3.463447653429603
Personalization : 3.3167870036101084
Communication : 3.2378158844765346
Action : 3.1024368231046933
Health & Fitness : 3.0798736462093865
Photography : 2.944494584837545
News & Magazines : 2.7978339350180503
Social : 2.6624548736462095
Travel & Local : 2.3240072202166067
Shopping : 2.2450361010830324
Books & Reference : 2.1435018050541514
Simulation : 2.0419675090252705
Dating : 1.861462093862816
Arcade : 1.8501805054151623
Video Players & Editors : 1.7712093862815883
Casual : 1.7599277978339352
Maps & Navigation : 1.3989169675090252
Food & Drink : 1.2409747292418771
Puzzle : 1.128158844765343
Racing : 0.9927797833935018
Role Playing : 0.9363718411552346
Libraries & Demo : 0.9363718411552346
Auto & Vehicles : 0.9250902527075

In [44]:
genres_ios = freq_table(ios_final, -5)

for genre in genres_ios:
    total = 0
    len_genre = 0
    for app in ios_final:
        genre_app = app[-5]
        if genre_app == genre:            
            n_ratings = float(app[6])
            total += n_ratings
            len_genre += 1
    avg_n_ratings = total / len_genre
    print(genre, ':', avg_n_ratings)

Productivity : 21028.410714285714
Weather : 52279.892857142855
Shopping : 26919.690476190477
Reference : 74942.11111111111
Finance : 31467.944444444445
Music : 57326.530303030304
Utilities : 18684.456790123455
Travel : 28243.8
Social Networking : 71548.34905660378
Sports : 23008.898550724636
Health & Fitness : 23298.015384615384
Games : 22788.6696905016
Food & Drink : 33333.92307692308
News : 21248.023255813954
Book : 39758.5
Photo & Video : 28441.54375
Entertainment : 14029.830708661417
Business : 7491.117647058823
Lifestyle : 16485.764705882353
Education : 7003.983050847458
Navigation : 86090.33333333333
Medical : 612.0
Catalogs : 4004.0


Em média, os aplicativos de navegação têm o maior número de comentários de usuários, mas esse número é fortemente influenciado pelo Waze e pelo Google Maps, que têm quase meio milhão de resenhas de usuários juntas:

In [31]:
for app in ios_final:
    if app[-5] == 'Navigation':
        print(app[2], ':', app[6]) # print name and number of ratings

Waze - GPS Navigation, Maps & Real-time Traffic : 345046
Geocaching® : 12811
ImmobilienScout24: Real Estate Search in Germany : 187
Railway Route Search : 5
CoPilot GPS – Car Navigation & Offline Maps : 3582
Google Maps - Navigation & Transit : 154911


O mesmo padrão se aplica a aplicativos de redes sociais, onde o número médio é fortemente influenciado por alguns gigantes como Facebook, Pinterest, Skype, etc. O mesmo se aplica a aplicativos de música, onde alguns grandes apps como Pandora, Spotify e Shazam influenciam no número medio.

Nosso objetivo é encontrar gêneros populares, mas navegação, redes sociais ou aplicativos de música podem parecer mais populares do que realmente são. O número médio de classificações parece ser distorcido por muito poucos aplicativos que têm centenas de milhares de avaliações de usuários, enquanto os outros aplicativos podem ter dificuldades para superar o limite de 10.000. Poderíamos obter números melhores removendo esses aplicativos extremamente populares de cada gênero e refazer as médias, mas deixaremos esse nível de detalhe para mais tarde.

Os aplicativos do Genero Reference têm 74.942 avaliações de usuários, em média, mas na verdade  a Bíblia e o Dicionário que distorcem a média da classificação:

In [33]:
for app in ios_final:
    if app[-5] == 'Reference':
        print(app[2], ':', app[6])

Bible : 985920
Dictionary.com Dictionary & Thesaurus : 200047
Dictionary.com Dictionary & Thesaurus for iPad : 54175
Muslim Pro: Ramadan 2017 Prayer Times, Azan, Quran : 18418
Merriam-Webster Dictionary : 16849
Google Translate : 26786
Night Sky : 12122
WWDC : 762
Jishokun-Japanese English Dictionary & Translator : 0
教えて!goo : 0
VPN Express : 14
New Furniture Mods - Pocket Wiki & Game Tools for Minecraft PC Edition : 17588
LUCKY BLOCK MOD ™ for Minecraft PC Edition - The Best Pocket Wiki & Mods Installer Tools : 4693
Guides for Pokémon GO - Pokemon GO News and Cheats : 826
Horror Maps for Minecraft PE - Download The Scariest Maps for Minecraft Pocket Edition (MCPE) Free : 718
City Maps for Minecraft PE - The Best Maps for Minecraft Pocket Edition (MCPE) : 8535
GUNS MODS for Minecraft PC Edition - Mods Tools : 1497
Real Bike Traffic Rider Virtual Reality Glasses : 8


No entanto, este nicho parece mostrar algum potencial. Uma coisa que podemos fazer é pegar outro livro popular e transformá-lo em um aplicativo onde possamos adicionar recursos diferentes além da versão básica do livro. Isso pode incluir citações diárias do livro, uma versão em áudio do livro, questionários sobre o livro, etc. Além disso, podemos também incorporar um dicionário no aplicativo, para que os usuários não precisem sair do aplicativo para ver palavras em um aplicativo externo.

Essa ideia parece se encaixar bem com o fato de que a App Store é dominada por aplicativos divertidos. Isso sugere que o mercado pode estar um pouco saturado com aplicativos divertidos, o que significa que um aplicativo prático pode ter mais chances de se destacar entre o grande número de aplicativos da App Store.

Outros gêneros que parecem populares incluem clima, livro, comida e bebida ou finanças. O gênero do livro parece se sobrepor um pouco com a ideia do aplicativo que descrevemos acima, mas os outros gêneros não parecem muito interessantes para nós:

Aplicativos climáticos - as pessoas geralmente não gastam muito tempo no aplicativo, e as chances de lucrar com as inclusões no aplicativo são baixas. Além disso, obter dados climáticos confiáveis ​​ao vivo pode exigir que conectemos nossos aplicativos a APIs não livres.

Aplicativos financeiros - esses aplicativos envolvem serviços bancários, pagamento de contas, transferência de dinheiro, etc. A criação de um aplicativo financeiro exige conhecimento e domínio e não queremos contratar um especialista em finanças apenas para criar um aplicativo.

Agora vamos analisar o mercado do Google Play um pouco.

Aplicativos mais populares por gênero no Google Play
Para o mercado do Google Play, na verdade, temos dados sobre o número de instalações, por isso poderemos ter uma ideia mais clara sobre a popularidade do gênero. No entanto, os números de instalação não parecem precisos o suficiente - podemos ver que a maioria dos valores são abertos (100+, 1.000+, 5.000+, etc.):

In [34]:
display_table(android_final, 5) # coluna referente as instalações

1,000,000+ : 15.726534296028879
100,000+ : 11.552346570397113
10,000,000+ : 10.548285198555957
10,000+ : 10.198555956678701
1,000+ : 8.393501805054152
100+ : 6.915613718411552
5,000,000+ : 6.825361010830325
500,000+ : 5.561823104693141
50,000+ : 4.7721119133574
5,000+ : 4.512635379061372
10+ : 3.5424187725631766
500+ : 3.2490974729241873
50,000,000+ : 2.3014440433213
100,000,000+ : 2.1322202166064983
50+ : 1.917870036101083
5+ : 0.78971119133574
1+ : 0.5076714801444043
500,000,000+ : 0.2707581227436823
1,000,000,000+ : 0.22563176895306858
0+ : 0.04512635379061372
0 : 0.01128158844765343



Um problema com esses dados é que não é preciso. Por exemplo, não sabemos se um aplicativo com mais de 100.000 instalações possui 100.000 instalações, 200.000 ou 350.000. No entanto, não precisamos de dados muito precisos para nossos propósitos - só queremos ter uma ideia de quais gêneros de aplicativos atraem a maioria dos usuários e não precisamos de uma precisão perfeita em relação ao número de usuários.

Vamos deixar os números como estão, o que significa que consideraremos que um aplicativo com mais de 100.000 instalações tem 100.000 instalações, e um aplicativo com mais de 1.000.000 instalações tem 1.000.000 de instalações e assim por diante.

Para executar cálculos, no entanto, precisaremos converter cada número de instalação em float - isso significa que precisamos remover as vírgulas e os caracteres positivos, caso contrário, a conversão falhará e gerará um erro. Faremos isso diretamente no loop abaixo, onde também computamos o número médio de instalações para cada gênero (categoria)..

In [45]:
categories_android = freq_table(android_final, 1)

for category in categories_android:
    total = 0
    len_category = 0
    for app in android_final:
        category_app = app[1]
        if category_app == category:            
            n_installs = app[5]
            n_installs = n_installs.replace(',', '')#função replace para subtituir string primeiro
            n_installs = n_installs.replace('+', '')
            total += float(n_installs)
            len_category += 1
    avg_n_installs = total / len_category
    print(category, ':', avg_n_installs)

ART_AND_DESIGN : 1986335.0877192982
AUTO_AND_VEHICLES : 647317.8170731707
BEAUTY : 513151.88679245283
BOOKS_AND_REFERENCE : 8767811.894736841
BUSINESS : 1712290.1474201474
COMICS : 817657.2727272727
COMMUNICATION : 38456119.167247385
DATING : 854028.8303030303
EDUCATION : 1833495.145631068
ENTERTAINMENT : 11640705.88235294
EVENTS : 253542.22222222222
FINANCE : 1387692.475609756
FOOD_AND_DRINK : 1924897.7363636363
HEALTH_AND_FITNESS : 4188821.9853479853
HOUSE_AND_HOME : 1331540.5616438356
LIBRARIES_AND_DEMO : 638503.734939759
LIFESTYLE : 1437816.2687861272
GAME : 15588015.603248259
FAMILY : 3695641.8198090694
MEDICAL : 120550.61980830671
SOCIAL : 23253652.127118643
SHOPPING : 7036877.311557789
PHOTOGRAPHY : 17840110.40229885
SPORTS : 3638640.1428571427
TRAVEL_AND_LOCAL : 13984077.710144928
TOOLS : 10801391.298666667
PERSONALIZATION : 5201482.6122448975
PRODUCTIVITY : 16787331.344927534
PARENTING : 542603.6206896552
WEATHER : 5074486.197183099
VIDEO_PLAYERS : 24727872.452830188
NEWS_AND_

Em média, os aplicativos de comunicação têm mais instalações: 38.456.119. Esse número é fortemente distorcido por alguns aplicativos que têm mais de um bilhão de instalações (WhatsApp, Facebook Messenger, Skype, Google Chrome, Gmail e Hangouts) e alguns outros com mais de 100 e 500 milhões de instalações:

In [36]:
for app in android_final:
    if app[1] == 'COMMUNICATION' and (app[5] == '1,000,000,000+'
                                      or app[5] == '500,000,000+'
                                      or app[5] == '100,000,000+'):
        print(app[0], ':', app[5])

WhatsApp Messenger : 1,000,000,000+
imo beta free calls and text : 100,000,000+
Android Messages : 100,000,000+
Google Duo - High Quality Video Calls : 500,000,000+
Messenger – Text and Video Chat for Free : 1,000,000,000+
imo free video calls and chat : 500,000,000+
Skype - free IM & video calls : 1,000,000,000+
Who : 100,000,000+
GO SMS Pro - Messenger, Free Themes, Emoji : 100,000,000+
LINE: Free Calls & Messages : 500,000,000+
Google Chrome: Fast & Secure : 1,000,000,000+
Firefox Browser fast & private : 100,000,000+
UC Browser - Fast Download Private & Secure : 500,000,000+
Gmail : 1,000,000,000+
Hangouts : 1,000,000,000+
Messenger Lite: Free Calls & Messages : 100,000,000+
Kik : 100,000,000+
KakaoTalk: Free Calls & Text : 100,000,000+
Opera Mini - fast web browser : 100,000,000+
Opera Browser: Fast and Secure : 100,000,000+
Telegram : 100,000,000+
Truecaller: Caller ID, SMS spam blocking & Dialer : 100,000,000+
UC Browser Mini -Tiny Fast Private & Secure : 100,000,000+
Viber Mess

Se removêssemos todos os aplicativos de comunicação que têm mais de 100 milhões de instalações, a média seria reduzida aproximadamente dez vezes:

In [37]:
under_100_m = []

for app in android_final:
    n_installs = app[5]
    n_installs = n_installs.replace(',', '')
    n_installs = n_installs.replace('+', '')
    if (app[1] == 'COMMUNICATION') and (float(n_installs) < 100000000):
        under_100_m.append(float(n_installs))
        
sum(under_100_m) / len(under_100_m)

3603485.3884615386

Nós vemos o mesmo padrão para a categoria de Apps de vídeo, que o segundo colocado com 24.727.872 instalações. O mercado é dominado por aplicativos como o YouTube, o Google Play Filmes e a TV ou o MX Player. O padrão é repetido para aplicativos sociais (onde temos gigantes como Facebook, Instagram, Google+, etc.), aplicativos de fotografia (Google Fotos e outros editores de fotos populares) ou aplicativos de produtividade (Microsoft Word, Dropbox, Google Agenda, Evernote, etc .

Mais uma vez, a principal preocupação é que esses gêneros de aplicativos possam parecer mais populares do que realmente são. Além disso, esses nichos parecem ser dominados por alguns gigantes que são difíceis de competir.

O gênero do jogo parece bastante popular, mas anteriormente descobrimos que essa parte do mercado parece um pouco saturada, então gostaríamos de sugerir uma recomendação de aplicativo diferente, se possível.

Os livros e o gênero de referência também parecem bastante populares, com um número médio de instalações de 8.767.811. É interessante explorar isso com mais profundidade, pois descobrimos que esse gênero tem algum potencial para funcionar bem na App Store, e nosso objetivo é recomendar um gênero de aplicativo que mostre potencial para ser lucrativo na App Store e no Google Play.

Vamos dar uma olhada em alguns dos aplicativos desse gênero e seu número de instalações:

In [38]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE':
        print(app[0], ':', app[5])

E-Book Read - Read Book for free : 50,000+
Download free book with green book : 100,000+
Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Free Panda Radio Music : 100,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
English Grammar Complete Handbook : 500,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
Google Play Books : 1,000,000,000+
AlReader -any text book reader : 5,000,000+
Offline English Dictionary : 100,000+
Offline: English to Tagalog Dictionary : 500,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
Recipes of Prophetic Medicine for free : 500,000+
ReadEra – free ebook reader : 1,000,000+
Anonymous caller detection : 10,000+
Ebook Reader : 5,000,000+
Litnet - E-books : 100,000+
Read books online : 5,000,000+
English to Urdu Dictionary : 500,000+
eBoox: book reader fb2 epub zip : 1,000,000+
English Persian Dictionary : 500,000+
Flybook : 500,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
E

O livro e gênero de Reference inclui uma variedade de aplicativos: software para processamento e leitura de ebooks, várias coleções de bibliotecas, dicionários, tutoriais sobre programação ou idiomas, etc. Parece que ainda há um pequeno número de aplicativos extremamente populares que distorcem a média:

In [39]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '1,000,000,000+'
                                            or app[5] == '500,000,000+'
                                            or app[5] == '100,000,000+'):
        print(app[0], ':', app[5])

Google Play Books : 1,000,000,000+
Bible : 100,000,000+
Amazon Kindle : 100,000,000+
Wattpad 📖 Free Books : 100,000,000+
Audiobooks from Audible : 100,000,000+



No entanto, parece que existem apenas alguns aplicativos muito populares, então este mercado ainda mostra potencial. Vamos tentar obter algumas ideias de aplicativos com base no tipo de aplicativos que estão em algum lugar no meio em termos de popularidade (entre 1.000.000 e 100.000.000 de downloads):

In [40]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '1,000,000+'
                                            or app[5] == '5,000,000+'
                                            or app[5] == '10,000,000+'
                                            or app[5] == '50,000,000+'):
        print(app[0], ':', app[5])

Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
AlReader -any text book reader : 5,000,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
ReadEra – free ebook reader : 1,000,000+
Ebook Reader : 5,000,000+
Read books online : 5,000,000+
eBoox: book reader fb2 epub zip : 1,000,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
Moon+ Reader : 10,000,000+
English-Myanmar Dictionary : 1,000,000+
Golden Dictionary (EN-AR) : 1,000,000+
All Language Translator Free : 1,000,000+
Aldiko Book Reader : 10,000,000+
Dictionary - WordWeb : 5,000,000+
50000 Free eBooks & Free AudioBooks : 5,000,000+
Al-Quran (Free) : 10,000,000+
Al Quran Indonesia : 10,000,000+
Al'Quran Bahasa Indonesia : 10,000,000+
Al Quran Al karim : 1,000,000+
Al Quran : EAlim - Translations & MP3 Offline : 5,000,000+
Koran Read &MP3 30 Juz Offline : 1,000,000+
H

Esse nicho parece ser dominado por software para processamento e leitura de e-books, bem como várias coleções de bibliotecas e dicionários, portanto, provavelmente não é uma boa ideia construir aplicativos semelhantes, pois haverá uma concorrência significativa.

Também notamos que existem alguns aplicativos construídos em torno do livro Alcorão, o que sugere que construir um aplicativo em torno de um livro popular pode ser lucrativo. Parece que ter um livro popular (talvez um livro mais recente) e transformá-lo em um aplicativo pode ser lucrativo para os mercados do Google Play e da App Store.

No entanto, parece que o mercado já está cheio de bibliotecas, por isso precisamos adicionar algumas características especiais além da versão bruta do livro. Isso pode incluir citações diárias do livro, uma versão em áudio do livro, questionários sobre o livro, um fórum onde as pessoas podem discutir o livro, etc.

# Conclusões
Neste projeto, analisamos dados sobre os aplicativos para dispositivos móveis da App Store e do Google Play, com o objetivo de recomendar um perfil de aplicativo que possa ser lucrativo para ambos os mercados.

Concluímos que levar um livro popular (talvez um livro mais recente) e transformá-lo em um aplicativo pode ser lucrativo para os mercados do Google Play e da App Store. Os mercados já estão cheios de bibliotecas, por isso precisamos adicionar algumas características especiais além da versão bruta do livro. Isso pode incluir citações diárias do livro, uma versão em áudio do livro, questionários sobre o livro, um fórum onde as pessoas podem discutir o livro, etc.