##  Projeto Guiado: Perfis de Aplicativos Lucrativos para App Store e Google Play Markets 

Esse projeto tem o objetivo de encontrar perfis de aplicativos móveis que sejam lucrativos para os mercados de App Store e Google Play.

Trabalhando como analiste de dados de uma empressa que cria aplicativos móveis Android e iOS, nosso trabalho é permitir que a nossa equipe de desenvolvimento possa tomar decisões com base em dados relacionados ao tipo de aplicativo que eles criam.

A nossa empresa cria apenas aplicativos gratuitos para download e instalação, e a nossa receita consiste em anúncioas no aplicativo. Dessa forma, a nossa receita para qualquer aplicativo é influenciada principalmente pelo número de usuários que usam nosso aplicativo. Sendo assim, o nosso objetivo para este projeto é analisar dados para ajudar nossos desenvolvedores a entender quais tipos de aplicativos provavelmente atrairão mais usuários.

Projeto guiado pela [Dataquest](https://www.dataquest.io/).

Em setembro de 2018, havia aproximadamente 2 milhões de aplicativos iOS disponíveis na App Store e 2,1 milhões de aplicativos Android no Google Play.

![Imagem](https://cdn.statcdn.com/Statistic/275000/276623-blank-754.png)
Fonte: [Statista See More](https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-stores/)

A coleta de dados para mais de 4 milhões de aplicativos requer uma quantidade significativa de tempo e dinheiro, portanto, tentaremos analisar uma amostra dos dados. Para evitar gastar recursos na coleta de novos dados, devemos primeiro tentar ver se podemos encontrar quaisquer dados existentes relevantes sem nenhum custo. Felizmente, aqui estão dois conjuntos de dados que parecem adequados para nossos objetivos:
- [Um conjunto de dados](https://www.kaggle.com/datasets/lava18/google-play-store-apps) contendo dados sobre aproximadamente 10.000 aplicativos Android do Google Play; os dados foram coletados em agosto de 2018. Você pode baixar o conjunto de dados diretamente [deste link](https://dq-content.s3.amazonaws.com/350/googleplaystore.csv) .
- [Um conjunto de dados](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps) contendo dados sobre aproximadamente 7.000 aplicativos iOS da App Store; os dados foram coletados em julho de 2017. Você pode baixar o conjunto de dados diretamente [deste link](https://dq-content.s3.amazonaws.com/350/AppleStore.csv).


#### Vamos começar abrindo os dois conjuntos de dados e continuar explorando os dados.

In [1]:
from csv import reader

### The Google Play data set ###
opened_file = open('./my_datasets/googleplaystore.csv')
read_file = reader(opened_file)
android = list(read_file)
android_header = android[0]
android = android[1:]

### The App Store data set ###
opened_file = open('./my_datasets/AppleStore.csv')
read_file = reader(opened_file)
ios = list(read_file)
ios_header = ios[0]
ios = ios[1:]

Para facilitar a exploração dos dois conjuntos de dados, primeiro escreveremos uma função chamada explore_data() que podemos usar repetidamente para explorar as linhas de uma maneira mais legível. Também adicionaremos uma opção para nossa função mostrar o número de linhas e colunas para qualquer conjunto de dados.

In [2]:
def explore_data(dataset, start, end, row_and_columns = False):
    dataset_slice = dataset[start:end]
    for row in dataset_slice:
        print(row)
        print('\n')
    if (row_and_columns):
        print('Number of rows:', len(dataset))
        print('NUmber of columns:', len(dataset[0]))
        
print(android_header)
print('\n')
explore_data(android,0,3, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


Number of rows: 10841
NUmber of columns: 13


Vemos que o conjunto de dados do Google Play tem 10841 aplicativos e 13 colunas. Em uma rápida olhada, as colunas que podem ser úteis para o propósito de nossa análise são 'Aplicativo', 'Categoria', 'Comentários', 'Instalações', 'Tipo', 'Preço' e 'Gêneros'.

Agora vamos dar uma olhada no conjunto de dados da App Store.

In [3]:
print(ios_header)
print('\n')
explore_data(ios, 0, 3, True)

['', 'id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['1', '281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['2', '281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['3', '281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188583', '2822', '3.5', '4.5', '5.0.0', '4+', 'Weather', '37', '5', '3', '1']


Number of rows: 7197
NUmber of columns: 17


Já no conjundo de dados do iOS temos 7197 aplicativos e 17 colunas. As colunas que parecem interessantes são: 'track_name', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', and 'prime_genre'. Nem todos os nomes de coluna são autoexplicativos neste caso, mas detalhes sobre cada coluna podem ser encontrados na [documentação](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/home) do conjunto de dados.

### Excluindo dados incorretos
O conjunto de dados do Google Play tem uma seção de discussão dedicada, e podemos ver que uma das discussões descreve um erro para a linha 10472. Vamos imprimir esta linha e compará-la com o cabeçalho e outra linha que está correta.

In [4]:
print(android[10472])  # incorrect row
print('\n')
print(android_header)  # header
print('\n')
print(android[0])      # correct row

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


A linha 10472 corresponde ao aplicativo Life Made WI-Fi Touchscreen Photo Frame, e podemos ver que a classificação é 19. Isso está claramente errado porque a classificação máxima para um aplicativo do Google Play é 5 (como mencionado na seção de discussões, este problema é causado por um valor ausente na coluna 'Categoria'). Como consequência, excluiremos esta linha.

In [5]:
print(len(android))
del android[10472]
print(len(android))

10841
10840


### Removendo Entradas Duplicadas: Parte Um

Se explorarmos o conjunto de dados do Google Play por tempo suficiente, descobriremos que alguns aplicativos têm mais de uma entrada. Por exemplo, o aplicativo Instagram possui quatro entradas:

In [6]:
for app in android:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


No total, são 1.181 casos em que um app ocorre mais de uma vez:

In [7]:
duplicate_apps = []
unique_apps = []

for app in android:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)
        
print('Number of duplicate apps:', len(duplicate_apps))
print('\n')
print('Examples of duplicate apps:', duplicate_apps[:15])

Number of duplicate apps: 1181


Examples of duplicate apps: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


Não queremos contar certos aplicativos mais de uma vez quando analisamos os dados, então precisamos remover as entradas duplicadas e manter apenas uma entrada por aplicativo. Uma coisa que podemos fazer é remover as linhas duplicadas aleatoriamente, mas provavelmente poderíamos encontrar uma maneira melhor.

Se você examinar as linhas que imprimimos duas células acima para o aplicativo Instagram, a principal diferença acontece na quarta posição de cada linha, que corresponde ao número de avaliações. Os números diferentes mostram que os dados foram coletados em momentos diferentes. Podemos usar isso para criar um critério para manter as linhas. Não removeremos as linhas aleatoriamente, mas manteremos as linhas com o maior número de avaliações, pois quanto maior o número de avaliações, mais confiáveis serão as avaliações.

Para isso, iremos:

Crie um dicionário em que cada chave seja um nome de aplicativo exclusivo e o valor seja o maior número de avaliações desse aplicativo
Use o dicionário para criar um novo conjunto de dados, que terá apenas uma entrada por aplicativo (e selecionamos apenas os aplicativos com o maior número de avaliações)

### Removendo Entradas Duplicadas: Parte Dois

In [8]:
print('Expected length:', len(android) -1181)

Expected length: 9659


In [9]:
reviews_max = {}

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

Em uma célula de código anterior, descobrimos que há 1.181 casos em que um aplicativo ocorre mais de uma vez, portanto, o tamanho do nosso dicionário (de aplicativos exclusivos) deve ser igual à diferença entre o tamanho do nosso conjunto de dados e 1.181.

In [10]:
print('Expected length:', len(android) - 1181)
print('Actual length:', len(reviews_max))

Expected length: 9659
Actual length: 9659


Agora, vamos usar o dicionário reviews_max para remover as duplicatas. Para os casos duplicados, manteremos apenas as entradas com o maior número de revisões. Na célula de código abaixo:

Começamos inicializando duas listas vazias, android_clean e never_added.
Percorremos o conjunto de dados do Android e, para cada iteração:
Isolamos o nome do aplicativo e o número de avaliações.
Adicionamos a linha atual (app) à lista android_clean e o nome do aplicativo (name) à lista yet_added se:
O número de avaliações do aplicativo atual corresponde ao número de avaliações desse aplicativo conforme descrito no dicionário reviews_max; e
O nome do aplicativo ainda não está na lista já_adicionada. Precisamos adicionar essa condição suplementar para contabilizar os casos em que o maior número de avaliações de um aplicativo duplicado é o mesmo para mais de uma entrada (por exemplo, o aplicativo Box possui três entradas e o número de avaliações é o mesmo) . Se apenas verificarmos reviews_max[name] == n_reviews, ainda terminaremos com entradas duplicadas para alguns aplicativos.

In [50]:
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if n_reviews == reviews_max[name] and name not in already_added:
        android_clean.append(app)
        already_added.append(name)
        
#print(len(android_clean))

Agora vamos explorar rapidamente o novo conjunto de dados e confirmar se o número de linhas é 9.659.

In [34]:
explore_data(android_clean, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9659
NUmber of columns: 13


Temos 9659 linhas, conforme o esperado.

### Removendo aplicativos em outros idiomas: parte um

Se você explorar os conjuntos de dados o suficiente, notará que os nomes de alguns dos aplicativos sugerem que eles não são direcionados a um público que fala inglês. Abaixo, vemos alguns exemplos de ambos os conjuntos de dados:

In [42]:
print(ios[813][1])
print(ios[6731][1])

print(android_clean[4412][0])
print(android_clean[7940][0])

436672029
1144164707
中国語 AQリスニング
لعبة تقدر تربح DZ


Não estamos interessados em manter esse tipo de aplicativo, então iremos removê-los. Uma maneira de fazer isso é remover cada aplicativo cujo nome contém um símbolo que não é comumente usado em texto em inglês — o texto em inglês geralmente inclui letras do alfabeto inglês, números compostos de dígitos de 0 a 9, sinais de pontuação (.,! , ?, ;, etc.) e outros símbolos (+, *, /, etc.).

Todos esses caracteres específicos para textos em inglês são codificados usando o padrão ASCII. Cada caractere ASCII tem um número correspondente entre 0 e 127 associado a ele, e podemos aproveitar isso para criar uma função que verifica o nome de um aplicativo e nos informa se ele contém caracteres não ASCII.

Construímos esta função abaixo e usamos a função interna ord() para descobrir o número de codificação correspondente de cada caractere.

def is_english (string):
    
    for character in string:
        if ord(character) > 127:
            return False
        
    return True

print(is_english('Instagram'))
print(is_english('中国語 AQリスニング'))

### Part Two

Para minimizar o impacto da perda de dados, removeremos apenas um aplicativo se seu nome tiver mais de três caracteres não ASCII:

In [48]:
def is_english (string):
    non_ascii = 0
    for character in string:
        if ord(character) > 127:
            non_ascii +=1
    
    if non_ascii > 3:
        return False
    else:
        return True

print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

True
True


A função ainda não é perfeita e muito poucos aplicativos não ingleses podem passar pelo nosso filtro, mas isso parece bom o suficiente neste ponto de nossa análise - não devemos gastar muito tempo em otimização neste ponto.

Abaixo, usamos a função is_english() para filtrar os aplicativos que não estão em inglês para ambos os conjuntos de dados:

In [55]:
android_english = []
ios_english = []

for app in android_clean:
    name = app[0]
    if is_english(name):
        android_english.append(app)
        
for app in ios:
    name = app[1]
    if is_english(name):
        ios_english.append(app)
        
explore_data(android_english, 0, 3, True)
print('\n')
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9614
NUmber of columns: 13


['1', '281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['2', '281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['3', '281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188

### Isolando os aplicativos gratuitos
Como mencionamos na introdução, criamos apenas aplicativos gratuitos para download e instalação, e nossa principal fonte de receita consiste em anúncios no aplicativo. Nossos conjuntos de dados contêm aplicativos gratuitos e não gratuitos e precisaremos isolar apenas os aplicativos gratuitos para nossa análise. Abaixo, isolamos os aplicativos gratuitos para ambos os nossos conjuntos de dados.

In [62]:
android_final = []
ios_final = []

for app in android_english:
    price = app[7]
    if price == '0':
        android_final.append(app)
        
for app in ios_english:
    price = app[5]
    if price == '0':
        ios_final.append(app)
        
print(len(android_final))
print(len(ios_final))

8864
4056


Ficamos com 8.864 aplicativos Android e 4.056 aplicativos iOS, o que deve ser suficiente para nossa análise.

### Aplicativos mais comuns por gênero: parte um
Como mencionamos na introdução, nosso objetivo é determinar os tipos de aplicativos que provavelmente atrairão mais usuários, pois nossa receita é altamente influenciada pelo número de pessoas que usam nossos aplicativos.

Para minimizar riscos e sobrecarga, nossa estratégia de validação de uma ideia de aplicativo é composta por três etapas:

Crie uma versão Android mínima do aplicativo e adicione-a ao Google Play.
Se o aplicativo tiver uma boa resposta dos usuários, nós o desenvolvemos ainda mais.
Se o aplicativo for lucrativo após seis meses, também criamos uma versão do aplicativo para iOS e a adicionamos à App Store.
Como nosso objetivo final é adicionar o aplicativo na App Store e no Google Play, precisamos encontrar perfis de aplicativos que sejam bem-sucedidos em ambos os mercados. Por exemplo, um perfil que pode funcionar bem para ambos os mercados pode ser um aplicativo de produtividade que faz uso de gamificação.

Vamos começar a análise tendo uma noção dos gêneros mais comuns para cada mercado. Para isso, construiremos uma tabela de frequência para a coluna prime_genre do conjunto de dados da App Store e as colunas Gêneros e Categoria do conjunto de dados do Google Play.

### Parte dois
Construiremos duas funções que podemos usar para analisar as tabelas de frequência:

Uma função para gerar tabelas de frequência que mostram porcentagens
Outra função que podemos usar para exibir as porcentagens em ordem decrescente

In [63]:
def freq_table(dataset, index):
    table = {}
    total = 0
    
    for row in dataset:
        total += 1
        value = row[index]
        if value in table:
            table[value] += 1
        else:
            table[value] = 1
    
    table_percentages = {}
    for key in table:
        percentage = (table[key] / total) * 100
        table_percentages[key] = percentage 
    
    return table_percentages


def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)
        
    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

### Parte TRÊS
Começamos examinando a tabela de frequência para a coluna prime_genre do conjunto de dados da App Store.

In [65]:
display_table(ios_final, -5)

Games : 55.64595660749507
Entertainment : 8.234714003944774
Photo & Video : 4.117357001972387
Social Networking : 3.5256410256410255
Education : 3.2544378698224854
Shopping : 2.983234714003945
Utilities : 2.687376725838264
Lifestyle : 2.3175542406311638
Finance : 2.0710059171597637
Sports : 1.947731755424063
Health & Fitness : 1.8737672583826428
Music : 1.6518737672583828
Book : 1.6272189349112427
Productivity : 1.5285996055226825
News : 1.4299802761341223
Travel : 1.3806706114398422
Food & Drink : 1.0601577909270217
Weather : 0.7642998027613412
Reference : 0.4930966469428008
Navigation : 0.4930966469428008
Business : 0.4930966469428008
Catalogs : 0.22189349112426035
Medical : 0.19723865877712032


Podemos observar que entre os aplicativos gratuitos em inglês, mais da metade (55,64%) são jogos. Os aplicativos de entretenimento estão com uma porcetagem de 8,5%, seguidos pelos aplicativos de foto e vídeo, 4,11%. Apenas 3,25% dos aplicativos são projetados para educação, seguidos por aplicativos de redes sociais que representam 3,52% dos aplicativos em nosso conjunto de dados.

A impressão geral é que a App Store (pelo menos a parte que contém aplicativos gratuitos em inglês) é dominada por aplicativos projetados para diversão (jogos, entretenimento, foto e vídeo, redes sociais, esportes, música, etc.), enquanto aplicativos com funções práticas propósitos (educação, compras, utilidades, produtividade, estilo de vida, etc.) são mais raros. No entanto, o fato de os aplicativos divertidos serem os mais numerosos também não significa que eles também tenham o maior número de usuários - a demanda pode não ser a mesma que a oferta.

Vamos continuar examinando as colunas Gêneros e Categoria do conjunto de dados do Google Play (duas colunas que parecem estar relacionadas).

In [66]:
display_table(android_final, 1) # Category

FAMILY : 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084
COMMUNICATION : 3.2378158844765346
HEALTH_AND_FITNESS : 3.0798736462093865
PHOTOGRAPHY : 2.944494584837545
NEWS_AND_MAGAZINES : 2.7978339350180503
SOCIAL : 2.6624548736462095
TRAVEL_AND_LOCAL : 2.33528880866426
SHOPPING : 2.2450361010830324
BOOKS_AND_REFERENCE : 2.1435018050541514
DATING : 1.861462093862816
VIDEO_PLAYERS : 1.7937725631768955
MAPS_AND_NAVIGATION : 1.3989169675090252
FOOD_AND_DRINK : 1.2409747292418771
EDUCATION : 1.1620036101083033
ENTERTAINMENT : 0.9589350180505415
LIBRARIES_AND_DEMO : 0.9363718411552346
AUTO_AND_VEHICLES : 0.9250902527075812
HOUSE_AND_HOME : 0.8235559566787004
WEATHER : 0.8009927797833934
EVENTS : 0.7107400722021661
PARENTING : 0.6543321299638989
ART_AND_DESIGN : 

O cenário parece significativamente diferente no Google Play: não há tantos aplicativos projetados para diversão e parece que um bom número de aplicativos é projetado para fins práticos (família, ferramentas, negócios, estilo de vida, produtividade etc.). No entanto, se investigarmos mais a fundo, veremos que a categoria familiar (que responde por quase 19% dos aplicativos) significa principalmente jogos para crianças.

Mesmo assim, os aplicativos práticos parecem ter uma representação melhor no Google Play em comparação com a App Store. Essa imagem também é confirmada pela tabela de frequência que vemos para a coluna Gêneros:

In [67]:
display_table(android_final, -4)

Tools : 8.449909747292418
Entertainment : 6.069494584837545
Education : 5.347472924187725
Business : 4.591606498194946
Productivity : 3.892148014440433
Lifestyle : 3.892148014440433
Finance : 3.7003610108303246
Medical : 3.531137184115524
Sports : 3.463447653429603
Personalization : 3.3167870036101084
Communication : 3.2378158844765346
Action : 3.1024368231046933
Health & Fitness : 3.0798736462093865
Photography : 2.944494584837545
News & Magazines : 2.7978339350180503
Social : 2.6624548736462095
Travel & Local : 2.3240072202166067
Shopping : 2.2450361010830324
Books & Reference : 2.1435018050541514
Simulation : 2.0419675090252705
Dating : 1.861462093862816
Arcade : 1.8501805054151623
Video Players & Editors : 1.7712093862815883
Casual : 1.7599277978339352
Maps & Navigation : 1.3989169675090252
Food & Drink : 1.2409747292418771
Puzzle : 1.128158844765343
Racing : 0.9927797833935018
Role Playing : 0.9363718411552346
Libraries & Demo : 0.9363718411552346
Auto & Vehicles : 0.9250902527075

A diferença entre as colunas Gêneros e Categoria não é clara, mas uma coisa que podemos notar é que a coluna Gêneros é muito mais granular (tem mais categorias). No momento, estamos procurando apenas uma visão geral, portanto, trabalharemos apenas com a coluna Categoria daqui para frente.

Até este ponto, descobrimos que a App Store é dominada por aplicativos projetados para diversão, enquanto o Google Play mostra um cenário mais equilibrado de aplicativos práticos e divertidos. Agora, gostaríamos de ter uma ideia sobre o tipo de aplicativo que tem mais usuários.