# Perfil de Aplicativo Lucrativo na App Store e Google Play

O objetivo desse projeto é recomendar, para nossos desenvolvedores, um perfil do aplicativo mais lucrativo, a partir dos dados da App Store e Google Play Store.

Nós atuamos como Analista de Dados em uma empresa que desenvolve aplicativos gratuitos para Android e IOS e o público alvo são usuários que falam Inglês. A receita principal de aplicativos gratuitos vem dos anúncios. Isso significa que a nossa receita é fortemente influenciada pela quantidade de usuários.

Esse projeto faz parte do Curso de Python Intermediário do Dataquest e os dados estão disponíveis no Kaggle ([Google Play](https://www.kaggle.com/lava18/google-play-store-apps) e [App Store](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/home)). Além das instruções, também foi disponibilizado um arquivo com as [soluções do projeto](https://github.com/dataquestio/solutions/blob/master/Mission350Solutions.ipynb), que foi consultado em algumas ocasiões. 

Observação: Os nomes de variáveis estão em inglês, pois a solução foi construída em conjunto ao curso que é em inglês.

### Conclusão

Nesse projeto, analisamos dados da App Store e Google Play Store para achar um perfil de aplicativo lucrativo, se encaixe em alguns requisitos, como a viabilidade do desenvolvimento do mesmo.

Chegamos a conclusão que o mercado de aplicativos para leitura não está tão saturado e tem uma demanda bem estável.

E que pegar um livro popular ou gênero literário popular e transformar em um app que tenha mais features que aplicativos de leitura comuns, pode ser bem atrativo para tanto os usuários de Android como de IOS.

## Abrindo e Explorando os Dados

Invés de acessar todos os dados da App Store e da Google Play Store, o qual seria muito trabalhoso e custoso, usaremos uma amostra.

Nossa amostra consiste dos dois data sets, um com aproximadamente 10.000 aplicativos androids da Google Play Store (Coletado em agosto de 2018) e outro com 7.000 aplicativos IOS da App Store (coletado em julho de 2017) registrados.

Vamos começar abrindo e explorando esses data sets.

In [1]:
# Data set da Google Play #
from csv import reader
file_and = open('googleplaystore.csv', 'r',encoding="utf-8")
reader_and = reader(file_and)
android_data = list(reader_and)
android_header = android_data[0] # Cabeçalho Android
android_data = android_data[1:] #Dados dos Aplicativos Android registrados

# Data set da App Store #
file_ios = open('AppleStore.csv','r',encoding="utf-8")
reader_ios = reader(file_ios)
ios_data = list(reader_ios)
ios_header = ios_data[0] # Cabeçalho IOS
ios_data = ios_data[1:] # Dados dos Aplicativos IOS registrados


Para facilitar a exploração dos dois conjuntos de dados, criaremos uma função que nos mostra os conjuntos de dados de maneira mais legível.


Esta função será chamada `explore_data()`  e terá uma opção para mostrar o número de linhas e colunas para qualquer conjunto de dados.

In [2]:
# Essa é a Função para Explorar os Dados #

def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]
    for row in dataset_slice:
        print(row)
        print('\n') # Adciona uma linha a cada linha de Aplicativo registrado
        
    if rows_and_columns:
        print('Número de linhas:', len(dataset))
        print('Número de colunas:', len(dataset[0]))                

In [3]:
print(android_header)
print('\n')
explore_data(android_data, 0,3, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


Número de linhas: 10841
Número de colunas: 13


O conjunto de dados possui 13 colunas, 7 das quais podem ser úteis para nossa análise. São eles: "`App, category, Reviews, Installs, Type, Price, and Genres`". 

Para mais informações sobre o data set e suas colunas, [documentação Google Play](https://www.kaggle.com/lava18/google-play-store-apps).

A seguir, Data set da App Store.

In [4]:
print(ios_header)
print('\n')
explore_data(ios_data, 0,3, True)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


Número de linhas: 7197
Número de colunas: 16


Esse data set tem 16 colunas e vamos usar 6: "`track_name, currency, price, rating_count_tot, rating_count_ver and prime_genre`".


Para mais informações sobre o data set e suas colunas, [documentação App Store](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/home). 

## Limpando os Dados (Data Cleaning)

Precisamos limpar os dados antes de analisar os mesmos. Nossa análise procura por um perfil que se encaixe no tipo de aplicativo que queremos desenvolver, gratuito e em inglês. Então precisamos remover aplicativos que não são gratuitos e não estão em Inglês.

Além disso, O data set do Google Play tem uma [seção de discussão](https://www.kaggle.com/lava18/google-play-store-apps/discussion), podemos ver que [uma das discussões](https://www.kaggle.com/lava18/google-play-store-apps/discussion/66015) descrevem um erro na linha 10472.

Vamos comparar ao cabeçalho e outra linha que esteja correta.

In [5]:
print(android_header) #Cabeçalho
print('\n')
print(android_data[1]) #Linha com dado correto
print('\n')
print(android_data[10472]) #Linha com dado incorreto

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


O Aplicativo na linha 10472 tem uma avaliação de 19. Isso está incorreto, pois a avaliação máxima da Google Play Store é de 5.

Então vamos remover essa linha do nosso data set usando o `del` statement.

In [6]:
print(len(android_data))
del android_data[10472] #não execute mais de uma vez, vai deletar a nova linha 10472.

10841


In [7]:
print(len(android_data))

10840


### Romvendo Registros Duplicados

#### Parte Um: Identificando os Registros Duplicados

É bem comum ter registros duplicados em data sets. Um bom exemplo é o *Instagram* no data set da Google Play Store.

In [8]:
insta = 0 # Contador de quantos registros

#Indentifica Registros duplicados do Instagram
for i in android_data:
    name = i[0]
    if name == 'Instagram': #Verifica se registro é duplicado 
        print(i)
        insta += 1 #Adciona a cada registro duplicado
        
print('\n')
print('Instagram tem ', insta, ' registros duplicados')   

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


Instagram tem  4  registros duplicados


Agora vamos procurar por todos aplicativos que possuem duplicados.

In [9]:
unique_apps = [] #Lista de Apps únicos
duplicate_apps = [] #Lista de registros duplicados

#Separa registros únicos e duplicados
for app in android_data:
    name = app[0]
    if name in unique_apps: #Verifica se registro é único
        duplicate_apps.append(name) #Adciona registros únicos 
    else:
        unique_apps.append(name) #Adciona registros duplicados
        
print('Número de aplicativos únicos:',len(unique_apps) )
print('\n')
print('Números de aplicativos duplicados:', len(duplicate_apps))
print('\n')
print('Exemplos de aplicativos duplicados:', duplicate_apps[:5])
        

Número de aplicativos únicos: 9659


Números de aplicativos duplicados: 1181


Exemplos de aplicativos duplicados: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings']


O próximo passo é remover os aplicativos duplicados e manter apenas uma entrada. Devemos manter os melhores registros, para que tenhamos os melhores dados para nossa análise.

Podemos supor que o motivo de haver vários registros é que os conjuntos de dados têm registros para diferentes períodos do mesmo aplicativo. Os melhores dados são os mais recentes e, embora tenhamos a versão do aplicativo, podemos ter vários registros da mesma versão. A melhor alternativa é examinar os números das revisões, quanto mais revisões, mais recentes devem ser os dados. As revisões estão na coluna número 4.

Para limpar os dados, iremos:

- Crie um dicionário com aplicativos exclusivos com o maior número de críticas, com o nome `reviews_max`

- Use o `reviews_max` para verificar quais registros têm o maior número de revisões em nosso conjunto de dados e coloque-a em uma lista como o único registro para cada aplicativo. Também usaremos o `already_added` para acompanhar os aplicativos que têm vários registros e o mesmo número de revisões.

Esta lista será chamada `android_clean` e deve ser tão longa quanto a lista ` unique_apps`.

In [10]:
reviews_max = {} #Registro único de cada aplicativo com o maior número de avaliações

#Compara quantidade de avaliações e mantém os registros com as maiores
for app in android_data:
    name = app[0]
    n_reviews = float(app[3]) #Quantidade de avaliações
    
    if name in reviews_max and (reviews_max[name] < n_reviews): #Verifica se já tem registro e compara o número de avaliações 
        reviews_max[name] = n_reviews #Se tiver mas números avaliações for menor, troca por novo registro
        
    elif name not in reviews_max: # Se não tiver, adciona o registro
        reviews_max[name] = n_reviews
        
print('Quantidade Esperada:', len(android_data) - len(duplicate_apps) )
print('\n')
print('Tamanho do Dicionário:', len(reviews_max))    

Quantidade Esperada: 9659


Tamanho do Dicionário: 9659


In [11]:
android_clean = [] #Registro "limpado" de aplicativos 
already_added = [] #Usado para verificar se o aplicativo já está incluso

#Adciona registros únicos com o maior quantidade de avaliações a lista "android_clean"
for app in android_data:
    name = app[0]
    n_reviews = float(app[3]) #Quantidade de avaliações
    
    if n_reviews == reviews_max[name] and name not in already_added: #Verifica se é o maior número de avaliações e se é único
        android_clean.append(app)
        already_added.append(name)

Agora vamos confirmar se nosso data set limpo (`android_clean`) tem a mesma quantidade de apps que a lista de apps únicos, o `unique_apps`.

In [12]:
print('Quantidade de linhas Esperada:', len(unique_apps))
print('\n')
explore_data(android_clean, 0,3, True)

Quantidade de linhas Esperada: 9659


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Número de linhas: 9659
Número de colunas: 13


## Removendo Apps Não-Inglês

### Parte Um: Identificando Apps Não-Inglês

Outro critério para a nossa análise é que nosso aplicativo vai ser desenvolvido para usuários que falam Inglês.
Como nos aplicativos duplicados, precisamos identificar esses aplicativos, mas desta vez usaremos ambos data sets.

Alguns exemplos de aplicativos que precisamos remover do nosso banco de dados:

In [13]:
print(ios_data[813][1])
print(ios_data[6731][1])
print('\n')
print(android_clean[4412][0])
print(android_clean[7940][0])

爱奇艺PPS -《欢乐颂2》电视剧热播
【脱出ゲーム】絶対に最後までプレイしないで 〜謎解き＆ブロックパズル〜


中国語 AQリスニング
لعبة تقدر تربح DZ


A forma que vamos identificar esses apps é verificando se o nome do app contém alguma letra ou símbolo que não é usado em textos em Inglês. O Alfabeto Inglês, número, pontuações e outros símbolos matemáticos (+, -, * etc.) são usados em textos em Inglês.

Esses caracteres são codificados usando o padrão ASCII. Cada caractere ASCII possui um número entre 0 e 127 associado a ele.
É possível achar esse número no python, usando a função `ord()` e vamos usar a mesma para criar nossa função `eng_ver()` que identifica se um texto está em inglês. 

In [14]:
#Função que identifica se o texto está em inglês
def eng_ver(string):
    
    for i in string:
        if ord(i) > 127:
            return False
    return True

In [15]:
#Teste da nossa função "eng_ver"
print(eng_ver('Instagram'))
print(eng_ver('爱奇艺PPS -《欢乐颂2》电视剧热播'))
print(eng_ver('Docs To Go™ Free Office Suite'))
print(eng_ver('Instachat 😜'))

True
False
False
False


A função funciona, exceto para aplicativos com emoji ou outro símbolo em seu nome. (Exemplo:  ™ and 😜)

Nessa forma atual, nossa função pode remover dados de aplicativos úteis para nossa análise.

## Parte Dois: Filtro Avançado

Para diminuir as chances de remover aplicativos errados, vamos remover apenas aplicativos se o nome tiver mais de 3 caracteres que não pertencem ao padrão ASCII.

In [16]:
#Função que identifica e filtra aplicativos não-Inglês
def eng_ver(string):
    ver_counter = 0
    
    #Conta quantos caracteres não são do padrão ASCII
    for i in string:     
        if ord(i) > 127:
            ver_counter +=1
    
    #Verifica se quantidade é maior que 3        
    if ver_counter > 3:
        return False
            
    return True

print(eng_ver('Docs To Go™ Free Office Suite'))
print(eng_ver('Instachat 😜'))
print(eng_ver('爱奇艺PPS -《欢乐颂2》电视剧热播'))

True
True
False


Essa função está longe de perfeita, e alguns aplicativos não-Inglês podem passar pelo nosso filtro. Até mesmo aplicativos em outras línguas, como Espanhol passam pelo nosso filtro.

Mas já serve para fazer uma limpeza suficiente para nossa análise.

Agora vamos usar a nossa função `eng_ver` para remover aplicativos que não estão em Inglês dos nossos data sets.

In [17]:
android_clean_eng = [] #Lista para colocar os Aplicativos Android em Inglês
ios_clean_eng = [] #Lista para colocar os Aplicativos IOS em Inglês

#Filtra Aplicativos Androids que não estão em Inglês
for i in android_clean:
    name = i[0]
    if eng_ver(name):
        android_clean_eng.append(i) #Adciona Aplicativo em Inglês a Lista de Android
        
#Filtra Aplicativos IOS que não estão em Inglês
for i in ios_data:
    name = i[1]
    if eng_ver(name):
        ios_clean_eng.append(i) #Adciona Aplicativo em Inglês a Lista de IOS
        
explore_data(android_clean_eng, 0,3,True)
print('\n')
explore_data(ios_clean_eng, 0, 3, True)


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Número de linhas: 9614
Número de colunas: 13


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+'

## Isolando Aplicativos Gratuitos

Nossos data sets contêm registros de aplicativos gratuitos e pagos. Nós desenvolvemos aplicativos gratuitos, logo o próximo passo é remover todos aplicativos pagos do nosso "banco de dados".

In [18]:
#Listas dos Aplicativos Final (únicos, inglês e gratuitos)
android_final = []
ios_final = []

#Verifica se o preço do app Android é 0
for app in android_clean_eng:
    price = app[7]
    if price == '0' :
        android_final.append(app)
#Verifica se o preço do app IOS é 0        
for app in ios_clean_eng:
    price = app[4]
    if price == '0.0':
        ios_final.append(app)
        
print('Aplicativos Androids Restantes:',len(android_final))
print('\n')
print('Aplicativos IOS Restantes:', len(ios_final))

Aplicativos Androids Restantes: 8864


Aplicativos IOS Restantes: 3222


Sobrou 8864 Aplicativos Android e 3222 Aplicativos IOS para a nossa análise, que deve ser o suficiente. 

## Gêneros mais Comuns

O objetivo da nossa análise é descobrir qual tipo de aplicativo atrai o maior número de usuários para maximizar nossa receita que vem de anúncios.    

Nossa estratégia para validar uma ideia de aplicativo terá três passos:

1. Criar uma versão simplificada para Android e adicionar ao Google Play.
2. Se o aplicativo for bem recebido, desenvolver uma versão mais completa.
3. Se for lucrativo após seis meses, desenvolvemos uma versão IOS do aplicativo para a App Store. 

Importante notar que o aplicativo tem que ser bem-sucedido em ambos App Store e Google Play

Então vamos começar nossa análise de qual gêneros mais comuns de cada data set. Essa análise pode ser feita com uma tabela de frequência para a coluna de `prime_genre` do App Store e as colunas `Genres e Category` da Google Play. 

Vamos criar duas funções para analisar as tabelas de frequência:

- Função que gera tabela de frequência e mostra porcentagem
- Função que coloca as porcentagens em ordem decrescente

In [19]:
#Cria Tabela de Frequência
def freq_table(dataset, index):
    
    freq_table_dic = {} #Guarda item com sua frequência conrrespondente
    total_freq_number = 0 #Conta quantos itens foram inseridos
    
    #Contabiliza a Frequência
    for i in dataset:
        
        total_freq_number +=1 #Adciona a contagem de itens inseridos
        freq_col = i[index]  #Seleciona a coluna desejada 
        
        if freq_col in freq_table_dic: #Verifica se a coluna já tem registro
            freq_table_dic[freq_col] += 1 # Com registro: contabiliza a frequência do registro 
        
        else:
            freq_table_dic[freq_col] = 1 #Sem registro: cria item novo com o primeiro registro
        
   
    freq_table_perc = {} #Tabela de frequência dos registros
    
    for i in freq_table_dic: 
        
        percentage = (freq_table_dic[i]/total_freq_number) * 100 #Pega a quantidade de registros de cada item e divide pelo número total de itens e múltipla por 100 para virar porcentagem
        freq_table_perc[i] = percentage

    return freq_table_perc #Retorna a Tabela preenchida

#Cria e Exibi Tabela de Frequência
def display_table(dataset, index):
    
    table = freq_table(dataset, index) #Cria Tabela de Frequência
    table_display = [] #Lista que vai ser usada para exibir os dados da tabela
    
    for key in table: 
        key_val_as_tuple = (table[key], key) #Extrai a frequência do item (aplicativo)
        table_display.append(key_val_as_tuple) #Adciona a frequência do item paraa a lista de exibição

    table_sorted = sorted(table_display, reverse = True) #Coloca a lista em ordem decrescente
    for entry in table_sorted:
        print(entry[1], ':', entry[0]) #Exibi nome do item (aplicativo) e sua frequência
        
display_table(ios_final, -5) #Tabela de Frequência da App Store, Coluna: Prime_genre
print('\n')
display_table(android_final, -4) #Tabela de Frequência da Google Play Store, Coluna: genre
print('\n')
display_table(android_final, 1) #Tabela de Frequência da Google Play Store, Coluna: category

Games : 58.16263190564867
Entertainment : 7.883302296710118
Photo & Video : 4.9658597144630665
Education : 3.662321539416512
Social Networking : 3.2898820608317814
Shopping : 2.60707635009311
Utilities : 2.5139664804469275
Sports : 2.1415270018621975
Music : 2.0484171322160147
Health & Fitness : 2.0173805090006205
Productivity : 1.7380509000620732
Lifestyle : 1.5828677839851024
News : 1.3345747982619491
Travel : 1.2414649286157666
Finance : 1.1173184357541899
Weather : 0.8690254500310366
Food & Drink : 0.8069522036002483
Reference : 0.5586592178770949
Business : 0.5276225946617008
Book : 0.4345127250155183
Navigation : 0.186219739292365
Medical : 0.186219739292365
Catalogs : 0.12414649286157665


Tools : 8.449909747292418
Entertainment : 6.069494584837545
Education : 5.347472924187725
Business : 4.591606498194946
Productivity : 3.892148014440433
Lifestyle : 3.892148014440433
Finance : 3.7003610108303246
Medical : 3.531137184115524
Sports : 3.463447653429603
Personalization : 3.31678700

### Parte Três

#### App Store: Prime Genre

Analisando a App Store, o gênero de "Games" tem mais do que a metade (58,16%) da oferta de aplicativos. Outros aplicativos de entretenimento tem quase 8% e aplicativos de fotos e video chegam quase em 5%. Apenas 3,66% dos aplicativos atuam na área de educação e 3,29% são redes sociais. 

A Oferta então pode se resumir em grande parte para entretenimento, especialmente jogos.

Entretanto, devemos analisar a demanda por esses aplicativos para poder tirar alguma conclusão.


####  Google Play: Category

Agora vamos para os dados da Google Play. Analisando Gêneros e Categoria, é possível ver uma grande diferença em relação a App Store. 

[![img](https://s3.amazonaws.com/dq-content/350/py1m8_family.png)](https://play.google.com/store/apps/category/FAMILY?hl=en)

A categoria de Familia (family), é composta na maioria por jogos, assumindo isso, quase 29% dos aplicativos são jogos. Apesar de ser uma grande fatia dos aplicativos da Google Play Store, ainda é metade da porcentagem de jogos na App Store (58%). 


#### Google Play: Genres

Apesar da coluna Categoria dar uma boa visão geral dos aplicativos na Google Play, a coluna de gêneros é ainda mais segmentada e vai possibilitar fazer uma análise mais aprofundada dos aplicativos "não-jogos". 

Até aqui, descobrimos que a App Store tem na sua maioria, aplicativos de jogos e diversão, enquanto a Google Store tem uma distribuição melhor de variedades de aplicativos disponíveis. 

Agora, a pergunta é: "Qual tipo de aplicativo tem mais usuários?"

In [20]:
#Tabela de Frequência da App store, coluna: prime_genre
prime_genre_freq = freq_table(ios_final, -5)

#Para cada genêro, verifica se um app é do gênero e se adicona a quantidade de úsuarios
for genre in prime_genre_freq:
    total = 0
    len_genre = 0
    
    #Extrai a quantidade de úsuarios por app e adciona ao gênero conrrespondente do mesmo
    for app in ios_final:
        genre_app = app[-5] 
        
        if genre == genre_app:
            users_app = float(app[5])
            total += users_app
            len_genre += 1

    avg_user_rat_prime = total / len_genre #Divide a soma total de úsuarios de cada gênero, pela quantidade total de aplicativos do gênero

    print(genre, ":", avg_user_rat_prime)

Social Networking : 71548.34905660378
Photo & Video : 28441.54375
Games : 22788.6696905016
Music : 57326.530303030304
Reference : 74942.11111111111
Health & Fitness : 23298.015384615384
Weather : 52279.892857142855
Utilities : 18684.456790123455
Travel : 28243.8
Shopping : 26919.690476190477
News : 21248.023255813954
Navigation : 86090.33333333333
Lifestyle : 16485.764705882353
Entertainment : 14029.830708661417
Food & Drink : 33333.92307692308
Sports : 23008.898550724636
Book : 39758.5
Finance : 31467.944444444445
Education : 7003.983050847458
Productivity : 21028.410714285714
Business : 7491.117647058823
Catalogs : 4004.0
Medical : 612.0


A primeira vista, temos aplicativos de navegação, meteorologia e redes sociais como fortes candidatos. Mas podemos raciocinar que esses números devem estar inflados pelos apps da Waze, Google Maps, Facebook e outros. Isso também vale para o gênero de música, temos Spotify que já domina muito bem esse mercado, e tentar competir com aplicativos já bem estabelecidos, não parece ser uma boa ideia. 

Outro fator é a complexidade do desenvolvimento e manutenção desses aplicativos, que entrega vários tipos de serviços. Isso vale para outras categorias como aplicativos de Comida, que exigem toda uma produção além do aplicativo em si e de Finanças, que também tem sua demanda adicional e conhecimento mais aprofundado da área. 

*Além de ser popular, o perfil do aplicativo tem que ser viável para nossa capacidade de desenvolvimento.* 

Um gênero interessante é "Reference", que são apps para consulta de informação com dicionários e enciclopédias. Apesar de ter média de usuários interessante (74,942), ela também é influenciada por grandes aplicativos como Bible e Dictionary.com. 

Apesar disso, aparenta ser um mercado bem mais acessível para nós.

Agora, os usuários por categoria:

In [21]:
cat_freq = freq_table(android_final, 1)

#Para cada categoria, verifica se um app é da categoria e se adicona a quantidade de úsuarios
for category in cat_freq:
    total = 0
    len_category = 0
    
    for app in android_final:
        category_app = app[1]
       
    #Extrai a quantidade de úsuarios por app e adciona ao gênero conrrespondente do mesmo 
        if category_app == category:
            n_installs = app[5]
            n_installs = n_installs.replace('+','') #Tira sinal postivo do número que representa quantidade
            n_installs = n_installs.replace(',','') #Tira virgula para poder converter o texto em número
            n_installs = float(n_installs)
            total += n_installs
            len_category += 1
            
    avg_installs = (total / len_category) * 100 #Divide a soma total de úsuarios de cada categoria, pela quantidade total de aplicativos da categoria

    print(category, ":" , avg_installs)

ART_AND_DESIGN : 198633508.77192983
AUTO_AND_VEHICLES : 64731781.70731707
BEAUTY : 51315188.679245286
BOOKS_AND_REFERENCE : 876781189.4736841
BUSINESS : 171229014.74201474
COMICS : 81765727.27272727
COMMUNICATION : 3845611916.7247386
DATING : 85402883.03030303
EDUCATION : 183349514.5631068
ENTERTAINMENT : 1164070588.235294
EVENTS : 25354222.22222222
FINANCE : 138769247.5609756
FOOD_AND_DRINK : 192489773.63636363
HEALTH_AND_FITNESS : 418882198.5347985
HOUSE_AND_HOME : 133154056.16438356
LIBRARIES_AND_DEMO : 63850373.4939759
LIFESTYLE : 143781626.87861273
GAME : 1558801560.324826
FAMILY : 369564181.98090696
MEDICAL : 12055061.980830671
SOCIAL : 2325365212.7118645
SHOPPING : 703687731.1557789
PHOTOGRAPHY : 1784011040.2298849
SPORTS : 363864014.28571427
TRAVEL_AND_LOCAL : 1398407771.0144928
TOOLS : 1080139129.8666668
PERSONALIZATION : 520148261.22448975
PRODUCTIVITY : 1678733134.4927535
PARENTING : 54260362.06896552
WEATHER : 507448619.7183099
VIDEO_PLAYERS : 2472787245.2830186
NEWS_AND_MA

Indo mais a fundo, a ramo de literatura é dominado por aplicativos para leitura de ebooks e outra coleções de livrarias e dicionários. Então uma abordagem mais generalizada não aparenta ser apropriada. 

Uma alternativa é procura um público mais nichado, e criar um app para um livro popular ou um gênero popular. Mas além de ter o livro, oferecer features especificas pensadas nos leitores desses livros como quizzes, fóruns entre outros. 

Assim, o aplicativo já tem um público definido e que pode acessar tanto pelo Google Play quanto na App Store. 