# Análise de dados para empresa que produz aplicativos móveis

**Descrição da companhia**

*Nós construímos apps que são grátis para baixar e instalar, e nossa principal fonte de receita são as publicidades (ads) dentro dos aplicativos. Isso quer dizer que nossa receita é influenciada pelo número de usuários que usam nosso aplicativo, ou seja, quanto mais usuários olham e clicam nas propagandas, melhor.* - Tradução livre da descrição do projeto 01 curso Python for Data Science: Fundamentals da Dataquest.

**Sobre o que é projeto?**

Uma análise dos dados de app's da App Store e Google Play.

**Qual o objetivo?**

O objetivo do projeto é realizar a análise de dados para ajudar os desenvolvedores entender que tipos de aplicativos grátis podem ser mais rentáveis.

## Funções auxiliares para a análise

In [1]:
def csv_to_list(path, encoding='utf-8'):
    file_csv = open(path, encoding=encoding )
    from csv import reader
    
    return list(reader(file_csv))

In [2]:
# return header and dataset without header
def remove_header(dataset_list):
    return dataset_list[0], dataset_list[1:]

In [3]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') # adds a new (empty) line after each row

    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

## Abrindo os arquivos e explorando os dados

Para a análise serão utilizados 2 datasets: um da App Store e outro da Google Play.
Eles estão no formato csv, então abriremos e converteremos para lista utilizando a função auxiliar csv_to_list.

In [4]:
apple_list = csv_to_list('data/AppleStore.csv')
google_list = csv_to_list('data/googleplaystore.csv')

Os arquivos possuem cabeçalho, então para facilitar a análise o cabeçalho será separado dos dados.

In [5]:
apple_header, apple_list = remove_header(apple_list)
google_header, google_list = remove_header(google_list)

Com os dados devidamente separados, vamos deixar registrado o que significa cada coluna com a sua respectiva descrição.


In [6]:
print(apple_header)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


|Column          | Description                                     |
|--------------- | ----------------------------------------------- |
|id              | App ID                                          |
|track_name      | App Name                                        |
|size_bytes      | Size (in Bytes)                                 |
|currency        | Currency Type                                   |
|price           | Price amount                                    |
|ratingcounttot  | User Rating counts (for all version)            |
|ratingcountver  | User Rating counts (for current version)        |
|user_rating     | Average User Rating value (for all version)     |
|userratingver   | Average User Rating value (for current version) |
|ver             | Latest version code                             |
|cont_rating     | Content Rating                                  |
|prime_genre     | Primary Genre                                   |
|sup_devices.num | Number of supporting devices                    |
|ipadSc_urls.num | Number of screenshots showed for display        |
|lang.num        | Number of supported languages                   |
|vpp_lic         | Vpp Device Based Licensing Enabled              |

Fonte dos dados da App Store: [Kaggle Mobile App Store](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps)

Imprimindo alguns exemplos de dados do conjunto App Store.

In [7]:
print(explore_data(apple_list, 0, 5, True))

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


['420009108', 'Temple Run', '65921024', 'USD', '0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1', '1']


['284035177', 'Pandora - Music & Radio', '130242560', 'USD', '0.0', '1126879', '3594', '4.0', '4.5', '8.4.1', '12+', 'Music', '37', '4', '1', '1']


Number of rows: 7197
Number of columns: 16
None


Num primeiro momento, acredito que as colunas mais relevantes são:
- track_name
- size_bytes
- price (somente os grátis)
- user_rating
- cont_rating
- prime_genre
- sup_devices.num
- lang.num

Agora verificaremos as informações para os dados do Google Play:

In [8]:
print(google_header)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


|Column | Description|
|-------|------------|
App | Application name
Category | Category the app belongs to
Rating | Overall user rating of the app (as when scraped)
Reviews | Number of user reviews for the app (as when scraped)
Size | Size of the app (as when scraped)
Installs | Number of user downloads/installs for the app (as when scraped)
Type | Paid or Free
Price | Price of the app (as when scraped)
Content Rating | Age group the app is targeted at - Children / Mature 21+ / Adult
Genres | An app can belong to multiple genres (apart from its main category). For eg, a musical family game will belong to Music, Game, Family genres.
Last Updated | Date when the app was last updated on Play Store (as when scraped)
Current Ver | Current version of the app available on Play Store (as when scraped)
Android Ver | Min required Android version (as when scraped)


Fonte dos dados da Google Play: [Kaggle Google Play Store Apps](https://www.kaggle.com/lava18/google-play-store-apps)

Imprimindo alguns exemplos de dados do conjunto App Store.

In [9]:
print('\n')
print(explore_data(google_list, 0, 5, True))



['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']


Number of rows: 10841
Number of columns: 13
None


Para o conjunto de dados do Google Play, identifiquei que as colunas abaixo são mais relevantes.
- app
- category
- rating
- size
- type
- content rating
- genres

Identifiquei também que os arquivos `AppleStore.csv` e `googleplaystore.csv` contém layout e informações diferentes.

## Data Cleaning (Limpeza dos dados)

"*This process of preparing our data for analysis is called data cleaning. Data cleaning is done before the analysis; it includes removing or correcting wrong data, removing duplicate data, and modifying the data to fit the purpose of our analysis.*

*It's often said that data scientists spend around 80% of their time cleaning data, and only about 20% actually analyzing (cleaned) data. In this project, we'll see that this is not far from the truth.*"

No passo anterior, abri os dois datasets e fiz uma breve exploração dos dados. Nesse passo, verificarei algumas inconsistências nos dados e realizarei o ajuste/limpeza nos dados.

### Removendo dados incorretos

O conjunto de dados do Google Play possui uma [sessão de discução](https://www.kaggle.com/lava18/google-play-store-apps/discussion) e [uma dessas discuções](https://www.kaggle.com/lava18/google-play-store-apps/discussion/66015) descreve um erro para uma certa linha.



>**Wrong rating for entry 10472**
>
> this entry has missing 'Rating' and a column shift happened for next columns..
10472 Life Made WI-Fi Touchscreen Photo Frame 1.9 19.0 3.0M 1,000+ Free 0 Everyone NaN February 11, 2018 1.0.19 4.0 and up NaN

Sendo assim, busco esse registro e removo-o do conjunto de dados, pois faltando uma informação as outras colunas acabaram ficando inconsistentes.

In [10]:
print(google_list[10472])
print(len(google_list[10472]))

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']
12


In [11]:
print(google_list[0])
print(len(google_list[0]))

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']
13


De fato, falta o registro em uma coluna no indice 10472, pois no **indice 10472 temos 12 colunas** e no **indice 0 temos 13 colunas**.

Dessa forma será necessário remover o registro de indice 10472.

In [12]:
del(google_list[10472])

### Removendo registros duplicados

Podemos verificar no dataset do Google Play se existem registros duplicados:

In [13]:
duplicate_apps = []
unique_apps = []

for app in google_list:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)

print("Quantidade duplicada: ", len(duplicate_apps))
print("Exemplos duplicados: ", duplicate_apps[:10])

Quantidade duplicada:  1181
Exemplos duplicados:  ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack']


O resultado anterior mostra que existem algumas duplicidades de registros. Pegaremos como exemplo o app Slack e verificaremos quantas vezes ele aparece duplicado.

In [14]:
for app in google_list:
    name = app[0]
    
    if name == 'Slack':
        print(app)

['Slack', 'BUSINESS', '4.4', '51507', 'Varies with device', '5,000,000+', 'Free', '0', 'Everyone', 'Business', 'August 2, 2018', 'Varies with device', 'Varies with device']
['Slack', 'BUSINESS', '4.4', '51507', 'Varies with device', '5,000,000+', 'Free', '0', 'Everyone', 'Business', 'August 2, 2018', 'Varies with device', 'Varies with device']
['Slack', 'BUSINESS', '4.4', '51510', 'Varies with device', '5,000,000+', 'Free', '0', 'Everyone', 'Business', 'August 2, 2018', 'Varies with device', 'Varies with device']


O Slack aparece duplicado 3 vezes mudando apenas o valor na coluna de indice 3, que corresponde a quantide de Reviews. Dessa forma, podemos manter apenas o registro que tiver a maior quantidade de reviews, pois parece ser o mais recente, e descartar os outros.

In [15]:
print('Quantidade esperada sem repetição: ', len(google_list) - len(duplicate_apps))

Quantidade esperada sem repetição:  9659


In [16]:
reviews_max = {}

for app in google_list:
    name = app[0]
    n_reviews = float(app[3])
    
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

print('Quantidades únicas: ', len(reviews_max))

Quantidades únicas:  9659


Veja que o algoritmo funcionou pois o registro Slack ficou com a quantidade maior de reviews

In [17]:
reviews_max['Slack']

51510.0

Com os registros únicos em mãos, o próximo passo é criar uma nova lista limpa e adicionar somente os registros únicos, com a maior quantidade de reviews

In [18]:
android_clean = []
already_added = []

for app in google_list:
    name = app[0]
    n_reviews = float(app[3])
    
    if name not in already_added:
        if reviews_max[name] == n_reviews:
            already_added.append(name)
            android_clean.append(app)
            
print('Nova lista: ', len(android_clean))

Nova lista:  9659


A nova lista possui 9659 registros únicos conforme esperado anteriormente.

### Removendo apps que não estão em inglês

Como o estudo se refere a apps do idioma inglês, removerei os apps que não são desse idioma.
Alguns exemplos:

In [19]:
print(apple_list[813][1])
print(apple_list[6731][1])

爱奇艺PPS -《欢乐颂2》电视剧热播
【脱出ゲーム】絶対に最後までプレイしないで 〜謎解き＆ブロックパズル〜


Para facilitar o processo, crio uma função auxiliar para identificar se o título está inglês. Nesse caso, uma palavra será considerada em inglês se tiver mais que 3 letras fora do da tabela [ASCII](http://www.asciitable.com/).

In [20]:
# Returns True if outside_letters < 3
def is_english(title):
    outside_letters = 0
    
    for letter in title:
        if ord(letter) > 127:
            outside_letters += 1
            
    return outside_letters <= 3

In [21]:
# Teste da função
print(is_english('Instagram'))
print(is_english('爱奇艺PPS -《欢乐颂2》电视剧热播'))
print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

True
False
True
True


Com a função auxiliar criada, filtraremos apenas os app que tem o nome em inglês.

In [22]:
android_english = []
ios_english = []

for app in android_clean:
    if is_english(app[0]):
        android_english.append(app)
        
for app in apple_list:
    if is_english(app[1]):
        ios_english.append(app)

In [23]:
explore_data(android_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9614
Number of columns: 13


In [24]:
explore_data(ios_english, 0, 3, True)

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


Number of rows: 6183
Number of columns: 16


## Filtrando os apps free

Como mencionado na introdução, o estudo será feiro com apps que são grátis para baixar e instalar. Dessa forma, filtro as listas geradas até aqui para manter apenas os app's free.

In [25]:
android_final = []
ios_final = []

for app in android_english:
    if app[6] == 'Free':
        android_final.append(app)
        
for app in ios_english:    
    if float(app[4]) == 0:
        ios_final.append(app)

In [26]:
explore_data(android_final, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 8863
Number of columns: 13


In [27]:
explore_data(ios_final, 0, 3, True)

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


Number of rows: 3222
Number of columns: 16


## Data Analysis

O objetivo da análise é determinar que tipo de aplicativos grátis podem ser mais rentáveis.

Para minimizar os riscos, a estratégia de validação consiste em 3 passos:

- Desenvolver um app android e colocá-lo no Google Play
- Se tiver uma boa resposta, continua com o desenvolvimento
- Se o aplicativo for lucrativo depois de 6 meses, desenvolve-se uma versão iOS. Por conta disso, precisamos identificar oportunidades de desenvolvimento em apps em ambas as lojas.

### Mais populares na App Store

Dessa forma, verificaremos os gêneros mais cadastrados em cada loja de aplicativos, começando pela App Store.

In [28]:
def freq_table(dataset, index):
    frequency_table = {}
    
    for data in dataset:
        if data[index] in frequency_table:
            frequency_table[data[index]] += 1
        else:
            frequency_table[data[index]] = 1
    
    return frequency_table

In [29]:
def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

In [30]:
# Frequency table columns : Primary Genre
display_table(ios_final, 11) 

Games : 1874
Entertainment : 254
Photo & Video : 160
Education : 118
Social Networking : 106
Shopping : 84
Utilities : 81
Sports : 69
Music : 66
Health & Fitness : 65
Productivity : 56
Lifestyle : 51
News : 43
Travel : 40
Finance : 36
Weather : 28
Food & Drink : 26
Reference : 18
Business : 17
Book : 14
Navigation : 6
Medical : 6
Catalogs : 4


As 5 categorias que mais aparecem na loja da App Store são:

1. Games
2. Entertainment 
3. Photo & Video
4. Education
5. Social Networking 

A grande maioria se refere ao entretimento (Games, Entertainment e Photo & Video). Não quer dizer que essa quantidade de aplicativos possuem a mesma quantidade de usuários. Como não temos a quantidade de aplicativos instalados no dataset da App Store, analisaremos média de avaliações para cada categoria.

In [31]:
average_ratings_by_genre = {}

for genre in freq_table(ios_final, 11):
    total = 0
    len_genre = 0
    
    for app in ios_final:
        if genre == app[11]:
            len_genre += 1
            total += float(app[5])
            
    if len_genre == 0:
        len_genre = 1

    average_ratings_by_genre[genre] = total / len_genre  

In [32]:
def display_freq_table(freq):
    table = freq
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

In [33]:
display_freq_table(average_ratings_by_genre)

Navigation : 86090.33333333333
Reference : 74942.11111111111
Social Networking : 71548.34905660378
Music : 57326.530303030304
Weather : 52279.892857142855
Book : 39758.5
Food & Drink : 33333.92307692308
Finance : 31467.944444444445
Photo & Video : 28441.54375
Travel : 28243.8
Shopping : 26919.690476190477
Health & Fitness : 23298.015384615384
Sports : 23008.898550724636
Games : 22788.6696905016
News : 21248.023255813954
Productivity : 21028.410714285714
Utilities : 18684.456790123455
Lifestyle : 16485.764705882353
Entertainment : 14029.830708661417
Business : 7491.117647058823
Education : 7003.983050847458
Catalogs : 4004.0
Medical : 612.0


Os apps da categoria Navigation foram os mais avaliados. Vamos ver o por quê:

In [34]:
for app in ios_final:
    if app[11] == 'Navigation':
        print(app[1], ':', app[5])

Waze - GPS Navigation, Maps & Real-time Traffic : 345046
Google Maps - Navigation & Transit : 154911
Geocaching® : 12811
CoPilot GPS – Car Navigation & Offline Maps : 3582
ImmobilienScout24: Real Estate Search in Germany : 187
Railway Route Search : 5


Os apps Waze e Google Maps inflaram o número de classificações. Apresenta-se uma falsa impressão de que a categoria Navigation seja popular.

Outra categoria que apresentou um alto número de classificações foi a Reference:

In [35]:
for app in ios_final:
    if app[11] == 'Reference':
        print(app[1], ':', app[5])

Bible : 985920
Dictionary.com Dictionary & Thesaurus : 200047
Dictionary.com Dictionary & Thesaurus for iPad : 54175
Google Translate : 26786
Muslim Pro: Ramadan 2017 Prayer Times, Azan, Quran : 18418
New Furniture Mods - Pocket Wiki & Game Tools for Minecraft PC Edition : 17588
Merriam-Webster Dictionary : 16849
Night Sky : 12122
City Maps for Minecraft PE - The Best Maps for Minecraft Pocket Edition (MCPE) : 8535
LUCKY BLOCK MOD ™ for Minecraft PC Edition - The Best Pocket Wiki & Mods Installer Tools : 4693
GUNS MODS for Minecraft PC Edition - Mods Tools : 1497
Guides for Pokémon GO - Pokemon GO News and Cheats : 826
WWDC : 762
Horror Maps for Minecraft PE - Download The Scariest Maps for Minecraft Pocket Edition (MCPE) Free : 718
VPN Express : 14
Real Bike Traffic Rider Virtual Reality Glasses : 8
教えて!goo : 0
Jishokun-Japanese English Dictionary & Translator : 0


Os apps Bible e Dictionary.com também distorceram a categoria.

### Análise do conjunto de dados da App Store

A categoria de Games possui muitos concorrentes no App Market, então acredito ser uma categoria difícil de entrar.

As categoria Businesse e Lifestyle possuem poucos concorrentes e poucas avaliações. Por conta disso, talvez tenhamos uma oportunidade de entrar nesses ramos, já que app's desse tipo prendem a atenção do usuário e fazem com que seja mais fácil ele clicar em uma propaganda e gerar receita para a empresa.

### Mais populares na Google Play

Verificando as categorias mais cadastradas no Google Play.

In [36]:
# Frequency table columns : Category
display_table(android_final, 1) 

FAMILY : 1675
GAME : 862
TOOLS : 750
BUSINESS : 407
LIFESTYLE : 346
PRODUCTIVITY : 345
FINANCE : 328
MEDICAL : 313
SPORTS : 301
PERSONALIZATION : 294
COMMUNICATION : 287
HEALTH_AND_FITNESS : 273
PHOTOGRAPHY : 261
NEWS_AND_MAGAZINES : 248
SOCIAL : 236
TRAVEL_AND_LOCAL : 207
SHOPPING : 199
BOOKS_AND_REFERENCE : 190
DATING : 165
VIDEO_PLAYERS : 159
MAPS_AND_NAVIGATION : 124
FOOD_AND_DRINK : 110
EDUCATION : 103
ENTERTAINMENT : 85
LIBRARIES_AND_DEMO : 83
AUTO_AND_VEHICLES : 82
HOUSE_AND_HOME : 73
WEATHER : 71
EVENTS : 63
PARENTING : 58
ART_AND_DESIGN : 57
COMICS : 55
BEAUTY : 53


As 5 categorias que possuem mais aparecem na loja da Google Play são:

1. FAMILY : 1675
2. GAME : 862
3. TOOLS : 750
4. BUSINESS : 407
5. LIFESTYLE : 346

Aqui já podemos notar um comportamento um pouco mais distribuído. Apesar do entretenimento (GAME) ter uma grande quantidade, a parte de ferramentas (FAMILY, TOOLS, BUSINESS, LIFESTYLE) possui a grande maioria.

O dataset do Google Play possui uma coluna de quantidade de instalação. Ela não é precisa, pois possui categorias (100.000+) por exemplo, que pode indicar 100.000 ou 150.000. Para fins didáticos vamos utilizar a quantidade da categoria. Logo será necessário tratar as informações, removendo os caracteres '+' e ','.

In [37]:
average_installs_by_category = {}

for category in freq_table(android_final, 1):
    total = 0
    len_category = 0
    
    for app in android_final:
        if app[1] == category:
            total += int(app[5].replace('+', '').replace(',', ''))
            len_category += 1
            
    average_installs_by_category[category] = total / len_category

In [38]:
display_freq_table(average_installs_by_category)

COMMUNICATION : 38456119.167247385
VIDEO_PLAYERS : 24727872.452830188
SOCIAL : 23253652.127118643
PHOTOGRAPHY : 17840110.40229885
PRODUCTIVITY : 16787331.344927534
GAME : 15588015.603248259
TRAVEL_AND_LOCAL : 13984077.710144928
ENTERTAINMENT : 11640705.88235294
TOOLS : 10801391.298666667
NEWS_AND_MAGAZINES : 9549178.467741935
BOOKS_AND_REFERENCE : 8767811.894736841
SHOPPING : 7036877.311557789
PERSONALIZATION : 5201482.6122448975
WEATHER : 5074486.197183099
HEALTH_AND_FITNESS : 4188821.9853479853
MAPS_AND_NAVIGATION : 4056941.7741935486
FAMILY : 3697848.1731343283
SPORTS : 3638640.1428571427
ART_AND_DESIGN : 1986335.0877192982
FOOD_AND_DRINK : 1924897.7363636363
EDUCATION : 1833495.145631068
BUSINESS : 1712290.1474201474
LIFESTYLE : 1437816.2687861272
FINANCE : 1387692.475609756
HOUSE_AND_HOME : 1331540.5616438356
DATING : 854028.8303030303
COMICS : 817657.2727272727
AUTO_AND_VEHICLES : 647317.8170731707
LIBRARIES_AND_DEMO : 638503.734939759
PARENTING : 542603.6206896552
BEAUTY : 51315

As categorias que possuem mais instalações são:

1. COMMUNICATION
2. VIDEO_PLAYERS
3. SOCIAL
4. PHOTOGRAPHY
5. PRODUCTIVITY

Analisaremos mais a fundo as primeiras:

In [39]:
for app in android_final:
    if app[1] == 'COMMUNICATION':
        print(app)
        print('\n')

['WhatsApp Messenger', 'COMMUNICATION', '4.4', '69119316', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Everyone', 'Communication', 'August 3, 2018', 'Varies with device', 'Varies with device']


['Messenger for SMS', 'COMMUNICATION', '4.3', '125257', '17M', '10,000,000+', 'Free', '0', 'Teen', 'Communication', 'June 6, 2018', '1.8.9', '4.1 and up']


['My Tele2', 'COMMUNICATION', '4.3', '158679', '8.8M', '5,000,000+', 'Free', '0', 'Everyone', 'Communication', 'August 3, 2018', '2.4.1', '4.4 and up']


['imo beta free calls and text', 'COMMUNICATION', '4.3', '659395', '11M', '100,000,000+', 'Free', '0', 'Everyone', 'Communication', 'June 7, 2018', '9.8.000000010492', '4.0 and up']


['Contacts', 'COMMUNICATION', '4.3', '66602', 'Varies with device', '50,000,000+', 'Free', '0', 'Everyone', 'Communication', 'June 26, 2018', '2.8.4.201036949', '5.0 and up']


['Call Free – Free Call', 'COMMUNICATION', '4.3', '30209', '15M', '5,000,000+', 'Free', '0', 'Everyone', 'Communication', '

['Ring', 'COMMUNICATION', '3.9', '517', '35M', '10,000+', 'Free', '0', 'Everyone', 'Communication', 'August 6, 2018', '20180805', '4.4 and up']


['Hyundai CX Conference', 'COMMUNICATION', 'NaN', '0', '20M', '50+', 'Free', '0', 'Everyone', 'Communication', 'May 27, 2018', '2.10.2', '4.2 and up']


['Cy Messenger', 'COMMUNICATION', '4.5', '4', '8.1M', '100+', 'Free', '0', 'Everyone', 'Communication', 'August 30, 2014', '1.3.0', '2.3.3 and up']


['Amadeus GR & CY', 'COMMUNICATION', 'NaN', '4', '3.8M', '100+', 'Free', '0', 'Everyone', 'Communication', 'February 1, 2018', '2.07', '4.1 and up']


['Hlášenírozhlasu.cz', 'COMMUNICATION', 'NaN', '0', '17M', '10+', 'Free', '0', 'Everyone', 'Communication', 'July 27, 2018', '2.1.3', '4.1 and up']


['SMS Sender - sluzba.cz', 'COMMUNICATION', 'NaN', '12', '72k', '1,000+', 'Free', '0', 'Everyone', 'Communication', 'June 1, 2012', '2.00.00', '2.0 and up']


['WEB.DE Mail', 'COMMUNICATION', '4.3', '226541', 'Varies with device', '10,000,000+', 'Fre

A quantidade de instalação da categoria COMMUNICATION está muito alterado por conta de gigantes de tecnologia como WhatsApp, Skype, Messenger, Gmail, Hangouts entre outros. Talvez na seja uma boa ideia competir com empresas desse tipo.

In [40]:
for app in android_final:
    if app[1] == 'VIDEO_PLAYERS':
        print(app)
        print('\n')

['YouTube', 'VIDEO_PLAYERS', '4.3', '25655305', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Video Players & Editors', 'August 2, 2018', 'Varies with device', 'Varies with device']


['All Video Downloader 2018', 'VIDEO_PLAYERS', '4.3', '7557', '5.6M', '1,000,000+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'July 25, 2018', '1.0.1', '4.4 and up']


['Video Downloader', 'VIDEO_PLAYERS', '4.2', '59089', '5.4M', '10,000,000+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'August 3, 2018', '1.0.8', '4.4 and up']


['HD Video Player', 'VIDEO_PLAYERS', '4.3', '1551', '2.9M', '1,000,000+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'July 25, 2018', '1.1', '4.1 and up']


['Iqiyi (for tablet)', 'VIDEO_PLAYERS', '3.6', '12764', '25M', '1,000,000+', 'Free', '0', 'Teen', 'Video Players & Editors', 'July 11, 2018', '7.1', '4.0 and up']


['Video Player All Format', 'VIDEO_PLAYERS', '4.8', '259003', 'Varies with device', '10,000,000+', 'Free', '0', 'Everyo



['HD VideoDownlaoder For Fb : XXVideo Downloader', 'VIDEO_PLAYERS', '4.2', '61', '6.1M', '10,000+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'July 30, 2018', '1.0.3', '4.0.3 and up']


['HD Video Download for Facebook', 'VIDEO_PLAYERS', '4.4', '20755', '17M', '1,000,000+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'March 16, 2018', '4.0.3', '4.1 and up']


['Art of F J Taylor', 'VIDEO_PLAYERS', 'NaN', '2', '1.5M', '10+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'June 23, 2015', '1.0.2', '4.3 and up']


['Motorola FM Radio', 'VIDEO_PLAYERS', '3.9', '54815', 'Varies with device', '100,000,000+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'May 2, 2018', 'Varies with device', 'Varies with device']


['List iptv FR', 'VIDEO_PLAYERS', 'NaN', '1', '2.9M', '100+', 'Free', '0', 'Everyone', 'Video Players & Editors', 'April 22, 2018', '1.0', '4.0.3 and up']




O mesmo comportamento ocorre na categoria VIDEO_PLAYERS, com números inflados por conta das gigantes como YouTube, VLC, VivaVideo, etc.

No conjunto de dados do Google Play, as categorias Business e Lifestyle também possuem poucas instalações. Entretanto, a quantidade concorrentes é um pouco maior que o encontrado na App Store.

## Conclusão

Em nenhuma categoria é fácil de se inserir e criar um aplicativo de sucesso. Algumas já estão saturadas e outras ainda possuem espaço para competição. Foi o caso encontrado na categoria Business e Lifestyle. Essas categorias possuem poucas instalações e poucos concorrentes. São também categorias que podem prender a atenção do usuário, fazendo assim com que fique mais propenso a clicar em uma propaganda, ação essa que gera a fonte de renda para empresa. Uma estratégia válida então seria entrar nesse nicho, pois acredito possuir boas oportunidades. 