# Perfis rent√°veis de novos aplicativos para App Store e Google Play

Nosso objetivo neste documento √© encontrar perfis de aplicativos que sejam rent√°veis para os mercados **App Store** e **Google Play**. Pensando no perfil de uma empresa que desenvolve aplicativos *iOS* e *Android*, nosso trabalho √© auxiliar os desenvolvedores a tomarem boas decis√µes baseadas em dados a respeito dos tipos de aplicativos que eles desenvolver√£o. 

Neste perfil de empresa, s√£o desenvolvidos principalmente aplicativos gratuitos, de forma que sua fonte de renda prov√©m de publicidade dentro dos aplicativos. Deste modo, tem-se que a receita para este tipo de aplicativo √© diretamente influenciada pelo n√∫mero de usu√°rios que o utiliza. 

Nosso objetivo com esse projeto, portanto, √© analisar dados e auxiliar os desenvolvedores a entenderem quais tipos de aplicativos s√£o mais propensos a atrairem usu√°rios. Demonstraremos, ao longo deste documento, __ perfis promissores de aplicativos que valham a pena serem explorados para desenvolvimento:

1. Um aplicativo de finalidades pr√°ticas com princ√≠pios de *gamefica√ß√£o*.

## 1. Explora√ß√£o de dados

Destacamos, na etapa anterior, que nosso objetivo √© ajudar desenvolvedores a entenderem quais tipos de aplicativos t√™m maiores chances de atrairem usu√°rios na **Google Play** e na **App Store**. Para isto, precisamos coletar e analisar dados de aplicativos dispon√≠veis nessas plataformas.

At√© setembro de 2018, havia aproximadamente 2 milh√µes de aplicativos *iOS* dispon√≠veis da App Store e 2,1 milh√µes de aplicativos *Android* na Google Play.

Coletar dados de cerca de 4 milh√µes de aplicativos requer uma quantidade significativa de tempo e de dinheiro. Para evitar o desperd√≠cio de recursos nesta coleta, devemos primeiro verificar se √© poss√≠vel obter dados relevantes de forma gratuita. Para nossa sorte, existem duas bases de dados que servem aos nossos objetivos:

* Um [conjunto de dados](https://www.kaggle.com/lava18/google-play-store-apps) contendo informa√ß√µes de aproximadamente 10.000 aplicativos Android da Google Play. Esses dados foram coletados em agosto de 2018. Voc√™ pode baix√°-los diretamente [deste link](https://dq-content.s3.amazonaws.com/350/googleplaystore.csv).
* Um [conjunto de dados](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps) contendo informa√ß√µes de aproximadamente 7.000 aplicativos iOS da App Store. Esses dados foram coletados em julho de 2017. Voc√™ pode baix√°-los diretamente [deste link](https://dq-content.s3.amazonaws.com/350/AppleStore.csv).

### 1.1. Criando uma fun√ß√£o para a leitura dos dados

Come√ßaremos abrindo esses dois conjuntos de arquivos. Para fins de reutiliza√ß√£o, criamos uma fun√ß√£o `open_dataset()`:

In [1]:
def open_dataset(file_name, header=True):
    opened_file = open(file_name, encoding='utf8')
    from csv import reader
    read_file = reader(opened_file)
    data = list(read_file)

    if header:
        return data[0], data[1:]
    else:
        return data

A fun√ß√£o `open_dataset()`:

* Recebe dois par√¢metros:
    * `file_name`, do tipo `string`, que indica o arquivo o conjunto de dados a ser analisado, no formato *csv*;
    * `header`, do tipo `bool` e valor padr√£o `True`, que indica se o conjunto de dados possui ou n√£o cabe√ßalho.
* Abre o arquivo `file_name` atrav√©s da fun√ß√£o `open()` e atribui essa requisi√ß√£o √† vari√°vel `opened_file`.
    * O par√¢metro `encoding='utf8'` codifica o arquivo no formato `Unicode UTF-8`.
* Importa o m√≥dulo `reader` do pacote `csv`.
* L√™ o arquivo em `opened_file` atrav√©s da fun√ß√£o `reader()`, atribuindo os dados √† vari√°vel `read_file`.
* Transforma os conte√∫dos de `read_file` em uma lista, atrav√©s da fun√ß√£o `list()`, armazenando seu conte√∫do na vari√°vel `data`.
* Verifica se o conjunto de dados possui cabe√ßalho, retornando:
    * uma tupla `(cabe√ßalho, conte√∫do)`, em caso positivo;
    * o conjunto completo de dados, em caso negativo.
    
Com isto em mente, podemos abrir os arquivos `AppleStore.csv` e `googleplaystore.csv`, armazenando seus conte√∫dos nas vari√°veis `ios` e `android`, respectivamente:

In [2]:
ios_header, ios = open_dataset('AppleStore.csv')
android_header, android = open_dataset('googleplaystore.csv')

Conv√©m notar que, na atribui√ß√£o de valores √†s vari√°veis `ios` e `android`, aproveitamos o retorno da fun√ß√£o `open_dataset()` para atribuirmos valores tamb√©m √†s vari√°veis `ios_header` e `android_header`, contendo dos cabe√ßalhos desses conjuntos de dados.

### 1.2. Criando uma fun√ß√£o para a explora√ß√£o dos dados

Para tornar mais f√°cil o trabalho de explora√ß√£o desses dados, criamos uma fun√ß√£o chamada `explore_data()` que pode ser utilizada para imprimir linhas de uma forma mais leg√≠vel:

In [3]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]
    for row in dataset_slice:
        print(row)
        print('\n')
        
    if rows_and_columns:
        print('N√∫mero de linhas:', len(dataset))
        print('N√∫mero de colunas:', len(dataset[0]))

A fun√ß√£o `explore_data()`:

* Recebe quatro par√¢metros:
    * `dataset`, do tipo `list`, correspondente ao conjunto de dados que ser√° explorado.
    * `start` e `end`, do tipo `int`, correspondentes ao in√≠cio e ao fim do fatiamento do conjunto de dados, respectivamente.
    * `rows_and_columns`, do tipo `bool` e valor padr√£o `False`, que informa se exibiremos o n√∫mero de linhas e de colunas do conjunto de dados.
* Fatia o conjunto de dados utilizando a sintaxe `dataset[start:end]`.
* Circula atrav√©s do fatiamento e, para cada itera√ß√£o, exibe uma linha do conjunto (`print(row)`), adicionando uma linha em branco em seguida (`print('\n')`), para fins de leitura.
* Caso `rows_and_columns` for passado como `True`, exibe o n√∫mero de linhas e de colunas do conjunto de dados.
    * `dataset` n√£o deve possuir uma linha de cabe√ßalho; caso contr√°rio, a fun√ß√£o retornar√° o n√∫mero errado de linhas e de colunas (uma a mais comparado com o tamanho real).

Podemos, finalmente, explorar esses conjuntos de dados na tentativa de extrair informa√ß√µes relevantes. Comecemos com a base de dados dos aplicativos *Android* na **Google Play Store**, exibindo o cabe√ßalho e os tr√™s primeiros aplicativos que aparecem na lista:

In [4]:
print(android_header)
print('-' * 30)
explore_data(android, 0, 3, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']
------------------------------
['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite ‚Äì FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


N√∫mero de linhas: 10841
N√∫mero de colunas: 13


Nota-se que este conjunto de dados possui 10.841 aplicativos e suas 13 colunas exibem informa√ß√µes a respeito de cada aplicativo. Para nossa an√°lise, as categorias `'Category'`, `'Rating'`, `'Reviews'`, `'Installs` e `'Price'` parecem ser as mais relevantes.

Vejamos agora a base de dados de aplicativos *iOS* na **Apple Store**:

In [5]:
print(ios_header)
print('-' * 30)
explore_data(ios, 0, 3, True)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']
------------------------------
['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


N√∫mero de linhas: 7197
N√∫mero de colunas: 16


Nota-se que este conjunto de dados possui 7.197 aplicativos e 16 colunas descritivas. Em nossa an√°lise, estamos interessados nos campos `'price'`, `'rating_count_tot'`, `'user_rating'` e `'prime_genre'`. √Ä primeira vista, nem todos os campos s√£o auto-explicativos, ent√£o uma visita √† [documenta√ß√£o](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/) pode ser √∫til.

## 2. Remo√ß√£o de dados incorretos

No passo anterior, abrimos os dois conjuntos de dados e exploramos brevemente seu conte√∫do. Antes de iniciarmos nossa an√°lise, precisamos nos certificar de que os dados que iremos analisar est√£o corretos, para n√£o corrermos riscos de emitir ju√≠zos incorretos a respeito da base de dados.

Em [uma das publica√ß√µes](https://www.kaggle.com/lava18/google-play-store-apps/discussion/66015) do f√≥rum de discuss√£o do *Google Play Dataset* h√° a men√ß√£o de que a linha 10472 possui um erro. Vamos exib√≠-la e compar√°-la com o cabe√ßalho e com outra linha qualquer (supostamente correta):

In [6]:
print(android[10472])  # linha incorreta
print('\n')
print(android_header)  # cabe√ßalho
print('\n')
print(android[7000])  # uma linha correta qualquer

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['PixPanda - Color by Number Pixel Art Coloring Book', 'FAMILY', '4.9', '55723', '14M', '1,000,000+', 'Free', '0', 'Everyone', 'Entertainment', 'June 4, 2018', '3.3', '4.0.3 and up']


Caso ainda n√£o tenha ficado claro, utilizaremos a fun√ß√£o `len()` para exibir a quantidade e itens em cada uma dessas linhas:

In [7]:
print(len(android[10472]))
print(len(android_header))
print(len(android[77]))

12
13
13


Verifica-se, assim, que a linha 10472 possui uma coluna a menos. Analisando item a item, percebe-se que est√° faltando o item `'Category'`. Como isto compromete nossa an√°lise de dados, uma vez que os valores das colunas s√£o todos deslocados para a esquerda, utilizaremos a declara√ß√£o `del` para remover essa linha do dataset:

In [8]:
# exibe a quantidade de registros antes de deletar a linha 10472
print(len(android))

# deleta a linha 10472
del android[10472]

# exibe a quantidade de registros ap√≥s de deletar a linha 10472
print(len(android))

10841
10840


## 3. Remo√ß√£o de dados duplicados

Explorando a base de dados dos aplicativos *Android*, percebemos que, para alguns deles, h√° entradas duplicadas. No caso, por exemplo, do aplicativo **Instagram**:

In [9]:
for app in android:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


Devemos procurar pela ocorr√™ncia de entradas duplicadas em toda nossa base de dados. Para isto, criaremos duas listas: `duplicate_apps`, que armazenar√° os nomes dos aplicativos duplicados e `unique_apps`, para armazenar os nomes dos aplicativos √∫nicos. Dentro do *loop* no dataset `android`:

* Atribuiremos √† vari√°vel `name` o nome do aplicativo.
* Verificaremos se `name` aparece na lista `unique_apps`.
    * Em caso afirmativo, temos que a ocorr√™ncia de `name` n√£o √© nova, ent√£o devemos adicionar `name` √† lista `duplicate_apps`.
    * Em caso negativo, adicionaremos `name` √† lista `unique_apps`, uma vez que se trata de ocorr√™ncia in√©dita.
    
Ao final deste processo, exibiremos, para fins de compara√ß√£o, as quantidades de aplicativos √∫nicos e de aplicativos duplicados, bem como alguns registros deste √∫ltimo caso:

In [10]:
duplicate_apps = []
unique_apps = []  

for app in android:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)
        
print('N√∫mero de aplicativos √∫nicos:', len(unique_apps))
print('N√∫mero de aplicativos duplicados:', len(duplicate_apps))
print('Exemplos de aplicativos duplicados:', duplicate_apps[:10])

N√∫mero de aplicativos √∫nicos: 9659
N√∫mero de aplicativos duplicados: 1181
Exemplos de aplicativos duplicados: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack']


Atrav√©s dessa an√°lise, observamos que existem 1.181 aplicativos duplicados no dataset `android`. Entretanto, n√£o podemos remov√™-los a esmo, de forma aleat√≥ria, sob pena de comprometermos nossa an√°lise. 

Voltemos novamente ao caso do aplicativo **Instagram**. Fazendo um la√ßo pelos aplicativos da lista `android`, armazenaremos valores duplicados em outra lista, aqui nomeada `instagram`:

In [11]:
instagram = []
for app in android:
    name = app[0]
    if name == 'Instagram':
        instagram.append(app)

Pensando em utiliza√ß√µes futuras ao longo deste projeto, definiremos duas novas fun√ß√µes: `extract()` e `are_unique()`:

* A fun√ß√£o `extract()`:
    * Tem por objetivo extrair uma √∫nica coluna de um conjunto de dados (dataset).
    * Recebe como par√¢metros
        * `dataset`, o conjunto de dados, que se sup√µe ser uma lista de listas;
        * `index`, um n√∫mero inteiro, referente ao √≠ndice da coluna de `dataset` que se pretende extrair.
    * Retorna uma lista com os dados da coluna extra√≠da.
    
* A fun√ß√£o `are_unique()`:
    * Tem por objetivo comparar os valores de uma lista.
    * Recebe `column` como par√¢metro, referente √† lista cuja unicidade se pretende verificar
    * Retorna `True` caso todos os valores da lista sejam iguais ou `False`, caso a lista apresente algum valor diferente dos outros.

In [12]:
def extract(dataset, column_index=0):
    column = []
    for row in dataset:
        column.append(row[column_index])
    return column

def are_unique(column):
    unique = []
    duplicate = []

    for value in column:
        if value in unique:
            duplicate.append(value)
        else:
            unique.append(value)

    return True if len(unique) == 1 else False

Comparemos os valores da lista `instagram`, a partir da utiliza√ß√£o das fun√ß√µes acima definidas:

In [13]:
for i in range(0, len(instagram[0])):
    column = extract(instagram, i)
    if not are_unique(column):
        print('Found different values in column', i)
        print(column)

Found different values in column 3
['66577313', '66577446', '66577313', '66509917']


Percebe-se que a √∫nica diferen√ßa entre os registros se d√° na coluna de √≠ndice `3`, correspondente aos `'Reviews'` dos aplicativos. Isto ocorre, possivelmente, porque os dados foram coletados em diferentes hor√°rios do dia (note-se que todos eles se referem ao mesmo dia, 31 de julho de 2018, mas n√£o h√° men√ß√£o aos hor√°rios de coleta). 

Assumiremos ent√£o que, quanto maior o n√∫mero de reviews, mais recente √© o registro. Preservaremos, ent√£o, o registro com o maior n√∫mero de reviews, removendo as outras entradas para o mesmo aplicativo.

### 3.1. Coletando o n√∫mero m√°ximo de reviews

Para remover entradas duplicadas, iniciaremos criando o dicion√°rio `reviews_max`, no qual a chave (*key*) corresponder√° ao nome do aplicativo e o valor (*value*) corresponder√° ao maior n√∫mero de reviews daquele aplicativo. Com o dicion√°rio criado, faremos um la√ßo pelo *dataset* `android` e, a cada itera√ß√£o:

* Atribuiremos √† vari√°vel `name` o nome do aplicativo.
* Atribuiremos √† vari√°vel `n_reviews` o n√∫mero de reviews do aplicativo, j√° convertido para o tipo `float`.
* Verificaremos se `name` j√° existe em `reviews_max` e se `reviews_max[name] < n_reviews`. Em caso afirmativo, atribuiremos a `reviews_max[name]` o valor de `n_reviews`.
* Verificaremos se `name` n√£o existe como uma chave em `reviews_max`. Em caso afirmativo, criaremos uma nova entrada `reviews_max[name]`, atribuindo a ela o valor de `n_reviews`.
    * √â importante que este comando n√£o venha como uma cl√°usula `else` da declara√ß√£o anterior, sob pena de ocorrer mesmo que `reviews_max[name] < n_reviews` seja avaliada como `False`.
    
Ao final do loop, exibiremos a quantidade de registros em `reviews_max`, comparando-a com o valor esperado:

In [14]:
reviews_max = {}
for app in android:
    name = app[0]
    n_reviews = float(app[3])

    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

print('Expected lenght:', len(unique_apps))
print('Lenght found:', len(reviews_max))
if len(unique_apps) == len(reviews_max):
    print('''So far so good!''')

Expected lenght: 9659
Lenght found: 9659
So far so good!


### 3.2. Limpando entradas duplicadas

Com o dicion√°rio `reviews_max` criado e funcionando da forma esperada, podemos passar para a remo√ß√£o dos dados duplicados.

Iniciaremos criando duas listas, `android_clean` e `already_added`. A primeira armazenar√° o nosso *dataset* limpo, ou seja, sem as entradas duplicadas, enquanto que a segunda armazenar√° apenas os nomes dos aplicativos cujas ocorr√™ncias forem previamente detectadas.

Feito isto, faremos um loop pelo *dataset* `android` e, a cada itera√ß√£o:

* Atribuiremos √† vari√°vel `name` o nome do aplicativo.
* Atribuiremos √† vari√°vel `n_reviews` o n√∫mero de reviews do aplicativo, j√° convertido para o tipo `float`.
* Verificaremos se `n_reviews` tem o mesmo valor de `reviews_max[name]` e se `name` n√£o se encontra na lista `already_added`.
    * Em caso afirmativo:
        * adicionamos a linha `app` inteira √† lista `android_clean`;
        * adicionamos `name` √† lista `already_added`.
        
Para fins de verifica√ß√£o, compareremos o tamanho de `android_clean` com o valor obtido no passo anterior:

In [15]:
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])

    if n_reviews == reviews_max[name] and name not in already_added:
        android_clean.append(app)
        already_added.append(name)

print(len(android_clean))

9659


## 4. Remo√ß√£o de aplicativos em outros idiomas

Estamos trabalhando com um perfil de empresa que desenvolve aplicativos em ingl√™s, ent√£o precisamos segmentar nosso conjunto de dados pensando em usu√°rios falantes deste idioma.

Uma an√°lise mais aprofundada nos conjuntos de dados `android` e `ios` mostra aplicativos que n√£o est√£o de acordo com esses par√¢metros:

In [16]:
print('iOS apps:')
print(ios[813][1])
print(ios[6731][1])
print('\nAndroid apps:')
print(android_clean[4412][0])
print(android_clean[7940][0])

iOS apps:
Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠
„ÄêËÑ±Âá∫„Ç≤„Éº„É†„ÄëÁµ∂ÂØæ„Å´ÊúÄÂæå„Åæ„Åß„Éó„É¨„Ç§„Åó„Å™„ÅÑ„Åß „ÄúË¨éËß£„ÅçÔºÜ„Éñ„É≠„ÉÉ„ÇØ„Éë„Ç∫„É´„Äú

Android apps:
‰∏≠ÂõΩË™û AQ„É™„Çπ„Éã„É≥„Ç∞
ŸÑÿπÿ®ÿ© ÿ™ŸÇÿØÿ± ÿ™ÿ±ÿ®ÿ≠ DZ


### 4.1. Criando uma fun√ß√£o para verifica√ß√£o de caracteres

Como n√£o estamos interessados neste tipo de aplicativo, removeremos-os das listas. Para tanto, criaremos uma fun√ß√£o `is_english()`, que recebe uma string como par√¢metro e verifica, atrav√©s da fun√ß√£o `ord()`, se ela cont√©m apenas caracteres que s√£o utilizados na l√≠ngua inglesa. 

A [fun√ß√£o](https://docs.python.org/3/library/functions.html#ord) `ord()` retorna, para um dado caracter recebido, seu correspondente c√≥digo [ASCII](https://en.wikipedia.org/wiki/ASCII). Os n√∫meros correspondentes aos caracteres que s√£o comumente utilizados em ingl√™s est√£o no intervalo 0 a 127. Deste modo, nossa fun√ß√£o `is_english()` deve retornar `True` se todos os caracteres do argumento passado estiverem dentro deste intervalo ou `False` se algum caracteres fora deste intervalo for encontrado:

In [17]:
def is_english(text):
    for char in text:
        if ord(char) > 127:
            return False
    return True

Verificaremos seu funcionamento com alguns nomes de aplicativos:

In [18]:
some_apps = [
    'Instagram', 
    'Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠', 
    'Docs To Go‚Ñ¢ Free Office Suite', 
    'Instachat üòú'
]
for app in some_apps:
    print(app)
    print(is_english(app))

Instagram
True
Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠
False
Docs To Go‚Ñ¢ Free Office Suite
False
Instachat üòú
False


Nossa fun√ß√£o funciona *parcialmente* bem, uma vez que, apesar de detectar que o segundo item da lista (`'Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠'`) n√£o pertence √† lingua inglesa, deixa de fora do intervalo especificado alguns s√≠mbolos (`'‚Ñ¢'`) e emojis (`'üòú'`). Se for utilizada deste modo, provavelmente removeremos de nossos conjuntos de dados v√°rios aplicativos √∫teis para nossa an√°lise.

### 4.2. Refinando a fun√ß√£o para verifica√ß√£o de caracteres

No bloco anterior vimos que os aplicativos `'Docs To Go‚Ñ¢ Free Office Suite'` e `'Instachat üòú'` n√£o passaram pelo crivo da fun√ß√£o. Isto ocorre porque os c√≥digos ASCII correspondentes ao s√≠mbolo ‚Ñ¢ e ao emoji üòú est√£o fora do intervalo que especificamos (0 a 127):

In [19]:
print(ord('‚Ñ¢'))
print(ord('üòú'))

8482
128540


Definir todos os poss√≠veis caracteres contendo s√≠mbolos e emojis que podem aparecer nos nomes dos aplicativos pode se mostrar uma tarefa infrut√≠fera e ingl√≥ria, consumindo um tempo demasiadamente extenso. Em contrapartida, se utilizarmos a fun√ß√£o tal como foi definida, removeremos aplicativos importantes de nossa base de dados.

Para minimizar os efeitos de uma poss√≠vel perda de dados, apenas removeremos de nossos *datasets* aplicativos cujos nomes contenham mais do que **tr√™s caracteres** com c√≥digos ASCII fora do intervalo especificado. Em outras palavras, nomes com at√© tr√™s caracteres correspondendo a s√≠mbolos ou emojis *ainda* ser√£o classificados como pertencentes √† l√≠ngua inglesa. Essa escolha arbitr√°ria pode n√£o ser perfeita mas ainda nos parece boa o suficiente para nossos prop√≥sitos classificat√≥rios.

Modificaremos, ent√£o, nossa fun√ß√£o `is_english()`, adicionando um contador `c`, de valor inicialmente igual a zero, antes do *loop* pelos caracteres da string `text`. Para cada ocorr√™ncia de um caracter fora do intervalo ASCII 0-127, a vari√°vel `c` √© incrementada em uma unidade. Ao final do la√ßo, a fun√ß√£o retorna `True` se o valor de `c` for igual ou inferior a 3 ou `False` em caso contr√°rio:

In [20]:
def is_english(text):
    c = 0
    for char in text:
        if ord(char) > 127:
            c += 1
    return True if c <= 3 else False

Podemos, ent√£o, utilizar mais uma vez a lista `some_apps` para verificar se, agora, nossa fun√ß√£o funciona como esperado:

In [21]:
some_apps = [
    'Instagram', 
    'Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠', 
    'Docs To Go‚Ñ¢ Free Office Suite', 
    'Instachat üòú'
]
for app in some_apps:
    print(app)
    print(is_english(app))

Instagram
True
Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠
False
Docs To Go‚Ñ¢ Free Office Suite
True
Instachat üòú
True


Verificando-se que a fun√ß√£o est√° de acordo com nossa proposta, passaremos agora para filtragem dos conjuntos de dados `ios` e `android_clean`. Faremos um la√ßo em cada um dos conjuntos, adicionando a linha correspondente a uma lista separada caso o nome do aplicativo seja identificado como pertencente √† l√≠ngua inglesa:

In [22]:
android_english = []
for app in android_clean:
    name = app[0]
    if is_english(name):
        android_english.append(app)

print('Number of android english apps:', len(android_english))

ios_english = []
for app in ios:
    name = app[1]
    if is_english(name):
        ios_english.append(app)

print('Number of ios english apps:', len(ios_english))

Number of android english apps: 9614
Number of ios english apps: 6183


Verificamos, assim, que nossos conjuntos de dados agora possuem **9.614** aplicativos *Android* e **6.183** aplicativos *iOS*. Podemos utilizar a fun√ß√£o `explore_data()` para analisar alguns destes valores:

In [23]:
explore_data(android_english, 0, 3, True)
print('\n')
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite ‚Äì FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


N√∫mero de linhas: 9614
N√∫mero de colunas: 13


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', 

## 5. Sele√ß√£o de aplicativos gratuitos

Como mencionado no in√≠cio deste documento, nosso interesse est√° exclusivamente em aplicativos gratuitos de ambas as lojas. Deste modo, finalizando nosso processo de limpeza dos dados, isolaremos aplicativos pagos e n√£o pagos em listas separadas.

Criaremos as listas `android_final` e `ios_final`, armazenando nelas somente os aplicativos gratuitos das respectivas lojas. Para isto, basta realizar um la√ßo nos *datasets* `android_english` e `ios_english` e, a cada itera√ß√£o, verificar se o pre√ßo do aplicativo √© igual a zero. Em caso afirmativo, adicionaremos a linha correspondente ao aplicativo √† lista final:

In [24]:
android_final = []
for app in android_english:
    price = app[7]
    if price == '0':
        android_final.append(app)
print('Number of Android free apps:', len(android_final))

ios_final = []
for app in ios_english:
    price = app[4]
    if price == '0.0':
        ios_final.append(app)
print('Number of iOS free apps:', len(ios_final))

Number of Android free apps: 8864
Number of iOS free apps: 3222


## 6. Categorias de aplicativos mais comuns

Como mencionado na introdu√ß√£o deste documento, nosso objetivo √© determinar os tipos de aplicativos que atraem mais usu√°rios, uma vez que nossa receita est√° diretamente relacionada com o n√∫mero de pessoas que utilizam os aplicativos.

Deste modo, uma poss√≠vel estrat√©gia para a valida√ß√£o de uma ideia de um aplicativo se daria em tr√™s passos:

1. Construir uma vers√£o inicial do aplicativo *Android* e adicion√°-la √† loja **Google Play**.
+ Se o aplicativo obtiver uma boa resposta dos usu√°rios, podemos continuar com seu desenvolvimento.
+ Caso o aplicativo continue rent√°vel ap√≥s seis meses, desenvolvemos uma vers√£o iOS do mesmo e adicionamos √† App Store.

Nosso objetivo final √© possuir um aplicativo em ambas as lojas, ent√£o precisamos encontrar perfis que se adequem a estes dois ambientes. Para tanto, precisamos analisar quais s√£o as categorias de aplicativos mais comuns em nossos dois conjuntos de dados.

### 6.1. Criando fun√ß√µes para gerar e exibir tabelas de frequ√™ncias

Vamos iniciar definindo uma fun√ß√£o `freq_table()` que gera, a partir de uma lista simples, um dicion√°rio contendo, como chave, um item da lista e, como valor, uma lista contendo a quantidade de ocorr√™ncias deste item na lista (frequ√™ncia absoluta) e a divis√£o deste pelo n√∫mero total de registros (frequ√™ncia relativa):

In [25]:
def freq_table(column):
    frequency_table = {}
    total = len(column)

    for row in column:
        if row in frequency_table:
            frequency_table[row][0] += 1
            frequency_table[row][1] = frequency_table[row][0] / total
        else:
            frequency_table[row] = []
            frequency_table[row].append(1)
            frequency_table[row].append(1 / total)
    return frequency_table

O que a fun√ß√£o faz, essencialmente, √© percorrer toda a lista `column` passada como par√¢metro e, a cada itera√ß√£o, verificar se o atual item, representado por `row`, se encontra no dicion√°rio `frequency_table`, criado no in√≠cio da defini√ß√£o da fun√ß√£o, antes do la√ßo de repeti√ß√£o. 

* Caso detectar que o item `row` j√° se encontra no dicion√°rio, incrementa o valor do primeiro item de sua lista (*frequ√™ncia absoluta*) em 1 unidade e atualiza o pr√≥ximo item (*frequ√™ncia relativa*) para receber a divis√£o do valor anterior por `total` (referente √† quantidade total de registros).
* Em caso contr√°rio, cria um novo item em `frequency_table`, de chave `row` e do tiplo `list`.
    * Adiciona um item √† lista criada, que recebe o valor `1`, referente √† frequ√™ncia absoluta deste item.
    * Adiciona outro item √† lista, atribuindo a ele a divis√£o entre o valor `1` e o valor armazenado em `total`, referente √† frequ√™ncia relativa deste item.

Nosso pr√≥ximo passo √© criar uma fun√ß√£o para a exibi√ß√£o das tabelas de frequ√™ncias, uma vez que o c√≥digo √© rotineiro e ser√° utilizado mais vezes ao longo deste projeto.

In [26]:
def display_freq_table(column, title='frequency table', size=50, sep='-'):
    # import module to sort dictionary by item value, instead by item key
    from operator import itemgetter
    # generates a frequency table from 'column' values
    ft = freq_table(column)
    # sort 'ft' by item values
    sort_ft = sorted(ft.items(), key=itemgetter(1), reverse=True)

    # prints a header showing this frequency table title
    print(sep * size)
    print(title.upper().center(size))
    print('(column | number of apps | % of total)'.center(size))
    print(sep * size)

    for value in sort_ft:
        # the google play dataset contains '_' separating words, so we should remove them
        name = value[0].replace("_", " ")
        # fetch absolute and relative frequencies and print them in a tabular way
        abs_fq = value[1][0]
        rel_fq = value[1][1] * 100
        print('{:34.34}  {:>6}  {:04.2f}%'.format(name, abs_fq, rel_fq))

    print(sep * size)

A fun√ß√£o `display_freq_table()`:

* Recebe como par√¢metro obrigat√≥rio a lista `column`, a partir do qual ser√° gerada uma tabela de frequ√™ncias atrav√©s da fun√ß√£o `freq_table()`.
* Possui, como par√¢metros opcionais (apenas para fins de leitura):
    * Uma string `title`, de valor padr√£o `'frequency table'`, referente ao t√≠tulo dessa tabela.
    * Um inteiro `size`, de valor padr√£o `50`, correspondente √† largura da tabela.
    * Um caracter `sep`, de valor padr√£o `'-'`, para imprimir linhas horizontais separando se√ß√µes da tabela.

### 6.2. An√°lise dos aplicativos da Google Play

Podemos, assim, utilizar a fun√ß√£o `display_freq_table()` para inspecionar nossos conjuntos de dados. Comecemos com os aplicativos *Android*, do dataset `android_final`, para a coluna `'Category'` (√≠ndice `1`):

In [27]:
display_freq_table(extract(android_final, 1), 'android apps, by category')

--------------------------------------------------
            ANDROID APPS, BY CATEGORY             
      (column | number of apps | % of total)      
--------------------------------------------------
FAMILY                                1676  18.91%
GAME                                   862  9.72%
TOOLS                                  750  8.46%
BUSINESS                               407  4.59%
LIFESTYLE                              346  3.90%
PRODUCTIVITY                           345  3.89%
FINANCE                                328  3.70%
MEDICAL                                313  3.53%
SPORTS                                 301  3.40%
PERSONALIZATION                        294  3.32%
COMMUNICATION                          287  3.24%
HEALTH AND FITNESS                     273  3.08%
PHOTOGRAPHY                            261  2.94%
NEWS AND MAGAZINES                     248  2.80%
SOCIAL                                 236  2.66%
TRAVEL AND LOCAL                       207  2

A maior parte dos aplicativos (quase 28%) est√° dentro das categorias `'Family'` e `'Games'`. Tamb√©m pode-se perceber uma grande presen√ßa de aplicativos destinados a finalidades pr√°ticas, tais como `'Tools'`, `'Business'`, `'Lifestyle'` e `'Productivity'`. Uma an√°lise mais profunda na categoria `'Family'` nos mostra que boa parte destes aplicativos se refere a jogos destinados a crian√ßas.

In [28]:
for app in android_final:
    genre = app[1]
    if genre == 'FAMILY':
        print(app[0])

Jewels Crush- Match 3 Puzzle
Coloring & Learn
Mahjong
Super ABC! Learning games for kids! Preschool apps
Toy Pop Cubes
Educational Games 4 Kids
Candy Pop Story
Princess Coloring Book
Hello Kitty Nail Salon
Candy Smash
Happy Fruits Bomb - Cube Blast
Princess Adventures Puzzles
Kids Educational Game 3 Free
Puzzle Kids - Animals Shapes and Jigsaw Puzzles
Coloring book moana
Baby Panda Care
Kids Educational :All in One
Number Counting games for toddler preschool kids
Learn To Draw Glow Flower
No. Color - Color by Number, Number Coloring
Draw.ly - Color by Number Pixel Art Coloring
Baby puzzles
Garden Fruit Legend
Barbie‚Ñ¢ Fashion Closet
Candy Day
Learn To Draw Glow Princess
ABC Kids - Tracing & Phonics
Barbie Magical Fashion
Minion Rush: Despicable Me Official Game
Piano Kids - Music & Songs
Educational Games for Kids
No.Draw - Colors by Number 2018
Fruit Boom
Baby Tiger Care - My Cute Virtual Pet Friend
Rhythm Patrol
Kiddopia - Preschool Learning Games
Papumba Academy - Fun Learning For 

Dr. Cares - Amy's Pet Clinic üêà üêï
Pet Vet Dr - Animals Hospital
DR CONTROL
Dr. Panda Caf√© Freemium
Dr. Panda Ice Cream Truck Free
Dr. 2048
DR Sebi's Alkaline List
DS
DS-Admin
MegaN64 (N64 Emulator)
Learn DS [BETA]
DS-Students
DT-CAM
DT Driving Test Theory
Truck Simulator DT 3D
WPBS-DT
DT-VR
du View
Du Chinese ‚Äì Mandarin Lessons
Hadith du jour
Voyance du pyromancien
Citation du Jour - Motivation
La Poup√©e du Voyant
Star Chart
Proverbes du monde
DV-2019 Results
DV-LOTTERY 2019 REGISTRATION
DV-2019 PHOTO TOOL
DV ASSIST
DV Lottery Simulator
U.S.A DV Lottery Process
DV-2019 UK/British
DW Learn German - A1, A2, B1 and placement test
Learn German: Die Bienenretter
DW Audio
German Listening
Fahrschule DW
Across Age DX
Piczle Lines DX
3DAnimeGirl DX DreamPortrait KAWAII Girl DressUp
Bubble Shooter DX
Age of Procreation DX
DX Simulation for OOO Dx Belt
Tricky Bike Stunt Rider DX
DX Gashacon Sword for Ex-Aid Henshin
DX Simulation Belt for Build henshin
DX Simulation for Kabuto Henshin Be

Ainda no dataset `android_final`, podemos comparar os dados da coluna `'Category'` com a an√°lise da coluna `'Genre'` (√≠ndice `9`):

In [29]:
display_freq_table(extract(android_final, 9), 'android apps, by genre')

--------------------------------------------------
              ANDROID APPS, BY GENRE              
      (column | number of apps | % of total)      
--------------------------------------------------
Tools                                  749  8.45%
Entertainment                          538  6.07%
Education                              474  5.35%
Business                               407  4.59%
Lifestyle                              345  3.89%
Productivity                           345  3.89%
Finance                                328  3.70%
Medical                                313  3.53%
Sports                                 307  3.46%
Personalization                        294  3.32%
Communication                          287  3.24%
Action                                 275  3.10%
Health & Fitness                       273  3.08%
Photography                            261  2.94%
News & Magazines                       248  2.80%
Social                                 236  2.

Esses dados parecem confirmar a an√°lise feita anteriormente. Ao que tudo indica, apesar das colunas `'Category'` e `'Genre'` serem similares, esta √∫ltima parece ser mais granular, isto √©, possui mais categorias (poder√≠amos cham√°-las de *subcategorias*, o que parece ser aplic√°vel, por exemplo, para o caso de jogos, que possuem classifica√ß√µes como *A√ß√£o*, *Aventura*, *Esporte*, etc.)

### 6.3. An√°lise dos aplicativos da App Store

Analisemos agora a coluna `'prime_genre'`, √≠ndice `11` do dataset  `ios_final`:

In [30]:
display_freq_table(extract(ios_final, 11), 'iOS apps, by genre')

--------------------------------------------------
                IOS APPS, BY GENRE                
      (column | number of apps | % of total)      
--------------------------------------------------
Games                                 1874  58.16%
Entertainment                          254  7.88%
Photo & Video                          160  4.97%
Education                              118  3.66%
Social Networking                      106  3.29%
Shopping                                84  2.61%
Utilities                               81  2.51%
Sports                                  69  2.14%
Music                                   66  2.05%
Health & Fitness                        65  2.02%
Productivity                            56  1.74%
Lifestyle                               51  1.58%
News                                    43  1.33%
Travel                                  40  1.24%
Finance                                 36  1.12%
Weather                                 28  0

Pode-se perceber que mais da metade dos aplicativos em ingl√™s da App Store s√£o jogos, correspondendo a aproximadamente 58% do total. Em seguida *Entretenimento*, *Foto e V√≠deo*, *Educa√ß√£o* e *Redes sociais* representam quase 20% do restante.

A impress√£o geral √© que a **App Store** (pelo menos a parte que cont√©m aplicativos gratuitos em ingl√™s) √© dominada por aplicativos criados para divertimento (jogos, entretenimento, foto e v√≠deo, redes sociais, esportes, m√∫sica etc.), enquanto que aplicativos com finalidades mais pr√°ticas (educa√ß√£o, compras, servi√ßos p√∫blicos, produtividade, estilo de vida etc.) s√£o mais raros.

No entanto, o fato de os aplicativos para divers√£o serem os mais numerosos tamb√©m n√£o implica que eles tenham tamb√©m o maior n√∫mero de usu√°rios - a demanda pode n√£o ser a mesma que a oferta.

O cen√°rio parece bastante diferente na **Google Play**: n√£o existem muitos aplicativos projetados para divers√£o e parece que um bom n√∫mero de aplicativos √© projetado para fins pr√°ticos (fam√≠lia, ferramentas, neg√≥cios, estilo de vida, produtividade etc.). Entretanto, como j√° mencionamos, dentro da categoria *Fam√≠lia* h√° um grande n√∫mero de jogos destinados a crian√ßas pequenas.

Com base nessas informa√ß√µes, podemos dizer que um aplicativo voltado a finalidades pr√°ticas (de produtividade, por exemplo) baseado em princ√≠pios de gamefica√ß√£o possa constituir um perfil que venha a obter bom desempenho em ambos os mercados.

Passemos agora a investigar quais tipos de aplicativos possuem maior n√∫mero de usu√°rios.

## 7. Aplicativos mais populares, por g√™nero

Uma maneira de encontrar os aplicativos mais populares das lojas √© calcular o n√∫mero m√©dio de instala√ß√µes para cada g√™nero de aplicativo. No conjunto de dados do *Google Play* podemos encontrar essa informa√ß√£o na coluna `'Installs'`, mas n√£o h√° essa informa√ß√£o no conjunto de dados da *App Store*. Para contonar esse problema, utilizaremos como par√¢metro de an√°lise o n√∫mero total de classifica√ß√µes de usu√°rios, informado pela coluna `'rating_count_tot'`.

### 7.1. An√°lise de aplicativos da App Store

Iniciemos, ent√£o, pela an√°lise dos dados em `ios_final`. Abaixo, calcularemos a nota m√©dia para cada categoria de aplicativos na *App Store*:

In [31]:
# extracts genres from ios dataset and generates a freq. table from it
genres_ios = freq_table(extract(ios_final, -5))

# initialize an empty list which will contain all average ratings
genres_list = list()

# main loop: loop through each genre in genres list
for genre in genres_ios:

    total = 0  # total number of ratings
    len_genre = 0  # total number of apps

    # secondary loop: now, loop through all apps in ios dataset
    for app in ios_final:

        # fetch the genre of this app
        genre_app = app[-5]

        # check if this genre is the same as the genre of the main loop
        if genre_app == genre:

            # fetch the no. of ratings of this app
            n_ratings = float(app[5])

            # increase total of ratings and number of apps
            total += n_ratings
            len_genre += 1

    # calculates the average rating
    avg_ratings = total / len_genre

    # append tuple(ratings, genre) to genres_list
    # this awkward order will be useful to simplify sorting
    tuple_ratings_genre = (avg_ratings, genre)
    genres_list.append(tuple_ratings_genre)

# print list of genres, sorted descending by avg rating
for key in sorted(genres_list, reverse=True):
    print('{}: {:.2f}'.format(key[1], key[0]))

Navigation: 86090.33
Reference: 74942.11
Social Networking: 71548.35
Music: 57326.53
Weather: 52279.89
Book: 39758.50
Food & Drink: 33333.92
Finance: 31467.94
Photo & Video: 28441.54
Travel: 28243.80
Shopping: 26919.69
Health & Fitness: 23298.02
Sports: 23008.90
Games: 22788.67
News: 21248.02
Productivity: 21028.41
Utilities: 18684.46
Lifestyle: 16485.76
Entertainment: 14029.83
Business: 7491.12
Education: 7003.98
Catalogs: 4004.00
Medical: 612.00


Percebe-se que, em m√©dia, aplicativos da categoria `'Navigation'` se saem melhor do que os outros. Isto se deve √† influ√™ncia de aplicativos como *Waze* e *Google Maps* que, combinados, possuem quase **meio milh√£o** de classifica√ß√µes de usu√°rios:

In [32]:
nav_apps = 0  # number of apps in category
nav_ratings = 0  # total of app ratings in category

for app in ios_final:
    if app[-5] == 'Navigation':
        nav_apps += 1
        nav_ratings += float(app[5])
        print(app[1], ':', app[5])

print('\nTotal number of \"Navigation\" apps:', nav_apps)
print('Total number of \"Navigation\" ratings:', nav_ratings)

Waze - GPS Navigation, Maps & Real-time Traffic : 345046
Google Maps - Navigation & Transit : 154911
Geocaching¬Æ : 12811
CoPilot GPS ‚Äì Car Navigation & Offline Maps : 3582
ImmobilienScout24: Real Estate Search in Germany : 187
Railway Route Search : 5

Total number of "Navigation" apps: 6
Total number of "Navigation" ratings: 516542.0


O mesmo padr√£o se aplica √†s categorias `'Social Networking'`, influenciada por gigantes como *Facebook*, *Pinterest* e *Skype for iPhone*, e `'Music'`, na qual grandes *players* de mercado, tais como *Spotify*, *Pandora* e *Shazam*, contribuem para um maior n√∫mero de avalia√ß√µes.

In [33]:
social_apps = []
social_ratings = 0

for app in ios_final:
    if app[-5] == 'Social Networking':
        social_ratings += float(app[5])
        string_to_append = app[1] + ': ' + app[5]
        social_apps.append(string_to_append)

print('Total number of \"Social Networking\" apps:', len(social_apps))
print('Total number of \"Social Networking\" ratings:', social_ratings)
print('Top \"Social Networking\" apps:')
print(social_apps[0:15])

print('-' * 30)

music_apps = []
music_ratings = 0

for app in ios_final:
    if app[-5] == 'Music':
        music_ratings += float(app[5])
        string_to_append = app[1] + ': ' + app[5]
        music_apps.append(string_to_append)

print('Total number of \"Music\" apps:', len(music_apps))
print('Total number of \"Music\" ratings:', music_ratings)
print('Top \"Music\" apps:')
print(music_apps[0:15])

Total number of "Social Networking" apps: 106
Total number of "Social Networking" ratings: 7584125.0
Top "Social Networking" apps:
['Facebook: 2974676', 'Pinterest: 1061624', 'Skype for iPhone: 373519', 'Messenger: 351466', 'Tumblr: 334293', 'WhatsApp Messenger: 287589', 'Kik: 260965', 'ooVoo ‚Äì Free Video Call, Text and Voice: 177501', 'TextNow - Unlimited Text + Calls: 164963', 'Viber Messenger ‚Äì Text & Call: 164249', 'Followers - Social Analytics For Instagram: 112778', 'MeetMe - Chat and Meet New People: 97072', 'We Heart It - Fashion, wallpapers, quotes, tattoos: 90414', 'InsTrack for Instagram - Analytics Plus More: 85535', 'Tango - Free Video Call, Voice and Chat: 75412']
------------------------------
Total number of "Music" apps: 66
Total number of "Music" ratings: 3783551.0
Top "Music" apps:
['Pandora - Music & Radio: 1126879', 'Spotify Music: 878563', 'Shazam - Discover music, artists, videos & lyrics: 402925', 'iHeartRadio ‚Äì Free Music & Radio Stations: 293228', 'Sound

Mesmo que nosso objetivo seja encontrar categorias populares, o n√∫mero m√©dio de classifica√ß√µes nas acima analisadas (navega√ß√£o, redes sociais e m√∫sica) parece estar distorcido por alguns poucos aplicativos que possuem centenas de milhares de classifica√ß√µes de usu√°rios, enquanto que outros aplicativos dificilmente ultrapassem o limite de 10.000 classifica√ß√µes. Poder√≠amos ter uma imagem melhor removendo esses aplicativos extremamente populares para cada g√™nero e refazendo as m√©dias, mas deixaremos esse n√≠vel de detalhe para outro momento.

Os aplicativos de outra categoria bastante popular, `'Reference'`, t√™m em m√©dia 74.942 classifica√ß√µes de usu√°rios, mas isto se deve majoritariamente √† presen√ßa dos itens `'Bible'` e `'Dictionary.com'`:

In [34]:
ref_apps = []  # stores names and ratings for each app in this category
number_ref_apps = 0  # number of apps in this category
sum_ref_ratings = 0  # sum of total ratings

book_apps = []
number_book_apps = 0
sum_book_ratings = 0

for app in ios_final:
    name = app[1]
    ratings = int(app[5])
    genre = app[-5]
    
    if genre == 'Reference':
        number_ref_apps += 1
        sum_ref_ratings += ratings
        ref_apps.append((ratings, name))
    elif genre == 'Book':
        number_book_apps += 1
        sum_book_ratings += ratings
        book_apps.append((ratings, name))
        
print('N√∫mero de aplicativos da categoria \"Reference\":', number_ref_apps)
print('N√∫mero total de classifica√ß√µes da categoria \"Reference\":', sum_ref_ratings)
print('Aplicativos da categoria \"Reference\":')

for item in sorted(ref_apps, reverse=True):
    print('{}: {:,}'.format(item[1], item[0]))
    
print('=' * 40)

print('N√∫mero de aplicativos da categoria \"Book\":', number_book_apps)
print('N√∫mero total de classifica√ß√µes da categoria \"Book\":', sum_book_ratings)
print('Aplicativos da categoria \"Book\":')

for item in sorted(book_apps, reverse=True):
    print('{}: {:,}'.format(item[1], item[0]))

N√∫mero de aplicativos da categoria "Reference": 18
N√∫mero total de classifica√ß√µes da categoria "Reference": 1348958
Aplicativos da categoria "Reference":
Bible: 985,920
Dictionary.com Dictionary & Thesaurus: 200,047
Dictionary.com Dictionary & Thesaurus for iPad: 54,175
Google Translate: 26,786
Muslim Pro: Ramadan 2017 Prayer Times, Azan, Quran: 18,418
New Furniture Mods - Pocket Wiki & Game Tools for Minecraft PC Edition: 17,588
Merriam-Webster Dictionary: 16,849
Night Sky: 12,122
City Maps for Minecraft PE - The Best Maps for Minecraft Pocket Edition (MCPE): 8,535
LUCKY BLOCK MOD ‚Ñ¢ for Minecraft PC Edition - The Best Pocket Wiki & Mods Installer Tools: 4,693
GUNS MODS for Minecraft PC Edition - Mods Tools: 1,497
Guides for Pok√©mon GO - Pokemon GO News and Cheats: 826
WWDC: 762
Horror Maps for Minecraft PE - Download The Scariest Maps for Minecraft Pocket Edition (MCPE) Free: 718
VPN Express: 14
Real Bike Traffic Rider Virtual Reality Glasses: 8
Êïô„Åà„Å¶!goo: 0
Jishokun-Japane

Este nicho, entretanto, possui bastante potencial. Combin√°-lo com as ideias de *gamefica√ß√£o*, presente em boa parte dos aplicativos da *App Store*, e com o alto interesse por aplicativos das categorias `'Weather'`, `'Food & Drink'` e `'Finance'` nos sugere outro perfil promissor de aplicativo a ser desenvolvido.

### 7.2. An√°lise da Google Play

Como mencionado no in√≠cio deste t√≥pico, o conjunto de dados da *Google Play* possui uma coluna para indicar o n√∫mero de instala√ß√µes. Entretanto, ele possui alguns problemas. O primeiro deles √© ser vago demais; n√£o h√° precis√£o quanto ao n√∫mero real de instala√ß√µes, apenas uma classifica√ß√£o dentro de categorias:

In [35]:
display_freq_table(extract(android_final, 5), 'google play number of installs')

--------------------------------------------------
          GOOGLE PLAY NUMBER OF INSTALLS          
      (column | number of apps | % of total)      
--------------------------------------------------
1,000,000+                            1394  15.73%
100,000+                              1024  11.55%
10,000,000+                            935  10.55%
10,000+                                904  10.20%
1,000+                                 744  8.39%
100+                                   613  6.92%
5,000,000+                             605  6.83%
500,000+                               493  5.56%
50,000+                                423  4.77%
5,000+                                 400  4.51%
10+                                    314  3.54%
500+                                   288  3.25%
50,000,000+                            204  2.30%
100,000,000+                           189  2.13%
50+                                    170  1.92%
5+                                      70

Pela an√°lise dos dados, n√£o √© poss√≠vel saber se `10,000+` representa 10.000, 20.000 ou 33.425 instala√ß√µes, e assim por diante. Entretanto, para nossos prop√≥sitos de an√°lise, isto n√£o nos parece um problema t√£o grande, tendo em vista que precisamos de uma ideia dos tipos de aplicativos que atraem mais usu√°rios, ao inv√©s de um n√∫mero preciso de instala√ß√µes.

O segundo problema encontrado para a an√°lise desses dados diz respeito √† sua formata√ß√£o, incluindo `,` e `+` ao final. Para realizar c√°lculos com estes valores, precisaremos remover estes caracteres antes de realizar a convers√£o entre os tipos `string` e `float`.

In [36]:
# extracts categories from android dataset and generates a freq. table from it
categories_android = freq_table(extract(android_final, 1))

# initialize an empty list which will contain all avg installs by category
categories_list = list()

# main loop: loop through each category in categories list
for category in categories_android:

    total = 0  # total number of installs
    len_category = 0  # total number of apps

    # secondary loop: now, loop through all apps in android dataset
    for app in android_final:

        # fetch the category of this app
        category_app = app[1]

        # check if this category is the same as the category of the main loop
        if category_app == category:

            # fetch the no. of installs of this app
            n_installs = app[5]

            # removes ',' and '+' symbols from installs number
            n_installs = n_installs.replace(',', '')
            n_installs = n_installs.replace('+', '')

            # increase total of installs and number of apps
            total += float(n_installs)
            len_category += 1

    # calculates the average number of installs
    avg_n_installs = total / len_category

    # append tuple(installs, category) to categories_list
    # this awkward order will be useful to simplify sorting
    tuple_installs_category = (avg_n_installs, category.replace('_', ' '))
    categories_list.append(tuple_installs_category)

# print list of categories, sorted descending by average number of installs
for key in sorted(categories_list, reverse=True):
    print('{}: {:,.2f}'.format(key[1], key[0]))

COMMUNICATION: 38,456,119.17
VIDEO PLAYERS: 24,727,872.45
SOCIAL: 23,253,652.13
PHOTOGRAPHY: 17,840,110.40
PRODUCTIVITY: 16,787,331.34
GAME: 15,588,015.60
TRAVEL AND LOCAL: 13,984,077.71
ENTERTAINMENT: 11,640,705.88
TOOLS: 10,801,391.30
NEWS AND MAGAZINES: 9,549,178.47
BOOKS AND REFERENCE: 8,767,811.89
SHOPPING: 7,036,877.31
PERSONALIZATION: 5,201,482.61
WEATHER: 5,074,486.20
HEALTH AND FITNESS: 4,188,821.99
MAPS AND NAVIGATION: 4,056,941.77
FAMILY: 3,695,641.82
SPORTS: 3,638,640.14
ART AND DESIGN: 1,986,335.09
FOOD AND DRINK: 1,924,897.74
EDUCATION: 1,833,495.15
BUSINESS: 1,712,290.15
LIFESTYLE: 1,437,816.27
FINANCE: 1,387,692.48
HOUSE AND HOME: 1,331,540.56
DATING: 854,028.83
COMICS: 817,657.27
AUTO AND VEHICLES: 647,317.82
LIBRARIES AND DEMO: 638,503.73
PARENTING: 542,603.62
BEAUTY: 513,151.89
EVENTS: 253,542.22
MEDICAL: 120,550.62


Aplicativos de comunica√ß√£o, em m√©dia, possuem o maior n√∫mero m√©dio de instala√ß√µes por categoria: **38.456.119,17**. Entretanto, este n√∫mero √© bastante inflado pela presen√ßa de grandes players como *WhatsApp Messenger*, *Facebook Messenger*, *Skype*, *Google Chrome*, *Gmail* e *Hangouts*, todos no intervalo de `'1,000,000,000+'` instala√ß√µes:

In [37]:
print('Communication apps in 1,000,000,000+ installs range:')
for app in android_final:
    if app[1] == 'COMMUNICATION' and app[5] == '1,000,000,000+':
        print(app[0], ':', app[5])

Communication apps in 1,000,000,000+ installs range:
WhatsApp Messenger : 1,000,000,000+
Messenger ‚Äì Text and Video Chat for Free : 1,000,000,000+
Skype - free IM & video calls : 1,000,000,000+
Google Chrome: Fast & Secure : 1,000,000,000+
Gmail : 1,000,000,000+
Hangouts : 1,000,000,000+


As categorias `'VIDEO PLAYERS'`, `'SOCIAL'` e `'PHOTOGRAPHY'`, bastante populares, tamb√©m possuem alguns grandes *players* que elevam de sobremaneira sua avalia√ß√£o m√©dia, de tal forma que disputar espa√ßo neste terreno √© mais desafiador e contraria nossa proposta com este projeto:

In [38]:
video_above_500 = []
social_above_500 = []
photo_above_500 = []

for app in android_final:
    category = app[1]
    ratings = float(app[5].replace(',', '').replace('+', ''))
    string_to_append = app[0] + ': ' + app[5]
    
    if ratings >= 500000000:
        if category == 'VIDEO_PLAYERS':
            video_above_500.append(string_to_append)
        elif category == 'SOCIAL':
            social_above_500.append(string_to_append)
        elif category == 'PHOTOGRAPHY':
            photo_above_500.append(string_to_append)

print('Video player apps above 500,000,000+ installs:')
print(video_above_500)
print('\nSocial apps above 500,000,000+ installs:')
print(social_above_500)
print('\nPhotography player apps above 500,000,000+ installs:')
print(photo_above_500)

Video player apps above 500,000,000+ installs:
['YouTube: 1,000,000,000+', 'Google Play Movies & TV: 1,000,000,000+', 'MX Player: 500,000,000+']

Social apps above 500,000,000+ installs:
['Facebook: 1,000,000,000+', 'Facebook Lite: 500,000,000+', 'Google+: 1,000,000,000+', 'Instagram: 1,000,000,000+', 'Snapchat: 500,000,000+']

Photography player apps above 500,000,000+ installs:
['Google Photos: 1,000,000,000+']


Analisemos, ent√£o, os aplicativos das categorias `'PRODUCTIVITY'` e `'BOOKS AND REFERENCE'`:

In [39]:
productivity_apps = []
books_apps = []

for app in android_final:
    name = app[0]
    genre = app[1]
    installs = int(app[5].replace(',', '').replace('+', ''))
    tuple_to_append = (installs, name)
    
    if genre == 'PRODUCTIVITY':
        productivity_apps.append(tuple_to_append)
    elif genre == 'BOOKS_AND_REFERENCE':
        books_apps.append(tuple_to_append)
        
print('Aplicativos mais baixados da categoria \"PRODUCTIVITY\":')
for item in sorted(productivity_apps[:20], reverse=True):
    print('{}: {:,}'.format(item[1], item[0]))

print('=' * 40)

print('Aplicativos mais baixados da categoria \"BOOKS AND REFERENCES\":')
for item in sorted(books_apps[:20], reverse=True):
    print('{}: {:,}'.format(item[1], item[0]))

Aplicativos mais baixados da categoria "PRODUCTIVITY":
Microsoft Word: 500,000,000
Microsoft Outlook: 100,000,000
Microsoft OneNote: 100,000,000
Microsoft OneDrive: 100,000,000
Google Keep: 100,000,000
ES File Explorer File Manager: 100,000,000
Calculator - unit converter: 50,000,000
QR Scanner & Barcode Scanner 2018: 10,000,000
Metro name iD: 10,000,000
HTC File Manager: 10,000,000
Google PDF Viewer: 10,000,000
Google Assistant: 10,000,000
Chrome Beta: 10,000,000
All-In-One Toolbox: Cleaner, Booster, App Manager: 10,000,000
AVG Cleaner ‚Äì Speed, Battery & Memory Booster: 10,000,000
ASUS SuperNote: 10,000,000
My Claro Peru: 5,000,000
Archos File Manager: 5,000,000
Power Booster - Junk Cleaner & CPU Cooler & Boost: 1,000,000
MyMTN: 1,000,000
Aplicativos mais baixados da categoria "BOOKS AND REFERENCES":
Google Play Books: 1,000,000,000
Wikipedia: 10,000,000
FBReader: Favorite Book Reader: 10,000,000
Cool Reader: 10,000,000
Ebook Reader: 5,000,000
AlReader -any text book reader: 5,000,0

Os aplicativos mais baixados da categoria `'PRODUCTIVITY'` s√£o, em sua maioria, utilit√°rios de escrit√≥rio (*Microsoft Word*, *Microsoft Outlook*, *Microsoft OneNote*, etc.) e aplicativos de gerenciamento das fun√ß√µes do smartphone (*ES File Explorer File Manager*, *All-In-One Toolbox*, *AVG Cleaner*, etc.). Este perfil n√£o nos parece interessante, uma vez que o desenvolvimento deste tipo de aplicativo requer muito tempo e recursos financeiros.

Por outro lado, a categoria `'BOOKS AND REFERENCES'`, apesar de inflada pelo massivo n√∫mero de instala√ß√µes do aplicativo *Google Play Books* (instalado por padr√£o na maior parte dos smartphones com sistema *Android*, ele possui cem vezes mais downloads do que o pr√≥ximo item da lista) se mostra promissora. Quando analisamos em conjunto os datasets `ios_final` e `android_final`, percebemos que h√° um grande interesse nessa √°rea, principalmente por livros de receitas.

## Conclus√µes

Ao longo deste documento, vimos que h√° categorias de aplicativos bastante populares, tais como *Redes Sociais*, *M√∫sica*, *Navega√ß√£o* e *Comunica√ß√£o*, por√©m capitaneadas por grandes "carros-chefe" que conseguiram se estabelecer no mercado. Competir com estes aplicativos requer esfor√ßos que v√£o al√©m do escopo deste projeto.

Outras categorias, um pouco menores mas com n√∫meros expressivos de instala√ß√µes e reviews de usu√°rios, despertaram nosso interesse durante a an√°lise dos dados.