# Análise de aplicativos disponíveis na loja IOS e Google Play

O projeto desenvolvido é voltado a entender quais são os aplicativos mais usados nas lojas IOS e Google play e como é possível usar essa informação par criação de uma novo APP gratuito, seguindo a lógica de mercado.

O objetivo do projeto é realizar toda uma análise de dados através da linguagem Python, desde tratamento a elaboração de gráficos com base no banco de dados de aplicativos disponíveis, transformando essa análise em uma informação tática para o desenvolvimento de um novo app gratuito.

Toda a atividade foi desenvolvida para exercitar práticas de ciência de dados oferecida pela plataforma de estudos **Dataquest.io** durante o período do curso de Machine learning ofertado.


# Explorando os dados

A descrição do código segue logo abaixo

In [1]:
def open_dataset(file_name="", header_off=False):
    """
    Abre um conjunto de dados a partir de um arquivo CSV.

    Args:
        file_name (str): O nome do arquivo CSV a ser aberto (opcional).
        header_off (bool): Indica se o arquivo CSV possui um cabeçalho que deve ser ignorado (opcional).

    Returns:
        list: O conjunto de dados como uma lista de listas, em que cada lista interna representa uma linha no arquivo CSV.

    Exemplo de uso:
        dataset = open_dataset('data.csv', header_off=True)
    """
    from csv import reader

    # Abre o arquivo com o nome especificado
    open_file = open(file_name, encoding="utf8")

    # Lê o arquivo usando o csv.reader
    read_file = reader(open_file)

    # Verifica se o cabeçalho deve ser ignorado
    if header_off:
        dataset = list(read_file)[1::]
    else:
        dataset = list(read_file)

    # Retorna o conjunto de dados
    return dataset

A **função open_dataset** é responsável por abrir um arquivo CSV e retornar seu conteúdo como um conjunto de dados em formato de lista de listas. O argumento **file_name** especifica o nome do arquivo a ser aberto, enquanto o argumento opcional **header_off** indica se o arquivo CSV possui um cabeçalho que deve ser ignorado.

In [2]:
def explore_data(dataset, start, end, rows_and_columns=False):
    """
    Explora os dados de um conjunto de dados, imprimindo uma fatia específica e, opcionalmente, exibindo o número de linhas e colunas.

    Args:
        dataset (list): O conjunto de dados a ser explorado.
        start (int): O índice inicial da fatia do conjunto de dados a ser impressa.
        end (int): O índice final da fatia do conjunto de dados a ser impressa.
        rows_and_columns (bool): Indica se o número de linhas e colunas deve ser exibido (opcional).

    Exemplo de uso:
        explore_data(dataset, 0, 10, rows_and_columns=True)
    """
    dataset_slice = dataset[start:end]

    # Itera sobre cada linha da fatia do conjunto de dados
    for row in dataset_slice:
        print(row)
        print("\n")

    # Verifica se o número de linhas e colunas deve ser exibido
    if rows_and_columns:
        print("Número de linhas:", len(dataset))
        print("Número de colunas:", len(dataset[0]))

A função explore_data é responsável por explorar um conjunto de dados, imprimindo uma fatia específica e, opcionalmente, exibindo o número de linhas e colunas.

In [3]:
ios = open_dataset("AppleStore.csv")
ios_off = open_dataset("AppleStore.csv", True)
ios_header = ios[0]

android = open_dataset("googleplaystore.csv")
android_off = open_dataset("googleplaystore.csv", True)
android_header = android[0]

Neste trecho de código Abaixo, são realizadas as operações para abrir e carregar conjuntos de dados de dois arquivos CSV diferentes: "AppleStore.csv" e "googleplaystore.csv". A função open_dataset é usada para abrir os arquivos e retornar os conjuntos de dados correspondentes, que são armazenados em variáveis como ios e android. Além disso, em algumas chamadas da função open_dataset, o argumento header_off é definido como True, indicando que a primeira linha (cabeçalho) do arquivo CSV deve ser ignorada. Essas variáveis são usadas posteriormente para acessar informações específicas dos conjuntos de dados, como o cabeçalho (ios_header e android_header).

In [4]:
explore_data(android, 0, 5)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']




In [5]:
explore_data(ios, 0, 5)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


['420009108', 'Temple Run', '65921024', 'USD', '0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1', '1']




# Ajuste de anomalia

A linha 10472 corresponde ao aplicativo Life Made WI-Fi Touchscreen Photo Frame, e podemos ver que a classificação é 19. Isso está claramente errado, pois a classificação máxima para um aplicativo do Google Play é 5. Como consequência, vamos excluir essa linha.

In [6]:
del android_off[10472]

In [7]:
print(len(android_off))

10840


# Limpeza de dados - dados duplicados

Se você examinar as linhas que imprimimos duas células acima para o aplicativo Instagram, a principal diferença ocorre na quarta posição de cada linha, que corresponde ao número de avaliações. Os números diferentes mostram que os dados foram coletados em momentos diferentes. Podemos usar isso para estabelecer um critério para manter as linhas. Não vamos remover as linhas aleatoriamente, mas sim manter as linhas que têm o maior número de avaliações, porque quanto maior o número de avaliações, mais confiáveis ​​são as classificações.

In [8]:
def apps_per_qtd_reviews(dataset, font="android"):
    """
    Seleciona os melhores aplicativos com base na quantidade de reviews de um conjunto de dados.

    Args:
        dataset (list): O conjunto de dados contendo os aplicativos e suas informações.
        font (str): A fonte do conjunto de dados. Pode ser "android" ou "ios". O padrão é "android".

    Returns:
        list: Uma lista contendo os melhores aplicativos com base na quantidade de reviews.

    Exemplo de uso:
        best_apps = apps_per_qtd_reviews(dataset, font="ios")
    """

    # parte 1: identificando qual dataframe está sendo usado.
    if font == "android":
        name_index = 0
        reviews_index = 3
    elif font == "ios":
        name_index = 1
        reviews_index = 5

    unique_apps_name = []
    reviews_max = {}

    # Parte 2: Fazendo a seleção dos valores duplicados com base na quantidade de reviews.
    for row in dataset:
        name = row[name_index]
        qtd_reviews = float(row[reviews_index])

        if name not in unique_apps_name:
            unique_apps_name.append(name)

        if name in reviews_max and reviews_max[name] < qtd_reviews:
            reviews_max[name] = qtd_reviews
        elif name not in reviews_max:
            reviews_max[name] = qtd_reviews

    # parte 3: fazendo a limpeza de apps duplicados, criando uma nova lista
    # com os melhores apps baseados na quantidade de reviews.
    dataset_clean = []
    checked = []

    for rows in dataset:
        name = rows[name_index]
        qtd_reviews = float(rows[reviews_index])

        if (reviews_max[name] == qtd_reviews) and (name not in checked):
            dataset_clean.append(rows)
            checked.append(name)

    return dataset_clean

A função **apps_per_qtd_reviews** recebe um conjunto de dados (dataset) e uma fonte (font) como argumentos. A fonte pode ser "android" ou "ios", indicando qual dataframe está sendo usado.

In [9]:
android_clean = apps_per_qtd_reviews(android_off, font="android")
ios_clean = apps_per_qtd_reviews(ios_off, font="ios")

In [10]:
explore_data(android_clean, 0, 5)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']


['Paper flowers instructions', 'ART_AND_DESIGN', '4.4', '167', '5.6M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'March 26, 2017', '1.0', '2.3 and up']




In [11]:
explore_data(ios_clean, 0, 5)

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


['420009108', 'Temple Run', '65921024', 'USD', '0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1', '1']


['284035177', 'Pandora - Music & Radio', '130242560', 'USD', '0.0', '1126879', '3594', '4.0', '4.5', '8.4.1', '12+', 'Music', '37', '4', '1', '1']




In [12]:
len(ios_off)

7197

In [13]:
len(android_clean)

9659

# Ajuste de limpeza, aplicativos que não estão em inglês

names = [
    'Instagram',
    '爱奇艺PPS -《欢乐颂2》电视剧热播',
    'Docs To Go™ Free Office Suite',
    'Instachat 😜'
]

ok = []


for i in names:
    ansi = 0
    
    for l in i:       
        if ord(l) > 127:
           ansi += 1
        
    if ansi < 3:
        
        ok.append(i)
print(ok)


**Foi mais eficiente percorre um range chamando uma função do que percorrer dois ranges**

In [14]:
def is_english(txt):
    """
    Verifica se um texto é composto principalmente por caracteres em inglês.

    Args:
        txt (str): O texto a ser verificado.

    Returns:
        bool: True se o texto é composto principalmente por caracteres em inglês, False caso contrário.

    Exemplo de uso:
        is_eng = is_english("Hello, world!")
    """
    non_ascii = 0

    for i in txt:
        if ord(i) > 127:
            non_ascii += 1

    if non_ascii > 3:
        return False
    else:
        return True

A função **is_english** recebe um texto (txt) como argumento e verifica se ele é composto principalmente por caracteres em inglês.

In [15]:
android_english = []
ios_english = []

# Filtrando os aplicativos em inglês do conjunto de dados android_clean
for app in android_clean:
    name = app[0]
    if is_english(name):
        android_english.append(app)

# Filtrando os aplicativos em inglês do conjunto de dados ios_clean
for app in ios_clean:
    name = app[1]
    if is_english(name):
        ios_english.append(app)

# Explorando os primeiros aplicativos do conjunto de dados android_english
explore_data(android_english, 0, 3, True)
print("\n")

# Explorando os primeiros aplicativos do conjunto de dados ios_english
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Número de linhas: 9614
Número de colunas: 13


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+'

In [16]:
android_free = []
ios_free = []

# Filtrando os aplicativos gratuitos do conjunto de dados android_english
for row in android_english:
    price = row[7]
    if price == "0":
        android_free.append(row)

# Filtrando os aplicativos gratuitos do conjunto de dados ios_english
for row in ios_english:
    price = float(row[4])
    if price == 0:
        ios_free.append(row)

# Imprimindo o número de aplicativos gratuitos em cada conjunto de dados
print(len(android_free))
print(len(ios_free))

8864
3220


In [17]:
def freq_table(dataset, index):
    """
    Calcula a frequência e a porcentagem de ocorrência de valores em uma coluna específica de um conjunto de dados.

    Args:
        dataset (list): O conjunto de dados a ser analisado.
        index (int): O índice da coluna para calcular a frequência.

    Returns:
        dict: Um dicionário com os valores como chaves e as porcentagens de ocorrência como valores.

    Exemplo de uso:
        frequency_table = freq_table(dataset, 2)
    """
    frequency = {}
    total = 0

    for row in dataset:
        value = row[index]

        if value in frequency:
            frequency[value] += 1
        else:
            frequency[value] = 1

        total += 1

    frequency_percentage = {}

    for index in frequency:
        percent = (frequency[index] / total) * 100
        frequency_percentage[index] = percent

    return frequency_percentage

A função freq_table recebe um conjunto de dados (dataset) e um índice de coluna (index) como argumentos. Ela calcula a frequência e a porcentagem de ocorrência dos valores na coluna especificada.

In [18]:
def display_table(dataset, index):
    """
    Exibe uma tabela ordenada de forma decrescente com os valores e suas frequências de ocorrência em uma coluna específica do conjunto de dados.

    Args:
        dataset (list): O conjunto de dados a ser analisado.
        index (int): O índice da coluna para exibir a tabela.

    Returns:
        None

    Exemplo de uso:
        display_table(dataset, 2)
    """
    table = freq_table(dataset, index)
    table_display = []

    for key in table:
        element = (table[key], key)
        table_display.append(element)

    table_sorted = sorted(table_display, reverse=True)

    for i in table_sorted:
        print(f"{i[1]} : {i[0]}")

A função **display_table** recebe um conjunto de dados (dataset) e um índice de coluna (index) como argumentos. Ela exibe uma tabela ordenada de forma decrescente com os valores e suas frequências de ocorrência na coluna especificada.

In [19]:
# Analizando apps gratuito por gênero

display_table(ios_free, -5)

Games : 58.13664596273293
Entertainment : 7.888198757763975
Photo & Video : 4.968944099378882
Education : 3.6645962732919255
Social Networking : 3.291925465838509
Shopping : 2.608695652173913
Utilities : 2.515527950310559
Sports : 2.142857142857143
Music : 2.049689440993789
Health & Fitness : 2.018633540372671
Productivity : 1.7391304347826086
Lifestyle : 1.5838509316770186
News : 1.3354037267080745
Travel : 1.2422360248447204
Finance : 1.1180124223602486
Weather : 0.8695652173913043
Food & Drink : 0.8074534161490683
Reference : 0.5590062111801243
Business : 0.5279503105590062
Book : 0.43478260869565216
Navigation : 0.18633540372670807
Medical : 0.18633540372670807
Catalogs : 0.12422360248447205


In [20]:
# Analizando apps gratuito por gênero

display_table(android_free, 1)

FAMILY : 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084
COMMUNICATION : 3.2378158844765346
HEALTH_AND_FITNESS : 3.0798736462093865
PHOTOGRAPHY : 2.944494584837545
NEWS_AND_MAGAZINES : 2.7978339350180503
SOCIAL : 2.6624548736462095
TRAVEL_AND_LOCAL : 2.33528880866426
SHOPPING : 2.2450361010830324
BOOKS_AND_REFERENCE : 2.1435018050541514
DATING : 1.861462093862816
VIDEO_PLAYERS : 1.7937725631768955
MAPS_AND_NAVIGATION : 1.3989169675090252
FOOD_AND_DRINK : 1.2409747292418771
EDUCATION : 1.1620036101083033
ENTERTAINMENT : 0.9589350180505415
LIBRARIES_AND_DEMO : 0.9363718411552346
AUTO_AND_VEHICLES : 0.9250902527075812
HOUSE_AND_HOME : 0.8235559566787004
WEATHER : 0.8009927797833934
EVENTS : 0.7107400722021661
PARENTING : 0.6543321299638989
ART_AND_DESIGN : 

In [21]:
ios_genres = freq_table(ios_free, -5)

for genre in ios_genres:
    total = 0
    len_genre = 0

    for app in ios_free:
        genre_app = app[-5]
        if genre_app == genre:
            n_ratings = float(app[5])
            total += n_ratings
            len_genre += 1

    avg_n_ratings = total / len_genre
    print(genre, ":", avg_n_ratings)

Social Networking : 71548.34905660378
Photo & Video : 28441.54375
Games : 22812.92467948718
Music : 57326.530303030304
Reference : 74942.11111111111
Health & Fitness : 23298.015384615384
Weather : 52279.892857142855
Utilities : 18684.456790123455
Travel : 28243.8
Shopping : 26919.690476190477
News : 21248.023255813954
Navigation : 86090.33333333333
Lifestyle : 16485.764705882353
Entertainment : 14029.830708661417
Food & Drink : 33333.92307692308
Sports : 23008.898550724636
Book : 39758.5
Finance : 31467.944444444445
Education : 7003.983050847458
Productivity : 21028.410714285714
Business : 7491.117647058823
Catalogs : 4004.0
Medical : 612.0


Em média, os aplicativos de navegação têm o maior número de avaliações de usuários, mas esse número é fortemente influenciado pelo Waze e pelo Google Maps, que juntos possuem quase meio milhão de avaliações de usuários:

In [22]:
for app in ios_free:
    if app[-5] == "Navigation":
        print(app[1], ":", app[5])  # print name and number of ratings

Waze - GPS Navigation, Maps & Real-time Traffic : 345046
Google Maps - Navigation & Transit : 154911
Geocaching® : 12811
CoPilot GPS – Car Navigation & Offline Maps : 3582
ImmobilienScout24: Real Estate Search in Germany : 187
Railway Route Search : 5


Aqui já obtemos a resposta para nossa pesquisa, com isso concluimos o que pretendiamos com o projeto, além de exercitar bastante prática de ciência de dados.

Para comparar o resultado, busque pelo arquivo complementar Mission350Solutions