# Análisis de Aplicaciones Móviles para Maximizar la Audiencia y los Ingresos

*Introducción:*

Este proyecto se centra en el análisis de datos para una empresa que desarrolla aplicaciones móviles gratuitas para Android e iOS. El principal motor de ingresos de la empresa son los anuncios dentro de las aplicaciones, y la cantidad de usuarios que utilizan estas aplicaciones tiene un impacto directo en sus ingresos. El objetivo fundamental de este proyecto es comprender qué tipos de aplicaciones tienen el potencial de atraer a una mayor audiencia, lo que, a su vez, aumentaría la exposición a los anuncios y, por lo tanto, los ingresos. A través del análisis de datos, buscaremos identificar patrones y tendencias que ayuden a los desarrolladores a tomar decisiones informadas sobre el tipo de aplicaciones que deben crear para maximizar su éxito en el mercado de aplicaciones móviles.

In [1]:
from csv import reader

### The Google Play data set ###
opened_file = open('googleplaystore.csv')
read_file = reader(opened_file)
android = list(read_file)
android_header = android[0]
android = android[1:]

### The App Store data set ###
opened_file = open('AppleStore.csv')
read_file = reader(opened_file)
ios = list(read_file)
ios_header = ios[0]
ios = ios[1:]

In [2]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') # adds a new (empty) line after each row

    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

In [3]:
print(android_header)
print('\n')
explore_data(android, 5, 8)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Paper flowers instructions', 'ART_AND_DESIGN', '4.4', '167', '5.6M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'March 26, 2017', '1.0', '2.3 and up']


['Smoke Effect Photo Maker - Smoke Editor', 'ART_AND_DESIGN', '3.8', '178', '19M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'April 26, 2018', '1.1', '4.0.3 and up']


['Infinite Painter', 'ART_AND_DESIGN', '4.1', '36815', '29M', '1,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'June 14, 2018', '6.1.61.1', '4.2 and up']




In [4]:
print(ios_header)
print('\n')
explore_data(ios, 12, 15)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['359917414', 'Solitaire', '101943296', 'USD', '0.0', '679055', '9673', '4.5', '4.5', '4.11.2', '4+', 'Games', '38', '4', '11', '1']


['469369175', 'CSR Racing', '524803072', 'USD', '0.0', '677247', '2029', '4.5', '4.5', '4.0.1', '4+', 'Games', '37', '5', '10', '1']


['924373886', 'Crossy Road - Endless Arcade Hopper', '165471232', 'USD', '0.0', '669079', '1087', '4.5', '4.5', '1.5.4', '9+', 'Games', '38', '5', '13', '1']




In [5]:
print(android_header)
print('\n')
print(android[10472])
print(len(android_header))
print(len(android[10472]))


['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']
13
12


La columna "Category" está ausente, lo que afecta a las columnas siguientes, y algunos valores parecen desplazados.

In [6]:
del android[10472]

In [7]:
print(len(android))

10840


In [8]:
# verificar las apps duplicadas de Instagram en android. 
# Este es un ejemplo. 
# La aplicación Instagram aparece cuatro veces en la lista de aplicaciones de Android. 
for app in android:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


In [9]:
# código para concontrar aplicaciones duplicadas en android
duplicate_apps = []
unique_apps = []

for app in android:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)

# muestra la salidad del código por pantalla
print(f"Number of duplicate apps: {len(duplicate_apps)}")
print('\n')
print(f"Examples of duplicate apps: {duplicate_apps[:15]}")

Number of duplicate apps: 1181


Examples of duplicate apps: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


Si examinas las filas que imprimimos dos celdas arriba para la aplicación Instagram, la diferencia principal ocurre en la cuarta posición de cada fila, que corresponde al número de reseñas. Los números diferentes indican que los datos se recopilaron en momentos diferentes. Podemos utilizar esto para establecer un criterio para conservar las filas. No eliminaremos las filas al azar, sino que conservaremos las filas que tengan el mayor número de reseñas porque cuanto mayor sea el número de reseñas, más confiables serán las calificaciones.

Para hacerlo, haremos lo siguiente:

Crearemos un diccionario donde cada clave sea el nombre único de una aplicación y el valor sea el número más alto de reseñas de esa aplicación.

Utilizaremos el diccionario para crear un nuevo conjunto de datos que tendrá solo una entrada por aplicación (y seleccionaremos solo las aplicaciones con el mayor número de reseñas).

In [10]:
# Crear un diccionario donde cada clave es el nombre único de una aplicación 
# y el valor es el mayor número de reseñas de esa aplicación.
reviews_max = {}

# Recorrer el conjunto de datos de Google Play (sin incluir la fila de encabezado).
for row in android:
    name = row[0]  # Obtener el nombre de la aplicación
    n_reviews = float(row[3])  # Obtener el número de reseñas como un valor de punto flotante
    
    # Verificar si el nombre ya existe como una clave en el diccionario y si el valor actual es menor que n_reviews.
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews  # Actualizar el número de reseñas en el diccionario
    elif name not in reviews_max:
        reviews_max[name] = n_reviews  # Crear una nueva entrada en el diccionario si el nombre no existe

# Verificar la longitud del diccionario (debería ser 9,659 entradas).
print("Longitud del diccionario reviews_max:", len(reviews_max))


Longitud del diccionario reviews_max: 9659


In [11]:
# Crear dos listas vacías: android_clean y already_added
android_clean = []
already_added = []

# Recorrer el conjunto de datos de Google Play (sin incluir la fila de encabezado)
for row in android:
    name = row[0]  # Obtener el nombre de la aplicación
    n_reviews = float(row[3])  # Obtener el número de reseñas como un valor de punto flotante
    
    # Verificar si n_reviews es igual al número máximo de reseñas de la aplicación (en el diccionario reviews_max)
    # y si el nombre de la aplicación no está en already_added
    if n_reviews == reviews_max[name] and name not in already_added:
        android_clean.append(row)  # Agregar la fila completa a android_clean
        already_added.append(name)  # Agregar el nombre de la aplicación a already_added

# Verificar la longitud de android_clean (debería ser 9,659 entradas)
print("Longitud de android_clean:", len(android_clean))

Longitud de android_clean: 9659


In [12]:
# solución propuesta en el ejemplo
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if (reviews_max[name] == n_reviews) and (name not in already_added):
        android_clean.append(app)
        already_added.append(name) # make sure this is inside the if block

In [13]:
explore_data(android_clean, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9659
Number of columns: 13


In [14]:
def is_english(str_a):
    for character in str_a:
        if ord(character) > 127:
            return False
    return True
print(is_english('Instagram'))  # Debería devolver True
print(is_english('爱奇艺PPS -《欢乐颂2》电视剧热播'))  # Debería devolver False
print(is_english('Docs To Go™ Free Office Suite'))  # Debería devolver False
print(is_english('Instachat 😜'))  # Debería devolver False

True
False
False
False


In [15]:
#función corregida
def is_english2(str_a):
    cont = 0
    for character in str_a:
        if ord(character) > 127:
            cont += 1
            if cont == 3:
                return False
    return True

In [16]:
print(is_english2('Docs To Go™ Free Office Suite')) 
print(is_english2('Instachat 😜')) 
print(is_english2('爱奇艺PPS -《欢乐颂2》电视剧热播'))

True
True
False


In [17]:
# función corregida sugerida por dataquest
def is_english(string):
    non_ascii = 0
    
    for character in string:
        if ord(character) > 127:
            non_ascii += 1
    
    if non_ascii > 3:
        return False
    else:
        return True

print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

True
True


### Separar las apps gratis de las pagadas

In [18]:
print(android_header)
print(android_header.index('Price'))

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']
7


In [19]:
print(ios_header)
print(ios_header.index('price'))

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']
4


In [20]:
android_english = []
ios_english = []

for app in android_clean:
    name = app[0]
    if is_english(name):
        android_english.append(app)
        
for app in ios:
    name = app[1]
    if is_english(name):
        ios_english.append(app)
        
explore_data(android_english, 0, 3, True)
print('\n')
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9614
Number of columns: 13


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 

In [21]:
# separaremos las applicaciones android gratuitas de las pagadas
# se usa como referencia las lista final de las aplicaciones en inglés. 
android_final = []
ios_final = []

for app in android_english:
    price = app[7]
    if price == '0':
        android_final.append(app)
        
for app in ios_english:
    price = app[4]
    if price == '0.0':
        ios_final.append(app)
        
print(len(android_final))
print(len(ios_final))



8864
3222


### Aplicaciones más usadas

El objetivo de nuestro análisis es determinar qué tipos de aplicaciones son más propensos a atraer a más usuarios, ya que nuestros ingresos dependen en gran medida de la cantidad de personas que utilizan nuestras aplicaciones.

Para minimizar riesgos y costos, nuestra estrategia de validación para una idea de aplicación consta de tres pasos:

1. Construir una versión mínima de la aplicación para Android y agregarla a Google Play.
2. Si la aplicación tiene una buena respuesta de los usuarios, la desarrollamos aún más.
3. Si la aplicación es rentable después de seis meses, también construimos una versión para iOS y la agregamos a la App Store.

Dado que nuestro objetivo final es agregar la aplicación en ambas plataformas, necesitamos encontrar perfiles de aplicaciones que tengan éxito en ambos mercados. Por ejemplo, un perfil que podría funcionar bien en ambos mercados podría ser una aplicación de productividad que utilice la gamificación.

Para comenzar nuestro análisis, vamos a identificar los géneros más comunes en cada mercado. Para hacerlo, construiremos una tabla de frecuencia para la columna "prime_genre" del conjunto de datos de la App Store, y las columnas "Genres" y "Category" del conjunto de datos de Google Play.

In [22]:
# Para la App Store
def freq_table(dataset, index):
    freq_dict = {}
    total_apps = len(dataset)
    
    for row in dataset:
        value = row[index]
        if value in freq_dict:
            freq_dict[value] += 1
        else:
            freq_dict[value] = 1
    
    freq_percentages = {}
    for key in freq_dict:
        percentage = (freq_dict[key] / total_apps) * 100
        freq_percentages[key] = percentage
    
    return freq_percentages

# Generar tabla de frecuencia para la columna "prime_genre" de la App Store
app_store_freq = freq_table(ios, -5)

# Para Google Play
def freq_table_google(dataset, index):
    freq_dict = {}
    total_apps = len(dataset)
    
    for row in dataset:
        value = row[index]
        if value in freq_dict:
            freq_dict[value] += 1
        else:
            freq_dict[value] = 1
    
    freq_percentages = {}
    for key in freq_dict:
        percentage = (freq_dict[key] / total_apps) * 100
        freq_percentages[key] = percentage
    
    return freq_percentages

# Generar tabla de frecuencia para la columna "Genres" de Google Play
google_play_genres_freq = freq_table_google(android, 9)

# Generar tabla de frecuencia para la columna "Category" de Google Play
google_play_category_freq = freq_table_google(android, 1)

In [23]:
# crea la tabla de frecuencias
def freq_table(dataset, index):
    frequency_table = {}  # Creamos un diccionario vacío para almacenar la tabla de frecuencia

    # Contamos las frecuencias de cada valor en la columna especificada
    for row in dataset:
        value = row[index]
        if value in frequency_table:
            frequency_table[value] += 1
        else:
            frequency_table[value] = 1

    # Calculamos los porcentajes y los almacenamos en el mismo diccionario
    total_entries = len(dataset)
    for key in frequency_table:
        frequency_table[key] = (frequency_table[key] / total_entries) * 100

    return frequency_table


In [24]:
freq_table(ios_final,-5)

{'Social Networking': 3.2898820608317814,
 'Photo & Video': 4.9658597144630665,
 'Games': 58.16263190564867,
 'Music': 2.0484171322160147,
 'Reference': 0.5586592178770949,
 'Health & Fitness': 2.0173805090006205,
 'Weather': 0.8690254500310366,
 'Utilities': 2.5139664804469275,
 'Travel': 1.2414649286157666,
 'Shopping': 2.60707635009311,
 'News': 1.3345747982619491,
 'Navigation': 0.186219739292365,
 'Lifestyle': 1.5828677839851024,
 'Entertainment': 7.883302296710118,
 'Food & Drink': 0.8069522036002483,
 'Sports': 2.1415270018621975,
 'Book': 0.4345127250155183,
 'Finance': 1.1173184357541899,
 'Education': 3.662321539416512,
 'Productivity': 1.7380509000620732,
 'Business': 0.5276225946617008,
 'Catalogs': 0.12414649286157665,
 'Medical': 0.186219739292365}

In [25]:
def display_table(dataset, index):
    table = freq_table(dataset, index)  # Generamos la tabla de frecuencia
    table_display = []

    # Transformamos el diccionario en una lista de tuplas y lo ordenamos
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse=True)  # Ordenamos en orden descendente
    print(len(table_sorted)) # muestra la cantidad de agrupaciones

    # Imprimimos las entradas en orden descendente
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

In [32]:
print(ios_header)
print(ios_header.index('prime_genre'))

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']
11


In [33]:
display_table(ios_final, 11) #examina la tabla de frecuencias prime_genre

23
Games : 58.16263190564867
Entertainment : 7.883302296710118
Photo & Video : 4.9658597144630665
Education : 3.662321539416512
Social Networking : 3.2898820608317814
Shopping : 2.60707635009311
Utilities : 2.5139664804469275
Sports : 2.1415270018621975
Music : 2.0484171322160147
Health & Fitness : 2.0173805090006205
Productivity : 1.7380509000620732
Lifestyle : 1.5828677839851024
News : 1.3345747982619491
Travel : 1.2414649286157666
Finance : 1.1173184357541899
Weather : 0.8690254500310366
Food & Drink : 0.8069522036002483
Reference : 0.5586592178770949
Business : 0.5276225946617008
Book : 0.4345127250155183
Navigation : 0.186219739292365
Medical : 0.186219739292365
Catalogs : 0.12414649286157665


- Más del 58% de las aplicaciones gratuitas en inglés son juegos.
- Las aplicaciones de entretenimiento representan alrededor del 8%.
- Las aplicaciones de fotos y videos están cerca del 5%.
- Solo el 3.66% de las aplicaciones son educativas.
- Las aplicaciones de redes sociales representan el 3.29% del conjunto de datos.

La impresión general es que la App Store, al menos la parte que contiene aplicaciones gratuitas en inglés, está dominada por aplicaciones diseñadas para la diversión (juegos, entretenimiento, fotos y videos, redes sociales, deportes, música, etc.). Las aplicaciones con propósitos prácticos (educación, compras, utilidades, productividad, estilo de vida, etc.) son menos comunes. Sin embargo, tener más aplicaciones de diversión no implica necesariamente tener más usuarios; la demanda podría ser diferente.

El siguiente paso es analizar las columnas de "Genres" y "Category" en el conjunto de datos de Google Play.

In [27]:
# obtener los índices del género y las categorías para las apps de android
print(android_header)
print(android_header.index('Category'))
print(android_header.index('Genres'))

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']
1
9


In [28]:
# analizamos las aplicaciones de android de acuerdo con su categoría
display_table(android_final, 1)

33
FAMILY : 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084
COMMUNICATION : 3.2378158844765346
HEALTH_AND_FITNESS : 3.0798736462093865
PHOTOGRAPHY : 2.944494584837545
NEWS_AND_MAGAZINES : 2.7978339350180503
SOCIAL : 2.6624548736462095
TRAVEL_AND_LOCAL : 2.33528880866426
SHOPPING : 2.2450361010830324
BOOKS_AND_REFERENCE : 2.1435018050541514
DATING : 1.861462093862816
VIDEO_PLAYERS : 1.7937725631768955
MAPS_AND_NAVIGATION : 1.3989169675090252
FOOD_AND_DRINK : 1.2409747292418771
EDUCATION : 1.1620036101083033
ENTERTAINMENT : 0.9589350180505415
LIBRARIES_AND_DEMO : 0.9363718411552346
AUTO_AND_VEHICLES : 0.9250902527075812
HOUSE_AND_HOME : 0.8235559566787004
WEATHER : 0.8009927797833934
EVENTS : 0.7107400722021661
PARENTING : 0.6543321299638989
ART_AND_DESIGN

In [29]:
# hacemos el mismo análisis de frecuencias por género
display_table(android_final, 9)

114
Tools : 8.449909747292418
Entertainment : 6.069494584837545
Education : 5.347472924187725
Business : 4.591606498194946
Productivity : 3.892148014440433
Lifestyle : 3.892148014440433
Finance : 3.7003610108303246
Medical : 3.531137184115524
Sports : 3.463447653429603
Personalization : 3.3167870036101084
Communication : 3.2378158844765346
Action : 3.1024368231046933
Health & Fitness : 3.0798736462093865
Photography : 2.944494584837545
News & Magazines : 2.7978339350180503
Social : 2.6624548736462095
Travel & Local : 2.3240072202166067
Shopping : 2.2450361010830324
Books & Reference : 2.1435018050541514
Simulation : 2.0419675090252705
Dating : 1.861462093862816
Arcade : 1.8501805054151623
Video Players & Editors : 1.7712093862815883
Casual : 1.7599277978339352
Maps & Navigation : 1.3989169675090252
Food & Drink : 1.2409747292418771
Puzzle : 1.128158844765343
Racing : 0.9927797833935018
Role Playing : 0.9363718411552346
Libraries & Demo : 0.9363718411552346
Auto & Vehicles : 0.925090252

In [37]:
# Generar la tabla de frecuencia para el género principal en la App Store dataset
ios_genre_freq = freq_table(ios_final, 11)

for genre in ios_genre_freq:
    total_ratings = 0
    len_genre = 0

    for app in ios_final:
        genre_app = app[11]
        if genre_app == genre:
            total_ratings += float(app[5])  # rating_count_tot
            len_genre += 1

    avg_ratings = total_ratings / len_genre
    print(genre, ":", avg_ratings)

Social Networking : 71548.34905660378
Photo & Video : 28441.54375
Games : 22788.6696905016
Music : 57326.530303030304
Reference : 74942.11111111111
Health & Fitness : 23298.015384615384
Weather : 52279.892857142855
Utilities : 18684.456790123455
Travel : 28243.8
Shopping : 26919.690476190477
News : 21248.023255813954
Navigation : 86090.33333333333
Lifestyle : 16485.764705882353
Entertainment : 14029.830708661417
Food & Drink : 33333.92307692308
Sports : 23008.898550724636
Book : 39758.5
Finance : 31467.944444444445
Education : 7003.983050847458
Productivity : 21028.410714285714
Business : 7491.117647058823
Catalogs : 4004.0
Medical : 612.0


En promedio, las aplicaciones de navegación tienen el mayor número de reseñas de usuarios, pero esta cifra está fuertemente influenciada por Waze y Google Maps, que juntas tienen cerca de medio millón de reseñas de usuarios.

In [38]:
for app in ios_final:
    if app[-5] == 'Navigation':
        print(app[1], ':', app[5]) # print name and number of ratings

Waze - GPS Navigation, Maps & Real-time Traffic : 345046
Google Maps - Navigation & Transit : 154911
Geocaching® : 12811
CoPilot GPS – Car Navigation & Offline Maps : 3582
ImmobilienScout24: Real Estate Search in Germany : 187
Railway Route Search : 5


El mismo patrón se aplica a las aplicaciones de redes sociales, donde el número promedio está fuertemente influenciado por algunos gigantes como Facebook, Pinterest, Skype, etc. Lo mismo se aplica a las aplicaciones de música, donde algunos grandes jugadores como Pandora, Spotify y Shazam influyen fuertemente en el numero promedio.

Nuestro objetivo es encontrar géneros populares, pero las aplicaciones de navegación, redes sociales o música pueden parecer más populares de lo que realmente son. El número promedio de calificaciones parece estar sesgado por muy pocas aplicaciones que tienen cientos de miles de calificaciones de usuarios, mientras que las otras aplicaciones pueden tener dificultades para superar el umbral de 10.000. Podríamos obtener una mejor imagen eliminando estas aplicaciones extremadamente populares para cada género y luego reelaborando los promedios, pero dejaremos este nivel de detalle para más adelante.

Las aplicaciones de referencia tienen 74,942 calificaciones de usuarios en promedio, pero en realidad son Bible y Dictionary.com las que distorsionan la calificación promedio:

In [39]:
for app in ios_final:
    if app[-5] == 'Reference':
        print(app[1], ':', app[5])

Bible : 985920
Dictionary.com Dictionary & Thesaurus : 200047
Dictionary.com Dictionary & Thesaurus for iPad : 54175
Google Translate : 26786
Muslim Pro: Ramadan 2017 Prayer Times, Azan, Quran : 18418
New Furniture Mods - Pocket Wiki & Game Tools for Minecraft PC Edition : 17588
Merriam-Webster Dictionary : 16849
Night Sky : 12122
City Maps for Minecraft PE - The Best Maps for Minecraft Pocket Edition (MCPE) : 8535
LUCKY BLOCK MOD ™ for Minecraft PC Edition - The Best Pocket Wiki & Mods Installer Tools : 4693
GUNS MODS for Minecraft PC Edition - Mods Tools : 1497
Guides for Pokémon GO - Pokemon GO News and Cheats : 826
WWDC : 762
Horror Maps for Minecraft PE - Download The Scariest Maps for Minecraft Pocket Edition (MCPE) Free : 718
VPN Express : 14
Real Bike Traffic Rider Virtual Reality Glasses : 8
教えて!goo : 0
Jishokun-Japanese English Dictionary & Translator : 0


Sin embargo, este nicho parece mostrar cierto potencial. Una cosa que podríamos hacer es tomar otro libro popular y convertirlo en una aplicación donde podamos agregar diferentes funciones además de la versión sin formato del libro. Esto podría incluir citas diarias del libro, una versión en audio del libro, cuestionarios sobre el libro, etc. Además de eso, también podríamos insertar un diccionario dentro de la aplicación, para que los usuarios no necesiten salir de nuestra aplicación para buscar. subir palabras en una aplicación externa.

Esta idea parece encajar bien con el hecho de que la App Store está dominada por aplicaciones divertidas. Esto sugiere que el mercado podría estar un poco saturado con aplicaciones divertidas, lo que significa que una aplicación práctica podría tener más posibilidades de destacarse entre la gran cantidad de aplicaciones en la App Store.

Otros géneros que parecen populares incluyen el clima, los libros, la comida y bebida o las finanzas. El género del libro parece superponerse un poco con la idea de la aplicación que describimos anteriormente, pero los otros géneros no nos parecen demasiado interesantes:

Aplicaciones meteorológicas: las personas generalmente no pasan demasiado tiempo en la aplicación y las posibilidades de obtener ganancias con las adiciones dentro de la aplicación son bajas. Además, obtener datos meteorológicos en vivo confiables puede requerir que conectemos nuestras aplicaciones a API que no son gratuitas.

Comida y bebida: los ejemplos aquí incluyen Starbucks, Dunkin' Donuts, McDonald's, etc. Por lo tanto, crear una aplicación de comida y bebida popular requiere cocina real y un servicio de entrega, lo cual está fuera del alcance de nuestra empresa.

Aplicaciones financieras: estas aplicaciones implican operaciones bancarias, pago de facturas, transferencias de dinero, etc. La creación de una aplicación financiera requiere conocimiento del dominio y no queremos contratar a un experto en finanzas solo para crear una aplicación.

Ahora analicemos un poco el mercado de Google Play.

### Aplicaciones populares por género en Google Play

In [47]:
# muestra la cantidad de instalaciones
display_table(android_final, 5)

21
1,000,000+ : 15.726534296028879
100,000+ : 11.552346570397113
10,000,000+ : 10.548285198555957
10,000+ : 10.198555956678701
1,000+ : 8.393501805054152
100+ : 6.915613718411552
5,000,000+ : 6.825361010830325
500,000+ : 5.561823104693141
50,000+ : 4.7721119133574
5,000+ : 4.512635379061372
10+ : 3.5424187725631766
500+ : 3.2490974729241873
50,000,000+ : 2.3014440433213
100,000,000+ : 2.1322202166064983
50+ : 1.917870036101083
5+ : 0.78971119133574
1+ : 0.5076714801444043
500,000,000+ : 0.2707581227436823
1,000,000,000+ : 0.22563176895306858
0+ : 0.04512635379061372
0 : 0.01128158844765343


In [42]:
print(android_header.index('Category'))

1


In [44]:
# Genera una tabla de frecuencia para la columna Category del conjunto de datos de Google Play
categories_android = freq_table(android_final, 1)
print(categories_android)

{'ART_AND_DESIGN': 0.6430505415162455, 'AUTO_AND_VEHICLES': 0.9250902527075812, 'BEAUTY': 0.5979241877256317, 'BOOKS_AND_REFERENCE': 2.1435018050541514, 'BUSINESS': 4.591606498194946, 'COMICS': 0.6204873646209386, 'COMMUNICATION': 3.2378158844765346, 'DATING': 1.861462093862816, 'EDUCATION': 1.1620036101083033, 'ENTERTAINMENT': 0.9589350180505415, 'EVENTS': 0.7107400722021661, 'FINANCE': 3.7003610108303246, 'FOOD_AND_DRINK': 1.2409747292418771, 'HEALTH_AND_FITNESS': 3.0798736462093865, 'HOUSE_AND_HOME': 0.8235559566787004, 'LIBRARIES_AND_DEMO': 0.9363718411552346, 'LIFESTYLE': 3.9034296028880866, 'GAME': 9.724729241877256, 'FAMILY': 18.907942238267147, 'MEDICAL': 3.531137184115524, 'SOCIAL': 2.6624548736462095, 'SHOPPING': 2.2450361010830324, 'PHOTOGRAPHY': 2.944494584837545, 'SPORTS': 3.395758122743682, 'TRAVEL_AND_LOCAL': 2.33528880866426, 'TOOLS': 8.461191335740072, 'PERSONALIZATION': 3.3167870036101084, 'PRODUCTIVITY': 3.892148014440433, 'PARENTING': 0.6543321299638989, 'WEATHER': 

In [45]:
# Itera sobre los géneros únicos del conjunto de datos de Google Play
for category in categories_android:
    total = 0
    len_category = 0
    
    # Itera sobre el conjunto de datos de Google Play
    for app in android_final:
        category_app = app[1]
        
        # Si el género de la aplicación coincide con la categoría actual
        if category_app == category:
            n_installs = app[5]
            n_installs = n_installs.replace(',', '')  # Elimina comas de los números
            n_installs = n_installs.replace('+', '')  # Elimina el símbolo de suma
            total += float(n_installs)
            len_category += 1
    
    # Calcula el número promedio de instalaciones y muestra los resultados
    avg_n_installs = total / len_category
    print(category, ':', avg_n_installs)

ART_AND_DESIGN : 1986335.0877192982
AUTO_AND_VEHICLES : 647317.8170731707
BEAUTY : 513151.88679245283
BOOKS_AND_REFERENCE : 8767811.894736841
BUSINESS : 1712290.1474201474
COMICS : 817657.2727272727
COMMUNICATION : 38456119.167247385
DATING : 854028.8303030303
EDUCATION : 1833495.145631068
ENTERTAINMENT : 11640705.88235294
EVENTS : 253542.22222222222
FINANCE : 1387692.475609756
FOOD_AND_DRINK : 1924897.7363636363
HEALTH_AND_FITNESS : 4188821.9853479853
HOUSE_AND_HOME : 1331540.5616438356
LIBRARIES_AND_DEMO : 638503.734939759
LIFESTYLE : 1437816.2687861272
GAME : 15588015.603248259
FAMILY : 3695641.8198090694
MEDICAL : 120550.61980830671
SOCIAL : 23253652.127118643
SHOPPING : 7036877.311557789
PHOTOGRAPHY : 17840110.40229885
SPORTS : 3638640.1428571427
TRAVEL_AND_LOCAL : 13984077.710144928
TOOLS : 10801391.298666667
PERSONALIZATION : 5201482.6122448975
PRODUCTIVITY : 16787331.344927534
PARENTING : 542603.6206896552
WEATHER : 5074486.197183099
VIDEO_PLAYERS : 24727872.452830188
NEWS_AND_

In [48]:
for app in android_final:
    if app[1] == 'COMMUNICATION' and (app[5] == '1,000,000,000+'
                                      or app[5] == '500,000,000+'
                                      or app[5] == '100,000,000+'):
        print(app[0], ':', app[5])

WhatsApp Messenger : 1,000,000,000+
imo beta free calls and text : 100,000,000+
Android Messages : 100,000,000+
Google Duo - High Quality Video Calls : 500,000,000+
Messenger – Text and Video Chat for Free : 1,000,000,000+
imo free video calls and chat : 500,000,000+
Skype - free IM & video calls : 1,000,000,000+
Who : 100,000,000+
GO SMS Pro - Messenger, Free Themes, Emoji : 100,000,000+
LINE: Free Calls & Messages : 500,000,000+
Google Chrome: Fast & Secure : 1,000,000,000+
Firefox Browser fast & private : 100,000,000+
UC Browser - Fast Download Private & Secure : 500,000,000+
Gmail : 1,000,000,000+
Hangouts : 1,000,000,000+
Messenger Lite: Free Calls & Messages : 100,000,000+
Kik : 100,000,000+
KakaoTalk: Free Calls & Text : 100,000,000+
Opera Mini - fast web browser : 100,000,000+
Opera Browser: Fast and Secure : 100,000,000+
Telegram : 100,000,000+
Truecaller: Caller ID, SMS spam blocking & Dialer : 100,000,000+
UC Browser Mini -Tiny Fast Private & Secure : 100,000,000+
Viber Mess

Si elimináramos todas las aplicaciones de comunicación que tienen más de 100 millones de instalaciones, el promedio se reduciría aproximadamente diez veces:

In [51]:
# Creamos una lista vacía llamada under_100_m para almacenar las instalaciones de aplicaciones de comunicación con menos de 100 millones.
under_100_m = []

# Iteramos a través de las aplicaciones en el conjunto de datos android_final.
for app in android_final:
    # Obtenemos el número de instalaciones de la aplicación.
    n_installs = app[5]
    
    # Eliminamos las comas y los signos de más de la cadena n_installs.
    n_installs = n_installs.replace(',', '')
    n_installs = n_installs.replace('+', '')
    
    # Verificamos si la categoría de la aplicación es 'COMMUNICATION' y si el número de instalaciones es inferior a 100 millones después de la conversión a flotante.
    if (app[1] == 'COMMUNICATION') and (float(n_installs) < 100000000):
        # Si cumple la condición, agregamos el número de instalaciones a la lista under_100_m después de convertirlo a flotante.
        under_100_m.append(float(n_installs))

# Calculamos el promedio de las instalaciones de aplicaciones de comunicación con menos de 100 millones.
average_installs = sum(under_100_m) / len(under_100_m)

# Devolvemos el resultado del promedio.
average_installs

3603485.3884615386

Vemos el mismo patrón para la categoría de reproductores de video, que es la segunda con 24,727,872 instalaciones. El mercado está dominado por aplicaciones como Youtube, Google Play Películas y TV o MX Player. El patrón se repite para aplicaciones sociales (donde tenemos gigantes como Facebook, Instagram, Google+, etc.), aplicaciones de fotografía (Google Fotos y otros editores de fotos populares) o aplicaciones de productividad (Microsoft Word, Dropbox, Google Calendar, Evernote, etc.).

Nuevamente, la principal preocupación es que estos géneros de aplicaciones podrían parecer más populares de lo que realmente son. Además, parece que estos nichos están dominados por algunos gigantes difíciles de competir.

El género de juegos parece bastante popular, pero anteriormente descubrimos que esta parte del mercado parece un poco saturada, por lo que nos gustaría proponer una recomendación de aplicación diferente si es posible.

El género de libros y referencia también parece bastante popular, con un número promedio de instalaciones de 8,767,811. Es interesante explorar esto con más profundidad, ya que encontramos que este género tiene potencial para funcionar bien en la App Store, y nuestro objetivo es recomendar un género de aplicación que muestre potencial para ser rentable tanto en la App Store como en Google Play.

Echemos un vistazo a algunas de las aplicaciones de este género y sus números de instalaciones:

In [52]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE':
        print(app[0], ':', app[5])

E-Book Read - Read Book for free : 50,000+
Download free book with green book : 100,000+
Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Free Panda Radio Music : 100,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
English Grammar Complete Handbook : 500,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
Google Play Books : 1,000,000,000+
AlReader -any text book reader : 5,000,000+
Offline English Dictionary : 100,000+
Offline: English to Tagalog Dictionary : 500,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
Recipes of Prophetic Medicine for free : 500,000+
ReadEra – free ebook reader : 1,000,000+
Anonymous caller detection : 10,000+
Ebook Reader : 5,000,000+
Litnet - E-books : 100,000+
Read books online : 5,000,000+
English to Urdu Dictionary : 500,000+
eBoox: book reader fb2 epub zip : 1,000,000+
English Persian Dictionary : 500,000+
Flybook : 500,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
E


El género de libros y referencia incluye una variedad de aplicaciones: software para procesar y leer libros electrónicos, diversas colecciones de bibliotecas, diccionarios, tutoriales de programación o idiomas, etc. Parece que todavía hay un pequeño número de aplicaciones extremadamente populares que distorsionan el promedio:

In [53]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '1,000,000,000+'
                                            or app[5] == '500,000,000+'
                                            or app[5] == '100,000,000+'):
        print(app[0], ':', app[5])

Google Play Books : 1,000,000,000+
Bible : 100,000,000+
Amazon Kindle : 100,000,000+
Wattpad 📖 Free Books : 100,000,000+
Audiobooks from Audible : 100,000,000+



Sin embargo, parece que solo hay algunas aplicaciones muy populares, por lo que este mercado todavía tiene potencial. Intentemos obtener algunas ideas de aplicaciones basadas en el tipo de aplicaciones que se encuentran en algún punto intermedio en términos de popularidad (entre 1,000,000 y 100,000,000 descargas):

In [54]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '1,000,000+'
                                            or app[5] == '5,000,000+'
                                            or app[5] == '10,000,000+'
                                            or app[5] == '50,000,000+'):
        print(app[0], ':', app[5])

Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
AlReader -any text book reader : 5,000,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
ReadEra – free ebook reader : 1,000,000+
Ebook Reader : 5,000,000+
Read books online : 5,000,000+
eBoox: book reader fb2 epub zip : 1,000,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
Moon+ Reader : 10,000,000+
English-Myanmar Dictionary : 1,000,000+
Golden Dictionary (EN-AR) : 1,000,000+
All Language Translator Free : 1,000,000+
Aldiko Book Reader : 10,000,000+
Dictionary - WordWeb : 5,000,000+
50000 Free eBooks & Free AudioBooks : 5,000,000+
Al-Quran (Free) : 10,000,000+
Al Quran Indonesia : 10,000,000+
Al'Quran Bahasa Indonesia : 10,000,000+
Al Quran Al karim : 1,000,000+
Al Quran : EAlim - Translations & MP3 Offline : 5,000,000+
Koran Read &MP3 30 Juz Offline : 1,000,000+
H


Este nicho parece estar dominado por software para procesar y leer libros electrónicos, así como diversas colecciones de bibliotecas y diccionarios, por lo que probablemente no sea una buena idea construir aplicaciones similares debido a la competencia significativa.

También notamos que hay bastantes aplicaciones relacionadas con el libro del Corán, lo que sugiere que desarrollar una aplicación basada en un libro popular puede ser rentable. Parece que tomar un libro popular (quizás un libro más reciente) y convertirlo en una aplicación podría ser rentable tanto para el mercado de Google Play como para la App Store.

Sin embargo, parece que el mercado ya está lleno de bibliotecas, por lo que debemos agregar algunas características especiales además de la versión cruda del libro. Esto podría incluir citas diarias del libro, una versión de audio del libro, cuestionarios sobre el libro, un foro donde las personas puedan discutir el libro, etc.







## Conclusiones

En este proyecto, analizamos datos sobre aplicaciones móviles de la App Store y Google Play con el objetivo de recomendar un perfil de aplicación que pueda ser rentable para ambos mercados.

Concluimos que tomar un libro popular (quizás un libro más reciente) y convertirlo en una aplicación podría ser rentable tanto para el mercado de Google Play como para la App Store. Los mercados ya están llenos de bibliotecas, por lo que necesitamos agregar algunas características especiales además de la versión original del libro. Esto podría incluir citas diarias del libro, una versión de audio del libro, cuestionarios sobre el libro, un foro donde las personas puedan discutir el libro, entre otros.