# Perfiles rentables de aplicaciones para la App Store y Google Play Store
El objetivo de la presente investigación es encontrar perfiles de aplicaciones móviles (en adelante, apps) que son factibles ya sea para la App Store o Google Play Store (en adelante, AS y GPS respectivamente). Se empleará el rol de Analista de Datos para una empresa ficticia angloparlante que desarrolla apps en ambas plataformas: iOS y Android, y sus respectivas tiendas de apps. Con el objetivo en cuenta, se pretende que el grupo de desarrolladores tomen decisiones basadas en datos con respecto a qué tipos de apps desarrollarán.

La empresa únicamente construye apps gratis para descargar y usar, sin embargo, el principal ingreso consiste en publicidad dentro de la misma. En consecuencia, el principal ingreso será influenciado por el número de usuarios que usen la app. La meta final del proyecto es analizar los datos y ayudar a los desarrolladores a entender, luego, elegir qué tipo de app son las que más atraen a los usuarios.

## Apertura y Exploración de los Datos
Hasta septiembre de 2018, se encuentran aproximadamente 2 millones de aplicaciones disponibles en la App Store, por otro lado, en la Google Play Store el número es de 2.1 millones.

La recolección de datos para más de 4 millones de aplicaciones requiere significantes cantidades de tiempo, dinero y recursos, por lo tanto, se analizará una muestra de datos. Para evitar usar recursos y recolectar datos por cuenta propia, primero se comprueba si existe una fuente de datos fiable y que se ajuste al propósito de la investigación. Se encontró dos conjuntos de datos (en adelante, data set) apropiados para el estudio:
* Un [data set](https://www.kaggle.com/lava18/google-play-store-apps/home) que contiene informacion acerca de 10000 apps de la Google Play Store.
* Un [data_set](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/home) que contiene informacion acerca de 7000 apps de la App Store.

Empieza el estudio accediendo a los dos data sets y luego explorando los datos.

In [1]:
from csv import reader

# El data set de Google Play Store
opened_file = open('googleplaystore.csv', encoding='utf=8')
read_file = reader(opened_file)
android = list(read_file)
android_header = android[0]
android = android[1:]

# El data set de App Store
opened_file = open('AppleStore.csv', encoding='utf-8')
read_file = reader(opened_file)
ios = list(read_file)
for row in ios:
    row.pop(0) # se elimina la columna numérica del AppleStore.csv
ios_header = ios[0]
ios = ios[1:]

Para simplificar la exploración de los data sets, se programa una función llamada `explore_data()` cuyo objetivo es explorar las filas de manera más sencilla. Al mismo tiempo, se añade una opción para que la función muestre la cantidad de filas y columnas para cualquier tipo de data set.

In [2]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]
    for row in dataset_slice:
        print(row)
        print('\n') # añade una nueva línea vacía entre las filas
        
    if rows_and_columns:
        print('Cantidad de filas: ', len(dataset))
        print('Cantidad de columnas', len(dataset[0]))
        
print(android_header)
print('\n')
explore_data(android, 0, 3, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


Cantidad de filas:  10841
Cantidad de columnas 13


Se observa que, para el data set de GPS se encuentran 10841 filas (apps) y 13 columnas. Las columnas que pueden ser útiles para el propósito del análisis son: `'App', 'Category', 'Review', 'Installs', 'Type', 'Price', y 'Genres'`.
A continuación, se explora el data set de iOS:

In [3]:
print(ios_header)
print('\n')
explore_data(ios, 0, 3, True)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188583', '2822', '3.5', '4.5', '5.0.0', '4+', 'Weather', '37', '5', '3', '1']


Cantidad de filas:  7197
Cantidad de columnas 16


Para el data set de AP se tienen 7197 filas (apps) y 16 columnas. Las columnas útiles son: `'track name', 'currency', 'price', 'rating_count_tot', 'rating_count_ver' y 'prime genre'`. Para mayor información sobre las columnas visite la [documentación](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/home) del data set.

## Borrando datos erróneos
El conjunto de datos de GPS tiene una sección dedicada de comentarios, en el cual se advierte que en [una de las discusiones](https://www.kaggle.com/lava18/google-play-store-apps/discussion/66015) se hace énfasis en un error para la fila 10472. Se explora dicha fila y se compara en búsqueda del error:

In [4]:
print(android[10472]) # fila con datos posiblemente erróneos
print('\n')
print(android_header) # encabezado del data set
print('\n')
print(android[0]) # fila con datos correctos

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


La fila 10472 que corresponde a *Life Made WI-Fi Touchscreen Photo Frame* carece de la columna `'Category'`, y su rating es de 19 lo que resulta incorrecto pues el máximo en el umbral de calificación en la **GPS** es 5. Se elimina la fila para evitar errores en el análisis:

In [5]:
print(len(android))
del android[10472] # no se empleará esta columna
print(len(android))

10841
10840


## Eliminando datos duplicados
### Primera parte
Si se explora el data set de GPS, se observa que existen apps que tienen más de una entrada. La app Instagram es un ejemplo, dado que contiene cuatro entradas:

In [6]:
for app in android:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


Si se busca de manera general las apps que contienen entradas múltiples:

In [7]:
duplicate_apps = []
unique_apps = []

for app in android:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)
        
print('Cantidad de apps duplicadas: ', len(duplicate_apps))
print('\n')
print('Ejemplos de apps duplicadas: ', duplicate_apps[:15])

Cantidad de apps duplicadas:  1181


Ejemplos de apps duplicadas:  ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


En total, existen 1181 casos de apps con más de una entrada.

Se remueven las entradas múltiples, manteniéndose una entrada por app.  
Si se examinan las entradas duplicadas de Instagram, la diferencia entre ellas radica en la cuarta columna, que corresponde a la cantidad de calificaciones, infiriéndose que, los datos fueron recolectados en tiempos distintos. Lo adecuado es conservar la entrada con mayor cantidad de calificaciones, debido a que mayor cantidad de calificaciones indica más confianza en la calificación general, las demás entradas se eliminan.

Para llevar a cabo eso, se:
* Crea un diccionario donde cada clave es el nombre de la app, y el valor es el más alto de las calificaciones de esa app
* Usa el diccionario para crear un nuevo data set, el cual tiene únicamente una entrada por app (seleccionándose las apps con la cantidad más elevada de calififcaciones)

### Segunda parte

Se construye el diccionario.

In [8]:
reviews_max = {}

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

Previamente, en una celda de código se encontró que existen 1181 casos de apps duplicadas, por lo tanto, la longitud del diccionario es la diferencia entre la longitud del conjunto de datos y 1181.

In [9]:
print('Longitud esperada:', len(android) - 1181)
print('Longitud real', len(reviews_max))

Longitud esperada: 9659
Longitud real 9659


Ahora, se emplea el diccionario `reviews_max` para remover los duplicados. Para los casos duplicados, se mantiene únicamente las entradas con el número más alto de cantidades de calificaciones. En la celda de código de abajo:
* Se empieza inicializando dos listas vacías:`android_clean` y `already_added`.
* Se itera a través del data set `android` y por cada iteración:
    - Se aísla el nombre de la app y la cantidad de calificaciones
    - Se añade la fila actual (app) a la lista `android_clean`, y el nombre de la app (`name`) a la lista `already_cleaned` si:
        * La cantidad de calificaciones de la app actual concuerda con la cantidad de calificaciones de esa app como describe en el diccionario `reviews_ max`; y...
        * El nombre de la app no está en la lista `already_added`. Es necesario añadir esta condición suplementaria para contar esos casos donde la cantidad más alta de calificaciones de una app duplicada es la misma para más de una entrada (por ejemplo, la app *Box* tiene tres entradas, y el numero de calificaciones es el mismo). Si solo se verifica la condición`reviews_max[name] == n_reviews`, se mantendrán aun las entradas duplicadas para algunas apps.

In [10]:
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if (reviews_max[name] == n_reviews) and (name not in already_added):
        android_clean.append(app)
        already_added.append(name)

Ahora, si se emplea la función previamente creada `explore_data()` se confirma que la cantidad de filas es de 9659.

In [11]:
explore_data(android_clean, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Cantidad de filas:  9659
Cantidad de columnas 13


Se tienen 9659 filas, tal como se esperaba.

## Removiendo apps que no se encuentra en idioma inglés
### Primera parte
Si se explora lo suficiente el conjunto de datos, se encuentran apps cuyos nombres sugieren no ser para audiencia angloparlante. Debajo se expone ejemplos para ambos data sets:

In [12]:
print(ios[813][1])
print(ios[6731][1])
print(android_clean[4412][0])
print(android_clean[7940][0])

AliExpress Shopping App
Idle Armies
中国語 AQリスニング
لعبة تقدر تربح DZ


Se planea remover estas apps. Una manera para llevarlo a cabo es remover cada app cuyo nombre contenga un símbolo no usado comúnmente dentro del conjunto de caracteres del inglés. El conjunto de caracteres contiene el alfabeto en inglés, números compuestos por los dígitos desde el 0 al 9, símbolos de puntuación (?, !, etc.), al igual que otros símbolos comunes (+, /, etc.).

Estos caracteres específicos se encuentran codificados con el estandar ASCII. Cada caracter ASCII tiene un número correspondiente entre 0 y 127 asociado, esto se puede tener en cuenta para construir una función que discrimine entre estos caracteres e informarnos si contiene o no dichos caracteres.

En la siguiente celda se construye la función, y para encontrar el número correspondiente de codificación de caracter se emplea la función incorporada `ord()`.

In [13]:
def is_english(string):
    
    for character in string:
        if ord(character) > 127:
            return False
    return True

print(is_english('Instagram'))
print(is_english('中国語 AQリスニング'))

True
False


La función parece funcionar bien, pero algunas apps en inglés usan emojis u otros símbolos que no corresponden al rango ASCII. A causa de esto, se remueven apps útiles para el estudio si se emplea la función en su forma actual.

In [14]:
print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

print(ord('™'))
print(ord('😜'))

False
False
8482
128540


### Segunda parte
Para minimizar el impacto de los datos perdidos, únicamente se remueve una app si su nombre contiene más de 3 caracteres que no corresponden a ASCII:

In [15]:
def is_english(string):
    non_ascii = 0
    
    for character in string:
        if ord(character) > 127:
            non_ascii += 1
            
    if non_ascii > 3:
        return False
    else:
        return True
    
print(is_english('Docs To Go™ Free Office Suite'))
print(is_english('Instachat 😜'))

True
True


La función sigue siendo imperfecta y algunas apps que no están en inglés pueden pasar el filtro, sin embargo, es suficientemente buena a estas alturas del análisis.

Debajo, se emplea la función `is_english()` para filtrar las apps cuyo lenguaje no es inglés para ambos data sets:

In [16]:
android_english = []
ios_english = []

for app in android_clean:
    name = app[0]
    if is_english(name):
        android_english.append(app)
        
for app in ios:
    name = app[1]
    if is_english(name):
        ios_english.append(app)
        
explore_data(android_english, 0, 3, True)
print('\n')
explore_data(ios_english, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Cantidad de filas:  9614
Cantidad de columnas 13


['281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188583', '28

Quedan restantes 9614 apps de Android y 6183 apps de iOS.
## Aislando las aplicaciones gratuitas
Como se menciona en la introducción, la empresa constratista basa sus ingresos en publicidad dentro de apps gratis para instalar y usar. Debido a que los data sets contienen apps tanto gratuitas como de paga, se planea aislar las apps del primer tipo. En el siguiente código se aislan en ambos data sets:

In [17]:
android_final = []
ios_final = []

for app in android_english:
    price = app[7]
    if price == '0':
        android_final.append(app)

for app in ios_english:
    price = app[4]
    if price == '0':
        ios_final.append(app)
        
print(len(android_final))
print(len(ios_final))

8864
3222


Queda 8864 apps de Android y 3222 apps de iOS gratuitas, lo que es suficiente para nuestro analisis.
## Aplicaciones más comunes por género
### Primera parte
El objetivo es determinar el tipo de apps que atraen mayor cantidad de usuarios ya que nuestro ingreso se encuentra altamente influenciado por la cantidad de usuarios usando la app.

Se empieza el análisis obteniendo los géneros más comunes entre cada tienda de apps. Para obtener esto, se construye una tabla de frecuencias para la columna `prime_genre` del data set de AS, y las columnas `Genres` y `Category` para el data set de GPS.
### Segunda parte
Se programan dos funciones que puedan ser empleadas para el análisis de la tabla de frecuencias:
* Una función que genera tablas de frecuencia y retorne sus porcentajes
* Otra función que emplee muestre los porcentajes en orden descendente

In [18]:
def freq_table(dataset, index):
    table = {}
    total = 0
    
    for row in dataset:
        total += 1
        value =  row[index]
        if value in table:
            table[value] += 1
        else:
            table[value] = 1
            
    table_percentages = {}
    for key in table:
        percentage = (table[key] / total) * 100
        table_percentages[key] = percentage
        
    return table_percentages

def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)
        
    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

### Tercera parte
Se empieza examinando la tabla de frecuencia para la columna `prime_genre` del dataset de la AS.

In [19]:
display_table(ios_final, -5)

Games : 58.16263190564867
Entertainment :7.883302296710118
Photo & Video : 4.9658597144630665
Education : 3.662321539416512
Social Networking : 3.2898820608317814
Shopping : 2.60707635009311
Utilities : 2.5139664804469275
Sports : 2.1415270018621975
Music : 2.0484171322160147
Health & Fitness : 2.0173805090006205
Productivity : 1.7380509000620732
Lifestyle : 1.5828677839851024
News : 1.3345747982619491
Travel : 1.2414649286157666
Finance : 1.1173184357541899
Weather : 0.8690254500310366
Food & Drink : 0.8069522036002483
Reference : 0.5586592178770949
Business : 0.5276225946617008
Book : 0.4345127250155183
Navigation : 0.186219739292365
Medical : 0.186219739292365
Catalogs : 0.12414649286157665


Se observa en el conjunto de las aplicaciones gratuitas y en inglés de la AS, el 58.16% son juegos (casi más de la mitad), seguido por entretenimiento en 7.86% y apps de video y fotografía que ocupa un 4.96%. Solo el 3.66% esta destinado a la educación, y el 3.28% a las redes sociales.
Como un rápido vistazo, la AS está dominada por aplicaciones de entretenimiento, mientras que las apps para propósitos de la vida diaria son más raras. No obstante, el hecho de que existan más apps de entretenimiento que otro tipo, no implica que tengan el mayor número de usuarios, la demanda no suele ser la misma que la oferta.

Ahora, se examinan las columnas `Genres`, y `Category` de la GPS.

In [20]:
display_table(android_final, 1) # columna categoría

FAMILY: 18.907942238267147
GAME : 9.724729241877256
TOOLS : 8.461191335740072
BUSINESS : 4.591606498194946
LIFESTYLE : 3.9034296028880866
PRODUCTIVITY : 3.892148014440433
FINANCE : 3.7003610108303246
MEDICAL : 3.531137184115524
SPORTS : 3.395758122743682
PERSONALIZATION : 3.3167870036101084
COMMUNICATION : 3.2378158844765346
HEALTH_AND_FITNESS : 3.0798736462093865
PHOTOGRAPHY : 2.944494584837545
NEWS_AND_MAGAZINES : 2.7978339350180503
SOCIAL : 2.6624548736462095
TRAVEL_AND_LOCAL : 2.33528880866426
SHOPPING : 2.2450361010830324
BOOKS_AND_REFERENCE : 2.1435018050541514
DATING : 1.861462093862816
VIDEO_PLAYERS : 1.7937725631768955
MAPS_AND_NAVIGATION : 1.3989169675090252
FOOD_AND_DRINK : 1.2409747292418771
EDUCATION : 1.1620036101083033
ENTERTAINMENT : 0.9589350180505415
LIBRARIES_AND_DEMO : 0.9363718411552346
AUTO_AND_VEHICLES : 0.9250902527075812
HOUSE_AND_HOME : 0.8235559566787004
WEATHER : 0.8009927797833934
EVENTS : 0.7107400722021661
PARENTING : 0.6543321299638989
ART_AND_DESIGN : 0

El panorama es significativamente más equilibrado en la Google Play Store, no existe una diferencia notable de apps de entretenimiento frente a otras categorías, en cambio, hay un buen porcentaje entre apps diseñadas para propósitos de la vida diaria (trabajo, herramientas, estilo de vida, productividad, negocios, etc.). Sin embargo, dentro de la categoría `FAMILY` se observa que, en mayoría se encuentran juegos para menores de edad.

Aun así, la GPS posee un mejor balance de apps prácticas. Ahora, se construye la tabla de frecuencias para la otra columna, la columna `Genres`:

In [21]:
display_table(android_final, -4)

Tools : 8.449909747292418
Entertainment : 6.069494584837545
Education : 5.347472924187725
Business : 4.591606498194946
Productivity : 3.892148014440433
Lifestyle : 3.892148014440433
Finance : 3.7003610108303246
Medical : 3.531137184115524
Sports : 3.463447653429603
Personalization : 3.3167870036101084
Communication : 3.2378158844765346
Action : 3.1024368231046933
Health & Fitness : 3.0798736462093865
Photography : 2.944494584837545
News & Magazines : 2.7978339350180503
Social : 2.6624548736462095
Travel & Local : 2.3240072202166067
Shopping : 2.2450361010830324
Books & Reference : 2.1435018050541514
Simulation : 2.0419675090252705
Dating : 1.861462093862816
Arcade : 1.8501805054151623
Video Players & Editors : 1.7712093862815883
Casual : 1.7599277978339352
Maps & Navigation : 1.3989169675090252
Food & Drink : 1.2409747292418771
Puzzle : 1.128158844765343
Racing : 0.9927797833935018
Role Playing : 0.9363718411552346
Libraries & Demo : 0.9363718411552346
Auto & Vehicles : 0.9250902527075

La exploración de la columna `Genres` indica una mayor cantidad de etiquetas, es más granular. Sin embargo, aún se sigue observando un aspecto balanceado. Para la investigación se emplea el panorama más general de la columna `Category` por el momento.

Hasta ahora, se descubrió que en la AS predominan las apps de entretenimiento como los juegos, mientras que el data set de GPS ofrece un panorama balanceado respecto a las apps prácticas y de entretenimiento. El siguiente paso es averiguar cuál tipo de apps tiene la mayor cantidad de usuarios.
## Aplicaciones más populares por género en la App Store
Para obtener los géneros más populares (que poseen mayor cantidad de usuarios) es necesario calcular el promedio del número de instalaciones por cada género. En el data set de GPS se obtiene esta información empleando la columna `Installs`, aunque para el data set de AS no se encuentra esta columna, se puede emplear la columna `rating_count_tot` como una aproximación.

Debajo, se calcula el promedio de calificaciones de usuarios por género en la AS.

In [22]:
genres_ios = freq_table(ios_final, -5)

for genre in genres_ios:
    total = 0
    len_genre = 0
    for app in ios_final:
        genre_app = app[-5]
        if genre_app == genre:
            n_ratings = float(app[5])
            total += n_ratings
            len_genre += 1
    
    avg_n_ratings = total / len_genre
    print(genre, ':', avg_n_ratings)

Productivity : 21028.410714285714
Weather : 52279.892857142855
Shopping : 26919.690476190477
Reference : 74942.11111111111
Finance : 31467.944444444445
Music : 57326.530303030304
Utilities : 18684.456790123455
Travel : 28243.8
Social Networking : 71548.34905660378
Sports : 23008.898550724636
Health & Fitness : 23298.015384615384
Games : 22788.6696905016
Food & Drink : 33333.92307692308
News : 21248.023255813954
Book : 39758.5
Photo & Video : 28441.54375
Entertainment : 14029.830708661417
Business : 7491.117647058823
Lifestyle : 16485.764705882353
Education : 7003.983050847458
Navigation : 86090.33333333333
Medical : 612.0
Catalogs : 4004.0


En promedio, las apps de navegación contienen un mayor número de calificaciones de usuarios, aunque esto se debe a que está fuertemente influenciada por Waze y Google Maps, pues juntos tienen casi medio millón de calificaciones:

In [23]:
for app in ios_final:
    if app[-5] == 'Navigation':
        print(app[1], ':', app[5])

Waze - GPS Navigation, Maps & Real-time Traffic : 345046
Geocaching® : 12811
ImmobilienScout24: Real Estate Search in Germany : 187
Railway Route Search : 5
CoPilot GPS – Car Navigation & Offline Maps : 3582
Google Maps - Navigation & Transit : 154911


El mismo patrón se aplica a apps de redes sociales donde el promedio está influenciado fuertemente por Facebook, Skype, Pinterest, entre otros. Asimismo, para las apps de música como Spotify, Pandora y Shazam. Con el objetivo de no obtener resultados sesgados, se remueven estas apps altamente populares para cada género y luego, se vuelve a calcular los promedios, aunque esto se realizará después.
Las apps de referencia tienen 74942 calificaciones de usuarios en promedio, aunque esto es debido a las apps Dictionary.com y Bible que distorsionan el promedio.

In [24]:
for app in ios_final:
    if app[-5] == 'Reference':
        print(app[1], ':', app[5])

Bible : 985920
Dictionary.com Dictionary & Thesaurus : 200047
Dictionary.com Dictionary & Thesaurus for iPad : 54175
Muslim Pro: Ramadan 2017 Prayer Times, Azan, Quran : 18418
Merriam-Webster Dictionary : 16849
Google Translate : 26786
Night Sky : 12122
WWDC : 762
Jishokun-Japanese English Dictionary & Translator : 0
教えて!goo : 0
VPN Express : 14
New Furniture Mods - Pocket Wiki & Game Tools for Minecraft PC Edition : 17588
LUCKY BLOCK MOD ™ for Minecraft PC Edition - The Best Pocket Wiki & Mods Installer Tools : 4693
Guides for Pokémon GO - Pokemon GO News and Cheats : 826
Horror Maps for Minecraft PE - Download The Scariest Maps for Minecraft Pocket Edition (MCPE) Free : 718
City Maps for Minecraft PE - The Best Maps for Minecraft Pocket Edition (MCPE) : 8535
GUNS MODS for Minecraft PC Edition - Mods Tools : 1497
Real Bike Traffic Rider Virtual Reality Glasses : 8


Sin embargo, este nicho parece mostrar potencial. Así como lo es la Biblia y Dictionary.com, se puede seleccionar un libro, hacerlo una app e incorporarle nuevas funciones, como por ejemplo, un glosario con el fin de que el usuario no deba salir de la app para buscar el significado de una palabra, citas diarias del libro, la versión audio del libro, encuestas sobre tópicos del mismo, etc.
Además, la App Store está saturada de apps de entretenimiento, entonces, una app práctica podría tener más oportunidades de sobresalir. Existen otros géneros populares como Clima, Finanzas, Libros, y Comida - bebidas, el género libros tiene un pequeño acercamiento a lo que la empresa busca, en cambio, los otros géneros no son factibles ni de interés, debido a que:
* Apps del clima: los usuarios generalmente no pasan mucho tiempo usando este tipo de apps, además, el tráfico de datos y el coste de APIs para emplear el servicio de manera eficaz es un costo que no se planea solventar.
* Comidas y bebidas: para desarrollar una app con estos fines es necesario antes tener un servicio y un opción de envío a domicilio, lo cual está fuera del enfoque de la compañía.
* Finanzas: es necesario conocer el campo y sus herramientas, lo que requiere una consultoría de un experto que domine estos temas, la empresa no planea recurrir a servicios de consultoría solo para construir una app.

Ahora, se analiza el data set de Google Play.
## Aplicaciones más populares por género en la Google Play Store
Para este data set, existe un registro del número de instalaciones, sin embargo, estos numeros no son lo suficientemente precisos, dado que son cifras redondeadas: 100+, 1000+, 5000+, etc.):

In [25]:
display_table(android_final, 5)

1,000,000+ : 15.726534296028879
100,000+ : 11.552346570397113
10,000,000+ : 10.548285198555957
10,000+ : 10.198555956678701
1,000+ : 8.393501805054152
100+ : 6.915613718411552
5,000,000+ : 6.825361010830325
500,000+ : 5.561823104693141
50,000+ : 4.7721119133574
5,000+ : 4.512635379061372
10+ : 3.5424187725631766
500+ : 3.2490974729241873
50,000,000+ : 2.3014440433213
100,000,000+ : 2.1322202166064983
50+ : 1.917870036101083
5+ : 0.78971119133574
1+ : 0.5076714801444043
500,000,000+ : 0.2707581227436823
1,000,000,000+ : 0.22563176895306858
0+ : 0.04512635379061372
0 : 0.01128158844765343


Estos datos, no son precisos, por ejemplo, se desconoce si una app con 100000+ (instalaciones) tiene 100000, 200000, o 350000. Sin embargo, para el análisis no es necesaria esta precisión, lo útil es obtener una idea general de cual género atrae más a los usuarios. Se planea mantener los números tal cual están, es decir, si una app tiene 100000+ entonces tiene 100000 instalaciones.

Sin embargo, para ejecutar cálculos, se necesita convertir cada elemento (el numero de instalaciones) a tipo *flotante*, esto implica remover los caracterese '+' y ',', si no se realiza, el programa lanzaría un error. Esto se ejecutará en el bucle de debajo, además del promedio del número de instalaciones por cada género (`Category`).

In [26]:
categories_android = freq_table(android_final, 1)

for category in categories_android:
    total = 0
    len_category = 0
    for app in android_final:
        category_app = app[1]
        if category_app == category:
            n_installs = app[5]
            n_installs = n_installs.replace(',', '')
            n_installs = n_installs.replace('+', '')
            total += float(n_installs)
            len_category += 1
    avg_n_installs = total / len_category
    print(category, ':', avg_n_installs)

ART_AND_DESIGN : 1986335.0877192982
AUTO_AND_VEHICLES : 647317.8170731707
BEAUTY : 513151.88679245283
BOOKS_AND_REFERENCE : 8767811.894736841
BUSINESS : 1712290.1474201474
COMICS : 817657.2727272727
COMMUNICATION : 38456119.167247385
DATING : 854028.8303030303
EDUCATION : 1833495.145631068
ENTERTAINMENT : 11640705.88235294
EVENTS : 253542.22222222222
FINANCE : 1387692.475609756
FOOD_AND_DRINK : 1924897.7363636363
HEALTH_AND_FITNESS : 4188821.9853479853
HOUSE_AND_HOME : 1331540.5616438356
LIBRARIES_AND_DEMO : 638503.734939759
LIFESTYLE : 1437816.2687861272
GAME : 15588015.603248259
FAMILY : 3695641.8198090694
MEDICAL : 120550.61980830671
SOCIAL : 23253652.127118643
SHOPPING : 7036877.311557789
PHOTOGRAPHY : 17840110.40229885
SPORTS : 3638640.1428571427
TRAVEL_AND_LOCAL : 13984077.710144928
TOOLS : 10801391.298666667
PERSONALIZATION : 5201482.6122448975
PRODUCTIVITY : 16787331.344927534
PARENTING : 542603.6206896552
WEATHER : 5074486.197183099
VIDEO_PLAYERS : 24727872.452830188
NEWS_AND_

En promedio, apps de comunicación tienen mayor cantidad de instalaciones: 38456119. Este número es influenciado fuertemente por apps como WhatsApp, Facebook Messenger, entre otros:

In [27]:
for app in android_final:
    if app[1] == 'COMMUNICATION' and (app[5] == '1,000,000,000+' or app[5] == '500,000,000+' or app[5] == '100,000,000+'):
        print(app[0], ':', app[5])

WhatsApp Messenger : 1,000,000,000+
imo beta free calls and text : 100,000,000+
Android Messages : 100,000,000+
Google Duo - High Quality Video Calls : 500,000,000+
Messenger – Text and Video Chat for Free : 1,000,000,000+
imo free video calls and chat : 500,000,000+
Skype - free IM & video calls : 1,000,000,000+
Who : 100,000,000+
GO SMS Pro - Messenger, Free Themes, Emoji : 100,000,000+
LINE: Free Calls & Messages : 500,000,000+
Google Chrome: Fast & Secure : 1,000,000,000+
Firefox Browser fast & private : 100,000,000+
UC Browser - Fast Download Private & Secure : 500,000,000+
Gmail : 1,000,000,000+
Hangouts : 1,000,000,000+
Messenger Lite: Free Calls & Messages : 100,000,000+
Kik : 100,000,000+
KakaoTalk: Free Calls & Text : 100,000,000+
Opera Mini - fast web browser : 100,000,000+
Opera Browser: Fast and Secure : 100,000,000+
Telegram : 100,000,000+
Truecaller: Caller ID, SMS spam blocking & Dialer : 100,000,000+
UC Browser Mini -Tiny Fast Private & Secure : 100,000,000+
Viber Mess

Si se remueven todas las apps de comunicación que superan las 100 millones de instalaciones, el promedio sería reducido radicalmente:

In [28]:
under_100_m = []

for app in android_final:
    n_installs = app[5]
    n_installs = n_installs.replace(',', '')
    n_installs = n_installs.replace('+', '')
    if (app[1] == 'COMMUNICATION') and (float(n_installs) < 100000000):
        under_100_m.append(float(n_installs))
        
sum(under_100_m) / len(under_100_m)

3603485.3884615386

Se observa el mismo patrón para la categoría `VIDEO_PLAYERS` (YouTube, Google Play Movies, MX Player, etc.), `SOCIAL` (Facebook, Instagram, Google+, etc.), y `PRODUCTIVITY` (Microsoft Word, Dropbox, Evernote, etc.).
De nuevo, el principal problema es que estos géneros aparentan ser más populares de lo que en realidad son, además, estos segmentos del mercado parecen ser dominados por compañías grandes, difíciles de competir.

El género de juegos parece muy popular, pero como se observó en la AS, esta categoría se encuentra saturada.

Los libros y el género de `reference` parece popular, con una cantidad de 8767811 instalaciones. Resulta interesante para explorar en detalle, ya que se encontró un potencial en la App Store, y el objetivo es encontrar un perfil o género de app que se muestre factible tanto en la App Store y en la Google Play Store.

A continuación, se explora un poco más este género, sus apps, y el número de instalaciones.

In [29]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE':
        print(app[0], ':', app[5])

E-Book Read - Read Book for free : 50,000+
Download free book with green book : 100,000+
Wikipedia: 10,000,000+
Cool Reader : 10,000,000+
Free Panda Radio Music : 100,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
English Grammar Complete Handbook : 500,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
Google Play Books : 1,000,000,000+
AlReader -any text book reader : 5,000,000+
Offline English Dictionary : 100,000+
Offline: English to Tagalog Dictionary : 500,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
Recipes of Prophetic Medicine for free : 500,000+
ReadEra – free ebook reader : 1,000,000+
Anonymous caller detection : 10,000+
Ebook Reader : 5,000,000+
Litnet - E-books : 100,000+
Read books online : 5,000,000+
English to Urdu Dictionary : 500,000+
eBoox: book reader fb2 epub zip : 1,000,000+
English Persian Dictionary : 500,000+
Flybook : 500,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
En

El género de Libro y Referencias incluye una variedad de apps: software para procesar y leer ebooks, varias colecciones de librerías, diccionarios, etc.
Parece que aún existe un pequeño número de apps muy populares que alteran el promedio:

In [30]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '1,000,000,000+' or 
                                            app[5] == '500,000,000+' or 
                                            app[5] == '100,000,000+'):
        print(app[0], ':', app[5])

Google Play Books : 1,000,000,000+
Bible : 100,000,000+
Amazon Kindle : 100,000,000+
Wattpad 📖 Free Books : 100,000,000+
Audiobooks from Audible : 100,000,000+


Sin embargo, se muestran pocas apps populares, por lo que este segmento sigue mostrando potencial. Se obtiene algunas ideas de apps basadas en el tipo de apps que rondan en la mitad de los términos de popularidad (entre 1,000,000 y 100,000,000 de descargas).

In [31]:
for app in android_final:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '1,000,000+' or 
                                            app[5] == '5,000,000+' or 
                                            app[5] == '10,000,000+' or 
                                            app[5] == '50,000,000+'):
        print(app[0], ':', app[5])

Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
AlReader -any text book reader : 5,000,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
ReadEra – free ebook reader : 1,000,000+
Ebook Reader : 5,000,000+
Read books online : 5,000,000+
eBoox: book reader fb2 epub zip : 1,000,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
Moon+ Reader : 10,000,000+
English-Myanmar Dictionary : 1,000,000+
Golden Dictionary (EN-AR) : 1,000,000+
All Language Translator Free : 1,000,000+
Aldiko Book Reader : 10,000,000+
Dictionary - WordWeb : 5,000,000+
50000 Free eBooks & Free AudioBooks : 5,000,000+
Al-Quran (Free) : 10,000,000+
Al Quran Indonesia : 10,000,000+
Al'Quran Bahasa Indonesia : 10,000,000+
Al Quran Al karim : 1,000,000+
Al Quran : EAlim - Translations & MP3 Offline : 5,000,000+
Koran Read &MP3 30 Juz Offline : 1,000,000+
H

Este segmento parece ser dominado por software para procesado y lectura de ebooks (libros electrónicos), de igual forma, para varias colecciones de librerías y diccionarios, por lo que no es una buena idea construir una app similar ya que podría existir una competencia difícil.

De igual manera, se observa que existen algunas apps que están construidas con base al libro *Quran*, lo que sugiere que, desarrollar una app alrededor de un libro popular puede ser rentable para ambos mercados, App Store y Google Play.

Sin embargo, también parece ser que este segmento está lleno de librerías, por lo que la empresa necesitará construir dicha app con características que sobresalgan de sus competidores, de tal manera, estos mercados puedan seleccionarla como una app interesante (como la seleccion de los editores en Google Play, o aparecer en la portada de la App Store) aumentandose así la probabilidad de que los usuarios la descarguen.
## Conclusión
En el presente proyecto, se analizó conjuntos de datos acerca de las aplicaciones de mercados tanto de la App Store como de la Google Play Store con el objetivo de recomendar un perfil de aplicación que pueda ser rentable para ambos mercados.

Se concluye que, tomar un libro popular (preferiblemente, un libro reciente) y convertirlo en una app puede ser rentable para ambos mercados de aplicaciones. Sin embargo, debido a que los mercados tienen cantidades significativas de apps de librerías, el equipo de desarrollo necesitará incluir caracteristicas a la app con el fin de destacarla en su catgoría, como por ejemplo, citas diarias del libro, una versión audiolibro, cuestionarios acerca del tópico del libro, un foro donde las personas puedan discutir y comentar sobre el libro, entre otras cosas.