# Rentabilidad en Google Play / Apple Store

En este proyecto, analizaremos datos reales de más de 7000 apps de AppleStore, y de unas 10.000 apps de Google Play Store, para ayudar a nuestros desarrolladores a comprender qué tipo de apps es probable que atraigan a más usuarios.

Supondremos que solamente creamos apps 100% gratuitas, y haremos nuestros análisis en base a este criterio.

Nuestro objetivo es estudiar el mercado de apps gratuitas, de tal forma que podamos saber qué tipo de app gratuita podemos desarrollar, ahorrando los máximos costes posibles, y obtener la mayor rentabilidad posible a costa de incluir publicidad en nuestra app.

Para ello, utilizaremos nuestros datasets, y los depuraremos, de tal manera que podamos partir de una base que nos interese, y a partir de ahí estudiar qué géneros son los más populares entre los usuarios, qué rango de edad tiene el usuario que nos interesa, etc.

Comenzaremos abriendo y explorando los dos datasets que vamos a utilizar. Ambos datasets están en formato .csv , y los hemos llamado 'googleplaystore.csv' y 'AppleStore.csv' .

In [2]:
def explorarDatos(dataset, inicio, fin, filas_Columnas=False):
    muestra = dataset[inicio:fin]
    for fila in muestra:
        print(fila)
        print('\n')
        
    if filas_Columnas:
        print('Nº de filas: ', len(dataset))
        print('Nº de columnas: ', len(dataset[0]))

Hemos creado una función para mostrar una parte a elegir de cualquier dataset. La función explorarDatos() :

Recibe cuatro parámetros:

   * dataset: se espera que sea una lista de listas
   * inicio,fin: se espera que sean de tipo int, representan el inicio 
      y el final de la muestra.
   * filas_Columnas: se espera un tipo boolean, por defecto es False.
      Si es True, imprime el nº de filas y columnas de la muestra.

## Primeras lecturas de los datasets

Vamos a leer los dos datasets que queremos analizar, 'googleplaystore.csv' y 'AppleStore.csv' .

Los guardaremos en una lista de listas, para poder utilizar la función *explorarDatos()* que hemos creado previamente.

Las variables donde estarán almacenadas serán, respectivamente, 'datosApple' y 'datosGoogle' .

In [5]:
from csv import reader

abrirApple = open('E:/COSAS/Python/DataQuest_io/PROYECTO APPS/Datasets/AppleStore.csv', encoding='utf8')
leerApple = reader(abrirApple)
datosApple = list(leerApple)

abrirGoogle = open('E:/COSAS/Python/DataQuest_io/PROYECTO APPS/Datasets/GooglePlay.csv', encoding='utf8')
leerGoogle = reader(abrirGoogle)
datosGoogle = list(leerGoogle)

Vamos a ver una muestra de cada uno de los datasets. Mostraremos las 3 primeras aplicaciones de cada dataset.

Los datos están representados en listas, vamos a ver qué información tiene cada uno de los elementos de las listas:

APPLE STORE:

| Column | Description |
| --- | ----------- |
| "id" | App ID |
| "track_name" | App Name |
| "size_bytes" | Size in bytes |
| "currency" | Currency Type |
| "price" | Price Amount |
| "rating_count_tot" | User Rating counts (all version) |
| "rating_count_ver" | User Rating counts (current version) |
| "user_rating" | Average User Rating value (all version) |
| "user_rating_ver" | Average User Rating value (current version) |
| "ver" | Latest version code |
| "cont_rating" | Content Rating |
| "prime_genre" | Primary Genre |
| "sup_devices.num" | Number of supporting devices |
| "ipadSc_urls.num" | Number of screenshots showed for display |
| "lang.num" | Number of supported languages |
| "vpp_lic" | Vpp Device Based Licensing Enabled |


GOOGLE PLAY:

| Column | Description |
| --- | ----------- |
| "App" | App Name |
| "Category" | App Category |
| "Rating" | Overall user rating |
| "Reviews" | Number of user reviews |
| "Size" | Size of the app |
| "Installs" | Number of downloads/installs |
| "Type" | Paid or Free |
| "Price" | Price of the app |
| "Content Rating" | Age target group |
| "Genres" | Genres the app belongs to |
| "Last Updated" | Date of last update |
| "Current Ver" | Current app Version |
| "Android Ver" | Min required Android Ver |

In [6]:
explorarDatos(datosApple,1,4)
explorarDatos(datosGoogle,1,4)

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']




Como podemos observar, tenemos gran cantidad de datos que nos pueden ayudar con nuestro objetivo, 
pero también hay algunos datos que podemos (o debemos) descartar, para facilitar el análisis.

Trabajaremos, en principio, con los siguientes datos:
    
    -Nombre de la app
    -Precio: gratuito
    -Valoración de los usuarios (más es mejor)
    -Número de valoraciones totales (más es mejor)
    -Número de descargas/instalaciones (más es mejor)
    -Género/Categoría de la app
    -Targets de edad (clientes potenciales)
    
Descartaremos los demás datos por no ser de utilidad para nuestra finalidad.

Hay que tener en cuenta que el primer índice de cada dataset pertenece a la cabecera, y por lo tanto 
no constituye un dato como tal. Debemos descartar el índice [0] en cada dataset.
Por tanto, en los datasets que vamos a evaluar, los índices que utilizaremos serán:
    
   **APPLE STORE**
        
   - Índice 2  "track_name"           **Nombre de la app**
   - Índice 5  "price"                **Precio de la app**
   - Índice 6  "rating_count_tot"     **Número de valoraciones totales**
   - Índice 8  "user_rating"          **Valoraciones de usuarios**
   - Índice 11 "content rating"       **Edad mínima para utilizar la app (target)**
   - Índice 12 "prime_genre"          **Género de la app**
   
        
   **GOOGLE PLAY**
    
   - Índice 1   "Category"            **Nombre de la app**
   - Índice 2   "Rating"              **Valoraciones de usuarios**
   - Índice 3   "Reviews"             **Número de valoraciones totales**
   - Índice 5   "Installs"            **Número de descargas/instalaciones**
   - Índice 6   "Type"                **Gratis/De Pago**
   - Índice 8   "Content Rating"      **Edad mínima para utilizar la app (target)**
   - Índice 9   "Genres"              **Género de la app**
        
        
        

# Data Cleaning

Lo primero, y antes de empezar a realizar cualquier operación de Data Cleaning, vamos a comprobar exactamente cuantos elementos tenemos en cada dataset:

In [34]:
numeroAppsApple = len(datosApple[1:])
numeroAppsGoogle = len(datosGoogle[1:])

print(f"Tenemos {numeroAppsApple} apps en datosApple, y {numeroAppsGoogle} apps en datosGoogle.")

Tenemos 7197 apps en datosApple, y 10840 apps en datosGoogle.


Antes de iniciar el análisis, debemos eliminar los datos que no nos interesan, para que el estudio que queremos realizar sea lo más preciso posible.

Debemos eliminar apps que no sean en inglés o español, por ejemplo apps asiáticas que tengan como única opción el idioma chino. También debemos eliminar todas las apps de pago, porque queremos centrarnos en las aplicaciones gratuitas.

Imprimimos el primer elemento de las listas, para verificar que efectivamente se trata de una cabecera:

In [8]:
cabeceraGoogle = datosGoogle[0]
print(cabeceraGoogle)  

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


In [9]:
cabeceraApple = datosApple[0] 
print(cabeceraApple)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


Por tanto, confirmamos que los elementos [0] de cada dataset son las cabeceras. No tendremos en cuenta dichos elementos en los análisis.

Vamos ahora a buscar errores en los datasets. Primero, verificamos que cada lista (app) tenga el mismo número de elementos.

Mostramos la longitud de las cabeceras, y a continuación el de tres elementos aleatorios de cada dataset. Escogeremos el elemento 1000,2000 y 5000:

In [10]:
print(len(cabeceraGoogle))
print(len(cabeceraApple))

13
16


Según estos datos, cada app de 'datosGoogle' debería tener 13 elementos, mientras que cada app de 'datosApple' debería tener 16 elementos.

In [11]:
print(len(datosGoogle[1000]))
print(len(datosGoogle[2000]))
print(len(datosGoogle[5000]))

13
13
13


In [12]:
print(len(datosApple[1000]))
print(len(datosApple[2000]))
print(len(datosApple[5000]))

16
16
16


Y por tanto confirmamos que cada app debería tener 13 y 16 elementos, respectivamente.

Aún así vamos a iterar cada uno de los datasets para buscar errores.

### Limpieza de datos en el dataset de Google

#### Longitud de los índices (Google)

In [13]:
for app in datosGoogle:
    if len(app) != 13:
        print(datosGoogle.index(app))

10473


El índice 10473 no tiene 13 elementos, comprobamos cuántos elementos tiene:

In [14]:
print(len(datosGoogle[10473]))

12


Por lo tanto, vamos a eliminar el índice 10473 de datosGoogle:

In [15]:
del datosGoogle[10473]

Y volvemos a verificar datosGoogle:

In [16]:
for app in datosGoogle:
    defectuosos = []
    if len(app) != 13:
        print(datosGoogle.index(app))
        defectuosos.append(app)
if len(defectuosos) == 0:
    print("Todos los índices tienen 13 elementos.")

Todos los índices tienen 13 elementos.


#### Apps duplicadas (Google)

Buscamos ahora errores de tipo duplicados. No nos interesa tener más de una lista por cada app, por lo que vamos a iterar de nuevo en el dataset en busca de duplicados.

Para ello, vamos a crear dos listas vacías: una de elementos únicos, y otra de elementos duplicados.

Vamos a imprimir una app aleatoria para buscar un criterio en el que basarnos para encontrar duplicados (si los hubiese):

In [17]:
appgoogle1 = datosGoogle[1]
print(appgoogle1)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


En el dataset de Google, el único elemento diferencial es el nombre, por lo tanto nos centraremos en este elemento para realizar nuestro filtro.
El nombre en este dataset es el índice 1.

Vamos a iterar en el dataset, y por cada iteración iteramos de nuevo en la app, e introduciremos el nombre de la app en una lista llamada *appsUnicasGoogle*; si existiese el nombre en la lista, entonces irá a otra lista llamada *appsDuplicadasGoogle* :

In [19]:
appsUnicasGoogle = []
appsDuplicadasGoogle = []

for app in datosGoogle[1:]: # omitimos la cabecera
    nombreApp = app[0]
    if nombreApp in appsUnicasGoogle:
        appsDuplicadasGoogle.append(nombreApp)
    else:
        appsUnicasGoogle.append(nombreApp)
        
appsUnicasGoogleLong = len(appsUnicasGoogle)
appsDuplicadasGoogleLong = len(appsDuplicadasGoogle)

print(appsUnicasGoogleLong)
print(appsDuplicadasGoogleLong)

9659
1181


Nos encontramos con que tenemos 1181 apps duplicadas en el dataset de Google. Tenemos dos listas, una con apps únicas, y otra con apps duplicadas.
Antes de eliminar directamente la lista con las apps duplicadas, deberíamos pensar que quizás hay algún motivo por el cual están duplicadas las apps, y sería conveniente establecer algún criterio para saber qué elemento mantener y qué elemento eliminar.

Si volvemos a echar un vistazo al dataset de Google, podemos observar que las apps tienen un índice llamado "Reviews" , que es el número total de valoraciones de los usuarios. Podría parecer razonable eliminar aquellos registros que tengan menos reviews; dicho de otro modo, si tenemos dos apps duplicadas, lo lógico sería mantener el registro con mayor número de reviews, ya que debería tratarse de la versión más actualizada de los datos.

Para ello, vamos a crear un diccionario, cuyas claves serán las apps únicas, y el valor asignado será el mayor número de reviews, y de esta manera haremos sencilla la elección.

In [29]:
maximasReviews = {}

for app in datosGoogle[1:]: # omitimos la cabecera
    nombreApp = app[0]
    numeroReviews = float(app[3])
    
    if nombreApp in maximasReviews and maximasReviews[nombreApp] < numeroReviews:
        maximasReviews[nombreApp] = numeroReviews
    else:
        maximasReviews[nombreApp] = numeroReviews
        
print(len(maximasReviews))
    

9659


Ya tenemos un diccionario ('maximasReviews') con las apps únicas y su valor máximo de reviews.
Iteramos ahora en el dataset, y creamos un nuevo dataset (una lista de listas) con los valores que buscamos, esta vez siguiendo el criterio establecido en el diccionario.

In [31]:
datosGoogleLimpios = [] # nuevo dataset
anadidos = [] # lista de apoyo 

for app in datosGoogle[1:]: # omitimos la cabecera
    nombre = app[0]
    reviews = float(app[3])
    
    if maximasReviews[nombre] == reviews and nombre not in anadidos:
        datosGoogleLimpios.append(app)
        anadidos.append(nombre)
        
print(len(datosGoogleLimpios))   

9659


Ahora que tenemos el dataset actualizado, vamos a explorar los 3 primeros índices:

In [32]:
explorarDatos(datosGoogleLimpios,1,4)

['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']




Ya tenemos el dataset de Google sin duplicados, y con los datos de las apps más recientes.
Todos los índices del dataset tienen la misma longitud, por lo tanto seguimos con el siguiente paso.

#### Idiomas no deseados (Google)

Como ya dijimos anteriormente, no nos interesan apps cuyo lenguaje no sea castellano o inglés. Lo que vamos a hacer ahora es eliminar todas las apps que contengan caracteres que comúnmente no se utilizan en inglés. 

Los ordenadores almacenan toda la información como números. Para representar datos de caracteres, utilizan un esquema de traducción para mapear cada caracter a su número correspondiente.
Cada caracter que utilizamos en un string, tiene asociado un número. Por ejemplo, el número correspondiente al caracter 'a' es 97, el caracter '#' es 35, y el caracter '爱' is 29,233.

Podemos comprobar el número correspondiente a cada caracter con la función ord().

In [37]:
print(ord('a'))
print(ord('b'))
print(ord('#'))
print(ord('爱'))
print(ord('+'))

97
98
35
29233
43


Los números correspondientes a los caracteres que utilizamos normalmente están comprendidos en el rango de 0 a 127, de acuerdo con el sistema ASCII (American Standard Code for Information Interchange).
Si nos basamos en esta premisa, podemos construir una función que detecte si un caracter pertenece al sistema ASCII o no.

Los strings en Python son iterables, por lo que podemos realizar nuestra tarea con facilidad.

Si el nombre de una app contiene algún caracter cuyo número asociado sea mayor que 127, lo más probable es que se trate de una app que no nos interesa.

In [40]:
def noASCII(nombre):
    for letra in nombre:
        numAsociado = ord(letra)
        if numAsociado > 127:
            return False
    return True

Esta función, que hemos llamado 'noASCII' , devuelve 'False' si el string recibido contiene algún caracter no-ASCII. En concreto, recibe un string, itera caracter a caracter, aplicamos la función *ord()* al caracter, y si es mayor de 127, devuelve 'False' de inmediato. En caso contrario, devolverá 'True'.

Vamos a probar la función con unos ejemplos:

- 'Instagram'
- '爱奇艺PPS -《欢乐颂2》电视剧热播'
- 'Docs To Go™ Free Office Suite'
- 'Instachat 😜'

In [41]:
print(noASCII('Instagram'))
print(noASCII('爱奇艺PPS -《欢乐颂2》电视剧热播'))
print(noASCII('Docs To Go™ Free Office Suite'))
print(noASCII('Instachat 😜'))

True
False
False
False


Podemos observar que la función no resuelve el problema, ya que hay caracteres que sí que se utilizan en inglés o castellano, pero que escapan del rango (0,127).

In [42]:
print(ord('™'))
print(ord('😜'))

8482
128540


Para resolver este problema, y minimizar el impacto indeseado de pérdida de datos, vamos a reescribir la función que hemos creado. 
Lo que vamos a hacer es eliminar todas aquéllas apps que contengan al menos tres caracteres fuera del rango ASCII. Es cierto que ésta medida no será 100% perfecta, pero sí que será (previsiblemente) altamente efectiva, ya que, aun siendo posible que existan apps que nos interesen con más de tres caracteres fuera del rango ASCII, consideraremos esta posibilidad como improbable, y asumiremos que, pudiendo perder una pequeña cantidad de datos, se contrarrestará con la ganancia de tiempo invertido en la búsqueda.

Vamos a reescribir la función como *noASCII_3()* :

In [48]:
def noASCII_3(nombre):
    contador = 0
    for letra in nombre:        
        numAsociado = ord(letra)
        if numAsociado > 127:
            contador += 1
            if contador > 3:
                return False
    return True

La función que hemos reescrito, recibe un string, el cual iterará, y en cada iteración:
- Creamos un contador, partiendo desde cero.
- Aplicamos la función *ord()* a cada caracter.
- Si *ord()* devuelve un valor mayor a 127, sumará 1 al contador.
- Si en el nombre de la app hay más de 3 caracteres que cumplen la condición, devolverá 'False'.
- De lo contrario, devolverá 'True'.

Ahora, probamos la nueva función con las apps anteriormente utilizadas, para comprobar que el  funcionamiento es correcto:

In [49]:
print(noASCII_3('Instagram'))
print(noASCII_3('爱奇艺PPS -《欢乐颂2》电视剧热播'))
print(noASCII_3('Docs To Go™ Free Office Suite'))
print(noASCII_3('Instachat 😜'))

True
False
True
True


Llegados a este punto, vamos a utilizar la función *noASCII_3* para eliminar las apps que no nos interesan del dataset 'datosGoogle'.

Seguimos utilizando el método anteriormente utilizado: creamos una lista vacía (en este caso la llamaremos 'appsASCIIgoogle') para ir agregando los nombres de las apps que nos interesan, en este caso, todos los nombres de las apps que, al aplicarles nuestra función, devuelvan 'True':

In [55]:
appsASCIIgoogle = []

for app in datosGoogleLimpios[1:]: # omitimos la cabecera
    nombreApp = app[0]
    appFiltrada = noASCII_3(nombreApp)
    if appFiltrada == True:
        appsASCIIgoogle.append(app)

ASCIIappsGoogLong = len(appsASCIIgoogle) # nº de apps con caracteres ASCII

print(f"Hay {ASCIIappsGoogLong} apps con caracteres ASCII en el dataset de Google")

Hay 9613 apps con caracteres ASCII en el dataset de Google


De ahora en adelante, la lista que utilizaremos será como dataset de Google será la recién creada **appsASCIIgoogle** .

#### Filtrando aplicaciones gratuitas (Google)

Hasta el momento, en el proceso de data cleaning, hemos realizado las siguientes operaciones:
- Eliminar datos incorrectos
- Eliminar apps duplicadas
- Eliminar apps con idiomas no deseados

Ya hemos mencionado que solo trabajaremos con apps gratuitas, y que nuestro objetivo es introducir publicidad en dichas aplicaciones. Por lo tanto, ahora nos centraremos en filtrar las aplicaciones que no sean de pago.

Este paso será el último que realizaremos en nuestro proceso de data cleaning.

Vamos a explicar brevemente cómo realizaremos este paso:
- Iteramos en nuestro dataset
- Buscaremos el índice correspondiente al precio de la app
- Seleccionaremos únicamente las apps con precio '0'.

Antes de iniciar el proceso, vamos a ver de qué manera viene reflejado el precio de la app en el dataset.
Si observamos la estructura del dataset de Google, veremos que el índice nº 6 refleja lo siguiente:

"Type"  Paid or Free

Vamos a imprimir 3 aplicaciones aleatorias para verlo con detalle:

In [56]:
print(appsASCIIgoogle[3])
print(appsASCIIgoogle[1500])
print(appsASCIIgoogle[3750])

['Paper flowers instructions', 'ART_AND_DESIGN', '4.4', '167', '5.6M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'March 26, 2017', '1.0', '2.3 and up']
['SweetLand — Family Board Game', 'FAMILY', '4.2', '38', '47M', '1,000+', 'Paid', '$0.99', 'Everyone', 'Casual;Pretend Play', 'November 14, 2014', '1.2', '2.3.3 and up']
['Smart Air Conditioner(CAC)', 'TOOLS', '3.2', '409', '7.9M', '50,000+', 'Free', '0', 'Everyone', 'Tools', 'May 25, 2018', '1.0.18', '2.2 and up']


Vemos que el índice nº 6 de las apps de pago corresponde al string 'Paid' , mientras que el de las apps gratuitas es 'Free'.

Iteraremos sobre cada app, y todas aquellas cuyo índice 6 sea 'Free', irán a parar a la lista definitiva con la que trabajaremos:

In [57]:
dataGoogle = []

for app in appsASCIIgoogle[1:]:
    precio = app[6]
    if precio == 'Free':
        dataGoogle.append(app)

numAppsGoog = len(dataGoogle)

print(f"Tenemos {numAppsGoog} aplicaciones que nos interesan")

Tenemos 8861 aplicaciones que nos interesan


Vamos a corroborar que las apps son gratuitas. Imprimimos 3 elementos al azar:

In [59]:
print(dataGoogle[5])
print(dataGoogle[2575])
print(dataGoogle[5689])

['Garden Coloring Book', 'ART_AND_DESIGN', '4.4', '13791', '33M', '1,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'September 20, 2017', '2.9.2', '3.0 and up']
['Sygic Car Navigation', 'MAPS_AND_NAVIGATION', '4.7', '162049', '48M', '5,000,000+', 'Free', '0', 'Everyone', 'Maps & Navigation', 'August 7, 2018', '18.0.2', '4.4 and up']
['Chrome Dev', 'COMMUNICATION', '4.4', '63576', 'Varies with device', '5,000,000+', 'Free', '0', 'Everyone', 'Communication', 'August 2, 2018', '69.0.3497.24', 'Varies with device']


### Limpieza de datos en el dataset de Apple

Para preparar el dataset de Apple, realizaremos los mismos pasos que en el dataset de Google.

#### Longitud de los índices (Apple)

In [39]:
for app in datosApple:
    defectuosos = []
    if len(app) != 16:
        print(datosApple.index(app))
        defectuosos.append(app)
if len(defectuosos) == 0:
    print("Todos los índices tienen 13 elementos.")

Todos los índices tienen 13 elementos.


Tal y como hicimos con el dataset de Google, vamos a buscar apps duplicadas. En el dataset de Apple, el índice '0' de cada app (lista) es la ID única de la app. Por tanto, podemos iterar el dataset, examinar las ID, y si se repiten encontraremos duplicados.

Para ello, vamos a crear una lista vacía, que llamaremos 'appleDup' , donde iremos almacenando aquellos ID que se repitan en el dataset.

In [36]:
appleDup =  []

for app in datosApple[1:]: # omitimos la cabecera
    idApp = app[0]
    if idApp not in appleDup:
        appleDup.append(idApp)
        
numDup = len(datosApple[1:]) - len(appleDup)
print(f"El dataset de Apple tiene {numDup} elementos duplicados")

El dataset de Apple tiene 0 elementos duplicados


Por tanto, el dataset de Apple está por defecto listo para seguir con la limpieza de datos, pero era necesario comprobar que efectivamente estaba exento de errores.

#### Idiomas no deseados (Apple)

Tal y como hicimos con el dataset de Google, y aprovechando la función que tenemos escrita, vamos a limpiar el dataset de Apple (que por defecto viene listo para limpiarlo, como hemos comprobado):

In [64]:
appsASCIIapple = []

for app in datosApple[1:]: # omitimos la cabecera
    nombreApp = app[1] # en este caso, el índice 0 corresponde al ID, y el 1 al nombre de la app
    appFiltrada = noASCII_3(nombreApp)
    if appFiltrada == True:
        appsASCIIapple.append(app)

ASCIIappsAppleLong = len(appsASCIIapple) # nº de apps con caracteres ASCII

print(f"Hay {ASCIIappsAppleLong} apps con caracteres ASCII en el dataset de Apple")

Hay 6183 apps con caracteres ASCII en el dataset de Apple


#### Filtrando aplicaciones gratuitas (Apple)

Si observamos el dataset de Apple, vamos que el índice que refleja el precio de la app es el nº 4.

Vamos a comprobar de qué manera viene reflejado el precio de las apps en el dataset de Apple:

In [61]:
print(datosApple[5])
print(datosApple[500])
print(datosApple[5000])

['284035177', 'Pandora - Music & Radio', '130242560', 'USD', '0.0', '1126879', '3594', '4.0', '4.5', '8.4.1', '12+', 'Music', '37', '4', '1', '1']
['487250856', "Lep's World Plus - super best platformer games", '42897408', 'USD', '0.99', '30830', '100', '4.5', '4.5', '2.8.4', '4+', 'Games', '40', '5', '18', '1']
['1097587096', 'Diced - A Simple Puzzle Dice Game', '54171648', 'USD', '0.0', '53', '3', '4.5', '5.0', '1.3.6', '4+', 'Games', '37', '4', '1', '1']


Vemos que el precio en las apps gratuitas viene reflejado como el string '0.0', por lo que cualquier precio distinto de dicho string, será de pago.

Filtremos entonces las apps gratuitas:

In [65]:
dataApple = []

for app in appsASCIIapple[1:]: # omitimos la cabecera
    precio = app[4] # el índice del precio
    if precio == '0.0' or precio == '0': # por seguridad, introducimos la posibilidad precio = '0'
        dataApple.append(app)

numAppsApple = len(dataApple)

print(f"Tenemos {numAppsApple} aplicaciones que nos interesan")

Tenemos 3221 aplicaciones que nos interesan


## Conclusiones: Data Cleaning

Vamos a recopilar todos los datos que hemos obtenido, y qué es lo que hemos hecho hasta ahora:

- Partimos de dos datasets de apps de Google Play y de Apple Store.
- Hemos eliminado errores en los datasets.
- Hemos eliminado elementos duplicados.
- Hemos eliminado apps no deseadas, al no tratarse de apps en inglés o castellano.
- Hemos filtrado solamente las aplicaciones gratuitas.

Tras este proceso, tenemos los siguientes datasets, ya limpios de errores, que solamente contienen aplicaciones gratuitas:

- **dataGoogle** , que es una lista de apps gratuitas de Google Play.
- **dataApple** , lista de apps gratuitas de Apple Store.

# Géneros populares

Ya hemos construido los datasets que serán la base de nuestro estudio.

Nuestro objetivo (como explicamos en la introducción) es analizar el mercado de las apps gratuitas, para poder desarrollar una app propia, lo más barata posible, y que resulte en beneficios a través de la publicidad.

La idea es crear una app minimalista, con pocos recursos, e introducir dicha app en Google Play y en Apple Store. Para ello, primero debemos conocer qué géneros son los más populares en ambos mercados.
Un género que funcione bien en las dos tiendas, es potencialmente beneficioso para nosotros, ya que esperamos que muchos usuarios descarguen e instalen nuestra aplicación.

La ruta a seguir sería la siguiente:

- Crear una aplicación minimalista
- Introducir la aplicación en Google Play
- Si la app tiene buena acogida, continuar su desarrollo
- Si la app genera beneficios tras 6 meses, incorporarla a la Apple Store


Atendiendo a la estructura de los datasets que tenemos, vemos lo siguiente:

In [69]:
print(dataApple[5])
print("\n")
print(dataGoogle[5])

['282935706', 'Bible', '92774400', 'USD', '0.0', '985920', '5320', '4.5', '5.0', '7.5.1', '4+', 'Reference', '37', '5', '45', '1']


['Garden Coloring Book', 'ART_AND_DESIGN', '4.4', '13791', '33M', '1,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'September 20, 2017', '2.9.2', '3.0 and up']


Nos interesa conocer:

- El género de la app
- El número de descargas/instalaciones
- El número de valoraciones
- La calidad de las valoraciones
- El target de edad

Vamos primero a estudiar los géneros más populares entre los usuarios. 

El índice que pertenece a los géneros de las apps, son "prime_genre" (índice 11) en el caso de la App Store, y "Category" (índice 1) , "Genres" (índice 9) en el caso de Google Play.

Necesitamos crear una tabla de frecuencia, para conocer los porcentajes de cada género.

Vamos a crear dos funciones para realizar esta tarea.

In [74]:
def tablaFrecuencia(dataset, indice):
    dicFrecuencia = {}
    total = 0
    for elemento in dataset:
        total += 1
        elem = elemento[indice]
        if elem in dicFrecuencia:
            dicFrecuencia[elem] += 1
        else:
            dicFrecuencia[elem] = 1
        
    porcentajes = {}
    for clave in dicFrecuencia:
        porcentaje = (dicFrecuencia[clave] / total) * 100
        porcentajes[clave] = porcentaje
    
    return porcentajes    

In [None]:
def verTabla(dataset, indice):
    tabla = tablaFrecuencia(dataset, indice)
    ver_Tabla = []
    for clave in tabla:
        tuplaClaveValor = (tabla[clave], clave)
        ver_Tabla.append(tuplaClaveValor)

    tablaOrdenada = sorted(ver_Tabla, reverse = True)
    for entrada in tablaOrdenada:
        print(entrada[1], ':', entrada[0])

Ahora que tenemos las funciones escritas, procedemos a analizar los datasets.
Vamos a comenzar por el dataset de Apple, que recordemos, lo tenemos ya preparado con el nombre 'dataApple'.
El índice que nos interesa estudiar es el índice 11:

In [76]:
print(verTabla(dataApple,11))

Games : 58.180689226948154
Entertainment : 7.885749767153058
Photo & Video : 4.967401428127911
Education : 3.6634585532443342
Social Networking : 3.2598571872089415
Shopping : 2.607885749767153
Utilities : 2.5147469729897547
Sports : 2.1421918658801617
Music : 2.049053089102763
Health & Fitness : 2.018006830176964
Productivity : 1.7385904998447685
Lifestyle : 1.5833592052157717
News : 1.334989133809376
Travel : 1.2418503570319777
Finance : 1.11766532132878
Weather : 0.8692952499223843
Food & Drink : 0.8072027320707855
Reference : 0.55883266066439
Business : 0.5277864017385905
Book : 0.43464762496119214
Navigation : 0.18627755355479667
Medical : 0.18627755355479667
Catalogs : 0.12418503570319776
None


Podemos observar que el 58% de las apps de la App Store son videojuegos, el 8% entretenimiento, el 5% foto y vídeo. Prácticamente, la mayoría de las aplicaciones están destinadas al mundo del entretenimiento o tiempo libre, directa o indirectamente, si tomamos en cuenta redes sociales, compras, música, etc.

Por supuesto, no podemos tomar estos datos a la ligera. Que casi un 60% de las apps sean videojuegos, ni significa que sean apps bien valoradas (bien recibidas por el público), ni significa que ciertas demandas estén totalmente cubiertas. La oferta y la demanda puede no ser armónica.

Vamos a estudiar el dataset de Google, 'dataGoogle'; recordemos que los índices a analizar son el 1 y el 9:

In [77]:
print(verTabla(dataGoogle,1))

FAMILY : 19.21904976864914
GAME : 9.513598916600834
TOOLS : 8.46405597562352
BUSINESS : 4.581875634804198
LIFESTYLE : 3.9047511567543167
PRODUCTIVITY : 3.8934657487868187
FINANCE : 3.7016138133393524
MEDICAL : 3.5436181017943795
SPORTS : 3.4194786141519016
PERSONALIZATION : 3.317909942444419
COMMUNICATION : 3.250197494639431
HEALTH_AND_FITNESS : 3.069630967159463
PHOTOGRAPHY : 2.9454914795169844
NEWS_AND_MAGAZINES : 2.7987811759395105
SOCIAL : 2.663356280329534
TRAVEL_AND_LOCAL : 2.3360794492720913
SHOPPING : 2.245796185532107
BOOKS_AND_REFERENCE : 2.144227513824625
DATING : 1.8620923146371742
VIDEO_PLAYERS : 1.783094458864688
MAPS_AND_NAVIGATION : 1.3993905879697552
FOOD_AND_DRINK : 1.2413948764247829
EDUCATION : 1.1285407967498025
LIBRARIES_AND_DEMO : 0.9366888613023362
AUTO_AND_VEHICLES : 0.9254034533348381
ENTERTAINMENT : 0.880261821464846
HOUSE_AND_HOME : 0.8238347816273558
WEATHER : 0.8012639656923597
EVENTS : 0.7109807019523756
PARENTING : 0.6545536621148855
COMICS : 0.620697438

Puede ser sorprendente observar estos resultados después de analizar el dataset de Apple. 

La categoría con más aplicaciones es 'Familia', con un 19% del total, seguida por 'Juegos' con prácticamente el 10%, y 'Herramientas' con un 8.4% . El restante 60-65% está distribuido de manera mucho más uniforme que en la App Store: 'Negocios','Estilo de Vida', 'Productividad', 'Finanzas', 'Deportes' ... Las categorías son mucho más diversas que en App Store. 

Podemos concluir que:

- Aproximadamente el 25% de las apps están ligadas al ámbito familiar
- Aproximadamente el 25% están dedicadas al entretenimiento
- Aproximadamente el 15% al ámbito profesional
- A salud, deporte, etc, tenemos otro 15%
- El 15-20% restante, se reparten entre varias categorías

Vamos a estudiar el índice nº 9 de Google Play:

In [78]:
print(verTabla(dataGoogle,9))

Tools : 8.452770567656021
Entertainment : 6.071549486513937
Education : 5.349283376594064
Business : 4.581875634804198
Productivity : 3.8934657487868187
Lifestyle : 3.8934657487868187
Finance : 3.7016138133393524
Medical : 3.5436181017943795
Sports : 3.464620246021894
Personalization : 3.317909942444419
Communication : 3.250197494639431
Action : 3.103487191061957
Health & Fitness : 3.069630967159463
Photography : 2.9454914795169844
News & Magazines : 2.7987811759395105
Social : 2.663356280329534
Travel & Local : 2.3247940413045933
Shopping : 2.245796185532107
Books & Reference : 2.144227513824625
Simulation : 2.0426588421171425
Dating : 1.8620923146371742
Arcade : 1.8620923146371742
Video Players & Editors : 1.783094458864688
Casual : 1.749238234962194
Maps & Navigation : 1.3993905879697552
Food & Drink : 1.2413948764247829
Puzzle : 1.1285407967498025
Racing : 0.9931159011398263
Role Playing : 0.9366888613023362
Libraries & Demo : 0.9366888613023362
Auto & Vehicles : 0.9254034533348381

Estos resultados son demasiado tediosos de estudiar, y resulta factible pensar que no sería rentable en términos de tiempo invertido analizarlo en profundidad. En principio, y echando un vistazo rápido, podría parecer que los resultados que obtendríamos serían similares a los obtenidos con el índice 1 del datastet, y por tanto tomaremos las conclusiones del primer índice.

#### Popularidad por número de usuarios

Es evidente que en el dataset de Apple, el entretenimiento es el rey indiscutible en términos de número de apps dedicadas a este tipo de categorías.

Hemos visto que, sin embargo, en Google Play el número de aplicaciones está mucho más diversificado.

Vamos ahora a estudiar la popularidad por número de usuarios, ya que este dato puede ser incluso más interesante que el número de aplicaciones, ya que presuntamente debería reflejar de mejor manera los intereses reales de los usuarios.

Vamos a hacer algo similar a lo que realizamos en el estudio del género de las aplicaciones.
En este caso, nos interesan los índices 5 de Apple, y 5 de Google Play.

Primero, filtraremos por género, aprovechando la función *tablaFrecuencia()* , y una vez tengamos los géneros separados, filtraremos por número de usuarios/género.

In [80]:
generosApple = tablaFrecuencia(dataApple, 11)

for genero in generosApple:
    total = 0 # almacenará el total de valoraciones de cada género
    numAppsGenero = 0 # almacenará el nº de apps de cada género
    
    for app in dataApple:
        generoApp = app[11]
        if generoApp == genero:
            val = float(app[5])
            total += val
            numAppsGenero += 1
    
    mediaVal = total / numAppsGenero
    print(f"{genero} : {mediaVal} ")

    

Photo & Video : 28441.54375 
Games : 22788.6696905016 
Music : 57326.530303030304 
Social Networking : 43899.514285714286 
Reference : 74942.11111111111 
Health & Fitness : 23298.015384615384 
Weather : 52279.892857142855 
Utilities : 18684.456790123455 
Travel : 28243.8 
Shopping : 26919.690476190477 
News : 21248.023255813954 
Navigation : 86090.33333333333 
Lifestyle : 16485.764705882353 
Entertainment : 14029.830708661417 
Food & Drink : 33333.92307692308 
Sports : 23008.898550724636 
Book : 39758.5 
Finance : 31467.944444444445 
Education : 7003.983050847458 
Productivity : 21028.410714285714 
Business : 7491.117647058823 
Catalogs : 4004.0 
Medical : 612.0 


Es muy interesante observar como puede cambiar la perspectiva del análisis según qué tipo de datos estamos analizando.

En este caso, y parece contradictorio, los géneros con más media de valoraciones son 'Navigation', con 86.000 valoraciones, 'Reference' con casi 75.000 valoraciones, 'Music' 57.000 valoraciones, 'Weather' con 52.000, y 'Social Networking' con 44.000. Es destacable también que 'Book' tiene casi 40.000 valoraciones de media.

En principio, y dado que nuestro objetivo es crear una app con presupuesto limitado, y poder encontrar un nicho de mercado que produzca beneficios, parece que una app relacionada con la lectura o de tipo diccionario puede ser muy interesante.

Vamos a comparar estos datos con el número de apps disponibles, que ya vimos anteriormente.

Entre 'Reference' y 'Book', no llegan al 1% de aplicaciones disponibles.

Por tanto, después de analizar estos datos, podemos confirmar casi con rotundidad que hay un nicho de mercado importante en estas categorías, en App Store. Los usuarios valoran mucho este tipo de aplicaciones, y sin embargo hay realmente pocas en relación al total.


Vamos a estudiar ahora el caso de Google Play:

In [82]:
print(verTabla(dataGoogle,5))

1,000,000+ : 15.754429522627241
100,000+ : 11.567543166685477
10,000,000+ : 10.506714817740662
10,000+ : 10.202008802618215
1,000+ : 8.396343527818532
100+ : 6.91795508407629
5,000,000+ : 6.816386412368808
500,000+ : 5.563706127976526
50,000+ : 4.773727570251665
5,000+ : 4.51416318699921
10+ : 3.5436181017943795
500+ : 3.250197494639431
50,000,000+ : 2.302223225369597
100,000,000+ : 2.1329421058571265
50+ : 1.9185193544746644
5+ : 0.7899785577248618
1+ : 0.5078433585374111
500,000,000+ : 0.27084979121995256
1,000,000,000+ : 0.22570815934996052
0+ : 0.0451416318699921
None


Aquí vemos que en el índice 5 de dataGoogle, que pertenece al número de instalaciones de cada app, el número de instalaciones viene reflejado de manera indeterminada.

Aunque no obtendremos datos totalmente precisos, tampoco necesitamos una absoluta precisión, ya que lo que queremos es establecer unos criterios de manera general para encontrar nichos de mercado.

Por tanto, si el número de instalaciones es '100.000+', tomaremos como dato 100.000, y trabajaremos todos los datos de la misma manera.

Utilizaremos un código muy similar al que usamos anteriormente con el dataset de Apple, pero en este caso debemos modificar los números, ya que por defecto, en el dataset de Google traen incorporados símbolos ',' y '+'. Utilizaremos la función replace:

In [84]:
generosGoogle=tablaFrecuencia(dataGoogle,1)

for categoria in generosGoogle:
    total = 0
    numAppsGen = 0
    
    for app in dataGoogle:
        categ = app[1]
        if categ == categoria:
            instalaciones = app[5]
            instalaciones = instalaciones.replace(',','')
            instalaciones = instalaciones.replace('+','')
            instalaciones = float(instalaciones)
            total += instalaciones
            numAppsGen += 1
            
    mediaVal = total / numAppsGen
    print(f"{categoria} : {mediaVal} ")
    

ART_AND_DESIGN : 1967474.5454545454 
AUTO_AND_VEHICLES : 647317.8170731707 
BEAUTY : 513151.88679245283 
BOOKS_AND_REFERENCE : 8767811.894736841 
BUSINESS : 1704192.3399014778 
COMICS : 817657.2727272727 
COMMUNICATION : 38326063.197916664 
DATING : 854028.8303030303 
EDUCATION : 1768500.0 
ENTERTAINMENT : 9146923.076923076 
EVENTS : 253542.22222222222 
FINANCE : 1387692.475609756 
FOOD_AND_DRINK : 1924897.7363636363 
HEALTH_AND_FITNESS : 4167457.3602941176 
HOUSE_AND_HOME : 1331540.5616438356 
LIBRARIES_AND_DEMO : 638503.734939759 
LIFESTYLE : 1437816.2687861272 
GAME : 12914435.883748516 
FAMILY : 5183203.576042279 
MEDICAL : 123064.7898089172 
SOCIAL : 23253652.127118643 
SHOPPING : 7036877.311557789 
PHOTOGRAPHY : 17840110.40229885 
SPORTS : 4274688.722772277 
TRAVEL_AND_LOCAL : 13984077.710144928 
TOOLS : 10801391.298666667 
PERSONALIZATION : 5201482.6122448975 
PRODUCTIVITY : 16772838.591304347 
PARENTING : 542603.6206896552 
WEATHER : 5074486.197183099 
VIDEO_PLAYERS : 24790074.

La categoría 'Comunicación' ha tenido una media de 38 millones de instalaciones.

Tenemos que tener en cuenta que en esta categoría hay aplicaciones como WhatsApp, que presumiblemente tendrá muchos millones de instalaciones.

In [90]:
for app in dataGoogle:
    if app[1] == 'COMMUNICATION' and (app[5] == '100,000,000+'
                                      or app[5] == '1,000,000,000+'
                                      or app[5] == '500,000,000+'):
        print(app[0], ':' , app[5])

Messenger – Text and Video Chat for Free : 1,000,000,000+
Gmail : 1,000,000,000+
imo beta free calls and text : 100,000,000+
imo free video calls and chat : 500,000,000+
Android Messages : 100,000,000+
Google Duo - High Quality Video Calls : 500,000,000+
UC Browser - Fast Download Private & Secure : 500,000,000+
Skype - free IM & video calls : 1,000,000,000+
Who : 100,000,000+
GO SMS Pro - Messenger, Free Themes, Emoji : 100,000,000+
WhatsApp Messenger : 1,000,000,000+
Google Chrome: Fast & Secure : 1,000,000,000+
Firefox Browser fast & private : 100,000,000+
Messenger Lite: Free Calls & Messages : 100,000,000+
LINE: Free Calls & Messages : 500,000,000+
Hangouts : 1,000,000,000+
Kik : 100,000,000+
KakaoTalk: Free Calls & Text : 100,000,000+
Opera Mini - fast web browser : 100,000,000+
Opera Browser: Fast and Secure : 100,000,000+
Telegram : 100,000,000+
Truecaller: Caller ID, SMS spam blocking & Dialer : 100,000,000+
UC Browser Mini -Tiny Fast Private & Secure : 100,000,000+
Viber Mess

Por supuesto, no buscamos competir contra apps como Gmail, WhatsApp, Telegram o Google Chrome. Por tanto, vamos a eliminar todas las apps con más de 100 millones de instalaciones y volveremos a estudiar la categoría 'Comunicación':

In [91]:
menosDe100M = []

for app in dataGoogle:
    inst = app[5]
    inst = inst.replace(',','')
    inst = inst.replace('+','')
    inst = float(inst)
    
    if (app[1] == 'COMMUNICATION' and inst < 100000000):
        menosDe100M.append(float(inst))

mediaCom = sum(menosDe100M) / len(menosDe100M)

print(mediaCom)

3593510.3486590036


Eliminando las apps más famosas, tenemos que la categoría 'Comunicación' tiene una media de 3.6 millones de valoraciones, que en relación al total o a la media de otras categorías, no es una cantidad relevante, y por tanto descartamos esta categoría.

'Social' tuvo 23 millones, seguido de 'Foto' (18M) y 'Productividad' (17M).

Hay que tener en cuenta que éstas categorías siguen el patrón anterior, y están dominadas por los gigantes mundiales de la informática y la información. 

En el caso de Social, tenemos apps como Instagram, Facebook, Twitter, que tienen miles de millones de instalaciones, y actualmente nadie puede competir contra ellas.

Lo mismo ocurre en Foto con Google Photos, o en Productividad con apps como Microsoft Word, DropBox o Google Calendar.

Sin embargo, 'Libros', que fue una de nuestras elecciones preferidas (a priori) para App Store, tuvo casi 9 millones de instalaciones, siendo una de las categorías con mayor número de instalaciones. Y en la tabla de porcentajes que generamos con el dataset de Google, la categoría 'BOOKS_AND_REFERENCE' solo ocupaba el 2% del total de las apps.

Vamos a ver con más detalle las apps pertenecientes a esta categoría.

In [92]:
LibrosTotal = 0

for app in dataGoogle:
    if app[1] == 'BOOKS_AND_REFERENCE':
        LibrosTotal += 1
print(LibrosTotal)

190


En Google Play, tenemos 190 aplicaciones de libros y referencia, que acumulan una media de casi 9 millones de instalaciones. 

In [94]:
for app in dataGoogle:
    if app[1] == 'BOOKS_AND_REFERENCE' and (app[5] == '100,000,000+'
                                      or app[5] == '1,000,000,000+'
                                      or app[5] == '500,000,000+'):
        print(app[0], ':' , app[5])

Google Play Books : 1,000,000,000+
Bible : 100,000,000+
Amazon Kindle : 100,000,000+
Wattpad 📖 Free Books : 100,000,000+
Audiobooks from Audible : 100,000,000+


Estas aplicaciones dominan el mercado de los libros electrónicos en Google Play. Vamos a eliminarlas y a comprobar qué sucede.

In [96]:
LibrosNoPopulares = []

for app in dataGoogle:
    inst = app[5]
    inst = inst.replace(',','')
    inst = inst.replace('+','')
    inst = float(inst)
    
    if (app[1] == 'BOOKS_AND_REFERENCE' and inst < 100000000):
        LibrosNoPopulares.append(float(inst))

mediaLibros = sum(LibrosNoPopulares) / len(LibrosNoPopulares)

print(mediaLibros)

1437212.2162162163


Tenemos 1.5 millones de instalaciones (de media) de aplicaciones no muy populares, en un mercado en el que apenas hay competencia y en el que parece que puede encajar nuestro presupuesto. Vamos a ver las 190 apps: 

In [98]:
for app in dataGoogle:
    if app[1] == 'BOOKS_AND_REFERENCE':

        print(app[0], ':' , app[5])

E-Book Read - Read Book for free : 50,000+
Download free book with green book : 100,000+
Wikipedia : 10,000,000+
Cool Reader : 10,000,000+
Free Panda Radio Music : 100,000+
Book store : 1,000,000+
FBReader: Favorite Book Reader : 10,000,000+
English Grammar Complete Handbook : 500,000+
Free Books - Spirit Fanfiction and Stories : 1,000,000+
Google Play Books : 1,000,000,000+
AlReader -any text book reader : 5,000,000+
Offline English Dictionary : 100,000+
Offline: English to Tagalog Dictionary : 500,000+
FamilySearch Tree : 1,000,000+
Cloud of Books : 1,000,000+
Recipes of Prophetic Medicine for free : 500,000+
ReadEra – free ebook reader : 1,000,000+
Anonymous caller detection : 10,000+
Ebook Reader : 5,000,000+
Litnet - E-books : 100,000+
Read books online : 5,000,000+
English to Urdu Dictionary : 500,000+
eBoox: book reader fb2 epub zip : 1,000,000+
English Persian Dictionary : 500,000+
Flybook : 500,000+
All Maths Formulas : 1,000,000+
Ancestry : 5,000,000+
HTC Help : 10,000,000+
E

Hay mucha variedad de apps en la categoría de Libros y Referencias. Tenemos tutoriales de programación, diccionarios, libros religiosos, referencias para estudiantes, readers de ebooks.

No parece haber ninguna app, o al menos hay pocas, de libros como tal. Pero sí que se demuestra que el público en general tiene interés en este género concreto, y tampoco vemos que sea un mercado totalmente dominado por los gigantes como los demás mercados de otras categorías, por lo que podemos pensar que la categoría 'Libros' podría ser un buen nicho de mercado para nuestros propósitos.

Tenemos que tener en cuenta que estamos buscando una app que funcione en Google Play, y tras 6 meses poder incorporarla a App Store, pero debe ser una app que se ajuste a un presupuesto limitado, de fácil actualización y mantenimiento, y que obtenga beneficios en ambas plataformas.

Cuando comenzamos a estudiar el dataset de Apple, esta misma categoría ya nos llamó la atención, y al estudiarla más a fondo en el dataset de Google, hemos encontrado que es una categoría muy interesante.

# Conclusiones finales

Hemos estudiado ambos datasets, y podemos concluir que una app relacionada con los eBooks es una app que podría encajar perfectamente en nuestros propósitos.

De hecho, los audio-libros están ganando mucha popularidad, y hemos corroborado que los libros electrónicos son muy populares, ya que obtienen muchas valoraciones de usuarios e instalaciones, a la par que escasos (1% del total en App Store, 2% en Google Play). 

Habría que plantear qué tipo de aplicación concreta deberíamos desarrollar (si queremos un audiolibro, o un eBook, o ambos, o una app con varios libros).

En particular y como propuesta personal, y ya que hemos visto que no existen muchas apps de este estilo concreto, yo recomendaría una aplicación con varios eBooks, quizás para empezar 2 o 3 best-sellers actuales, con audiolibro integrado en la misma app.
Sería una app que perfectamente podría desarrollarse con un presupuesto ajustado, y que podemos ir actualizando con más libros en caso de resultar rentable. 

Además, hemos constatado que podría funcionar perfectamente en ambas plataformas, por lo que sería más que viable incorporar la app a App Store, aun cuando la app no esté siendo tan rentable como esperábamos en un principio (aunque esto ya son suposiciones que escapan al cometido de este estudio).